Research on Text Time Window Partition Based on LDA Model

Long Yixuan, Wang Xiaogang, Zhou Ziwei, Wang Rongsheng, Yi Huifang

PDF(4173 KB)

The concept of the universe of all Bodacha subtle

Reflect the development trend of world science academic journals

PDF(4173 KB)
Science Focus ›› 2024, Vol. 19 ›› Issue (2) : 34-45. DOI: 10.15978/j.cnki.1673-5668.202402004
SCIENCE DATA FOCUS

Research on Text Time Window Partition Based on LDA Model

Author information +
History +

Abstract

[Objective/Significance] Considering that static topic models are difficult to meet users' dynamic analysis needs, in order to solve the problems of high computational costs or deep influence from subjective factors in existing dynamic topic models, this study proposes a text time window partitioning algorithm based on the LDA model, starting from time window similarity. [Method/Process] This study constructs a time window similarity index that integrates differences between time windows and consistency within time windows. This study constructs a time window partitioning algorithm based on this indicator and conducts empirical research using the innovation research field as an example. [Results/Conclusions] By analyzing the average JS divergence between topics under the optimal number of topics within each time window, as well as the average JS divergence between different topics between adjacent time windows, the partitioning results obtained by the algorithm proposed in this study are significantly better than those obtained by multiple fixed time window length partitioning methods, verifying the effectiveness of using the improved LDA model proposed in this study for text time window partitioning. The algorithm proposed in this study to some extent solves the shortcomings of existing dynamic topic models such as high computational costs and strong subjectivity, increases the objectivity and accuracy of text time window partitioning results, and can provide technical support for related research such as theme evolution.

Key words

LDA model / time window / dynamic topic model / text similarity / innovation research

Cite this article

Download Citations
Long Yixuan , Wang Xiaogang , Zhou Ziwei , Wang Rongsheng , Yi Huifang. Research on Text Time Window Partition Based on LDA Model. Science Focus. 2024, 19(2): 34-45 https://doi.org/10.15978/j.cnki.1673-5668.202402004

1 引言

大科学时代,文本数据量呈现爆炸式增长。充分挖掘海量文本数据,准确提取价值信息,成为当前研究人员关注的热点问题。研究人员尝试从词频分析、共词分析、引文分析、文本聚类、主题模型等众多角度开展主题发现研究,其中,主题模型因其能深入文本内容,适用海量文本数据,且支持计算主题之间相关关系等优势脱颖而出,成为主题发现主流工具[1]。以2003年Blei学者提出的隐含狄利克雷分布模型(Latent Dirichlet Allocation,LDA)为例[2],该模型可以快速扫描海量文本数据,挖掘其中隐藏的主题信息,协助研究人员理解文本内容,快速掌握文本内容重点方向。因其具备稳定的优良性能且易于拓展改进,已涌现出众多利用LDA模型发现研究主题的相关研究。
然而,LDA模型并未考虑时间因素,是静态的,即默认语料库中的文本数据不存在时间标签,文本数据顺序的改变不会影响主题发现结果,数据之间是完全可交换的。而在实际解决问题的过程中,不管是媒体数据还是科技文献,都真实存在时间标签,且遵循一定时间规律,主题内容会随着时间变化而发生变化[3]。因此,研究人员开始关注到主题的动态变化,即在主题模型中纳入时间因素,并应用于主题演化等相关研究工作的开展。

2 方法调研

通过调研得知,已有众多学者意识到时间标签对于时序化文本的重要性。当主题模型不仅仅是用于处理“维度灾难”,而是用来支撑主题演化等科技情报分析任务时,在静态主题模型的基础上融入时间要素,构建动态主题模型,成为主题模型的重要改进方向。目前动态主题模型大致分成两类,一是将时间视为连续分布要素,对连续变化的时间进行动态建模,即对所有研究对象给予一个给定的时间标签,按照时间标签直接进行主题建模。二是将时间进行离散化,人为划定时间窗口的大小,这里又可以细分为两类,一类是固定时间窗口划分方法,如在科技情报分析中常用“年”这一时间单位进行划分,分析每一年或几年的主题变化,而在舆情分析中,更多学者选择用“天”这一时间单位进行划分,分析每一天或几天的主题变化;另一类是按照一定特征或规则开展时间窗口划分,如科技情报工作者为解决数据量差异过大,基于均衡原则或文献数量相当原则,对时间窗口进行非等分划分。
连续时间分布划分中,比较有代表性的是TOT(Topic over Time)主题模型[4]和cDTM(Continuous Time Dynamic Topic Models)模型[5],通过分析可知,该类模型存在以下问题:首先,该类模型规定每个时间窗内的主题数量是恒定的,因此该模型只能揭示主题强度随连续时间的变化情况,并不能深入到主题内容层面[6];其次,因为该模型将时间视为随机变量,因此时间变化十分频繁,当需要建模的数据量较大时,计算成本非常高,效率很低;再次,不同阶段虽然数据量不同,但由于默认主题数量恒定,会在一定程度影响主题发现的合理性[7]
基于离散化时间分布目前比较有代表性的方法是DTM(Dynamic Topical Model)[8,9]和MTTM(Multiscale Topic Tomography Model)[10]。以上两种方法都属于动态主题模型离散化时间分布类型,这种划分方法的缺陷在于,虽然表面上考虑了时间因素,但是实质上是人依据经验对时间进行主观划分,人为划分很难把握数据本身的时间特征,往往会出现实现窗口过大或是过小,若窗口过大会忽略掉主题内容演化的关键细节,且很长时间内的文档可交换这一假设是不成立的;若窗口过小会导致语义关联过于复杂,同时会成倍增加计算量。此外,在基于离散化时间分布划分时间窗口时,有学者尝试使用规则或者特征进行时间窗口划分。Kim E等(2014)学者曾在深入研究后提出技术演化分析的时间间隔一般为5年或者10年[11],因此众多研究技术主题演化的学者选择以年为一个时间窗口对专利数据进行划分,如吴菲菲等(2017)在研究技术主题的多维动态演化分析时以5年为一个阶段进行划分[12],伊惠芳等(2019)在开展石墨烯技术主题演化研究中也选择以5年为时间窗口范围进行划分[13]。还有学者为减小文献数量差异过大给主题发现带来的误差,依据文献数量相当原则对时间窗口进行划分,如颜瑞武(2019)在开展基于时序主题关联演化的科学领域前沿探测研究时将2004-2012年之间的数据作为一个总的集合,2012年之后以1年为间隔将数据进行划分[14];张新玲等(2023)在开展国际开放获取不同时期研究主题和演化路径研究时,将目标文献依据发文时间划分为4个时间窗口,每个时间窗口均在300篇左右[15]。该类方法的缺陷在于,并不是所有领域都适合技术主题演化规律,不同领域技术发展速度差异巨大。此外,本文认为依据文献数量相当原则或均衡原则只是在无法调节巨大数据量差异情况下选择的妥协办法,并没有考虑数据自身的时间规律。
本文认为,文本时间窗口划分的实质即为追求相邻时间窗口之间主题差异明显以及时间窗口内部主题内容的高度一致。基于此,本文尝试从时间窗口相似度的角度改进现有动态主题模型存在的计算成本高、主观因素影响大等不足,尽可能减少计算成本的同时,降低主观因素对时间窗口划分的影响,增加时间窗口划分结果的客观性与科学性,为主题演化等相关研究提供技术支持。

3 基于LDA模型的文本时间窗口划分研究

3.1 LDA模型

隐含狄利克雷分布模型(Latent Dirichlet Allocation,LDA)是一个贝叶斯概率模型,由Blei学者在2003年提出[2]。LDA模型共分为3个层次,分别是文档、主题和词,如图1所示。其中,M代表文档数目,K代表主题个数,Nm表示第N篇文档中单词的个数,参数α的狄利克雷分布为θ,参数β的狄利克雷分布为φ
图1 LDA模型表示

Full size|PPT slide

该算法的提出者Blei(2003)认为,当撰写一篇文档时,作者会有一定的概率先确定其撰写的内容主题,然后根据选定的主题再逐步生成专业描述词语[2]。因此该算法假设每一篇文档中包含多个隐性主题,而每一个主题中包含所有代表主题内容的词汇。LDA模型在运行的过程中,需在假设服从已知参数的狄利克雷分布前提下,生成文档-主题分布和主题-主题词分布。LDA模型运算详细过程如下。
(1)从先验分布超参数为α的狄利克雷分布中生成文档m的文档-主题分布θm,然后根据文档-主题分布θm对文档m中的第n个词汇分配一个主题Zm,n
(2)从先验分布超参数为β的狄利克雷分布中生成K个主题-词汇分布θK,然后根据主题-词汇分布θK,为主题Zm,n生成主题词Wm,n
鉴于LDA模型具备运行速度快、适用大批量文本、语义表达清楚等优势[1],自其提出后,情报学界涌现出一大批利用LDA模型发现研究主题的相关研究。如Fang等(2018)采用LDA模型从大量图书馆领域文献摘要中提取潜在主题,然后对文档-主题进行回归分析,并区分出冷门研究主题和热门研究主题[16]。傅柱等(2016)基于LDA模型对国外知识流领域的论文开展主题发现,遴选出11个研究热点并进一步得出研究热点所揭示的知识点[17]。王曰芬等(2016)采用LDA模型以国内知识流领域为例,多维度对比该领域全局主题和学科主题的差异性[18]。关鹏等(2015)将LDA模型与生命周期理论结合,对处于不同生命周期的学科知识开展多阶段主题识别,探索学科研究热点与发展趋势[19]。虽然LDA模型应用广泛,但因其并没有考虑时间因素,是典型的静态主题模型,这也极大限制其在时序化文本和动态分析中的应用。因此,本文以LDA模型为基础,提出基于时间窗口相似度的LDA模型时间窗口划分算法,该算法在保留了LDA模型主题发现优越性能的同时,又加入了时间因素,改进了原有动态主题模型计算时间成本高或者定性指定时间窗口主观性过强等不足。

3.2 时间窗口相似度指标构建

在进一步的调研中,本文发现已有学者尝试利用主题间差异性和主题内相似性构建时间窗口相似性指标,依据时间窗口相似度开展时间窗口动态划分,并成功应用在新闻文本中[20]。分析后本文认为,该方法虽对科技情报分析中主题模型动态窗口划分提供了有益借鉴,但并不完全适用于面向科技文献的科技情报工作,主要存在三点不足:(1)每个时间窗口内的主题个数设定为一个定值,这与TOT模型缺陷一致,不同时间点的数据内容差异明显,主题个数恒定会造成主题划分不合理;(2)以舆情数据(新闻文本)为例进行模型设计与验证,不符合科技文献增长规律,难以兼顾文献数量均衡原则;(3)现有研究中主题相似度计算方法采用余弦相似度,但余弦相似度只能展示不同维的差异,并不能展示不同维数据的差异,如(1,2)和(4,5)余弦相似度认为是相似的,这不符合依据主题-词分布计算相似度的实际情况。
综上,本文提出基于LDA模型的时间窗口划分算法,将时间窗口划分依据设定为时间窗口相似度指标的计算。本文将时间窗口相似度指标划分为2个部分,一是时间窗口间差异性指标,二是时间窗口内一致性指标。
(1)时间窗口间差异性指标构建
本文用时间窗口差异性指标度量不同时间窗口之间主题内容的差异性。具体计算过程如下:首先,在相邻时间窗口使用LDA模型开展主题建模。最优主题数目依据JS散度和困惑度综合判定,本文采用的是关鹏等(2016)提出的LDA最优主题个数改进方法,该方法从理论和实践两个层面证实可以在一定程度上缓解困惑度带来的主题数量过多问题,给出的最优主题个数更加合理[21]。之后,获取每个主题模型下的主题-词汇概率,得到每个主题对应的前N个主题词的词向量为$\left(\operatorname{word}_{i 1}^{l d a_{j}}, \operatorname{word}_{i 2}^{l d a_{j}}, \ldots, \operatorname{word}_{i N}^{l d a_{j}}\right) $,其中,N=1,2,3,…,N代表前N个主题词,i=1,2,…,K代表最优主题个数,j=t,t+∆t代表相邻时间窗口。最终获得两个时间窗口中各自的主题向量:
$V_{l d a_{j}}=\left[\begin{array}{l} \left(\operatorname{word}_{11}^{l d a_{j}}, \operatorname{word}_{12}^{l d a_{j}}, \ldots, \operatorname{word}_{1 N}^{l d a_{j}}\right) \\ \left(\operatorname{word}_{21}^{l d a_{j}}, \operatorname{word}_{22}^{l d a_{j}}, \ldots, \operatorname{word}_{2 N}^{l d a_{j}}\right) \\ \ldots \\ \left(\operatorname{word}_{K 1}^{l d a_{j}}, \operatorname{word}_{K 2}^{l d d_{j}}, \ldots, \operatorname{word}_{K_{l d a_{t}}N}^{l d a_{j}}\right) \end{array}\right] $
时间窗口间差异性指标使用主题相似度衡量,余弦相似度、KL散度和JS散度是目前基于主题词概率分布计算主题相似度的主流方法。不同之处在于余弦相似度是基于向量空间的计算模型,而KL散度和JS散度是基于概率论的计算模型,其优势在于可以挖掘出概率分布间的相似性。但由于KL散度是不对称的,无法满足三角不等式,因此,本文采用JS散度作为主题相似度的衡量指标,且JS散度的取值在0到1之间,值越大相似度越小,便于后期相似度统计工作的开展。
依据主题-词向量,分别计算两个时间窗口各自主题两两之间的JS散度。定义时间窗口ldat的主题数量为Kldat,时间窗口ldat+∆t的主题数量为Kldat+∆t 。具体步骤如下:在时间窗口ldat中选取任意主题的词向量与时间窗口ldat+∆t中任意主题的词向量进行主题相似度计算,记做 $J S_{K_{m} K_{n}}^{l d a_{l} d a_{t+\Delta t}}\left[m \epsilon\left(1 \ldots K_{l d a+\Delta t s}\right)\right] $,所有搭配情况穷举后求和,记做 $\sum_{m=1}^{K_{l d a_{t}}}\left(\sum_{n=1}^{K_{l d a_{t+\Delta t}}} J S_{K_{m} K_{n}}^{l d a_{t} l d a_{t+\Delta t}}\right) $。取相似度之和的倒数为差异性衡量指标,最后定义ldatldat+∆t之间的差异性指标如下所示:
$F_{ {difference }}=\frac{C_{K_{l d a_{t}}}^{1} C_{K_{l d a_{t+\Delta t}}}^{1}+1}{\sum_{m=1}^{K_{l d a_{t}}}\left(\sum_{n=1}^{K_{l d a_{t+\Delta t}}} J S_{K_{m} K_{n}}^{l d a_{t} l d a_{t+\Delta t}}\right)+1}$
JS散度的取值范围是0到1,JS为0时相似度最高。所以分母累加之和的取值范围为1到$K_{l d a_{t}} \times K_{l d a_{t+\Delta t}}+1$,这里分子分母均加1是为了防止出现分母为0的情况,$F_{{difference }}$的取值范围为$\left(1, K_{l d a_{t}} \times K_{l d a_{t+\Delta t}}+1\right) $$F_{{difference }}$越小(越趋近于1)差异性越大,时间窗口划分效果越好。
(2)时间窗口内一致性指标构建
本文使用时间窗口内主题一致性指标度量同一时间窗口内主题内容的相似度。
首先,获得时间窗口中的主题向量:
$V_{l d a_{j}}=\left[\begin{array}{l} \left(\operatorname{word}_{11}^{l d a_{j}}, \operatorname{word}_{12}^{l d a_{j}}, \ldots, \operatorname{word}_{1 N}^{l d a_{j}}\right) \\ \left(\operatorname{word}_{21}^{l d a_{j}}, \operatorname{word}_{22}^{l d a_{j}}, \ldots, \operatorname{word}_{2 N}^{l d a_{j}}\right) \\ \ldots \\ \left(\operatorname{word}_{K 1}^{l d a_{j}}, \operatorname{word}_{K 2}^{l d a_{j}}, \ldots, \operatorname{word}_{K_{l d a_{t} N}^{l d a_{j}}}\right) \end{array}\right]$
然后计算两两主题之间的JS相似度并累加求和,最终求取平均后得到时间窗口内主题一致性指标$F_{{difference }}$
$F_{ {difference }}=\frac{\sum_{i=1}^{K}\left(\sum_{n=1}^{K} J S_{K_{i} K_{j}}\right)}{A_{K}^{2}}(i \neq j) $
JS取值范围是0到1,JS为0时代表相似度最高。所以分子的取值范围是0到 $A_{K}^{2}$$F_{{similarity }}$的取值范围是0到1,$F_{{similarity }}$值越小(越趋近于0),证明时间窗口内一致性越高,时间窗口划分效果越好。
(3)时间窗口相似度指标构建
时间窗口相似度指标由时间窗口间差异性和时间窗口内一致性两部分构成。本文认为,划分时间窗口后,达到时间窗口间主题内容差异性较大,而时间窗口内主题内容一致性较高,则视为时间窗口划分合理,综上所述,构建时间窗口相似性指标如下:
$F=\frac{1}{F_{ {difference }}+F_{ {similarity }}} $
此时,F值的取值范围为$\left(\frac{1}{K_{l d a_{t}} \times K_{l d a_{t+\Delta t}}+2}, 1\right) $,分母越小(越趋近于1),F值越大(越趋近于1),证明时间窗口间差异性越大和时间窗口内一致性越高,窗口划分越合理。

3.3 算法实现

在指定初始相邻时间窗口和增长时间步长的前提下,依据迭代算法计算时间窗口相似性指标F,并对时间窗口进行非等距分割。算法主体思想如图2所示:即开始确定一个初始时间窗口长度,并计算该时间窗口长度内时间窗口相似度F1,然后扩展设定步长之后,再次计算时间窗口长度内时间窗口相似度F2,比较F1与F2大小,若F1划分更合理,则第一个时间窗口划分成功,指标顺序往后推移,若F1相似度不如F2,则进一步扩展步长,比较新的相似度与F2的大小,以此类推进行迭代。算法采用时间倒序进行迭代求解,且每次计算时间窗口相似度时,左边采用相同大小的时间窗口而不是剩余时间窗口的全部数据,这是因为根据文献指数增长规律,科技文献每年的增长率约为6%~8%,且几乎10到15年就会翻一番,依据文献数量均衡原则,本文的算法设计尽量避免出现因数据量差距过大而造成不同时间窗口内主题差距过大的误差,最大程度保障了数据均衡。
图2 动态时间窗口划分示意图

Full size|PPT slide

该算法的具体步骤如图3所示。
图3 动态时间窗口划分流程图

Full size|PPT slide

(1)设定初始参数,包括初始时间窗口$\left(t_{b}, t_{\max }\right) $,初始时间窗口大小的设置可以根据算法用户对时间阶段划分的心理预期设定,在科技情报分析中,根据经验一般时间阶段划分以4~8个居多,根据时间长短和数据量大小会略有调整。用户可以根据整体时间长度和心理预期阶段数目指定一个初始时间窗口,该时间窗口大小约为划分后两个时间窗口的值,作为迭代算法的开始。如20年跨度的数据预期分4个阶段,可以将初始时间窗口设定为10年(20÷4×2=10)。设定相邻时间窗口为(tatmax)和(tbta-1),ta大小可以设定为1个时间单位。设定迭代算法中时间增长步长X,根据数据时间跨度的大小可以调整,若为20年跨度的数据,建议每次增长步长为1~3年为宜,步长的大小应小于初始时间窗口。
(2)对(tatmax)和(tbta-1)两个时间窗口内的文档开展LDA建模,计算两个时间窗口之间的差异值$F_{{difference }}$和(tatmax)时间窗口内的一致性指标$F_{{similarity }}$,最终得到相似度F1值。
(3)对(ta-Xtmax)和(tb-2Xta-X-1)两个时间窗口内的文档开展LDA建模,计算两个时间窗口之间的差异值$F_{{difference }}$和(ta-xtmax)时间窗口内的一致性指标$F_{{similarity }}$,最终得到相似度F2值,当ta-x达到所有文档的时间的下限tmin时,迭代结束,所有最后未划为时间窗口的数据自动划为最后一个时间窗口。
(4)比较F1F2值的大小,若F1>F2,则证明(tatmax)的时间窗口划分比(ta-xtmax)更为合理,F值收敛,因此直接将(tatmax)确定为动态时间窗口。然后令tmax=ta-1ta=tbtb=ta-tmax,tb),然后再确认tb是否已经到达所有文档的时间的下限tmin,若已经超过tmin则将tb改为tmin,并回到步骤(2)。
(5)若F1<F2F值不收敛,令F1=F2,并继续减小最小单位步长X,对(ta-2Xtmax)和(tb-4Xta-2X-1)两个时间窗口内的文档开展LDA建模,得到新的相似度F2值,返回第(4)步。

4 实证分析

4.1 数据来源

创新是发展的根本动力[22]。自党的十八大提出创新驱动发展战略以来,围绕创新环境、创新能力、创新格局、创新组织、创新技术、创新制度和创新水平等相关研究开展得如火如荼[23]。党的十九大提出要把我国建设成为创新型国家,以科技创新为核心的全面创新成为了引领时代发展的重要动力[24]。党的二十大报告提出,坚持创新在我国现代化建设全局中的核心地位,加快实现高水平科技自立自强,加快建设科技强国。并对完善科技创新体系、加快实施创新驱动发展战略等作出专门部署[25]。然而,在大力推动创新的同时,需要及时地停下脚步思考,深入了解创新研究的过去与现在,了解创新研究的知识基础和基本知识活动,这样才能更好地指导创新研究的未来开展以及创新工作的顺利进行。创新研究作为新兴研究领域之一,有着六七十年的发展历史,多学科融合特征明显,根据Fagerberg等(2009)的研究,全球有数以千计的研究人员在开展与创新相关的研究,足以说明该研究领域的重要性[26]。而目前国内外对其研究起源、知识基础、发展态势等相关研究相对较少,需进一步增加对其学术认知。基于以上分析,本文将“创新研究”作为实证研究领域,针对创新研究知识开展时间窗口划分研究,分析该研究领域的知识演化。
本文选择Web of Science核心合集(简称WoS核心合集)作为来源数据库。通过梳理已有研究发现,目前有关创新研究领域的综述研究在构建检索式时大多采用TS=“innovat*”或TS=“innovation”,即仅用“创新”单一名词构建检索式。但在创新研究发展进程中,表征该领域的通用名词不是一成不变的,不同的研究者随着领域的发展以不同的名称对创新研究相关的研究活动进行了标记。从最开始20世纪60年代普遍使用的“科学政策”“研究政策”或“科学技术研究”,到20世纪70年代和80年代广泛使用的科学、技术和创新三个词的多种组合,再到20世纪90年代,“创新”逐渐成为创新研究的主流名词,“创新”逐渐包容了“科学”“技术”“政策”等多个术语。从表征创新研究的通用名词变化过程来看,本文认为仅基于“创新”单一名词构建检索式是远远不够的。为构建更加全面的检索式,本文基于前人对创新研究定义的梳理以及范围的界定,在确定“innovat*”检索词和相关研究领域界定的前提之下,进一步补充不同领域的核心检索关键词。最终确定的检索策略表如表1所示,检索时间是2022年12月15日,检索到145072条,之后对检索结果根据标题和关键词人工进行过滤,最终清洗后的数据为130130条。
表1 创新研究在Web of Science数据库中的检索策略
数据来源 检索时间
限定
语种 文献
类型
检索式
WoS
核心合集
—SSCI
所有年份(1900-2022) 英语 Article Review Note Letter TS=("innovat*"))AND(WC=(OPERATIONS RESEARCH MANAGEMENT SCIENCE OR AREA STUDIES OR POLITICAL SCIENCE OR BEHAVIORAL SCIENCES OR BUSINESS OR GEOGRAPHY OR BUSINESS FINANCE OR COMPUTER SCIENCE ARTIFICIAL INTELLIGENCE OR COMPUTER SCIENCE CYBERNETICS OR GREEN SUSTAINABLE SCIENCE TECHNOLOGY OR COMPUTER SCIENCE INFORMATION SYSTEMS OR COMPUTER SCIENCE INTERDISCIPLINARY APPLICATIONS OR COMPUTER SCIENCE SOFTWARE ENGINEERING OR PUBLIC ADMINISTRATION OR COMPUTER SCIENCE THEORY METHODS OR REGIONAL URBAN PLANNING OR SOCIAL ISSUES OR LAW OR SOCIAL SCIENCES BIOMEDICAL OR SOCIAL SCIENCES INTERDISCIPLINARY OR MANAGEMENT OR SOCIAL SCIENCES MATHEMATICAL METHODS OR ECONOMICS OR SOCIAL WORK OR SOCIOLOGY OR URBAN STUDIES)) NOT (WC=(HISTORY OR HISTORY OF SOCIAL SCIENCES OR HISTORY PHILOSOPHY OF SCIENCE OR INFORMATION SCIENCE LIBRARY SCIENCE))) OR (((TS=(economic* SAME science) OR TS=(economic* SAME research) OR TS=(economic* SAME technology) OR TS=(economic* SAME R&D)) AND (WC=ECONOMICS)) OR ((TS=(Technology SAME history) OR TS=(Innovation SAME history)) AND (WC=History)) OR ((TS=(science SAME policy) OR TS=(research SAME policy) OR TS=(technology SAME policy) OR TS=(innovation SAME policy))AND (WC=POLITICAL SCIENCE)) OR ((TS=(management SAME R&D) OR TS=(management SAME new product development) OR TS=(management SAME technology) OR TS=(management SAME knowledge) OR TS=("organization* innovation") OR TS=("organization* learning"))AND (WC=MANAGEMENT)) OR ((TS=(fusion SAME innovation)) AND (WC=SOCIOLOGY)

4.2 基于LDA模型的文本时间窗口划分实证分析

4.2.1 基于LDA模型的文本时间窗口划分结果

本文检索到创新研究领域数据共130130条,数据的时间跨度为1950-2022年,共计73年。
具体算法实现过程如下。
首先,在MySQL数据库中导出1950-2022年创新研究领域相关数据,按照年份进行分组,利用标题、摘要和关键词进行深度预处理,抽取其中的名词短语、动词短语、名词和动词。
第二,设定初始参数,起始日期设定为1950年1月1日,终止日期设定为2022年12月31日(即数据检索日期)。初始时间窗口依据经验划定为20年(70年的数据大概分为7个时间段,70÷7×2=20),即:tmaxtb:20,ta大小设定为1个时间单位,即1年,设定迭代算法中时间增长步长X为1年。
第三,按照时间窗口动态划分流程,分别计算时间窗口内一致性指标和时间窗口间差异性指标,并最终得出时间窗口相似度,根据迭代算法,时间窗口划分结果如表2所示。
表2 创新研究数据动态时间窗口划分结果
时间窗 起点 终点 时间窗口宽度 数据量
1 2022年 2019年 4年 43606
2 2018年 2014年 5年 28226
3 2013年 2009年 5年 20019
4 2008年 2002年 7年 19676
5 2001年 1986年 16年 16308
6 1985年 1970年 16年 1828
7 1969年 1950年 20年 467

4.2.2 创新研究领域主题演化分析

根据时间窗口划分结果,利用Perplexity-Var指标计算不同时间窗口下最优主题数目,如图4所示。
图4 创新研究数据不同时间窗口最优主题数目

Full size|PPT slide

利用LDA模型对不同时间窗口下的创新研究领域数据开展主题建模,由于篇幅有限,仅展示2019-2022年时间窗口下的部分研究主题识别结果,见表3
表3 创新研究数据2019-2022年时间窗内主题识别结果(部分)
主题序号 主题词
Topic 0 innovation | patent | knowledge sharing | SME | value co-creation | absorptive capacity | new product development | dynamic capability | intellectual property | corporate entrepreneurship
Topic 1 China | innovation | productivity | Japan | deliberative democracy | developing country | regional development | Indonesia | environment | Vietnam | foreign direct investment
Topic 2 environmental regulation | decision making | innovation diffusion | local government | healthcare | medical device | performance measurement | strategy | health technology assessment | R&D intensity
Topic 3 Brazil | new product development | South Korea | UK | economic growth | sharing economy | granger causality | university | service innovation | electric vehicle
Topic 4 business model innovation | firm performance | social entrepreneurship | corporate sustainability | Germany | absorptive capacity | machine learning | performance | entrepreneurial orientation | higher education
Topic 5 climate change | renewable energy | developing country | energy transition | governance | business model innovation | environmental performance | climate change | review | smart city
…… ……
基于时间窗口划分与主题建模结果分析可知,创新研究领域至少已有70年的发展历史。从创新研究领域整体研究主题数量来看,按照时间顺序呈现“多—少—多”这一规律。自20世纪50年代,研究人员开始尝试系统研究与创新、技术或科学相关的问题,并希望可以借此推进经济发展,这些研究人员来自不同的学科,所研究的基础概念和使用的科学方法大相径庭,因此形成了众多的学科知识研究主题,但他们整体研究目标趋同,有着共同的利益,渴望并且尝试互相“接触”,这也为后来创新研究学科知识主题的融合奠定了基础。之后的20世纪70年代至20世纪末研究人员开始逐渐尝试合作文献、共享方法和概念,创新研究领域逐步走向成熟,研究方向也逐渐向经济发展与技术改变(economic development and technological change)、产业技术创新与创新政策(industrial technology innovation and innovation policy)、技术采纳与创新扩散(technology adoption and innovation diffusion)、产业创新与新产品的研发过程(industrial innovation and development process of new products)、产品创新的战略管理与知识转移(strategic management of product innovation and knowledge transfer)等方向靠拢。进入21世纪之后,创新研究开始呈现多元化道路,在技术研发相关的经济学(economics of R&D)、产业创新管理与企业资源观(management of industrial innovation and the resource-based view of the firm)、组织与创新(organizations and innovation)、创新系统(innovation systems)等几个大的研究方向的基础上逐渐分化。如今,技术研发相关的经济学逐渐分化为创新与进化经济学、技术和创新经济学、内生增长理论等;产业创新管理与企业资源观逐渐分化为创新管理与创新过程的互动模式、企业资源观等;组织与创新逐渐分化为组织创新、组织学习与知识管理、技术创新与组织制度之间的交互、组织合作与开放创新等;创新系统逐渐分化为国家创新系统、区域创新体系、部门创新体系等。

4.2.3 基于LDA模型的文本时间窗口划分效果评价

本文从定量和定性两个角度对文本时间窗口划分效果进行评价。
(1)定量评价
为验证创新研究数据时间窗口划分的合理性,设计对比实验,将本文提出的基于LDA模型的文本时间窗口划分算法的划分结果与创新研究常用的固定时间窗口划分方法的划分结果进行对比。有关固定时间窗口的大小设定,本文调研了已有国内外研究中有关创新研究演化综述相关论文,筛选出其中比较有影响力的3篇文章。首先是Fagerberg于2011年发表在Research Policy的文章,该篇文章中作者粗略将创新领域演化划分为1950-1969年、1970-1989年、1990-2009年3个阶段,即每20年为一个阶段[27];第2篇是Martin在2012年发表在Research Policy的一篇文章,作者依据经验将创新研究划分为三个阶段,分别是1950年以前(称为“史前”阶段,此时创新研究还未正式出现),1950-1979年和1980年至今[28];第3篇是Shafique于2013年发表在Strategic Management Journal的文章,作者主要分析了1988-2008年间的创新研究数据,并以7年为时间窗口宽度将其等分为1988-1994年、1995-2001年、2002-2008年3个时间窗口[29];综上,本文再次划分数据,分别以10年和20年作为固定时间窗口的值进行计算,窗口划分结果如图5所示。(注:由于本文数据时间跨度是73年,很难实现年份整除,因此本研究在以固定宽度划分时间窗口时,兼顾数据量均衡原则对时间窗口尽可能等分划分。)
图5 创新研究数据在不同固定时间窗口下的划分结果

Full size|PPT slide

文本时间窗口划分结果的评价指标设计从不同时间阶段内容划分的本质出发,分别计算每一个时间窗口内最优主题个数下主题之间的平均JS散度和相邻时间窗口间不同主题之间的平均JS散度,分别表征时间窗口内主题内容的一致性和相邻时间窗口间主题内容的差异性,记做F窗口内一致性和F窗口间差异性。其中,F窗口内一致性越趋近于0,证明时间窗口内主题内容越一致;F窗口间差异性越趋近于1,证明相邻时间窗口间主题内容差异越大。通过计算不同文本时间窗口划分结果评价指标的均值,结果如表4所示。
表4 创新研究数据不同时间窗口划分结果评价指标均值
评价指标 本文提出的
划分算法
10年固定
窗口
20年固定
窗口
F窗口内
一致性
0.3689 0.4786 0.5395
F窗口间
差异性
1.7923 2.4445 1.2317
表4对比后可以明显得出,F窗口内一致性指标在本文提出的划分方法中JS散度数值最小,时间窗口内学科知识在最优主题个数下主题间相似度最高,达到最优。F窗口间差异性指标在20年固定时间窗口时取得的数值最高,表示相邻时间窗口学科知识在最优主题个数下主题内容差异性最大。本文认为,20年固定时间窗口之所以可以达到窗口间差异性最大,需考虑较长的时间跨度带来的差异性影响。其次是本文提出的划分算法F窗口间差异性次高。综合两个指标可以得出,本文提出的时间窗口划分算法得出的划分结果明显要优于以10、20年为固定时间窗口长度划分的结果,验证了本文提出的改时间窗口划分算法的有效性。
(2)定性评价
为进一步验证本文提出的基于LDA模型的文本时间窗口划分算法对创新研究数据划分结果的有效性,邀请2位创新研究领域专家对时间窗口划分结果定性判读。判读结果反馈该文本时间窗口划分与创新研究领域实际发展阶段大致相符,能够在一定程度上反映出创新研究领域起源与发展脉络,也进一步从定性角度验证了算法有效性。

5 结论

在开展主题演化分析时,时间因素是时序化文本数据的重要属性。传统以LDA模型为代表的主题模型未考虑时间因素,认为文档顺序的改变不会影响主题发现结果,难以满足主题动态演化分析需求。而现有的动态主题模型中,普遍存在计算成本高或者受主观因素影响深等问题,限制了其应用。基于此,本文从时间窗口相似度的角度改进现有动态主题模型存在的不足,从文本时间窗口划分本质出发构建了时间窗相似度指标F,并提出了实现算法,实现了尽可能降低计算成本的同时,降低主观因素对文本时间窗口划分的影响。同时,本文以创新研究领域为例开展实证研究,从定量和定性两个角度证实了本文提出的基于LDA模型文本时间窗口划分结果的客观性与科学性。未来考虑将该算法应用于铁路等具有行业特色的数据源中,进一步优化算法,为领域主题演化分析提供支持。

References

[1]
龙艺璇, 安源, 王东晋, 等. 基于改进LDA模型的铁路领域主题发现研究[J]. 数字图书馆论坛, 2022(2): 26-32.
(Long Y X, An Y, Wang D J, et al. Research on railway field topic discovery based on improved LDA model[J]. Digital Library Forum, 2022(2): 26-32.)
[2]
Blei D M, Andrew Y N, Michael I J. Latent dirichlet allocation[J]. The Journal of Machine Learning Research, 2003, (3): 993-1022.
[3]
蒋卓人, 陈燕, 高良才, 等. 一种结合有监督学习的动态主题模型[J]. 北京大学学报(自然科学版), 2015, 51(2): 367-376.
(Jiang Z R, Chen Y, Gao L C, et al. A supervised dynamic topic model[J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2015, 51(2): 367-376.)
[4]
Wang X R, McCallum A. Topics over time: a non-markov continuous-time model of topical trends[C]. Proceedings of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York, NY, USA, ACM, 2006, 424-433.
[5]
Wang C, Blei D, Heckerman D. Continuous time dynamic topic models[J]. UAI, 2012, 32(1): 579-586.
[6]
Ding W, Chen C. Dynamic topic detection and tracking: a comparison of HDP, C-word, and cocitation methods[J]. Journal of the Association for Information Science and Technology, 2014, 65(10): 2084-2097.
[7]
桂小庆, 张俊, 张晓民, 等. 时态主题模型方法及应用研究综述[J]. 计算机科学, 2017, 44(2): 46-55.
摘要
互联网技术的飞速发展使得数据的规模达到了空前的水平,人们从海量数据中获取有价值的信息变得越来越困难。主题模型是近年来计算机领域出现的一种新的概率模型,在自然语言处理、文本挖掘以及信息检索等领域都有很广泛的应用。基于主题模型的主题追踪技术和时态分析技术可以帮助人们从海量数据中快速找到感兴趣的内容,时态主题模型逐渐成为计算机科学领域的一个研究热点。首先,介绍主题模型以及时态主题模型的基本概念;然后,对各种时态主题模型进行分类,介绍了几种具有代表性的时态主题模型,分析比较了各种主题模型的优缺点;接着,分析了时态主题模型在社交媒体、学术文献和数据社区中的应用;最后,对时态主题模型未来的发展趋势进行了探讨。
(Gui X Q, Zhang J, Zhang X M, et al. Survey on temporal topic model methods and application[J]. Computer Science, 2017, 44(2): 46-55.)
[8]
Derntl M, Günnemann N, Klamma R. A dynamic topic model of learning analytics research[C]. Proceedings of International Symposium on Instrumentation and Measurement, Sensor Network and Automation. Germany: IEEE, 2013: 436-439.
[9]
Ha T, Beijnon B, Kim S, et al. Examining user perceptions of smartwatch through dynamic topic modeling[J]. Telematics and Informatics, 2017, 34(7): 1262-1273.
[10]
Nallapati R M, Ditmore S, Lafferty J D, et al. Multiscale topic tomography[C]. Proceedings of the 13th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. San Jose, California, USA, ACM, 2007: 520-529.
[11]
Kim E, Cho Y, Kim W. Dynamic patterns of technological convergence in printed electronics technologies: Patent citation network[J]. Scientometrics, 2014, 98(2): 975-998.
[12]
吴菲菲, 张亚茹, 黄鲁成, 等. 基于AToT模型的技术主题多维动态演化分析——以石墨烯技术为例[J]. 图书情报工作, 2017, 61(5): 95-102.
摘要
[目的/意义] 基于AToT模型的多维动态演化分析,不仅可以全面地了解技术主题的动态变化,把握不同时期不同企业的技术布局变化,还可以掌握产业链各环节的技术发展状态,为企业创新提供强有力的决策支持。[方法/过程] 首先提取专利文献摘要中的名词或者名词短语,然后利用AToT模型揭示专利文献中隐含的主题演化及专利权人的技术关注点,最后结合产业链信息把握产业各个环节的发展状况。[结果/结论] 实验结果证明,该方法能够高效地分析专利的内容,揭示企业技术主题的动态演化过程。
(Wu F F, Zhang Y R, Huang L C, et al. Multi-dimension dynamic evolution analysis of technology topics based on AToT by taking grapheme technology as an example[J]. Library and Information Service, 2017, 61(5): 95-102.)

[Purpose/significance] Multi-dimension evolution analysis based on the AToT model could not only provide thorough insights into the evolution process of technology topics, mastering technological composition trends among industries in different periods, but have advantages in analyzing the technological development process in each tache of the industry chain, laying solid foundation for industrial innovation. [Method/process] This paper revealed the latent technology topics and technological attention of patent-owners through keywords and phrases which were extracted from abstracts in each patent document, and showed deep insight into the technological development status with industry chain information. [Result/conclusion] The experiment turns out that the method provided in this paper could not only analyze the content of patents effectively, but reveal the dynamic evolution process of enterprise technological topics.

[13]
伊惠芳, 吴红, 李昌, 等. 基于主题生命周期与技术熵的石墨烯技术主题演化研究[J]. 情报杂志, 2019, 38(2): 64-70.
(Yi H F, Wu H, Li C, et al. Technology topics evolution of graphene based on topic life cycle and technology entropy[J]. Journal of Intelligence, 2019, 38(2): 64-70.)
[14]
颜端武, 苏琼, 张馨月. 基于时序主题关联演化的科学领域前沿探测研究[J]. 情报理论与实践, 2019, 42(7): 144-150.
摘要
[目的/意义]从时序主题演化的角度,构建探测科学领域研究前沿的途径与方法,为科技创新和科研决策提供有效支撑。[方法/过程]提出基于时序主题关联演化的前沿探测三阶段模型。首先将领域文本集合按照时间窗进行划分,利用LDA主题模型生成各个时间窗的研究主题;再通过相邻时间窗主题之间的相似度建立主题关联,设置主题关联过滤规则并对无效主题关联进行剔除;最后,按主题之间的关联关系构建主题演化路径,根据主题路径变化探测科学领域研究前沿。[结果/结论]以石墨烯领域中文科技文献为研究案例,进行时序主题关联演化分析,探测出石墨烯纳米复合材料及其应用、石墨烯电极材料研究以及石墨烯光电性能和应用三大研究前沿,验证了方法模型的有效性。
(Yan D W, Su Q, Zhang X Y. Research on frontier detection in scientific field based on sequential topic association evolution[J]. Information Studies (Theory & Application), 2019, 42(7): 144-150.)
[15]
张新玲, 陈誉. 国际开放获取研究主题的演化路径分析及启示[J]. 江苏科技信息, 2023, 40(35): 8-14.
(Zhang X L, Chen Y. Analysis of the evolutionary path of international open access research theme and its enlightenment[J]. Jiangsu Science and Technology Information, 2023, 40(35): 8-14.)
[16]
Fang D, Yang H, Gao B, et al. Discovering research topics from library electronic references using latent Dirichlet allocation[J]. Library Hi Tech, 2018, 36(3): 400-410.
Discovering the research topics and trends from a large quantity of library electronic references is essential for scientific research. Current research of this kind mainly depends on human justification. The purpose of this paper is to demonstrate how to identify research topics and evolution in trends from library electronic references efficiently and effectively by employing automatic text analysis algorithms.
[17]
傅柱, 王曰芬, 关鹏. 以分类主题抽取为视角的学科主题挖掘——基于LDA模型的国外知识流研究结构探讨[J]. 情报理论与实践, 2016, 39(8): 96-102.
(Fu Z, Wang Y F, Guan P. Subject topic mining from the perspective of classified topic extraction[J]. Information Studies (Theory & Application), 2016, 39(8): 96-102.)
[18]
王曰芬, 傅柱, 陈必坤. 基于LDA主题模型的科学文献主题识别:全局和学科两个视角的对比分析[J]. 情报理论与实践, 2016, 39(7): 121-126.
(Wang Y F, Fu Z, Chen B K. Topic identification of scientific literature based on LDA topic model: comparative analysis of two views of global and discipline[J]. Information Studies (Theory & Application), 2016, 39(7): 121-126.)
[19]
关鹏, 王曰芬. 基于LDA主题模型和生命周期理论的科学文献主题挖掘[J]. 情报学报, 2015, 34(3): 286-299.
(Guan P, Wang Y F. Topic mining in scientific literature based on LDA topic model and life cycle theory[J]. Journal of the China Society for Scientific and Technical Information, 2015, 34(3): 286-299.)
[20]
王婷婷, 王宇, 秦琳杰. 基于动态主题模型的时间窗口划分研究[J]. 数据分析与知识发现, 2018, 2(10): 54-64.
(Wang T T, Wang Y, Qin L J. Dividing time windows of dynamic topic model[J]. Data Analysis and Knowledge Discovery, 2018, 2(10): 54-64.)
[21]
关鹏, 王曰芬. 科技情报分析中LDA主题模型最优主题数确定方法研究[J]. 现代图书情报技术, 2016, 32(9): 42-50.
(Guan P, Wang Y F. Identifying optimal topic numbers from sci-tech information with LDA model[J]. New Technology of Library and Information Service, 2016(9): 42-50.)
[22]
冯之浚, 刘燕华, 方新, 等. 创新是发展的根本动力[J]. 科研管理, 2015, 36(11): 1-10.
(Feng Z J, Liu Y H, Fang X, et al. Innovation is the fundamental driving force for development[J]. Science Research Management, 2015, 36(11): 1-10.)
[23]
杨蕙馨, 王军. 让创新驱动发展行稳致远[EB/OL]. [2022-5-1]. http://theory.people.com.cn/n1/2018/0320/c40531-29877266.html.
[24]
杨维. 如何理解“加快建设创新型国家”[EB/OL]. [2022-6-14]. http://theory.people.com.cn/n1/2017/1213/c40531-29703538.html.
[25]
王志刚. 加快实现高水平科技自立自强[EB/OL]. 2023-11-01]. http://theory.people.com.cn/n1/2022/1223/c40531-32592268.html.
[26]
Fagerberg J, Verspagen B. Innovation studies—the emerging structure of a new scientific field[J]. Research Policy, 2009, 38(2): 218-233.
[27]
Fagerberg J, Fosaas M, Sapprasert K. Innovation: exploring the knowledge base[J]. Research Policy, 2012, 41(7): 1132-1153.
[28]
Martin B R. The evolution of science policy and innovation studies[J]. Research Policy, 2012, 41(7): 1219-1239.
[29]
Shafique M. Thinking inside the box? Intellectual structure of the knowledge base of innovation research (1988-2008)[J]. Strategic Management Journal, 2013, 34(1): 62-93.
PDF(4173 KB)

314

Accesses

0

Citation

Detail

Sections
Recommended

/