基金项目:福建省科技厅对外合作项目(2017I1009); 福建省软件学项目(2015R0083)
通信作者:csx@xmut.edu.cn
(1.厦门理工学院经济与管理学院,2.厦门理工学院机械与汽车工程学院,福建 厦门 361024)
(1.School of Economics and Management,Xiamen University of Technology,2.School of Mechanical and Automotive,Xiamen University of Technology,Xiamen 361024,China)
DOI: 10.6043/j.issn.0438-0479.201608004
我国专利数据来源众多、指标关系复杂,针对现有专利价值评估过程依赖人为主观判断,缺乏客观、合理评估方法等问题,提出了一种基于分类回归树(classification and regression tree,CART)模型的属性选择方法,用于构建专利价值评估的指标体系.实验结果表明相较于基于随机森林的属性选择方法,该方法不仅能有效地降低指标体系的规模,并且能提高评估建模的效率,在兼顾评估模型可解释性的基础上更好地提高专利价值评估的准确性.进一步通过枚举遍历的方法,约减指标集大小,构建出规模更小的指标体系,结合专家知识和实证研究,有效地验证了该指标体系的可解释性和现实意义.
The scientific and accurate patent-value assessment will promote the transition of patent industrialization and commercialization,which is the important key point of promoting the national and enterprise's comprehensive strength.As for features of numerous patent data sources and complex indictor relationships in our country and problems that the current patent-value assessment process depends on human and lacks the objective and reasonable assessment method,a features selection method based on the Classification and Regression Tree(CART)decision tree model is proposed in this paper,which is used for building the patent-value assessment indictor system.The experiment result indicates that,compared with the features selection method based on the Random Forest,this method not only effectively reduces the indictor system model size,but also improves the efficiency of the patent value assessment.At the same time,we better enhance the accuracy of the patent value assessment based on the improvement of interpretability of model.This paper reduces the size of the indicator set and builds a smaller indictor system further by the enumeration method,combined with the professional knowledge and empirical studies.It verifies the interpretation and practical significance of this indictor system effectively.
近年来,我国的专利总量快速增长.2015年,我国全年科研经费支出达14 220亿元,比上年增长9.2%,全年受理专利申请279.9万件,为171.8万件授予专利权[1].据世界银行统计,我国的科技成果转换率为15%,其中专利转换率为25%,专利推广率在15%~20%,与庞大的专利数量相比,如此之低的转换率使得大量优秀专利技术处于闲置状态,缺乏有效的专利价值评估手段是影响专利快速转换的一大阻碍.若能快速有效地对专利进行评估,不仅可以节约60%的研究时间,更可以节省40%的研究经费[1-3].因此,进行有效地专利价值评估是最为关键的一环.
专利价值评估涉及诸多的指标,因此识别影响专利价值的关键指标有利于我们进行更加准确和有效的专利评估.近年来国内外学者在专利价值评估指标体系方面研究取得了不少成果,Park等[4]和Hou等[5]分别提出了影响专利价值评估的主要因素,也出现了CHI专利价值评估指标体系[6]和佐治亚太平洋评估体系[7]等相关指标体系.研究者们[8-14]提出了影响专利价值评估的关键指标,并构建了专利价值评估指标体系.国家知识产权局于2012年出版了《专利价值分析指标体系操作手册》[15],该体系主要包括技术价值、法律价值及经济价值3个因素一级指标及一系列二级指标,为专利价值评估提供指导性的先验信息.综上,国内外学者对专利价值评估指标体系研究取得了不少成果,但在实际应用邻域仍未形成统一的评估模型及标准.我国专利数据库不完善、未标准化等问题使得很多国外的研究成果不适用于我国的专利价值评估,导致以往的专利价值评估过程中过于依赖人为评价,主观性太强,缺乏公正、合理和易操作的评估方法.在这一背景下,利用跨领域的新方法对专利价值评估指标体系进行进一步研究将具有重要的理论意义和实践价值.
专利价值评估数据具有来源众多、指标关系复杂、类别不平衡等特点,为进一步提高评估性能,对专利价值评估数据进行属性选择,建立一个简约的专利价值评估指标体系十分必要.机器学习领域的属性选择分为3种模式:1)过滤器方法,独立地对数据属性进行选择处理,与后续模型无关; 2)包裹式方法,直接把最终将使用的模型性能作为特征子集的评价准则; 3)嵌入式方法,将属性选择过程与模型训练过程融为一体.一般而言,由于包裹式属性选择方法直接针对模型进行优化,因此从最终模型性能来看,包裹式特征选择比过滤式特征选择更好.Fisher's ratio、F-score[16]和Chi-Square[17]属性选择方法都是过滤器式的方法.这些方法无法检测属性之间的关系,所选取的属性之间可能存在严重冗余,提高了过拟合风险.而KP-SVM[18](kernel-penalized support vector machine)和Boosting-SVM[19](Boosting support vector machine)则是嵌入式的属性选择方法,嵌入式的属性选择方法效率较高,它们在构造分类器的同时选择相关的属性.基于随机森林[20]的属性选择方法也是一种嵌入式属性选择方法,在建立随机森林的同时可以得到变量重要性的排序列表,根据该列表进行属性选择.但是这类方法依赖于特定的数据类型,在专利价值评估的数据上运用效果不佳.针对以上属性选择方法在专利价值评估指标体系应用中出现的问题.本文中提取出一种基于分类回归树(classification and regression tree,CART)算法的属性选择方法,用于构建专利价值评估的指标体系.实验结果表明相较于基于随机森林的属性选择方法,该方法具有更大的优势,能够有效地降低指标体系的规模,快速简洁地对属性进行选择,得到属性的重要性程度排序,并可适用于多种数据类型.本文中进一步通过枚举遍历的方法,约减指标集大小,构建出规模更小的指标体系,结合专家知识和实证研究,有效地验证了该指标体系可解释性和现实意义.与传统的成本法[21]和市场法[22]相比本文中提出的专利价值评估指标体系不受市场波动影响,更具客观性,数据获取也更加准确、便利.
为提高专利评估的效率,本文中利用在机器学习领域应用最为广泛的CART算法进行属性选择.决策树是一种由节点和有向边组成的层次结构,树中包含3种节点:根节点、内部节点、终节点,CART仅有的一个根节点是全体训练数据集合.树中的每个内部节点是一个分裂问题,它将到达该节点处的样本按某个特定属性分块.每个终节点是带有分类标签的数据集合.从CART的根节点到叶节点的一条路径形成一个判别规则.
CART算法是Breiman[23]于1984年提出的,该算法可以处理高度倾斜或多态的数值型数据,也可以处理顺序或无序的类属型数据[24].CART算法使用基尼系数作为不纯度的度量,CART算法选择具有最小基尼系数值的属性作为CART的分裂属性,基尼系数值越小,表明样本对于分类问题的纯净度越高,划分效果越好.基尼系数的定义如下:
Gini(A)=1-∑Ci=1p2i.(1)
式(1)表示一个节点A的基尼不纯度,其中pi表示属于i类的概率,C为测试集样本数.当Gini(A)=0时表明所有样本属于同类,当所有类在节点中以等概率出现时,Gini(A)=C(C-1)/2,Gini(A)最大化.在实际递归划分中,如果当前节点的中的样本数不为1并且所有样本不属于同一类,则此节点为非叶子节点,尝试样本中的每个属性作为分裂属性进行计算,尝试找出不纯度最小的一个划分,该属性划分即为该节点下的最优分支.
按上述生成过程递归得到的完整的CART往往都会出现“过拟合”现象,因此需要对CART进行剪枝.CART算法采用交叉验证法进行剪枝,最终得到的是一棵兼顾复杂度和错误率的最优二叉树.
本文中提出一种基于CART预测准确率计算的属性选择方法,基本思路是利用对CART模型预测准确率的影响程度来定义某个属性(指标)的重要程度,影响程度越高说明该属性对评估预测越重要,影响程度越低说明该属性与评估预测越不相关,即越不重要.基于以上思路来进行属性选择,首先根据去除某一属性之后对模型预测准确率的影响程度定义“影响系数值”,其次根据加入某一属性之后对模型预测准确率的提升程度定义“提升系数值”,最终结合以上2个系数值,找到对评估预测影响最大的关键指标,建立专利评估的指标体系.
首先定义“影响系数值”如式(2)所示.
Ai^--A0^-=Ii,(2)
其中,A0^-为初始模型的预测准确率均值,Ai^-为去除第i个属性后的模型预测准确率均值,|Ii|越大表明去除的属性越重要.
利用初始训练集对CART模型进行训练,采用五重交叉验证法计算该模型的预测准确率,重复实验100次,得到一个平均预测准确率,即为未进行属性选择的初始模型预测准确率均值A0^-,定义如式(3)所示.
A0^-=∑nj=1A0j/n,(3)
其中,A0^-为初始模型的预测准确率均值,A0j为第j次实验的预测准确率,n为实验重复次数.
利用递归的方式,采取从属性集中逐一递减属性的方法来逐一计算每个属性的重要性,每次仅从属性集中去除一个属性,使用该子集训练新的CART,同时采用五重交叉验证法计算该模型的预测准确率,重复实验100次,得到去除这一属性后的预测准确率均值,代入式(2)中得到相应的“影响系数值”.依次对属性集中的每一属性进行实验,得到每一个属性的影响系数值.根据影响系数值对属性进行排序,得到属性的影响系数值排序.
如果仅以去除某一属性之后模型预测准确率的变化程度来衡量属性的重要性,有可能导致模型的过拟合,或者较大程度依赖于特定的数据来源,因此,引入“提升系数值”来反向考量属性对模型预测准确率的提升程度,从而更准确地衡量属性的重要性.“提升系数值”定义如式(4)所示.
Bi^--Bi-1^-=Pi,(4)
其中,Bi-1^-为第i个属性加入前的预测准确率均值,Bi^-为第i个属性加入后的准确率均值,该属性的提升系数值Pi定义为属性对准确率的影响程度.当Pi>0时表明该属性后有助于提高分类任务的准确率,该属性的加入将提高模型的性能,|Pi|越大则提升幅度越大,该属性越重要; 当Pi≤0时该属性对分类任务是无益的.
根据属性影响系数排序使用前向递归方法进行CART建模,依次向模型中加入属性建立CART模型,每次仅加入一个属性,采用五重交叉验证法计算该属性加入后模型的预测准确率,重复实验100次,代入式(4)得到相应的“提升系数值”.根据提升系数值由高到低对属性进行排序,同时选取提升系数值大于0的属性,此时得到的属性集合即为属性选择后的最优属性子集.
本文中的数据来源于合享创新专业专利数据库网站(http:∥incoshare.com).结合专利价值评估领域专家的先验知识,在《专利价值评估指标体系》基础上得到一个具有19个属性的数据集,具体属性如表1所示.其中价值度为分类标签,原始数据共分为1~9级,等级越高对应价值越高.通过对原始数据的分析理解与预处理,将1~4级划分为一个类别“class1”,5~9级每一级分为一类,分别命名为“class2”、“class3”、“class4”、“class5”和“class6”,共有6类标签,样本class1~class6分布情况如下:292,242,231,223,341,261,合计1 590.
算法1 基于预测准确率计算的属性选择方法
输入:属性集合C={C1,C2,…,Ci},分类标签L,CART算法;
步骤1:
使用集合C与L建立CART,得到预测准确率均值A0^-,标准差σ0;
对所有属性Ci,
使用去除Ci的属性集合Y与L建立CART,得到预测准确率Ai^-;
Ai^--A0^-=Ii.
end
去除Ii>σ0的属性,将属性集合C根据Ii升序排序,得到属性集合C'={C'1,C'2,…,C'i}.
步骤2:
对所有属性C'i,
向属性集合T0中加入第i个属性C'i,Ti=Ti-1+C'i,使用Ti与L建立CART,得到预测准确率Bi^-;
Bi^--Bi-1^-=Pi.
end
选取出Pi>0对应的C'i属性,得到属性集合X.
输出:属性选择出的最佳属性组合
X={X1,X2,…,Xj},XC.
Y为第i个Ci属性缺失后的属性子集.算法步骤1中得到新的属性集合C',排序如表2所示.Ti为第i个属性C'i加入后的属性子集,Ti-1为C'i加入前的属性子集,Bi^-为该属性加入后的预测准确率均值,绘制如图1的折线图,实验结果如表3所示.
图1 根据影响系数前向递归的预测准确率变化曲线
Fig.1 Accuracy curve of forward recursion experiment based on influence coefficient
选出Pi>0的属性,构成新的属性子集X.
根据该属性的提升系数Pi对属性再进一步排序,再次使用前向递归方法,将属性从前到后依次加入CART模型中,得到各自加入后的预测模型准确率(表4).从第7个属性开始都是Pi≤0的属性,为了说明选择的属性是较优的这里仍继续加入未提升属性进行建模,观察预测准确率变化,绘制折线如图2所示.
图2中预测准确率低于90%的位置即为最佳属性子集的准确率,此时的模型性能较高且使用的属性规模较小,虽然之后再加入几个属性会出现准确率的增加,但是对准确率的增加幅度有限,同时增加模型过拟合的风险.因此选择出7个属性用以预测,7个属性集合为最佳属性子集,包含文献种类代码、家族被引
表3 根据影响系数前向递归的预测准确率
Tab.3 Accuracy rate of forward recursion experiment based on influence coefficient
图2 根据提升系数前向递归的预测准确率变化曲线
Fig.2 Accuracy curve of forward recursion experiment based on lifting coefficient
证个数、扩展同族个数、权利要求数量、引证专利个数、专利类型和简单同族个数.
通过上述实验可以发现在使用前向递归方法时,预测准确率首先会随着属性个数的增加而递增,当属性个数达到某个临界值预测准确率最高,当属性个数超过这一临界值时预测准确率会逐步递减,这是由于开始较少的属性个数未能包含足够的信息保证分类任务的有效进行,而当属性个数超出临界值时又包含了大量冗余、无效信息以至于破坏分类器的性能.属性选择的重要性就体现于此,选择适用于分类任务的最佳属性子集.
本文中引入在属性选择领域中应用较为广泛的基于随机森林的变量重要性方法,与本文中提出的属性选择方法进行对比.随机森林实验中使用CART算法为基础算法建树,设置参数森林的大小ntree=500,每个节点上随机选择的分裂属性数mtry=5.表5为随机森林算法得到的各属性的变量重要性排序列表.
2.2中使用基于预测准确率计算的属性选择方法选取了7个属性作为较优的属性集合,此处使用随机森林算法得到了19个属性的变量重要性.使用上述两种方法得到的属性排序构建CART模型和支持向量机(support vector machine,SVM)模型[25].对比两种属性选择方法的性能,决策树使用的是CART决策树算法,度量标准为基尼系数,SVM的核函数为二次有理核算法,惩罚因子C=1.
在同样选取前7个最优属性的情况下分别构建模型,得到预测准确率如表6所示.
实验进一步按照随机森林给出的变量重要性列表逐个加入属性构建CART,当加入属性为10个时,CART模型预测准确率达到最大86.89%,表4与表7对比也可以发现前者更优.
为进一步提高专利价值评估的建模效率及性能,进一步缩小指标集合的规模,本节将在已有7个属性的基础上进一步使用枚举法遍历寻找规模更小的指标集合.为保证最终选取的属性是有效的、不受到分类器影响的,分别选取CART、SVM、随机森林3类分类器算法来建立模型.实验中3类算法的参数设置与2.3中的设置相同.以下给出7个属性的序数列表,下文将以对应序号来表示选取的属性.
假设选取属性数量为1时,需要在7个属性中随机选择1个属性建立模型,枚举所有可能性为C17,即有7种组合可能; 假设选取2个属性时为C27,以此类推全部共有127种组合方式.对每一种属性组合可能都建立3种模型,CART模型、SVM模型、随机森林模型,采用五重交叉检验计算每个模型的预测准确率,并且在每个属性组合下重复实验100次得到该组合的预测准确率均值,进而得到了选取属性个数从1个到7个各种组合的预测准确率,找出在某一特定属性子集下的最高预测值及其组合、最小预测值及其组合,预测准确率最高的集合即为约减的属性子集.建模结果如表8所示,其中“最高值对应属性组合”的数字与表9中相应序号的属性名称对照.
CART算法下得到准确率最高的属性集合为:权利要求数、专利类型、文献种类代码、简单同族个数和家族被引证个数.
SVM算法下得到准确率最高的属性集合为:权利要求数、专利类型、文献种类代码、简单同族个数和家族被引证个数.
随机森林算法下得到准确率最高的属性集合为:权利要求数、专利类型、文献种类代码、简单同族个数、引证专利个数和家族被引证个数.
通过以上实验可以发现,在CART算法和SVM算法中,选取5个属性时预测准确性最高.在随机森林算法中会多加入一个属性使模型达到最优,即6个属性时,由于随机森林为组合算法,每一棵树的属性不完全一样,不会使用全部的属性建树.也可以发现在不同属性数量的属性子集下,3种模型约减的属性子集属性重合率极高,因此可以认为约减的属性集合为包含权利要求数、专利类型、文献种类代码、简单同族个数和家族被引证个数5个属性的属性集合,该集合即为本文中提出的简约的专利价值评估指标体系.
本文提出的专利价值评估体系也有效印证了国内外研究的成果.吕璐成[14]、申文娇[26]、赵蕴华[13]等的研究都认为权力要求数是进行专利价值评估一个重要的指标.杨冠灿[11]、李清海[9]、冯岭[12]等也提出了运用专利族和家族引用数量指标的专利价值评估方法,本文中的实验结果也印证了专利家族指标的重要性.在佐治亚太平洋评估体系[7]和Lanjouw-Schankerman(LS)专利价值评估模型[27]中也都选择了权力要求数和简单同族个数作为评估指标之一.专利种类能反映专利价值的观点也符合专利价值基本评估理论[8,10].结合国家知识产权局的专利价值分析指标体系[15],我们可以将专利种类归结于技术特征指标中,简单同族个数、家族被引证个数的专利族属性可以归结为市场特征指标,文献种类代码可以反映法律特征指标,而权力要求数可以同时反映专利的法律特征又可以反映专利的技术特征.综上所述,本文提出的专利价值评估指标体系是有效的,对于专利价值评估研究具有一定的指导意义.
本文中提出了一种使用基于CART算法的属性选择方法,使用该方法对专利价值评估指标体系进行研究,提出了一个约减的专利价值评估指标体系.利用专业专利检索数据库开展实验,实验表明,与基于随机森林的属性选择算法进行对比,本文中提出的新的指标体系选择方法在专利价值评估预测中具有更好泛化性能,在此基础上利用实验性的方法,进一步缩小指标体系规模,采用枚举遍历的方法寻找出了约减的指标体系,最终得到专利价值评估指标体系包含权利要求数、专利类型、文献种类代码、简单同族个数和家族被引证个数5个属性.最后,对得到的专利价值评估指标体系进行了实证分析,充分论证了该指标体系的可解释性和意义.