2.2.1 基于专利知识挖掘的需求信息

2.2.1 基于专利知识挖掘的需求信息

2.2.1.1 专利蕴含的信息

产品创新设计通过运用知识与经验来进行创造性活动,不能仅仅依赖于某领域狭窄的知识面,而是需要跨学科、跨领域的知识。常见的知识来源包括百科全书、各类手册、专利文献、教科书,以及科技论文和报告等。其中,专利是专利权的简称,是由专利机构依据发明申请所颁发的一种文件。这种文件叙述发明的内容,并产生一种法律效力,即获得的专利发明在一般情况下只有得到专利所有人的许可才能利用(包括制造、使用、销售和进口等),对专利的保护有时间和地域的限制。专利文献包括的要素如图2-1所示。

发明问题解决理论(TRIZ)对大量专利进行分析后得出结论:大约只有1%的专利是真正的首创,其余专利均是利用各种已知的知识,加上一些新的想法组合而成。按照上述思路,任意一种发明的问题解决方法可能业已存在,只需要去搜寻并进行知识的综合。专利信息是人类智慧的结晶,它几乎囊括了一切应用领域中的技术成果,涉及经济发展、科技创新和战略决策的最重要的信息资源。根据世界知识产权组织(WIPO)的统计,专利文献中蕴含了世界上90%~95%的研发成果。如果能够有效地利用专利情报,不仅可以促进科技与经济发展,而且可以缩短60%的研发时间,节省40%的研发经费,专利经济价值在世界研发产出中所占的比例超过90%。因此,在当前的知识经济时代,专利信息对于国家、企业而言都有着举足轻重的作用。专利中蕴含的信息如图2-2所示。

图2-1 专利文献要素

图2-2 专利蕴含的信息

在专利商业化程度和开放创新趋势日益加深的背景下,与软件开源现象类似,许多企业已经开始开放专利的使用权,这意味着各个群体之间专利知识的交流更加便捷与丰富。我国专利法将专利分为3种,即发明、实用新型和外观设计。实用新型和发明的区别主要在于前者对创造性要求不高,但实用性较强,后者要求是一项新的技术方案。外观设计是指产品外部的艺术或装饰性设计,不包括具体的构造方法或原理。世界五大知识产权局[美国专利商标局(USPTO)、欧洲专利局(EPO)、日本特许厅(JPO)、韩国知识产权局(KIPO)及中国国家知识产权局(SIPO)]在2012—2016年的专利申请量的变化趋势如图2-3所示。截至2016年,五局共受理260万件发明专利申请。

图2-3 2012—2016年世界五大知识产权局专利申请数量

专利研究的具体应用领域不断发展,包括专利检索、专利挖掘和专利分析等。在专利检索方面,瓦利德(Walid)等人提出了一种新的交互式专利检索框架,通过客户对前几次检索结果的反馈来重新制订术语加权,试验结果表明通过一次交互迭代可以显著提高检索的召回率。王(Wang)等人针对专利文献中的术语不匹配问题,通过利用语义知识库提出了一种新的专利查询扩展方法,可以用语义相关的概念丰富查询。陈(Chen)等人利用专利文献的国际专利分类号(IPC)生成所有专利文献的索引词汇表,在专利检索试验中获得了更高的准确性。在专利挖掘方面,主要包括数据挖掘和文本挖掘两方面,其中数据挖掘是指对专利元数据进行处理;文本挖掘是指对专利名、专利摘要和权利要求等字段进行处理和分析。在专利分析方面,按照分析目的的不同,可以分为专利内容分析、专利聚类分析和专利质量分析。

2.2.1.2 基于专利知识挖掘的需求提取过程

专利知识挖掘特指针对专利文本信息的挖掘,是从大量的专利中搜索出隐藏于其中并有着特殊关联性的知识的发现过程,其方法根据适应领域的不同,概念也不尽相同。对于专利知识挖掘的研究,可以分为专利信息外部特征项分析和专利信息内容特征项分析。本书所提到的专利知识的挖掘就是专利内容特征项的分析,主要是针对专利的详细说明书部分。

专利地图是指将检索到的专利信息经过整理、加工、综合和归纳后,以图形表格和图像等形式对专利分析的全部结果进行可视化表达。通过对专利地图的对比、分析和研究,做出预测和判断,从而得到可利用的水平、动态和发展趋势等信息,为企业制订经营战略、专利战略和确定开发目标等服务。对于专利知识的挖掘,可以采用文本挖掘的思想加以研究,一般步骤如下:主题的确定、专利的检索及下载、相关专利数据库的建立、文本准备、数据清洗、关键词的提取、知识模式的评价和知识模式的输出。图2-4显示了专利分析过程,这个过程主要是分析提取专利中的主要专利技术,依据专利技术确定产品需求。

图2-4 基于专利知识挖掘的产品需求提取过程

本章将以手机产品为例,介绍基于专利知识挖掘的需求提取过程。通过SooPAT专利检索方法进行专利检索,检索到与手机相关的专利数有139895个。图2-5显示了手机不同类型专利数量随时间变化的分布图(详见附录8)。

图2-5 手机专利类型随时间变化分布图

通过手机市场调查分析可知,中国的本土手机产业链的生命周期分为以下4个发展阶段。

第一阶段:婴儿期。2008年以前,发明技术专利较少,属于无品牌竞争阶段,国内厂商主要为跨国品牌贴牌生产或负责其产品销售业务。

第二阶段:成长期。2009—2013年间,发明技术专利数量快速增长,国内自有品牌通过与设计公司或海外的模块供应商合作,在跨国巨头统治的市场缝隙中寻找发展机会,这个时期属于手机产业快速发展阶段。

第三阶段:成熟期。2014—2015年,成熟期产业链上各组成企业进行重新调整,企业竞争基于品牌价值、产品创新能力与服务水平。市场存量达到极值,新增客户数量减小。行业利润摊薄,部分大型跨国企业开始放弃部分或全部手机业务。

第四阶段:退出期。2016年以后,迫于新技术和替代产品的挑战,加上人们生活习惯的变化,原有概念的手机产品面临边缘化,计算与娱乐能力更强的替代品出现。手机市场保持一定比例的需求,总市场规模开始缩减,部分企业开始转型,行业竞争逐步弱化,企业盈利能力降低。

通过以上对手机的周期性分析,对手机的专利进行了分时期、分类别的检索与下载,然后对下载的专利进行分析,主要包括专利分类和确定重点专利技术。附录9显示了一个具有驱蚊功能的专利分析实例一览表,其中包括对专利重要信息的提取,如专利名称、专利号、申请日期、代理人、发明者、公开号、分析者、分析日期、公开日期、专利摘要和专利技术等信息(驱蚊功能专利分析一览表见附录9)。

针对专利中需求的提取,采用多阶段提取方法,专利技术转变为功能需求,功能需求转变为设计需求,设计需求转变为产品需求,如图2-6所示。

图2-6 需求提取转变过程

例如,对一种手机进行专利分析。此专利为实用新型专利,是一种具有驱蚊功能的手机,包括壳体、按键、主板、微处理控制器、射频模块、电池及电源管理单元。该手机的特征还在于通过对设置在主板上的超声波发生器及超声波输出装置、所述超声波输出装置、所述超声波发生器及所述微处理控制器依次进行电路连接,以实现手机的驱蚊功能。根据昆虫的自然特性,利用超声波驱赶蚊子,防止蚊虫叮咬。在这个专利中,通过专利分析实例一览表,可以明确其名称、申请时间和专利内容等,从其专利摘要中提取出专利技术为具有驱蚊功能的手机。图2-7显示了该专利需求提取的转变过程,此专利技术可以转化为对手机新增加辅助功能的需求。

图2-7 一种手机专利需求提取转变过程

2.2.1.3 产品需求的等级结构划分及分类归纳

2.2.1.3.1 产品需求的等级结构划分

通过对从产品专利中提取的需求分析可知,一个产品专利中大致会有一个或者几个需求,这些需求是客户最直接的要求及对产品的预测需求。在整个产品的生命周期中有成千上万的需求,为了更好地分析这些需求,可以将其划分成几个类别,建立起需求的等级结构。首先产品需求可以呈树形分布,由一系列一级需求组成第一层,一级需求可以进一步分解为二级需求,对于一些产品的复杂系统,二级需求需要分解为三级需求,甚至是四级需求。对需求等级结构进行划分,可以更好地对需求进行分析和归纳,对于设计者来说,可以提高需求融入设计的准确性。图2-8显示了手机部分需求的等级结构划分。例如,从产品中提取出手机播放方式的需求,此需求归属于音乐播放需求,音乐播放需求又归属于发声设备的需求,整体从属于手机硬件性能的需求。需求层次划分可以明确需求的等级及从属产品需求的类别。

图2-8 手机部分需求的等级结构划分

2.2.1.3.2 产品需求分类归纳

在此,借鉴狩野模型(KANO)开发的针对产品定义的分类客户需求信息的系统步骤,并以A型图解法(KJ)和物质点法(MPM)为基础,对若干个产品的专利进行分析,提取需求并进行需求等级划分,然后对需求进行分类归纳。本章不仅对手机的专利进行分析,还对照相机、MP3、电冰箱、洗衣机等4种产品的专利进行了分析,通过对上述5种产品的专利进行分析,对基于专利知识挖掘提取出的需求进行归纳分类,如图2-9所示(MP3、电冰箱专利分析的需求归纳见附录10)。在此基础上,总结出一般产品的主需求包括以下8个方面:产品的性能、产品的功能、产品外观结构、产品使用操作、产品质量和维护、产品售后服务、产品品牌,以及产品价格等。

图2-9 基于照相机专利分析的需求归纳

在产品的整个生命周期中,产品各个生命周期阶段的8个主要需求是分布在不同的周期阶段的,由此推断出可以先对需求进行归纳,并对产品生命周期各阶段主要需求的分布加以分析,以明确产品的主要需求,之后就可以预测此产品正处于产品生命周期的哪个阶段,从而根据阶段性的需求特点,更好地把握产品的创新方向和方法。

2.2.1.4 聚类分析

由于调研的客户需求信息不同,受到经济、环境、消费群体和政治等多个因素的影响,而且大多数信息是模糊的、不确定的,甚至有些客户需求是杂乱无章的,如何有效地理解和分析这些客户需求,并在其中准确地发现新的客户需求,是产品进行原始创新的首要任务。在分析客户需求集时,用数学方法对其进行整理分析日益成为一种趋势。

聚类分析是数据挖掘、数据分析的重要方法,是指根据“物以类聚”的思想将相似的事物聚集在一起。聚类分析按照某种特定的模式将事物划分成若干类,这种模式可以基于事物外部的相似程度或者内部的相似程度,最后将数据集划分,使得类内相似度较大、类间的相似度较小,从而使得类内的数据更加相似。聚类分析与分类不同,后者是指客户已经知道数据集的特征及需要被划分成多少类,从而将所有的数据按照分类划分到不同的类别中;而聚类分析既不知道数据集的特征,又不清楚需要把数据集分成多少类。通过聚类,人们可以从中发现哪些事物聚集在一起,哪些事物更相近,这样就可以很好地对事物进行归纳与集中,以便于从中发掘出一些有价值的信息。

2.2.1.4.1 聚类分析的划分

不同的相似性度量及优化方法都可以应用到形式各异的数据集中,而对同一个事物进行聚类分析时,采用不同的聚类方法则可能会出现截然不同的效果。聚类分析的划分方法主要包括基于划分的方法、基于层次的方法、基于网格的方法、基于密度的方法和基于模型的方法,如图2-10所示。

图2-10 聚类分析的划分方法

(1)基于划分的方法。假设在一个数据集中存在m个数据对象,将这些数据对象划分为k类(k≤m),同时基于对数据集的划分必须满足每一类中都至少有一个数据对象,并且每一个数据对象只能在其中某一类中,对划分好的数据对象进行聚类优化,使得同一类的数据对象相似,不同类的数据对象不相似。其中,最常用、最著名的基于划分方法的聚类算法是K均值(K-means)算法和K中心聚类(K-medoids)算法。

(2)基于层次的方法。基于层次的聚类方法就是先将数据集中的所有数据对象分解,在此基础上构造一个新的层次。根据分解形成后的种类可以将层次方法分为凝聚聚类方法(自下而上)和分裂聚类方法(自上而下)。凝聚聚类方法就是首先设定每个数据对象均为单独的一个聚类,然后逐渐将这些单独的聚类按照一定的规则进行合并以得到更大的聚类,最后将所有的类合并,使得聚类结果能够满足一定的终止条件。分裂聚类方法就是首先将所有的数据对象当作整体的一个聚类,然后将其逐渐分解,使得每一个类中包含更少数据对象,直到所有的数据对象全部变成单独的类或者符合特定的条件才终止。例如,CURE算法、BIRCH算法等都是非常典型的层次聚类算法。

(3)基于网格的方法。基于网格的方法就是利用空间中的多维网格将数据对象进行聚类。所有的数据对象都是在这个多维网格中进行聚类运算,这就直接导致在聚类的过程中不需要考虑数据对象的个数,只需要计算每一个网格中被划分了多少个数据对象。典型的基于网格的聚类算法如STING算法等。

(4)基于密度的方法。基于密度的方法只能应用于数据对象为圆形或者球状的类中,如果数据集是不规则形状的,那么基于密度的方法不能很好地达到聚类目的。首先设定一个阈值,将密度较大的数据对象规划为一类,然后不断将邻近的数据对象划分到该类中,直到达到设定的阈值。基于密度的方法还可以更好地消除数据集中的异常数据,使得最终聚类结果的正确性得到了很大的提高。DBSCAN算法就是典型的基于密度的方法。

(5)基于模型的方法。这种方法就是对每一个数据集设定一个模型,然后对数据集中的每一个数据对象进行处理,将这些数据对象划分到相应的模型中。这种方法可以自动地考虑异常数据的影响,通常应用在统计方法与神经网络方法中。

聚类算法常一般应用于大型数据集,由于单独使用一种聚类算法很难达到预期的效果,在实际应用中往往会将多种聚类方法结合起来进行计算划分。

2.2.1.4.2 聚类分析数据结构

(1)数据矩阵。数据矩阵本质上是用来描述数据结构的,n个对象可以采用m个属性来表示。例如,n种不同的手机品牌可以用不同的价格、功能和颜色等m个属性来表示。数据矩阵采用n×m矩阵形式,如式(2-1)所示。

(2)相异度矩阵。数据矩阵用来描述对象与变量之间的关系,而相异度矩阵则用来描述对象与对象结构的关系。很多聚类算法都是基于相异度矩阵来对数据集进行研究探讨的,相异度矩阵用来表示存储在数据集中所有数据对象两两之间的差异性。假定数据样本中有n个数据,则相异度矩阵采用n×n的形式来表示,如式(2-2)所示。

式(2-2)中d(x,y)表示的是对象x和对象y的差异程度,而这种差异度是用距离的方式来表示的,因此d(x,y)是一个非负数。

距离越小表示对象之间越相似,反之,距离越大则对象之间差异性越大。样本实体的行和列表示不同的实体,为数据矩阵;行和列表示相同的实体,则为相异度矩阵。

2.2.1.4.3 聚类分析准则函数

在对海量的数据集进行聚类分析的过程中,要想确定数据集中相似的数据对象已被规划为一类,需要引用准则函数(又称为目标函数)进行判断。准则函数的目的是使类内相似度和类与类之间相异度均达到最大化。在聚类分析的过程中,一般使用以下3种方法判断聚类过程是否结束。

(1)误差平方和准则。误差平方和准则是在聚类分析中判断数据集是否收敛的最常用的方法。如果数据集样本中的数据对象比较密集,并且样本之间的数目差距不大,使用误差平方和准则可以得到很好的聚类分析结果。设定目标函数J共有C个样本集,可得到式(2-3)。

其中,mi表示样本wi的均值,计算式(2-4)。

由式(2-3)和式(2-4)可以得出,目标函数JC取决于样本中心C值。C值越小,目标函数JC越小,最终的误差越小;反之,C值越大,误差越大。

(2)加权平均平方距离和准则。加权平均平方距离和准则的定义如式(2-5)所示。

其中,Pi表示先验概率,即各类数据样本的数目与数据样本总数的比值,表示数据样本间类内的平均平方距离,如式(2-6)所示。

其中,Xi有ni个数据样本,这样每两个数据样本组合就会出现种情况,则表示全体数据样本之间的距离和。

(3)类间距离和准则。类间距离和准则是为了描述不同类之间的距离分布状况,具体分为一般类间距离和准则Jb1,以及加权类间距离和准则Jb2两种。这两种定义公式分别如式(2-7)和式(2-8)所示。在式(2-7)和式(2-8)中,mi表示i个数据样本之间的均值距离,m表示所有数据样本的距离均值。因此,Jb越大,每一类之间的差异度就越大,聚类分析的结果就越明显。

2.2.1.4.4 K-means聚类算法

K-means算法历史悠久,是划分聚类算法的典型代表之一,以局域原型的目标函数进行聚类,该算法在处理均值数据时快速、有效,计算复杂度时具有可扩展性等特点。K-means算法是以数据点到原型的某种距离作为优化的目标函数,以欧式距离作为相似度测度,采用误差平方和准则函数作为聚类准则函数,利用函数求极值的方法得到迭代运算的调整规则。该算法是一种经典的通过不断迭代下降的方法对数据集进行划分的算法,它可以在没有任何标号的情况下自动发现簇与簇的中心点,已经成为科学技术、工业和商业等众多领域的信息数据挖掘工具。为了能够对散乱的客户需求进行精简合并及归类,去除冗余信息,并对处理后的客户信息进行需求信息特征分析,本书利用K-means算法对需求进行分类归纳。图2-11显示包含两个聚类的K-means聚类过程原理图。

图2-11 包含两个聚类的K-means聚类过程

1.K-means聚类算法的原理

K-means算法的基本工作原理如下:首先随机从数据集中选取K个点作为初始聚类中心,然后计算各个样本到聚类中的距离,把样本归到离它最近的聚类中心所在的类。计算新形成的每一个聚类的数据对象的平均值来得到新的聚类中心,如果相邻的聚类中心没有任何变化,说明样本调整结束,聚类准则函数已经收敛。本算法的一个特点是在每次迭代中都要考察每个样本的分类是否正确。若不正确,则继续调整,在全部样本调整完后,再修改聚类中心,进入下一次迭代。如果在一次迭代算法中,所有的样本被正确分类,则不会再进行调整,聚类中心也不会有任何变化,标志着已经收敛,因此算法结束(如图2-12)。

图2-12 K-means聚类算法流程

通常采用的准则函数为平方误差和最小目标函数,即SSE(sum of the squared error),其定义如下。

式中,SSE是样本集中所有对象的平方误差总和,p代表每个数据对象,m是每个簇C的平均值。

2.K-means聚类算法的计算过程

K-means算法的大体过程如下所示。

(1)给定大小为n的数据集,选取k个初始聚类中心Zj(i),j=1,2,3……k。

(2)计算每个数据对象与聚类中心的距离D(x,Zj(i)),i=1,2,3……n,j=1,2,3……k,如果满足D(xi,Zk(I))=min{D(xi,Zj(I)),i=1,2,3……n},则xi∈Ck

(3)计算k个新的聚类中心。

(4)判断:若Zj(I+1)≠Zj(I),j=1,2,3……k,则I=I+1,返回(2),否则算法结束。

依据上述K-means算法的计算过程,运用C++语言编程将上述计算过程形成程序代码来支持(对语句信息的聚类详见附录11)。

3.K-means算法的优缺点

K-means聚类算法具有算法思想简单、运行速度较快等优点,因此得到了人们的广泛关注。K-means聚类算法的优点包括:①在处理数据集时,K-means算法不仅在处理数值型数据集的过程中具有较强的鲁棒性(Robust的音译,是指在异常和危险情况下系统生存的能力),而且也可以应用于有文本与图像型的数据集中。该算法在处理类与类之间差别非常明显的数据集时,可以得到理想的聚类划分。②使用K-means算法对数值型的数据集进行聚类划分时,其聚类结果对于数据对象输入的前后顺序没有要求。因为K-means算法在运行过程中,利用距离公式计算的是每一个数据对象到所有中心点的距离,从而把数据对象划分到各个类中,所以该算法不会因为输入数据对象的前后顺序而导致最终的聚类结果出现较大的差异。③K-means算法可以处理大范围的数据集。如果多个数据集之间相互交错,该算法也可以很好地对其进行聚类。在此过程中不需要对多个数据集中的数据对象相互指定信息,在实际的应用中非常有效果。

虽然K-means算法拥有众多显而易见的优点,但是其同样存在很多缺点,这些缺点使其在实际应用中存在着诸多局限。K-means算法的主要缺点包括:①在实际应用中,该算法需要人们事先设定聚类个数k值的大小,有时候最先设定的k值出现偏差(过大或者过小)会影响聚类结果。②在大数据中难免会出现孤立点,K-means算法通过迭代对数据对象进行分类,孤立点的存在就会使得迭代次数增加,直接影响聚类分析的计算速度,甚至影响最终的聚类结果。③K-means算法一般也只能发现球状型数据,对于不规则的数据,该算法很难准确计算并予以划分。