11.4.2 数据采集

11.4.2 数据采集

1.选择数据库

专利分析数据库可以根据项目分析目标涉及的领域、分析目标涉及的分析项目的具体内容、数据库收录的文献数据分布上的特点以及不同数据库中的字段分布情况来选择适合本项目的数据库。

可用的免费专利数据库包括:国家知识产权局专利检索与分析系统、其他国家或地区专利局官网。

可用的商业数据库包括:德温特尔创新索引(DII)、万方数据库、CNKI数据库、SciFinder化学文摘数据库等;以及一些专门涉及专利分析的商业数据库,比如Innography专利检索分析工具、合享Incopat数据库、大为Innojoy数据库、DI数据库、智慧芽(PatSnap)数据库等。

2.制定检索策略

制定检索策略是整个专利分析工作中非常重要的环节。通常情况下,在对分析项目所涉及的技术内容进行分解后,应当尽可能地列举与技术主题相关的关键词和分类号,同时确定关键词和分类号之间的关系。检索过程中要根据检索结果来动态地调整检索策略,必要时进行检索结果的组合,以期得到合适的专利分析数据基础,数据基础如果不准确,势必导致分析结果的不专业,不能给出正确的意见和建议。

3.选择关键词

在选择关键词时要注意文献作者在撰写文件时的用词习惯,并考虑到每个关键词的各类不同写法、同义词、近义词以及上下位词;在外文数据库中检索时还要注意充分利用所载数据库的检索技术,比如截词符、逻辑运算符的使用,能够大大提高查全率和/或查准率。在对申请人或专利权人进行检索时,要了解机构的发展历史,确定是否出现更名、兼并等情况,搜集机构中文关键词集合。

4.分类号的选择

使用分类号检索的优点在于其准确性和高效性。但是分类号的划分往往比较上位,也有可能存在不够准确和全面的问题,因此通常需要结合关键词来构造检索式。分类体系的选择也要根据所分析项目的特点来进行选择。目前的专利分类体系除了IPC分类号以外,还有ECLA(欧洲专利分类体系)、UCLA(美国专利分类体系)、FI/FT(日本专利分类体系)和MC/DC(德温特分类体系)等。

5.数据加工

检索完成后,应当依据项目的技术内容对采集的数据进行加工整理,形成分析的样本数据集。数据加工一般包括数据转换、数据清洗和数据标引。

(1)数据转换:将检索到的原始专利数据转化为可操作的、方便分析和统计的数据格式。转换方法可以采用一些软件或程序实现不同数据格式的转换,也可以采用手动方式来转换处理一些软件无法处理的数据。

(2)数据清洗:在专利分析中,数据清洗是必不可少的步骤,未经过清洗的数据无法作为专利分析的基础。这是因为各国在著录项目与录入时,由于标引的不一致、输入错误、语言表达习惯的不同、专利法律状况的改变及重复或者同族专利等原因造成的原始数据的不一致性,如果对数据不加以整理或合并,在统计分析时就会产生一定的误差,进而影响到整个专利分析结果的准确性。数据的清洗一般包括:①申请人名称清理:由于申请人名称表述不一致,或者是申请人同一母公司包含多个子公司的情况,需要对申请人名称进行归并。②发明人名称清理:由于不同国家发明人拼写习惯的不同,需要进行归并。③数据格式的变换:根据分析工具的需要,对数据结构或格式进行变换,如,将TXT数据转换成XLS格式数据。

(3)数据标引:数据标引是指根据不同的分析目标,对原始数据中的记录加入相应的标识,从而增加额外的数据来进行特定分析的过程。可以对著录项目进行标引,也可以对相关专利的技术内容进行标引。