2.2 研究路径
2.2.1 研究样本案例数据获取和筛选
由于本文致力于跨境电信网络诈骗行为形成的影响因素研究,这就要求所选取的案例对诈骗者个人信息及其行为心理因素有较为翔实的描述。但由于对跨境电信网络诈骗犯罪案件相关的办案警员、犯罪嫌疑人等进行实地访谈,缺乏现实条件;而法院判决书真实权威、可公开获得,并且详尽记录了跨境电信网络诈骗犯罪主体的个人信息、参与诈骗过程、诈骗团伙组织行为特征等,为本研究提供了很好的素材。此外,近年来有关跨境电信网络诈骗的报道占据了网络、电视、杂志等各大媒体头条,从第三方的角度较为客观的对跨境电信网络诈骗的犯罪主体及其行为进行了评述,为本研究编码案例选择提供了丰富的支撑。因此,本研究以跨境电信网络诈骗相关法院判决书为主,以相关新闻报道为辅进行案例收集。其中,在对法院判决书的选择上,由于“中国裁判文书网”是由最高人民法院依照权威、规范、便捷的原则建立的全国法院规范统一、全球最大的裁判文书网,文书种类齐全、更新及时、分类清晰;而“无讼”案例是目前中文世界更高效、易用、智能的案例检索工具,可以以其自有的关键词系统为用户提供精准、快速、全面的案例搜索体验。因此,本研究主要从中国裁判文书网和无讼案例中选取跨境电信网络诈骗相关的法院判决书。在对新闻报道的选择上,由于可以从百度网页上直接检索获得跨境电信网络诈骗相关案例报道,并且央视CCTV-2的经济半小时、第一时间,CCTV-13的新闻直播间等栏目,以及各省市卫视,如上海卫视、广东卫视等,对跨境电信网络诈骗均有相关详细报道。因此,选取百度网页、央视及地方台为跨境电信网络诈骗相关报道的主要来源。
本文遵循理论抽样原则进行案例选择,以保证所选取的案例能够满足理论构建的需要[32]。同时,基于罪由、信息完整性和案例代表性三条标准来选取编码案例。其中,罪由是指诈骗者被判决的罪名,由于本文研究的是跨境电信网络诈骗,因此选取法院判决书的罪由为诈骗罪。信息完整性即选取对个人接触、参与并持续实施跨境电信网络诈骗行为的过程有较为详细描述的案例进行分析。具体地:①对个人如何接触跨境诈骗信息并同意参与境外诈骗团伙的过程有详细描述;②对新到境外诈骗窝点的个人如何开始实施跨境电信网络诈骗的过程有详细描述;③对境外诈骗团伙中的个人如何持续保持其诈骗行为有详细描述。而案例代表性即选择比较能集中反映跨境电信网络诈骗涉案金额高、危害范围大等特征的代表性案例,以提高案例研究的效度。具体案例收集步骤如下:
(1)从无讼案例和中国裁判文书网上,基于诈骗罪案由,并通过输入“境外、电信诈骗/网络诈骗”等关键词,初步检索抽取跨境电信网络诈骗相关法院判决书共234篇。
(2)从百度网页、央视及地方台中,基于“跨境电信网络诈骗”等主题检索,补充收集相关新闻报道68篇。
(3)对以上共302篇跨境电信网络诈骗相关法院判决书和新闻报道进行逐篇通读,并基于信息完整性和案例代表性,剔除掉与本文研究对象无关、有效信息缺失严重以及重复案例83篇,最终得到219篇跨境电信网络诈骗相关案例作为编码原始文本。其中,有效法院判决书175篇;有效新闻报道44篇。
部分参与编码的案例信息如表1和表2所示。
表1 部分参与编码判决书信息
表2 部分参与编码新闻报道信息
续表
2.2.2 案例关键词提取
针对筛选出的案例,本文首先对每个案例文本进行内容分析,具体做法是①文本标签化:对案例文本进行逐字逐句分析,用最贴合原文语句的简单的词或句在任何一个与研究主题相关的信息可提炼处进行概括标注,生成标签,如原文语句“被告人赵某平,男,汉族,初中文化,户籍地湖南省衡东县”可以标注为“男性、初中文化”这两个标签。②关键词提取。在对原始案例材料进行初步分析,并生成大量标签后,将重复出现或相关联的多个标签进行同义词合并和简约,归类至关键词下面,如将标签节点“初中文化”“小学文化”归类为“文化程度低”这一关键词下面。按照上述步骤分析,本文从219篇跨境电信网络诈骗相关案例中提取出了38个关键词。由于文章篇幅限制,仅列举部分文本分析过程,如表3所示。
表3 部分关键词提取过程表
续表
所有关键词如表4所示。
表4 关键词列表
2.2.3 构建影响因素关键词的共现矩阵
通过将表4中的38个关键词分别在219篇跨境电信网络诈骗相关案例中出现的频次进行两两共现的统计梳理,构建共现矩阵。具体过程如下:在38个关键词中,一旦其中任意两个关键词出现在同一篇案例中时,便将这两个关键词的共现次数累计一次,在对收集的219篇案例遍历完成之后,将共现关系记入一个二维数组,这样就会得到一个38×38的对称矩阵,并将这个矩阵写入数据表,从而导出分析所需的Excel表格,即为关键词共现矩阵。部分影响因素关键词共现矩阵如表5所示。
表5 部分影响因素关键词共现矩阵
2.2.4 影响因素关键词的共词聚类分析
首先,使用Ochiia系数将影响因素关键词共现矩阵转化为相似矩阵。具体地,用表5共现矩阵中的每一个数字除以与之相关的两个关键词词频的乘积的开方,计算公式为
由公式(2.1)计算,即可得到影响因素关键词相似矩阵。相似矩阵中的数值越大,表示两个关键词的距离越近、相似度越好;反之,则表明两个关键词的距离越远、相似度越差。部分影响因素关键词相似矩阵如表6所示。
表6 部分影响因素关键词相似矩阵
其次,为了减小误差,方便进一步分析,用1与相似矩阵中的每个数字相减,得到表示两个关键词相异程度的相异矩阵。与相似矩阵相反,相异矩阵中的数值越大表示两个关键词的距离越远、相似度越差,而数值越小,则表示距离越近、相似度越好。部分影响因素关键词相异矩阵如表7所示。
表7 部分影响因素关键词相异矩阵
最后,把表7所示的相异矩阵输入SPSS Statistics 20.0进行系统聚类分析。具体过程如下:采用余弦间距控制变量,然后对关键词进行了组间连接聚类、最短距离聚类和ward聚类,通过对不同聚类方法得到结果的比较,发现使用组间连接聚类方法得出的影响因素聚类效果最为理想,并由此得出相应的系统聚类分析树状图,如图1所示。