8.2.4 文本相似性分析

8.2.4 文本相似性分析

text2vec提供了以下函数集来测量变量距离/相似性。

·sim2(x,y,method):分别计算x*y个向量的相似性。

·psim2(x,x,method):平行地求数据的x个相似性。

·dist2(x,y,method):跟sim2相反,分别计算x*y个向量的距离。

·pdist2(x,x,method):平行地求数据的x个距离。

以影评数据为例,计算文档相似性,取前500条数据进行代码演示:

把现有数据分成两份,计算其相似性,代码如下:

由于需要在同一个向量空间比较文档的相似性,因此需要定义一个相同的空间和项目文档集,代码如下:

text2vec包提供了四种距离的测量方式,以杰卡德(Jaccard)距离为例进行说明。下面的示例代码将输出一个300×200的矩阵,矩阵中的元素就是dtm1和dtm2两个矩阵对应元素的杰卡德距离值。