4.6.1 行为分析技术
1.基于点击流的用户行为分析技术
点击流分析法是Web访问信息挖掘的方法之一,利用数据挖掘等技术对点击流数据进行分析来达到不同的目的。它通过分析采集到的用户在站点上的运动情况,跟踪记录访问过的链接点,包括用户的来源地点,浏览站点的路线和最终到达的目标,链接分析包括对点击过的链接的观察,它们在屏幕上的相关位置,用户在网页上停留的时间以及点击过的链接间的关系和最终结果通过对这些数据的有效分析,能够对网站的建设起到指导作用。点击流分析已经成为网站运营状况,了解用户行为的有效工具。点击流技术包括聚类挖掘、KNN(K-NearestNeighbor)分类方法、自组织图等。
2.基于机器学习的文本分类研究
文本分类任务长期以来是自然语言处理(Natural Processing Language,NLP)中的一个研究热点,在许多领域有着广泛的应用。对于用户在线行为分析来说,文本是最主要的一类数据格式。用户所浏览的内容大部分情况下以文本为主,其中蕴含着该用户的个人兴趣爱好。许多新闻门户和推荐系统均通过利用各种机器学习方法对用户浏览的文本内容进行提取特征,然后通过分类或聚类的方式来识别用户的兴趣偏好(如财经、体育或科技),并进行相应的内容推荐。文本分类方法主要分为两大类,分别是:基于传统机器学习的方法和基于深度学习的方法。早期的研究主要以各种传统的机器学习方法为主,如支持向量机SVM、决策树、逻辑回归、随机森林、朴素贝叶斯等,其主要流程是对文本进行预处理、特征提取,然后将处理后的文本向量化,最后通过经典的机器学习分类算法来对训练数据集进行建模。在传统的文本分类方法中,文本的特征表示及特征提取文本分类的精度有很大的影响。近年来,许多学者提出各种基于深层神经网络模型的文本分类方法,例如卷积神经网络(Convolutional Neural Network,CNN)模型[146]、循环神经网络(Recurrent Neural Network,RNN)模型[147]、注意力模型[148]和对抗训练方法模型[149]等,并取得一系列优良的效果。这些工作主要是利用各种基于大规模无监督文本语料训练所得的词向量给出句子的特征表示,然后针对具体的分类任务设计相应的神经网络模型并进行优化。