3.4 案例分析

3.4 案例分析

本节我们通过网页对特定信息进行抽取,并展示关于网页内容抽取的应用。抽取目标很简单,即不限定抽取范围,在尽可能广的范围内抽取网站中有关温州的网站(企业),其中采集重点除了常规的网站,也提供了一些种子,主要涉及一些黄页网站。

具体抽取信息包括:网站(企业)名称、网址、所在地,该抽取过程也就实现了非结构化或半结构化网页到结构化数据的转变。对于部分不能直接获取所在地的企业或网站,则通过自动化的方式调用搜索引擎定位网站,并获取网站源码提取其所在地信息。

基于如上提取信息,我们进行一些简单分析,借此展示网页数据抽取技术的应用价值。本节的另外一个目标即对温州网站进行广泛的调研,通过网站分析温州企业的分布情况和行业状况,并对温州互联网科技公司的现状做简要的描述。