3.1.1 青花瓷图像的获取
为了保证数据来源真实可靠,经过调研最终确定选择故宫博物院提供的陶瓷藏品,同时为了快速批量获取各个年代的青花瓷图像,我们使用网络爬虫技术从故宫博物院官网批量获取各个年代的青花瓷图像(郭丽等,2021)。网络爬虫技术相比人工获取数据能大量节省时间,同时能够在海量数据中快速、准确找到获得所需的年代藏品数据。爬虫使用的编程语言是Python和JavaScript,依赖库主要是lxml、js、py_mini_racer、Scrapy、Pillow、OpenCV等。其中lxml是一个使用C语言编写的第三方库,它结合了速度以及简单方法提起结构化XML的优点,对于在网页中提取数据很方便。
网络爬虫技术该方法作为一种数据采集工具具有显著的优点。首先,它具备快速、高效的特点,能够自动化地访问网页、提取信息,从而大幅提高数据获取速度。其次,网络爬虫能够实现大规模数据抓取,使得对广泛信息进行全面收集成为可能。此外,爬虫技术对于监测竞争对手、市场趋势以及进行科学研究等领域有着广泛应用,为用户提供了丰富的信息资源。然而,随着前端技术的不断发展,爬虫面临着一系列注意事项。首先,爬虫需要遵循合法合规的原则,尊重网站的使用协议,避免对服务器造成过大负担,以维护良好的网络伦理。其次,对于一些信息敏感、隐私保护的网站,爬虫的使用需要更为慎重,要确保数据采集的合法性和道德性。最后,随着爬虫技术的广泛应用,产生的大量数据也带来了数据隐私、滥用等问题,因此需要建立健全的法规和伦理准则来规范爬虫行为,维护互联网生态的健康发展。总体而言,网络爬虫技术在充分发挥其优势的同时,需要面对合规性、伦理性等方面的挑战,以确保其应用的可持续发展。本文在使用网络爬虫技术时,遵守相关法规和道德准则,确保数据采集的合法性和透明度,以促使互联网信息的有序发展。
在图像网络获取的过程中,会有一些不是青花瓷的图像被意外下载,对待这个问题,我们使用的是TensorFlow HUb的目标探测模型,对于不是瓷器的图像选择放弃下载,很大程度减轻了人工去错的压力。由于网络请求耗时太长,我们需要充分利用多线程提高效率,同时考虑Python多线程不能充分利用多核,加入了多线程也是我们提高效率的方法。
最终,使用网络爬虫技术获取到明清时期24个年代的青花瓷图像,为了之后使用深度学习模型进行青花瓷文物图像分类,通过筛选最终选择数据量较为丰富且具有代表性的10个年代青花瓷文物图像进行后续研究。其中,10个年代分别为:明成化、明嘉靖、明隆庆、明万历、明宣德、明永乐、明正德、清康熙、清乾隆、清雍正(图3.2)。选取的年代包含明早期青花、明空白期青花、明中期青花、明晚期青花以及清前期青花、清中期青花,在明清青花瓷制作史上具有相当的代表性。
图3.2 年代示意