知识发现和数据挖掘视角下的上海建筑文化研究[1]

知识发现和数据挖掘视角下的上海建筑文化研究 [1]

刘 刊[2]

信息科学和文献数据库的不断发展,为科学计量和知识可视化分析提供了坚实基础,随之产生的文献计量、信息计量、网络计量等不仅为传统科学计量注入新的研究方法和思路,也拓展了从量化分析中开展城市建筑文化研究的可能。20世纪80—90年代,伴随计算机和信息技术发展的第三次浪潮,产生了面向应用的数据库系统以及形式多样的共享数据库、空间数据库、多媒体数据库、知识库、全球信息库(Internet)等等。数据量和信息数目的急速增加,使得仅仅依靠查询和检索已经无法从海量信息中定位并获取有效信息,同时出现的一些负面效应,如信息爆炸、信息灾难等,使得信息量过饱和,信息难以消化。此外,信息真伪难辨,出现大量冗余信息,甚至还有信息数据安全问题和网络知识产权等新议题。数据信息的急速膨胀造成知识网络的迅速扩张,也带来了无法避免的数据过滤难题。

知识发现和数据挖掘从学科交叉的视角,为建筑设计理论与方法研究提供了计量方法和信息可视化工具。最早以数据库发现知识(knowledge discovery in database)为提法出现,概括出“从数据库中发现隐含的、先前不知道的、潜在有用的信息的过程”(Frawley,Pisatesky Shapiro,Matheus,1991)。相近的同义名称如:数据发掘(data mining)、知识提取(knowledge extraction)、信息发现(information discovery)、信息收获(information harvesting)、数据考古(data archaeology)等。根据《知识发现与数据挖掘进展》中对知识发现的定义,数据选择、数据预处理、数据变换、数据挖掘、模式评价等步骤形成了知识发现的全过程。信息科学领域针对文献数据的知识图谱与可视化作为交叉研究方法在众多领域得到广泛应用,建筑学的知识网络具有设计实践和历史理论并举的特征,因此在建筑学本体的知识积累过程中,既有大量具有非结构化属性的来自不同阶段的设计图档、分析图纸或概念图等文本数据,也有结构化的档案数据库和文献资源等。随着特大城市在精细化管理中城市建设数据资源的系统化,以及网络化和可视化数据资源为计算机程序进行数据处理提供的便利,上海城市发展过程中积累了大量城市建设档案数据和文献数据,通过知识发现和数据挖掘可探测海量数据中的建筑实践谱系关系,使半结构化的数据资源应用于城市和建筑文化研究之中。