2.1.2 数据清理与质量控制
在建模的前期数据收集过程中会收集到各种格式的数据,如二维地质图、钻孔记录、DEM、地球物理勘探数据。需要将各种数据转换成建模软件能够接受的格式,统一到同一个坐标系统中,并进行一致性处理,如:①二维地质图需要进行数字化,并提取各个界面的“线”文件;②钻孔记录需要进行数字化,并提取为“点”文件;③DEM 需进行栅格化,并“点云化”处理;④地球物理勘探数据需经反演、解译,并转换成“点”或者“线文件”。
人工操作无法筛选和处理如此多的地质数据和信息(Thierry et al.,2009)。在数据被用作建模和其他用途之前,执行数据清理和质量控制操作,可以将数据本身带来的不确定性降到最低。因此,在目前的研究中,所有的钻孔记录都会经过三步半自动的校正和管理。
(1)搜索输入错误、重复数据和描述缺失问题
在一个城市的地质数据库中,由于钻孔记录数量庞大、持续时间长、记录人员专业认知参差不齐,输入错误是不可避免的。通过ArcGIS工具中的可视化操作,将钻孔在建模区域的地图底图中显示出来,可以初步确定记录错误的位置坐标。提取同一位置重复的钻孔记录(特别是不同数据库中的匹配的重复钻孔),与周围钻孔比较彼此的高程记录、地层描述,并选择正确的描述。缺失重要信息的钻孔记录需从数据库中删除。
(2)钻孔记录的地面高程与DEM 高程一致性检测
钻孔的位置坐标以及起始高程值对地质模型的精度和可靠性有至关重要的影响。由于城市的快速发展,地形地貌经常被人类工程活动所改变。为了能合理利用地面及地面下的浅层地质剖面图,更应高度重视钻孔起始高程的垂直坐标。地质数据库中的钻孔记录时间跨度通常有几十年之久,在此期间,随着人类居住地的迁移,对记录区域地形的人为修改时有发生(Fernandez-Steeger et al.,2011)。因此,大多数垂直坐标在使用前必须仔细检查,排除不精确的数据,以避免进一步解释时不精确。
在GIS平台中,可对每个钻孔记录的表面高程和多个DEM 中提取的高程点进行绘制和相互比较。如果来自任意两个源的数据比另一个源的数据更一致,则将更一致的数据作为正确的数据。当一个钻孔的多源高程记录都有5m以上的差异时,为了建模精度考虑,放弃该钻孔数据以避免增加后续预测的不精确程度。
(3)相邻钻孔之间的地质描述一致性检测
由于钻孔记录来源广,有必要对相邻钻孔的地质描述一致性进行全面检查。根据钻孔密度划定一个比较半径,首先比较在半径内的钻孔,然后再扩展到边界外。例如,在德国亚琛市区的建模中,整个建模区间被划分为400个单元,每个单元的面积为200m×200m(见图2-7)。在绝大多数的单元中,都有至少10个钻孔。将所有的钻孔记录显示在三维平台中,每一种地质描述的上边界均由一种独特的颜色表示。然后对每个独立单元内的和两个相交单元之间(两个单元共用一个边)的钻孔进行比较。
如图2-7所示,网格1中的钻孔将与网格1、2、21中的钻孔进行比较,网格22中的钻孔将与网格22、2、23、42、21中的钻孔进行比较。
图2-7 为检测相邻钻孔一致性而划分的网格单元
验证相邻钻孔地质一致性的过程如图2-8所示。例如,有18个钻孔在一个网格内,它们被命名为BH01到BH18。在三维空间可以看到每个钻孔的钻孔路径。每个钻孔路径顶部的黄色塔表示地面上的钻孔位置。岩芯描述根据钻孔井下深度用沿钻孔轨迹的彩色球体展示,这里的钻井都是垂直钻井,每个地质体都被表示为一种独特的颜色。例如,BH06被记录了13个岩芯描述,属于同个岩性的前3个岩芯用褐色球表示,属于同个岩性的中间的7个岩芯用绿色球表示,属于同个岩性的最后3个岩芯用深蓝色球体表示。图2-8中,大部分钻孔的顶部的绿色球可以被连接在一起(显示为红色的线),这意味着可以初步确定一个连续的岩性边界。然而,在BH03、BH07、BH11和BH12中,所有的岩芯样品被记录成相同的岩性(显示为深蓝色的球),在三维建模的后续过程中需要格外重视这四个钻孔。
图2-8 在三维空间中检测相邻钻孔的地质描述一致性
邻近钻孔的地质描述一致性检测耗时较长,然而,此过程是确保所得到的三维模型的精确性的必要步骤。