六、大数据预测
(一)大数据的特征
大数据是最先经历信息爆炸的学科(如天文学、基因学)创造出来的概念。起初,这个概念是指需要处理的信息量过大,已经超出一般电脑在处理数据时所能使用的内存量,以至于工程师们必须找到新的工具才能处理的数据,这导致了新的处理技术的诞生。借助这些新的数据处理技术,大数据开启了一次大的时代转型。今天,大数据被认为是人们在大规模数据基础上可以做到的事情,那些事情在小数据的基础上是无法完成的(Viktoer Mayer-Schönberger和Kenneth Cukier,2013)。IBM公司指出大数据具有5V特征。
一是Volume(大量化),大数据以PB(1000 TB)、EB(100万TB)、ZB(1亿TB)为单位计量。
二是Velocity(高速化),即数据增长速度快,处理速度也快,时效性要求高。比如,搜索引擎要求几分钟前的新闻能够被用户查询到,个性化推荐算法尽可能要求实时完成推荐。
三是Variety(多样化),即种类和来源多样化,其种类包括结构化、半结构化和非结构化数据,具体表现为网络日志、音频、视频、图片、地理位置信息等,多类型的数据对数据的处理能力提出了更高的要求。
四是Value(价值化),大数据的价值密度相对较低,因此,如何结合业务逻辑并通过强大的机器算法来挖掘数据价值,是大数据时代最需要解决的问题。
五是Veracity(真实性),大数据中的内容是与真实世界中发生的事件息息相关的,研究大数据就是从庞大的网络数据中提取出能够解释和预测现实事件的过程。
(二)大数据预测与传统预测的差异
大数据被人们认为是获取新知识、创造新价值的源泉,是改变市场、组织及政府与公民关系的新方法。而大数据的核心是预测。与传统预测相比,大数据预测(Big Data Prediction)具有明显的思维差异(Viktoer Mayer-Schonberger和Kenneth Cukier,2013):
第一个差异是,大数据预测利用的是所有数据,而不再是一小部分数据。在大数据时代,“样本=总体”,人们不再需要通过随机采样来对总体进行描述,而是选择用最先进的技术对全面而完整的数据进行分析。在大数据时代,抽样分析就像是在汽车时代骑马,会逐步被人们抛弃。
第二个差异是,不再追求精确性,而是承认混杂性。精确性是信息匮乏时代和模拟时代的产物。在大数据时代,追求精确性几无可能,因为一些错误的信息总是会不可避免地混进数据库。而且,在大数据时代,也没有必要追求数据的绝对准确,因为数据规模的扩大会降低错误数据对预测准确性的影响。微软研究中心2000年一项有关Word程序中语法检查方法的研究表明,当数据只有500万的时候,一种算法表现很差,但当数据量达到10亿时,该方法的准确性超过了95%。而且,随着数据量的扩大,每一种算法的准确性都在提高。
第三个差异是,不再追求因果关系,而是探索相关关系,尤其是数据中隐藏的相关关系。在应用大数据进行预测时,知道“是什么”的重要性远胜于“为什么”。在大数据时代,人们不一定非得知道现象背后的原因,而是让数据自己“发声”。例如,大数据观测到A和B经常一起发生,因此,当B发生时预测A也发生了。尽管这种预测不可能100%准确,但它依然十分珍贵,因为传统预测方法也不可能做到100%准确。并且,大数据常常可以用在传统方法无法发挥作用的地方,如当传统预测所需的结构化数据缺乏时。
由上述分析可知,当确切的关系未知时,建立在相关关系之上的大数据预测是具有优势的。与传统预测相比,大数据预测更加准确、快速,且不易受偏见的影响。由于不受限于传统的思维模式和特定领域里隐含的固有偏见,大数据能为人们提供新的深刻洞见。因此,采用大数据预测,人们需要改变操作方式,使用能够收集到的所有数据而不是仅仅采用随机样本。同时,不再把精确性当成重心,而是接受混乱和错误的存在。另外,大数据预测侧重于分析相关关系,而不是通过因果关系来预测未来可能发生的事项。
就酒店市场需求预测而言,大数据技术的出现为酒店经营者打开了新的预测思维空间(祖长生,2021)。它将有助于提高无限制市场需求预测的准确性,而且可能为酒店找到有价值的新兴市场,帮助酒店制定更加有效的经营战略。目前,一些酒店借助携程的数据中心、美团的公明收益等大数据平台来监测市场变化、捕捉未来需求,进而提升酒店的收益和利润。短期住宿租赁服务平台爱彼迎(Airbnb)借助于大数据技术的研发应用和大数据资源的开发利用,颠覆了住宿行业的运营模式,正朝着无房源的全球最大旅店迈进。
(三)大数据预测的伦理困境
尽管大数据预测在酒店及相关行业中已经崭露头角并显示出巨大的发展空间,然而其所面临的一些伦理困境也不容忽视(蒋洁等,2014):
一是结果预判挑战自由。当大数据告诉求职者适合什么、什么不适合时,当大数据告诉研发团队个研发项目成功的概率极低时,个人自由发展、企业自主创新就可能被剥夺。同样,当大数据根据用户画像预测某种类型的酒店或房间更有可能被某个顾客选择进而持续向其推送同类产品时,顾客选择的自由可能也遭到了挑战。
二是隐私披露挑战尊严。在大数据时代,包括酒店顾客在内的广大用户陷入了以隐私披露为代价获取便利的个性化服务的尴尬境地。
三是信息垄断挑战公平。在大数据时代,信息化程度高的地区享有更大的便利。而那些来自落后地区的弱势群体则很难享受到同样的便利。从某种程度上说,他们享受服务或参与竞争的机会会被剥夺。
四是固化标签挑战正义。当保险公司基于大数据预测给出的死亡期决定是否接受用户投保时,当酒店或其他服务提供者基于大数据给出的健康风险评估决定是否接受某项预订时,对顾客而言,正义遭到了挑战。
因此,尽管大数据预测具有极大的优势,但其所面临的伦理困境不应被忽视。酒店企业在采用大数据技术进行预测时,应在预测效率与社会伦理之间取得平衡,尽量降低对人的自由、尊严和社会公平正义的伤害。