5.5.2 数据资料的统计处理、分析
数据资料的统计处理、分析包括描述分布和关联分析,首先可从各个角度描述各个变量的分布情况,描述分布可根据研究目的、设计要求,从时间、人群、地区的分布加以描述,如某一地区不同年龄、不同性别各种营养素和食物的摄入量,与营养有关疾病的患病率。数值变量资料可采用平均数、标准差等进行描述;对分类变量可采用有关率、构成比进行描述。两个变量之间比较可根据变量性质采用t检验、F检验等统计方法。分析疾病与某些营养素之间的关系时,应遵循先做单因素分析,再根据情况做多因素分析。如是分析多因素作用或去除混杂因素的作用,也应先用经典的分层分析方法,检出最重要混杂因素的作用,如果混杂因素太多,也可考虑应用多元回归模型。常用统计学软件例如SPSS、SAS软件等,进行统计学分析处理。
5.5.2.1 描述性分析
我们对调查对象进行测量得到一组连续数据,例如得到一组学龄儿童身高、体重等体格测量的数据,对待这些数据的统计处理可以用描述统计分析,也可以进行显著性检验。我们可以获得该调查人群的性别、年龄构成,身高、体重等数据的集中趋势(平均数)、离散趋势(标准差)等,以了解调查人群资料的分布概况。
1.频数、频率分析 频数是指落在各类别、各数值或数值区间中数据的个数,又称为次数,用f表示。把各类别、各数值或数值区间及其相应的频数全部列出即为其频数分布,表示统计数据频数分布的表格称为频数分布表。
(1)单项频数表:进行数据分析的首要工作是进行数据整理,即根据数据制表。最基础的表格是单向频数表或频率表,显示出对每一个问题,以及被调查者中给出的每一可能答案的人数。
(2)交叉分组表:许多调查在分析时都需要编制交叉分组表,其基本思想是结合对其他问题的回答来考察对某一问题的答案。如,我们可以分析性别不同的被调查者对糖果的好恶看法是否有差异,可采用分性别交叉分组表描述。
(3)数据的图形化:交叉分组表和单项分组表有助于我们了解调查的结果,而用图形来展示调查的结果则更直观、形象,且可以更充分地表达。调查数据的图形化较常用的有:①饼形图:用于反映基本结构,当分组不是很多时,可以采用饼形图;②柱形图:以长方形的高低长短来表示次数或频数,其制作简单,便于对比,广泛应用于实践中。
2.集中趋势的分析 对调查资料进行描述性的分析,能够获得对调查对象的基本的、初步的认识。进行描述性分析时,除了上述的图、表以外,还可以利用相关的统计指标进行数据的集中趋势和离散程度的测定。其中,数据的集中趋势分析,是用来反映数据的一般水平,常用的指标包括平均数、中位数、众数等。
3.离散程度的测定 数据的离散程度是用来反映各被调查对象在某一问题回答上的差异程度的。反映数据的离散程度的指标有极差、标准差和离散系数等。
5.5.2.2 多元统计分析
一切客观事物都是互相联系、互相制约的。我们不能孤立地、单一地看待调查数据,而要努力分析它们之间的本质联系,从总体上加以把握,需要对描述不同现象的多项变量进行大量统计,才能找到它们之间的内在联系,这种联系称为相关关系。相关分析的任务就是研究相关关系是否存在及其强度如何。多元统计分析在营养调查数据的分析中所占的地位越来越重要,包括多元线性回归分析、判别分析、因子分析等。
(1)列联表:常用两个分类变量之间寻求相关关系,一个分成了r类,一个分成了s类,就可以得到一个r行×s列的列联表,可以分析两个变量之间的相关系数,表示两个变量之间的相关关系。
(2)简单线性相关:在营养调查中,我们常常会对两个(定距)变量之间联系的紧密程度感兴趣。例如,儿童身高、体重之间的关系。样本的相关多数是一个统计量,用于描述两个(定距)变量x和Y之间联系的紧密程度。
(3)多元线性回归分析:多元线性回归是简单线性回归的推广,指的是多个(定距的)因变量对多个自变量的回归。其中最常用的是只限于一个因变量(定距的),但有多个自变量(A个)的情况,也叫做多重回归。多重回归分析的主要作用是:确定该因变量与自变量之间的关系是否存在,即用自变量所解释的因变量的变差部分是否显著。确定这种关系的强度,即因变量变差中的多大部分可以用自变量来解释。常用大型数理分析软件进行分析处理。