术语表
术语表
Cohen’s Kappa系数 这是一种被广泛使用的系数,可用来做一致性检验,也可以用于衡量分类精度,在SPSS等统计软件中可以直接计算。
robots.txt协议 是一组针对机器人(如网络爬虫)的指令,一般可在网站的源文件中找到,主要用于管理机器人(如网络爬虫)在网站上的行为。
Scott's Pi 指数 信度指标之一。弥补了霍斯提公式的缺陷:π=(π0-πe)/(1-πe)
百分数(Presentation) 取值的个案占总样本的比例。(频数/样本量)× 100%
半结构式访谈(Semi-structured Interviews) 介于结构式访谈与无结构式访谈两者之间的,即研究人员只准备了大致的访问提纲,对访问有粗略要求,但根据不同受访者可以灵活调整。
保留关键字(Reserved keyword) Python中已经定义好的字,用户在进行变量命名等行为时无法占用。
比较等级量表(Comparative rating scale) 是使用最为广泛的量表之一,包括等级顺序量表(Rank-order scales)、固定总和量表(Constant sum scales)以及配对比较量表。
比例分成抽样(Proportionately stratified sampling) 按照各层所占比例进行样本抽样的方法。
编码(Code) 在资料归类的过程中,将对所发现的感兴趣的资料通过约定好的数字或符号进行替换的过程。
编码员间信度(Inter-coder reliability) 不同编码员在使用内容分析法进行编码时的一致性程度。
便利抽样(Convenience sampling) 也叫方便抽样,偶遇抽样,是一种纯粹根据调查人员方便与否来决定选取样本的抽样方法。
编码表(Code sheet) 事先或过程中约定好的编码指南。调研人员在编码过程应严格按照编码表进行。
参数(Parameter) 总体表现出的所有特征被称为参数,也被称为总体值。它是关于总体的指标——是客观存在的。
测量(Measurement) 指通过某种方法系统的描述或量化对象及其特征的过程。
测量层次(levels of measurement) 由于目标对象的特殊性、具体性,使得对它们的测量也就有了不同的层次和标准。所有的量表测量可以被分为四种基本层次:定类、定序、定距和定比。
抽样(Sampling) 即按一定的程序,从所要研究对象的同质总体中抽出部分样本进行调查的过程
抽样误差(Sampling error) 测量结果与实际结果间由于抽样方法自身缺陷所导致的误差。
词语联想测试法(Word association test) 是一种在访谈过程中让被试者按照一种简单的规则,对给出的特定刺激性词语做出自己的联想与反应的测试方法。
递归(Recursive) 实际运用中,变量间的相互影响被将之称为递归。
迭代(Iteration) 研究人员在研究的过程中可能发现之前未知的信息,从而修正最初的观点和假设,并根据新的假设继续展开研究,这一过程被称为迭代。
定比测量(Ratio measures) 也被称为等比测量或比例测量,是最高等级的测量尺度。可以通过绝对0点来对不同的答案进行比较。
定类测量(Nominal measures) 也被称为类别测量,是最常见、最基本的测量层次,其实质是对目标对象的分类。
定序测量(Ordinal measures) 也被称为等比测量或比例测量,测量的值不仅能够代表事物的分类,还能代表事物按照某种特性的排序。
定距测量(Interval measures) 也被称为间距测量,其值不仅可以比较大小,且两个值的差有实际意义。它不仅可以将对象分为不同的类别、等级,还可以代表所测对象与一个特定对象的差异程度。
多级抽样(Multistage sampling) 多级抽样又被称为多段抽样或分段抽样,是按抽样元素的层次关系,将抽样过程分为几个阶段进行。一般多采用二级抽样。
反例分析(Negative case analysis) 是指研究人员通过刻意地寻找与原观点、假设相矛盾的案例,通过对案例的分析重新检视观点。
方差与标准差(Variance and Standard deviation) 表示分布对平均数的偏离程度或伸展程度的度量,反映一组数据的平均离散水平。
房屋树人测试(house-tree-person test,HTP) 该测试通过要求被测者画一所房子、一棵树和一个人来衡量自我认知和态度。
访谈法(Interview) 指的是研究人员与受访者之间围绕特定主题进行深入交谈,从而帮助调研人员获得对相关研究问题的深入认知。
非比例分层抽样(Disproportionately stratified sampling) 根据各层对于调研目标的重要程度进行抽样。
非抽样误差(Non-sampling error) 指在抽样调查中由人为因素造成的误差,如调研人员对调研目标把握不准确、马虎、心情差,受访者拒绝配合、不认真作答等都会导致非抽样误差的出现。
非概率抽样(Non-probability sampling) 不按随机原则进行的抽样。在非概率抽样中,每个抽样单位被抽取的概率是未知的。
非结构化问题(Unstructured questions) 也称开放式问题,它没有固定的选项,允许受访者组织答案。
分层抽样(Stratified random sampling) 分层抽样又称类型抽样,是先将总体所有单位按某些重要特征分成若干互不重叠的子总体(层),然后在各个子总体中采用简单随机抽样或随机抽样(抽取方法一般按各层占总体的比例)的方法。
浮点型(Floating-point) Python值的类型之一。
符号(Sign) 由能指和所指构成。
赋值(Assignment) 将值赋给变量的过程。
概率抽样(Probability sampling) 也称随机抽样,每个既定目标总体中的抽样单位被抽为样本的概率是已知的。
观察法(Observation research) 指不通过交流而系统地记录事件、现象以及人员或事物行为模式的过程。观察法既包括观察人又包括观察现象,既可以由人员来进行(人员观测),又可以由机器来进行。
归类(Categorization) 在整理资料时根据已有的经验和判断将搜集到的文本内容进行分类(如记名、标签等)的行为。
滚雪球抽样(Snowball sampling) 指通过少量样本获得更多调查单位的抽样方法,也被称为连环抽样。
行为意向量表(Behavioral intention scale) 被用来评受众对某种产品或服务做出对应行为的可能性,如观看意向、参与意向、购买意向等。在预测受众选择时经常被使用。
后测(Posttest) 发生在实验影响之后的测量。
霍斯提公式(Holsti) 编码员信度计算公式(a=2M/N1+N2),是编码员间信度的计算公式中最简单的一种,但它并没有考虑到随机因素带来的一致率现象。
极差(Range) 最大值和最小值之间的距离,为一组数据的最大值和最小值之差,常用以描述偏态分布。
假设检验(hypothesis testing) 又称显著性检验,是根据一定假设条件由样本推断总体的方法。假设检验的基本原理是小概率事件,即小概率事件在一次观察中不应该出现,如果出现了,则可以拒绝原假设。
简单随机抽样(Simple random sampling) 简单随机抽样又称纯随机抽样,是从总体N个单位中逐个不放回地抽取n个单位作为样本(N>n),从而保证每次都是在所有未进入样本的单位中等概率抽取(每个抽样单位被选中的概率是相等且已知的)。
交叉表格(Cross Tabulation) 是一种常用的分类汇总表,当需要分析的变量有一个是定类或两个都是定类变量时,可以使用交叉表格来清晰展示变量间的关系。
交叉研究可靠性(Cross-researcher reliability) 指研究人员相互间对同一文本编码的相似性。
焦点小组访谈(Focus group interview) 指的是专业主持人以一种半结构的(或者是无结构的)、自然的形式与一个小组的被调查者交谈,主持人负责组织讨论,从而深入了解被访问者对某一种产品、观念或组织的观点看法,也被称为群体深度访谈法。
结构化问题(Structured questions) 也称封闭式问题,它要求受访者从有限的答案中选择适合自己的回答。
结构式访谈(Structured interview) 也称标准化访谈,需要研究人员事先按统一标准编制好需要受访者回答的所有问题,并在现场依序提问,不同受访者的回答将按规划好的方式记录并进行归类,整个访谈受到研究人员(访员)的高度控制。
句子完成测试法(Sentence completion test) 指研究人员向受访者提供一系列未完成的句子,要求受访者根据自己的思考快速的将句子补充完整。
均值(Mean) 反映一组呈对称分布的变量值在数量上的平均水平。
卡方检验(Chi-square analysis) 一种用途广泛的假设检验方法,可用来帮助判断变量间有无关系。
可信度(Credibility) 在量化研究中,研究人员通过对测量数据信度(可靠性)和效度(有效性)的阐释来建立研究结论的可信度。质化研究结论的可信度(Credibility)源自于研究人员从资料收集到资料展示整个过程中。
控制组(Control group) 实验主体中不给予影响的组被称为控制组。
库(Library) 具有相关功能模块的集合,是Python的一大特点。
框架(Construct) 通过测量某些特征或属性而非对象自身的过程。
离散型(Discrete variable) 是指当变量的可能取值是一组自然数或整数时,变量为离散型,常见的定类变量和定序变量为离散型变量。
李克特量表(Likert scale) 是一种通过一系列的描述来探究受访者对相关事务认同程度(或不认同程度)的量表。以最初的设计者Rensis Likert命名。
连续型变量(Continuous variable) 变量可能取值无限连续,如定距变量。
量表测量(Scale measurement) 用一系列测量符号来表示受访者在回答特定对象、架构的相关问题时所可能做出的各种反应。
量化研究(Quantitative research) 是指通过问卷为主要形式,(主要)以封闭式问题为测量方法,选择大量样本对事物进行量化分析的研究方法。
量化研究分析(Quantitative analysis) 指研究人员通过一定的技术手段将所获得的资料(Data)转化为数字形态并对它们进行统计分析。
列表(List) 即序列,可由若干不同类型的值组成。
描述性调查(Descriptive Research) 通过将对象数字化后对目标对象(总体)特征所进行的描述。
明示义(Denotation) 存在于表层符号的意义。
模块(Module) 是Python中已有的、逻辑地组织成的代码。
目标抽样(Stratified purposive sampling) 指通过非随机的方法,根据研究的目的、设计从理论上选择合适的、具备某种指定特征的样本。
内容分析法(Content analysis) 是一种常用于对媒介内容进行研究的方法,是可重复地、有效地从资料中推论其情境(Context)的一种研究方法。
内置函数(Built-in function) 内置函数指被提供作为python自身一部分存在的函数。
能指(Signifier) 符号的物质形式,如声音或形象。
判断抽样(Judgment sampling) 也叫目的抽样,是凭借调查人员的主观意愿、知识背景等从总体选择有典型的样本作为调查对象。
配额抽样(Quota sampling) 也称定额抽样,是非随机抽样中最常被使用的抽样方法。所谓配额指划分出中体各类型后,并分配一定数量,从而组成调查样本的方法。
频数(Frequency) 指某一个取值的个案数。
普查(Census) 对总体中每一个个体所进行调查,最为典型的普查就是为十年进行一次的全国人口普查。
前测(Pretest) 发生在实验影响之前的测量。
切片(Slice) 返回字符片段,其语法为:字符串/字符串变量名 [n:m],n和m为字符片段首尾两个字符的索引位置,但只包含n,不包含m。
萨尔特曼隐喻抽取法(Zaltman Metaphor Elicitation Technique,ZMET) 是一个通过将图片嵌入到访谈,利用非文字语言图像和隐喻而非文字语言方式直接表达的过程。
三角测量法(Triangulation) 通过多元的研究手段来扩展研究人员的研究视野,提升研究过程的深度、广度和维度。通常用来表示在一项研究中使用两种(或两种以上)方法来对同一主题的结果进行检测。
深度访谈(In-depth Interview) 一种直接的、个人的访问,在访问的过程中,由充分掌握访谈技巧的资深研究人员对调查对象进行面对面、一对一的深入交谈,一般由一系列半结构化、无结构化的、试探性的问题以及围绕这些问题展开的对话构成,用以获取对问题的深度理解并揭示受访者对某一问题的潜在动机、信念、态度和行为趋势。
实验法(Experimental method) 又称因果性调查,所谓因果性调查就是决定一种变量是否能够引起另一变量产生可观察到的变化的调查方法。
实验室实验(Laboratory experiment) 是指在人为控制环境下“真实”地研究变量间的关系。
实验组(Experimental group) 实验主体中接受实验影响的组被称为实验组。
数据录入(Data entry) 是将数据录入到计算机为后续数据分析做准备的过程。
数据清洗(Data Cleaning) 对脏数据的处理过程被称为数据清洗。
数据验证(Data validation) 用来确认研究方法(调查、访谈、观察等)的执行过程是否正确。常用的验证方法有三种:对数据进行简单处理,观察有无违背经验;与其他数据来源进行比较;回访。
四分位差(Quartile deviation) 是由第3四分位数与第1四分位数相减得到,常和中位数一起描述偏态分布,即75%位置的取值减去25%位置的取值所得。
缩进(Indent) Python是通过缩进进行逻辑判断。
所指(Signified) 符号所反映的事物。
索引(Index) 资料检索方式,其中字符串索引的语法为:字符串/字符串变量名 [n],n为索引位置。
探索性调查(Exploratory Research) 常在两种情况下被使用,一种是通过基于主要目的下的信息获取,进而明确或界定问题,为下一步量化研究指明方向。另一种针对调研目的要求深入地了解目标对象的心理、文化等时。
条件语句(Conditional statements) 也称if语句,指根据条件,改变程序相应的行为,即在特定情况满足下来执行相应语句。
调查法(survey research) 在本书中是指通过问卷取得相关资料的方法。
调用(Call) 通过变量名称获取值的过程被称为调用。
同行评审(Peer review) 一种常用于质化研究结论可行程度的检查方法。
统计量(Statistic) 样本表现出的特性,也被称为样本值。
投射法(Projective techniques) 是采用一种无结构的、间接的方式,鼓励受访者将情感“投射”到人为设定的情境中,从而探究受访者隐藏在表面下的真实情感、意图和动机的方法。
外部变量(Extraneous variable) 又叫无关变量,是影响实验实体反应的除自变量之外的其他所有变量。
文本(Text) 是一组连贯的符号,传递某种信息。
问卷(Questionnaire) 是为了搜集第一手的数据而设计的一系列的问题和量表。
无结构式访谈(Unstructured interview) 也被称为非标准化访谈。在无结构式访谈中,研究人员只确定一个大致的访谈主题和范围,而不是先确定问题及提问顺序,受访者可以在访谈范围内畅所欲言。
系统随机抽样(Systematic random sampling) 系统随机抽样也叫等距抽样或机械抽样,是与简单随机抽样类似的一种等概论抽样方法。它要求将总体的每个个体编号,并按照一定顺序排列,然后按一定间隔选取样本。
现场实验(Field experiment) 叫实地测验,指当无法控制外在变量时,研究人员选择在实际环境中进行实验的方法。
效度(validity) 又被称为量表的准确度,指测量结果和实际结果的一致性程度,或者说量表能够准确地度量客观事物的程度。
信度(reliability) 指采用相同方法对同一对象进行反复测量,量表产生相同或近似测量结果的程度。
虚假数据(Curbstoning) 指的是访员在调查过程中不对受访者进行数据搜集,而是由访员自己虚假填写所得的数据。虚假数据的存在使得数据验证成为整个量化研究的重要环节。
选择编码(Selective coding) 研究人员需要确定一个核心的问题作为构建其研究的基石,这一个过程被称为选择编码(Selective coding)。
研究设计(Research Design) 对调查研究全过程的设计。对于调研而言,没有绝对正确或绝对错误的调研设计,只有合适与否、有效与否的调研设计。
样本(Sample) 由从总体中按一定程序选取的部分个体或抽样单元组成,一般用小写字母n来表示。
样本框(Sampling frame) 定义了目标总体后所得到的符合条件的全部抽样单位
因变量(Dependent variable) 即实验所观察的变量。即实验结果,观察值。
隐含义(Connotation) 存在于里层符号的意义。
用户绘图测试法(Figure drawing test) 受测者被要求画出一个人、一个物体或一个情景,以便研究人员根据图画评估受测者的认知水平、人际关系或心理特征。
语义差异量表(Semantic differential scale) 也被称为语义分化量表。
脏数据(Dirty read) 是指数据格式可能不对、同一个名字可能存在不同的拼写方式、输入失误、数据缺失、数据质量问题、数据样本有偏向、甚至数据部分或全部都是假的。
整群抽样(Cluster sampling) 整群抽样类似于分层抽样,是将总体划分为若干不重叠的群,假定每个群都能代表目标总体的所有特性,然后在所有的群中再随机抽取若干个群,对抽中的这些群内的所有个体或单元全部进行调查的抽样方法。
整型(Integer) 在Python中值的一种类型。
质化研究(Qualitative research) 针对包含有文本、图像、音频或视频等的定性资料以小样本为基础的无结构的、探索性的研究方法。
置信区间(Confidence interval) 用来反映抽样的精确度。置信区间越大,则抽样精确度越低,误差范围则越大;置信区间越小,则抽样精确度越高,误差范围则越小。
置信水平(Confidence level) 指总体参数值落入样本统计值某一区间的把握性。
中位数(Median) 表示一组数据按照大小的顺序排列时中间位置的那个数值,即针对某个变量,有50%的个案的取值在中位数以下。适用于偏态分布资料和一端或两端无确切的数值的资料。
中文分词(Chinese word segmentation) 指的是将一个中文文本(由汉字组成的序列)切分成单独的词。
众数(Mode) 表示一组数据中出现次数最多或最常见的数值。众数适合用于描述定类变量和定序变量。
主持人访谈指南(Moderator’s guide) 主持人访问指南并不是一份由详细问题构成的“问卷”,而是有吸引参与者思考、讨论和互动的话题或问题提纲。
主观有效性(Emic validity) 研究的结论是否与社会认知相一致。
主题统觉测试法(Thematic Apperception Test,TAT) 通过所提供一系列素描图片刺激被测试者完成一个故事,从而诱导出被测试者的生活经验和个人倾向,由美国心理学家亨利·默瑞于1935年发明。
自变量(Independent variable) 也被称为刺激变量或实验刺激,指由实验者控制的变量和因素。
自定义函数(User-defined function) 自定义函数则是指由使用者定义并使用的函数。
字符串(String) Python值的一种,是字符的序列。
总和量表(summated ratings) 也称总加量表或总评量表,是一组根据受访者同意或不同意对相关概念的态度陈述所构成并计分,通过对受访者所有选择的得分总和来表现受访者对该事物(概念)的态度。
总体(Population) 总体或同质总体,是指提供所需信息的全体,一般用大写字母N表示。