实验1 数据分析、概率分布和数字特征
一、实验目的
1.掌握概率论中的基本概念;
2.熟练应用MATLAB中提供的命令求解数据分析、概率分布和数字特征.
二、实验原理
1.下面列出了MATLAB提供的部分数据分析的函数.
在给定的一组数据中,要进行各种均值的计算,在MATLAB中可由以下函数实现.
mean 算术平均值函数.对于向量X,mean(X)得到它的元素的算术平均值;对于矩阵,mean(X)得到X各列元素的算术平均值,返回一个行向量.
geo mean求随机变量的几何平均值.
tri mmean求随机变量的调和平均值.
通常还要对它们进行最大、最小、中值的查找或对它们排序等操作.MATLAB中也有这样的功能函数.
max求随机变量的最大值元素.
min求随机变量的最小值元素.
median求随机变量的中值.
mad求随机变量的绝对差分平均值.
sort对随机变量由小到大排序.
sortrows对随机矩阵按首行进行排序.
range求随机变量的值的范围,即最大值与最小值的差(极差).
求向量或矩阵的元素累和或累积运算是比较常用的两类运算,在MATLAB中可由以下函数实现.
su m若X为向量,su m(X)为X中各元素之和,返回一个数值;若X为矩阵,su m(X)为X中各列元素之和,返回一个行向量.
cu msu m求当前元素与所有前面位置的元素和.返回与X同维的向量或矩阵.
pr od若X为向量,pr od(X)为X中各元素之积,返回一个数值;若X为矩阵,prod(X)为X中各列元素之积,返回一个行向量.
cu mpr od求当前元素与所有前面位置的元素之积.返回与X同维的向量或矩阵.
2.无论是离散分布还是连续分布,在MATLAB中,都用通用函数pdf或专用函数来求概率密度函数值.
离散型随机变量,取值是有限个或可数个,因此,其概率密度函数值就是某个特定值的概率,即利用函数pdf求输入分布的概率.
格式为:Y=pdf(‘name’,k,A)
Y=pdf(‘na me’,k,A,B)
Y=pdf(‘name’,k,A,B,C)
说明:返回以name为分布,在随机变量X=k处,参数为A、B、C的概率密度值;对离散型随机变量X,返回X=k处的概率值,name为分布函数名.
常见的分布有:
na me=bino(二项分布),hyge(超几何分布),geo(几何分布),poiss(Poisson分布).
此外也有专用概率密度函数,二项分布的概率值命令:binopdf,Poisson分布的概率值命令:poisspdf等.
连续型随机变量:如果存在一非负可积函数p(x)≥0,使对于任意实数a≤b,X在区间(a,b)上取值的概率为:,则函数p(x)称作随机变量X的概率密度函数.通用函数pdf和专用函数用来求密度函数p(x)在某个点x处的值.
格式:pdf(‘name’,x,A)
pdf(‘name’,x,A,B)
pdf(‘name’,x,A,B,C)
说明:返回以name为分布的随机变量在X=x处、参数为A、B、C的概率密度函数值.na me取值如表10-4所示.
表10-4 常见通用函数密度函数表

连续型随机变量的累积概率函数值是指随机变量X≤x的概率之和.也就是连续型随机变量的分布函数F(x),F(x)既可以用通用函数,也可用专用函数来计算.通常用这些函数计算随机变量落在某个区间上的概率和随机变量X的分布函数F(x).函数cdf用来计算随机变量X≤x的概率之和.
格式:cdf(‘name’,k,A)
cdf(‘name’,k,A,B)
cdf(‘na me’,k,A,B,C)
说明:返回以name为分布、随机变量X≤k的概率之和(即累积概率值),name为分布函数名.
专用函数计算累积概率值,其命令函数是在上述分布后面加上cdf,其用法同专用函数计算概率密度函数值.如正态分布的累积概率值,命令函数为:nor mcdf(x,mu,sigma).
3.数字特征.
随机变量的数字特征是概率统计学的重要内容.
离散型随机变量X的期望计算函数:mean.
格式:mean(X)
说明:若X为向量,则mean(X)为X中的各元素的算术平均值,返回一个数值;
若X为矩阵,则mean(X)为X中各列元素的算术平均值,返回一个行向量.
离散型随机变量的方差函数:
var %计算一组采集数据即样本的方差.
格式:var(X)%若X为向量,则返回向量的样本方差;若X为矩阵,则返回矩阵列向量的样本方差构成的行向量.
离散型随机变量的标准差函数:
std%计算一组采集数据即样本的标准差.
格式:std(X)%返回向量(矩阵)X的样本标准差.
协方差是体现X与Y之间相互联系的程度的一个很重要的概念.MATLAB提供了求样本协方差的函数:
cov(X)%X为向量时,返回此向量的方差;X为矩阵时,返回此矩阵的协方差矩阵,此协方差矩阵对角线元素为X矩阵的列向量的方差值.
cov(X,Y)%返回X与Y的协方差,且X与Y同维.
说明:用命令函数cov时,X,Y分别为样本点.
相关系数是体现随机变量X和Y相互联系程度的度量.MATLAB提供了求样本相关系数的函数.
corrcoef(X,Y)%返回列向量X,Y的相关系数.
corrceof(X)%返回矩阵X的列向量的相关系数矩阵.
三、实验内容
例1 某机床出次品的概率为0.01,求生产100件产品中:
(1)恰有1件次品的概率;
(2)至少有1件次品的概率.
解
(1)>>p=pdf(′bino′,1,100,0.01) %利用通用函数计算恰好发生k次的概率.
>>p=binopdf(1,100,0.01)%利用专用函数计算恰好发生k次的概率.
(2)>>p=1-cdf(′bino′,0,100,0.01)%cdf是用来计算X≤k的累积概率值的通用函数,这里是计算X≥1的概率值.
>>p=1-binocdf(0,100,0.01)
例2 某公共汽车站从上午7:00起每15分钟来一班车.若某乘客在7:00到7:30间的任何时刻到达此站是等可能的,试求他候车的时间不到5分钟的概率.
解 设乘客7点过X分钟到达此站,则X在[0,30]内服从均匀分布,当且仅当他在时间间隔(7:10,7:15)或(7:25,7:30)内到达车站时,候车时间不到5分钟.故其概率为

运行结果为:p=1/3
例3 设随机变量X的分布律如表10-5所示.
表10-5 随机变量X的分布律

求EX,E(X2-1).
解 在MATLAB中输入代码:

运行结果为:EX=0,EY=1.6000
例4 求向量a=[1 2 1 2 2 1]的协方差.
解 >>a=[1 2 1 2 2 1];
>>cov(a).
四、练习与思考
1.某市公安局在长度为t的时间间隔内收到的呼叫次数服从参数为t/2的Poisson分布,且与时间间隔的起点无关(时间以小时计).求:
(1)在某一天中午12时至下午3时没有收到呼叫的概率;
(2)某一天中午12时至下午5时至少收到1次呼叫的概率.
2.设(X,Y)的联合分布律如表10-6所示.
表10-6 (X,Y)的联合分布律

求X与Y的协方差σXY及相关系数ρXY.