NO.5 描述性统计的Stata实现

c8ea15ce36d3d539563f400a3a87e950342ab0fd

什么是描述性统计


描述性统计是一套用于整理、描述、解释数据的系统方法和统计技术,描述性统计分析致力于以简单明白的统计量来描述庞大的数据。对于不同类型的变量,常用的描述性统计度量有以下几种:
定性变量
定性变量通常是描述性文字,对于定性变量常用的描述度量是频率与频数。
定量变量

  1. 描述集中趋势的度量——算数平均、中位数、众数
  2. 描述波动情况的度量——极差、方差(s2 )和标准差(s)

    极差:一个数据集中最大观测值与最小观测值之差;易受极端值影响、未考虑数据分布。
    方差:数据集中每个观测值与平均数之差的平方和除以总观测值数量

    s^2=\frac{(x-x_0)^2}{n}
    标准差:方差的平方根

    s=\sqrt{s^2}

  3. 描述数据集中一个观测位置的度量——百分位数,Z分数。

    百分位数:一组n个观测值按数值大小排列,处于p%位置的值称第p百分位数
    Z分数:对于两组数据,其均值(x_0)和标准差(s)不同,其数据不能直接比较,比如两个班级上同一门课,由于老师的评分标准不同,使得两个班级的均值(x_0)和标准差(s)不同,这样两个班获不同分数的同学的就不应该简单通过分数高低衡量,应该先变成标准化的数据再比较:

    z=\frac{x-x_0}{s}

描述性统计的Stata实现


  1. 基本计算函数:

    count(x);频数
    egen m=mode(x); 众数
    egen m=median(x); 中位数
    mean(x); 平均数
    sd(x);标准差
  2. 数据集的描述函数:describecodebooksummarizetabstat

    describe
    describe函数将会描述数据集的数据量、变量个数、变量类型、标签等信息

    codebook
    codebook函数可以描述某个变量的取值类型,取值范围,平均数,标准差,以及10%、25%、50%、75%、90%的百分位数

    summarize
    summarize函数将会描述变量的有效值个数、平均数、标准差、最小值、最大值。

    tabstat
    tabstat函数可以获取变量某个特定的描述性统计度量。以auto数据集为例,描述price变量的各项度量:

    sysuse auto; 加载auto数据集
    tabstat price , s(mean);获取price变量平均数
    tabstat price , s(range);获取price变量极值
    tabstat price , s(p75);获取price变量75百分位数
    ......

    输入help tabsta 命令可以查看更多参数:

异常值的探测


切比雪夫法则
切比雪夫法则常用于异常值的探测,其表述如下:

任意一个数据集中,位于其平均数m个标准差范围内的比例(或部分)总是至少为1-1/m^2,其中m为大于1的任意正数。对于m=2,m=3和m=5有如下结果:
所有数据中,至少有3/4(或75%)的数据位于平均数2个标准差范围内
所有数据中,至少有8/9(或88.9%)的数据位于平均数3个标准差范围内
所有数据中,至少有24/25(或96%)的数据位于平均数5个标准差范围内  

以auto数据集为例,探测price变量的异常值,根据切比雪夫法则,不论数据什么形状,至少有8/9的测量值落在平均值的三个标准差范围内。即z分数的绝对值>3的值,可认为是异常值。

  1. sysuse auto,加载auto数据集
  2. 计算price变量的z分数值:

    summarize price; 获取price变量的描述性统计信息
    return list; 将summarize函数获得的信息转换成临时标量
    scalar psd=r(sd); 将临时标量r(sd)(标准差)转换成标量
    scalar pmean=r(mean);将临时标量r(mean)(平均值)转换成标量
    gen z=(price-pmean)/psd;计算z分数
  3. 处理异常值

    list make price z if abs(z)>3;列出异常值
    keep if abs(z)<3;删除异常值
    

命令整理


  • countegenmeansd
  • describecodebooksummarizetabstat
  • listscalar

发表评论

Fill in your details below or click an icon to log in:

WordPress.com 徽标

You are commenting using your WordPress.com account. Log Out /  更改 )

Google photo

You are commenting using your Google account. Log Out /  更改 )

Twitter picture

You are commenting using your Twitter account. Log Out /  更改 )

Facebook photo

You are commenting using your Facebook account. Log Out /  更改 )

Connecting to %s