科研统计助手
医学科研资讯
前沿热点动态
统计分析服务
当前位置: 菁英统计工作室 > 统计知识 > 软件技巧 > STATA应用 > 正文
描述性统计命令与输出结果说明
作者:tjstat  更新时间:2010-08-08  来源 人大经济论坛 本条信息浏览人次共有

 

本 节STATA  命 令 摘 要

by   分组变量:]summarize 变 量 名1  变 量 名2  …    变 量 名m[,detail]
ci 变 量 名1  变 量 名2  …    变 量 名m  [, level(#) binomial           
                   poisson exposure(varname) by(分组变 量)  ]                                                                                           
cii   样 本 量    均 数   标 准 差 [, level(#) ]
tab1 变量名 [,generate(变量名)]

·         资 料 特 征 描 述( 均 数, 中 位 数, 离 散 程 度)
 例: 某 地 测 定 克 山 病 患 者 与 克 山 病健 康 人 的 血 磷 测 定 值 如 下 表( 数 据 摘 自 四 川 医 学 院 主 编 的 卫 生 统 计学,1978 出 版, p21):

 患 者
2.6
3.24
3.73
3.73
4.32
4.73
5.18
5.58
5.78
6.40
6.53
 
 
健康人
1.67
1.98
1.98
2.33
2.34
2.50
3.60
3.73
4.14
4.17
4.57
4.82
5.78

并 假 定 这 些 数 据 已 以STATA 格 式 存 入 ex2.dta 文 件 中, 其 中 变 量 x1  为 患 者 的血 磷 测 定 值 数据, 变 量 x2 为 健 康 人 的血 磷 测 定值 数 据。 上 述 数 据 也 可 以 用 变 量 x 表 示 血 磷 测 定 值, 分 组 变 量 group=0  表 示 患 者 组 和 group=1 表 示健 康 组( 如: 患 者 组 中 第 一 个 数 据 为 2.6,则 x=2.6,group=0; 又 如: 健 康 组 中 第三 个 数 据 为 1.98, 则 x 为 1.98 以 及 group 为 1),并 假 定 这 些 数 据 已 以 STATA 格 式 存 入 ex2a.dta 文 件 中。
 计 算 资料 均 数, 标 准 差 命 令 summarize, 以 述 资 料 为 例:
use ex2,clear
summarize x1  x2
结 果:

 变量         样本数     均 数      标准差       最小值       最大值
Variable |     Obs        Mean      Std. Dev.       Min           Max
---------+-------------------------------------------------------------------
        x1 |      11       4.710909   1.302977        2.6            6.53 
        x2 |      13       3.354615   1.304368        1.67          5.78

 即: 本 例 中 急 性 克 山 病 患 者 组 的 样本 数 为 11,血 磷 测 定 值 均 数 为 4.711 (mg%), 相 应 的 标 准 差 为 1.303, 最 小 值 为2.6 以 及 最 大 值 为6.53;健 康 组 的 样 本 量 为 13,血 磷 测 定 值 均 数 为3.3546, 相 应 的 标 准 差为 1.3044, 最 小 值 为1.67 以 及 最 大 值为5.78。
 
计 算 资料 均 数, 标 准 差, 中 位 数, 低 四 分 位 数 和 高 四 分 位 数 的 命 令 summarize 以 及 子 命 令 detail, 仍 以 述 资 料 为 例:
use  ex2,clear
summarize x1 x2,detail
 结 果: 

                              x1
-------------------------------------------------------------
             Percentiles            Smallest( 最 小 值)
 1%          2.6                      2.6
 5%          2.6                      3.24
10%         3.24                    3.73         Obs                  11(样本数)
25%         3.73 (低四分位)  3.73    Sum of Wgt.          11
50%         4.73 (中位数)       (最大值)    Mean           4.710909(均数)
                                            Largest       Std. Dev.      1.302977(标准差)
75%         5.78(高四分位)    5.58
90%          6.4                      5.78          Variance       1.697749 (方差)
95%         6.53                      6.4           Skewness      -.0813446(偏度)
99%         6.53                      6.53           Kurtosis       1.809951 (峰度)
                               x2
-------------------------------------------------------------
                                      
           Percentiles      Smallest
 1%         1.67            1.67
 5%         1.67            1.98
10%         1.98           1.98                 Obs                  13
25%   ①  2.33           2.33        Sum of Wgt.          13
50%    ②  3.6                            Mean           3.354615
                                      ⑤              ⑥  
                                Largest       Std. Dev.      1.304368
75% ③     4.17           4.17
90%         4.82           4.57      ⑥Variance       1.701377
95%         5.78           4. 82     ⑦Skewness       .2963943
99%         5.78           5.78      ⑧ Kurtosis       1.875392

 

 

由 上 述 结 果 可 知:summarize 命 令 并 使 用 子 命 令 detail, 不 仅 可 以 得 到 各 变 量 资 料 的 均 数 和⑥ 标 准 差, 而 且 可 以 得 到 主 要 的非 参 数 描 述 指 标: ①低 四 分 位 (lower quartile), ②中 位 数 (Median) 以 及 ③高 四 分 位 (upper quartile)。对 于 非 正 态 资 料, 一 般 不 应 用 均 数 ± 标 准 差 进 行 描 述, 而 应 使 用 中位 数 以 及(低 四 分 位- 高 四 分 位, 称  interquartile range, IQR) 进 行 描 述。 如: 若 本 资 料 不 正 态 [1] ,则 x1 的Median 以 及IQR 为:  4.73 (3.73-5.78) 以 及  x2 的Median 以 及 IQR 为 : 3.6 (2.33-4.17)。⑥ 为 样 本 方 差;⑦ 为 偏 度, 偏 度 的 绝 对 值 越 小, 表 明 该 数 据 的 正 态 对 称 性 越 好; ⑧峰 度, 峰 度 值 越 大 表 明 该 数 据 的 正 态 峰 越 明 显;④ 在 该 数 据 中 最 小 的 四 个 数 据;⑤在 该 数 据 中 最 大的 四 个 数 据。
 若 调 用 ex2a.dta  文 件, 进 行 描 述 性 统 计, 可 用 下 列 命 令:
use  ex2a,clear
sort group  ( 将 资 料 以  group  变 量 为 例 从 小 到 大 排 序)
by group:summarize x
 结 果:

-> group=        0 
                             x
-------------------------------------------------------------
      Percentiles      Smallest
 1%          2.6             2.6
 5%          2.6             3.24
10%         3.24           3.73       Obs                  11
25%         3.73           3.73       Sum of Wgt.          11
50%         4.73                         Mean           4.710909
                        Largest            Std. Dev.      1.302977
75%         5.78           5.58
90%          6.4            5.78        Variance       1.697749
95%         6.53            6.4        Skewness      -.0813446
99%         6.53            6.53       Kurtosis       1.809951
-> group=        1 
                             x
-------------------------------------------------------------
      Percentiles      Smallest
 1%         1.67            1.67
 5%         1.67            1.98
10%         1.98           1.98         Obs                  13
25%         2.33           2.33        Sum of Wgt.          13
50%          3.6                           Mean           3.354615
                        Largest             Std. Dev.      1.304368
75%         4.17           4.17
90%         4.82           4.57       Variance       1.701377
95%         5.78           4.82       Skewness       .2963943
99%         5.78           5.78        Kurtosis       1.875392

 

 

 上 述 结 果 与 前 面 的 结 果 对 应 相 同。
·         根 据 样 本 数 据 计 算 可 信 限 [2]
95%  可 信 限 计 算:
 正 态数 据:ci   变量名
    0-1 数 据:ci   变量名,  binomial
poisson 分 布 数 据: ci  变 量 名,poisson
90%  可 信 限 计 算( 其 它 可 信 限 类 推)
正 态数 据:ci   变量名, level(90)
  0-1 数 据:ci   变量名,  level(90) binomial
poisson 分 布 数 据: ci  变 量 名,level(90) poisson
 以 ex2.dta 为例 计 算 x1,x2 的 95% 可 信 限。

use  ex2.dta,clear
                      ①           ②            ③                           ④ 
Variable |     Obs         Mean      Std. Err.       [95% Conf. Interval]        
 ---------+----------------------------------------------------------------------        
      x1    |      11     4.710909    .3928624        3.835557    5.586261        
      x2    |      13     3.354615    .3617667        2.566393    4.142837                                                                                     

以 上 结 果 中:① 为 样 本 数;② 为 均 数;③ 为 标 准 误;④ 为 95% 的 可 信 限, 因 此 x1 的95% 可 信 限 为[3.8356,5.5863],x2 的 95% 可 信 限 为[2.5664,4.1428]。
·         根 据 样 本 数, 样 本 均 数 和 标 准 差 计 算 可 信 限 [3]
 若 数 据 服 从 正 态 分 布, 并 已 知 样 本均 数 和 标 准 差 以 及 样 本 数, 则95% 可 信 限 计 算 为:
cii   样 本 数   样 本 均 数   标 准 差[,level(#)]
 例: 已 知 样 本 数 为 90  样 本 均 数 为 40 以 及 样 本 标 准 差 为 12, 则: 计 算 该 样 本 均 数 的 95% 可 信 限 为

 cii  90 40 12                                                           
Variable |     Obs         Mean    Std. Err.          [95% Conf. Interval]        
----------+----------------------------------------------------------------------        
              |      90            40      1.264911        37.48665    42.51335

 该 样 本 均 数 的90%   可 信 限 为 [37.48665,    42.51335]

 cii  90 40 12,level(90)                                                       
Variable |     Obs         Mean      Std. Err.         [90% Conf. Interval]        
---------+---------------------------------------------------------------------------
             |      90             40       1.264911        37.89752    42.10248       

 

 

·        计 数 资 料 中 频 数 和 比 例
STATA 命 令:
tab1  变 量 名[,g( 新变 量 名)
 因 为 该 命 令 主 要 适 用 描 述 计 数 资料( 即: 属 性 资 料), 当 使 用 子 命 令 g( 新 变 量), 则 产 生 属 性 指 示 变 量。 在 回 归 分析 中 经 常 需 要 这 些 指 示 变 量 作 为 亚 元 变 量 进 行 分 析。
例:50 只小 鼠 随 机 分 配 到 5  个 不 同 饲 料 组, 每 组 10  只 小 鼠。 在 喂 养 一 定 时 间 后, 测 定 鼠 肝 中 的 铁 的 含 量(mg/g) 如 表 所 示: 试 比 较 各 组 鼠 肝 中 铁 的 含 量 是 否 有 显 著 性 差 别( 摘自 医 学 统 计 方 法, 金 丕 焕 主 编,p220)。 用 x  表 示 鼠 肝 中 铁 的 含 量 以 及 用 group=1,2,3,4,5 分 别 表 示 对 应 的 5 个 组。

x:
2.23
1.14
2.63
1
1.35
2.01
1.64
1.13
1.01
1.70
group:
1
1
1
1
1
1
1
1
1
1
x:
5.59
0.96
6.96
1.23
1.61
2.94
1.96
3.68
1.54
2.59
group:
2
2
2
2
2
2
2
2
2
2
x:
4.5
3.92
10.33
8.23
2.07
4.9
6.84
6.42
3.72
6
group:
3
3
3
3
3
3
3
3
3
3
x:
1.35
1.06
0.74
0.96
1.16
2.08
0.69
0.68
0.84
1.34
group:
4
4
4
4
4
4
4
4
4
4
x:
1.4
1.51
2.49
1.74
1.59
1.36
3
4.81
5.21
5.12
group:
5
5
5
5
5
5
5
5
5
5

 

 

tab1 group,g(a)

-> tabulation of group                                         
                         ①         ②                ③
       group|      Freq.     Percent        Cum.                               
------------+-----------------------------------                               
             1 |         10       20.00       20.00                               
             2 |         10       20.00       40.00                               
             3 |         10       20.00       60.00                               
             4 |         10       20.00       80.00                               
             5 |         10       20.00      100.00                               
------------+-----------------------------------                               
      Total |         50      100.00

① 为 各 属 性 资 料 的 频 数;② 为 该 属性 占 整 个 资 料 样 本 数 的 百 分 比;③ 为 累 计 百 分 比。
 本 例 中, 总 样 本 数 为 50, 共 有 5  组, 每 组 有 10 个 样 本 点, 各 占 总 样 本 数 的 10%。 因 为 使用 了 子 命 令 g(a), 从 而 产 生 5 个 指 示变 量( 又 可 称 亚 元 变 量): a1,a2,a3,a4 和 a5。 变 量 a1 用 于 指 示 第 1 组 的 资 料: 即: 当 资 料 属 于 第 1 组 的(group=1), 则 a1=1; 其它 组 的 资 料(group¹1), 则 a1=0。 变 量  a2 用 于 指 示 第 2 组 的 资 料, 变 量 a3,a4 和 a5 相应 分 别 指 示 第 3,4,5 组 的 资 料( 详 细 见 下 表)。

x:
2.23
1.14
2.63
1
1.35
2.01
1.64
1.13
1.01
1.70
group:
1
1
1
1
1
1
1
1
1
1
a1
1
1
1
1
1
1
1
1
1
1
a2
0
0
0
0
0
0
0
0
0
0
a3
0
0
0
0
0
0
0
0
0
0
a4
0
0
0
0
0
0
0
0
0
0
a5
0
0
0
0
0
0
0
0
0
0
x:
5.59
0.96
6.96
1.23
1.61
2.94
1.96
3.68
1.54
2.59
group:
2
2
2
2
2
2
2
2
2
2
a1
0
0
0
0
0
0
0
0
0
0
a2
1
1
1
1
1
1
1
1
1
1
a3
0
0
0
0
0
0
0
0
0
0
a4
0
0
0
0
0
0
0
0
0
0
a5
0
0
0
0
0
0
0
0
0
0
x:
4.5
3.92
10.33
8.23
2.07
4.9
6.84
6.42
3.72
6
a1
0
0
0
0
0
0
0
0
0
0
a2
0
0
0
0
0
0
0
0
0
0
a3
1
1
1
1
1
1
1
1
1
1
a4
0
0
0
0
0