科研统计助手
医学科研资讯
前沿热点动态
统计分析服务
当前位置: 菁英统计工作室 > 统计知识 > 理论知识 > 多元统计应用 > 正文
Bootstrap再抽样方法的SAS程序设计
作者:Admin  更新时间:2010-06-29  来源 中国卫生统计 本条信息浏览人次共有

   近年来,许多数理统计方法被引入到医学研究中,有些理论在大样本的条件下才能获得稳定的解,如项目反应理论、线性状态空间模壅等。但是在实际中.由于成本或者现场条件的限制而无法获得大样本。在现有样本代表性好的条件下,可以通过Bomt~p再抽样方法扩大样本量.即在传统的数理统计基础上进行统计模拟。随着计算机技术的迅猛发展,这一技术已经渗透到许多科学领域.解决了无法采集到大样本的难题。目前医学中常用的统计软件还没有提供直接产生Bootstrap样本的程序。本文提供了这一方法的SAS程序.简短、通用,可以方便医学统计工作者的使用。

Bootstrap再抽样方法简介

Bootstrap方法是一种计算机模拟方法,它处理的是实际中可能发生的,但需要大样本来求出的统计量。令X = { x1 x2x3 x4xn},为一次采样, xi(i=12n”)是独立同分布的随机变量.服从分布F0为分布F 的一个未知数字特征,例如x的均值、均方差及高次矩等。根据经典数理统计理论,要获取0的估计子的经验分布。就需要多次重复采样和大样本。在小样本条件下,应用Bomtmp方法对x进行模拟重采样。就能够在某种意义上获取0的经验分布.并确定其置信区间。

程序设计思想
Boots~ap
过程的机制是:首先有一个实际观测到的数据集(称之为原始数据集),它含有个观查单位。从这个数据集中有放回地随机抽取”t个组成一个新样本。称之为Bootstrap
本。在这个随机抽样中.原始数据集中的每个观察单位每次被抽到的概率相等,为1.这些观察单位有的只被抽到1次。有的超过1次,也有的没有被抽到。根据取余数原理,将随机数字表中数字除以某一数值后的余数作为新的随机数,随机数可以重复出现,并具有均匀性和独立性。

实例及SAS程序
在含有150个观察单位的原有样本中.抽出观察单位数为250的新样本。
程序步骤:
(1)
产生效组(1999)和序列号,并对数组进行随机化。
(2)
以随机数除以150,取商的余数部分,(随机数小于150商的整数部分为0)。由于余数部分的变动范围在0149之间,应再加1,与原有观察单位数相同。
(3)
取序列号小于等于250的余数数字所对应的原有样本观察单位组成的新样本即为Bootstrap样本。

data a
do unit= 1 tO 999

unitl
unit
output

end

ILia

proe plan seed=999998888444

factors unitl=999
;/* unitl为随机数
output data= a out b

run

data c

set b

unit2=floor(unitl
150)
unit3=(unitl—unit2*150)
;/* unitl的商作为新
的随机数
unitm = unit3+ 1

keep unit unitm

run

data one two

se t C

if unit< =250 then output one
;/* one为新样本数据集
if unit> 250 then output two

run


1
.实施Bootstrap过程需要满足的一个假设条件是:所观测到的样本能较好地反映总体。Bootstrap样本的标准差与原有样本的标准差相同。
2
Bootstrap样本数为两位数时,产生随机数为199。样本数为三位数时.产生随机数为1999,依此类推。
3
.改变种子数(" seed),即可得到不同的Bootstrap样本。Bootstrap样本也可以小于或等于原有样本量。
4
.该方法要求样本间满足独立同分布条件,对于时序数据不能直接采用Bootstrap方法。

上一篇:问卷的信度分析
下一篇:Logitboost法与累积比数Logit模型在判别分析中的应用分析

本站所发表的文章,大部分严格筛选,来源于各相关专业论坛或专业网站,内容仅供大家学习和参阅尊重原作者版权,勿用于商业用途,转载请注明来源。如有学术争议的文章,或可能与事实不符的,与本站立场无关。如有影响到您权益的文章,请及时通知本站,本站立即删除。谢谢监督。
推荐阅读
 
热门文章

Copyright 2010 Powered By 菁英统计工作室 www.tjstat.com 地址1:武汉市珞瑜路1037号 430074 ; 地址2:武汉市航空路13号 430030
邮箱:tjstat@126.com QQ: 点击这里给我发消息 点击这里给我发消息
鄂ICP备10020011号 |