商汇粹外网资源平台

搜索
查看: 1089|回复: 2

什么是Bootstrapping?

[复制链接]

该用户从未签到

4

主题

19

帖子

88

积分

注册会员

Rank: 2

积分
88
发表于 2022-10-11 12:40:04 | 显示全部楼层 |阅读模式
Bootstrapping 是推论统计学下面的一种方法。
推论统计学就是:从样本统计量 推算 总体统计量。
我们已经学会用t-test来构建总体平均数的置信区间。方法是,先从总体中抽取一个样本,然后计算这个样本的平均数,和样本的σ。再用中心极限定理求出sampling distribution的SE。
然后 CI = ± t * SE
这是基于中心极限定理的方法。这个方法的前提条件是sampling distribution必须normal,如果你对总体不是是skewed,且n < 30的话,就不能保证sampling distribution是normal了。
且t-test只适用于 平均数,如果你想求population的median,或者其他统计量,中心极限定理也不能用。
由于以上两个问题,我们想到了bootstrapping方法。
总体 100 个人,求median。
假设样本有5个: 12 34 45 78 99,求median,45
现在进行有放回抽样:
12 → 把12放回去→
99 → 把99放回去→
45 → 把45放回去→
12 → 把12放回去→
34 → 把34放回去
第一个bootstrap sample已经出来了:12 99 45 12 34, 求median, 34
这样操作10000遍。
median会形成一个distribution:

然后你直接找中间95%的点的横坐标就行了,就可以找到置信区间。
不光平均数,其他统计量也可以用bootstrapping~~ 但样本还是要有代表性,如果样本没有代表性,bootstrapping方法也不能correct这个问题。
回复

使用道具 举报

该用户从未签到

5

主题

21

帖子

65

积分

注册会员

Rank: 2

积分
65
发表于 2022-10-11 13:09:14 | 显示全部楼层
统计显著性检验的一种方法。
常见的做法,是构造各种统计量。这些统计量都是基于已获得的有限个样本信息(例如:样本平均值,样本方差等)而构造出来的。
这样的方法操作简单,基于样本信息即可获得,但并不太严谨。一些总体的信息都是根据样本的信息近似而来。
bootstrap则是通过随机排序,“模拟”出一个“总体”。但也要求随机排序的次数要比就大(例如10000次),操作起来较为麻烦
回复

使用道具 举报

该用户从未签到

1

主题

5

帖子

51

积分

注册会员

Rank: 2

积分
51
发表于 2022-10-11 13:38:24 | 显示全部楼层
这是有放回抽样的意思吗?
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表