基本概念

Posted by Cooper on October 18, 2022

统计类似于赌博,当我们利用数据做出一个统计学推论,相当于在赌这个推论的准确性,或者说你对这个推论有多大的把握\信心。

随机与变异

随机:当你无法预料一件事的结果时,就叫随机/随机现象。例如,你抛一次骰子,不知道它会出现什么点数。

随机变量(random variable):指随机事件的数量表现。可分为 离散型随机变量连续型随机变量

离散型随机变量(discrete random variable):即在一定区间内变量取值为有限个,或数值可以一一列举出来。比如,在一次扔硬币事件中,如果把获得的背面的次数作为随机变量X,X可以取两个值,分别是0和1。

连续型随机变量 ( continuous random variable):即在一定区间内变量取值有无限个,或数值无法一一列举出来。比如,测量某一地区1000人的身高,这里身高就是随机变量。

抽样(sampling):要证明一种现象有没有规律,需要从大量样本中进行验证。理想情况下,最好把所有样本都检测一遍,但这往往不现实。所以我们需要抽样调查,从抽取的样本中得出规律,再推广到总体

总体参数(population parameters):A population parameter is a number that describes something about an entire group or population. A parameter is a value that describes a characteristic of an entire population, such as the population mean.

样本统计量 (sample statistic ):A sample statistic (or just statistic) is defined as any number computed from your sample data. Examples include the sample average, median, sample standard deviation, and percentiles. A statistic is a random variable because it is based on data obtained by random sampling, which is a random experiment.

抽样误差 (sampling error):当你用抽样的方法去找总体的规律时,就会有抽样误差。由于有抽样误差,如果用 样本统计量 去 直接估计 总体参数 , 则会有一定的偏差。所以在估计总体参数时,需要考虑到这种偏差的大小,即用置信区间来估计总体参数