统计学取样方法

时间:2024-02-10 11:41:25 阅读 我要投稿

统计学取样方法范文1

  当今时代,一方面人们在主动地获取数据。各个科学领域都在大量地获取数据,自然科学领域收集着从宏观的天文数据到微观的基因数据,经济、金融和人文社会科学收集着大量的观察和调查数据。另一方面人们在被动地囤积数据。随着计算机互联网、搜索引擎、电子商务、多种传感器和多媒体技术的发展和广泛使用,各种形式的数据如江河流水般地涌来。当今数据的获取和规模发生了根本的变化,统计学面临着新的机遇和挑战,需要在方法论上有所突破。

  一、大数据及其目的

  狭义地讲,大数据是一个大样本和高维变量的数据集合。针对样本大的问题,统计学可以采用抽样减少样本量,达到需要的精度。目前大数据的环境包括了:数据流环境:数据快速不断涌来,现有存储设备和计算能力难以应付这种洪水般的数据流;磁盘存储环境:数据已不能完全存储在内存中,需要硬盘存储;分布存储环境:数据分布存储在多个计算机中;多线条环境:数据存储在一个计算机中,多个处理器共享内存。

  大数据的目的是将数据转化为知识,探索数据的产生机制,进行预测和制定政策。把信息转变为有用的知识还需漫长的时间。“预测”不同于“制定政策”。一个儿童的鞋子越大,可以预测他掌握的词汇量越多;但是,制定政策强制他穿大鞋子并不能提高他的词汇量。

  二、大数据带来的变革

  大数据给我们的时代带来了变革。目前,人们习惯于根据“研究问题”来驱动“收集数据”。今后,大数据到处可得,人们将会用“数据”驱动“研究问题”。就像我们出远门前常常查询目的地的天气、交通和宾馆那样,未来人们在研究和决策前将会通过查询数据做决定。目前已经有科学家开始使用软件搜索和汇总已中的成果。大数据中包含有各种不同目的的数据集,综合利用它们可以做出原来目的之外的意外成果。例如,将医院病历数据与信用卡消费数据结合,我们能发现食品与健康的相关关系,指导人们进行健康饮食。假若再加上手机和GPS等数据,还能随时对人们进行体检,指导健身,减少猝死,帮助医生诊断疾病等,应用大数据可以设想的用途不计其数。

  三、大数据的处理、抽样与分析

  (一)数据的预处理。

  大数据的预处理包括数据清洗、不完全数据填补、数据纠偏与矫正。利用随机抽样数据矫正杂乱的、非标准的数据源。统计机构的数据是经过严格抽样设计获取的,具有总体的代表性和系统误差小的优势,但是数据获取和更新的周期长,尽管调查项目有代表性,但难以无所不包。而互联网数据的获取速度快、量大、项目繁细,但是难以避免数据获取的偏倚性。将统计机构的数据作为金标准和框架对互联网数据进行矫正,将互联网数据作为补充资源对统计机构的数据进行实时更新,也许是解决问题的一个思路。

  (二)大数据环境的抽样。

  大数据的抽样方法有待研究。“样本”不必使用所有“数据”,不管锅有多大,只要充分搅匀,品尝一小勺就知道其滋味。针对大数据流环境,需要探索从源源不断的数据流中抽取足以满足统计目的和精度的样本。需要研究新的适应性、序贯性和动态的抽样方法。根据已获得的样本逐步调整感兴趣的'调查项目和抽样对象,使得最近频繁出现的热门数据,也是感兴趣的数据进入样本。建立数据流的缓冲区,记录新发生数据的频数,动态调整不在样本中的数据进入样本的概率。

  (三)大数据的分析与整合。

  针对大数据的高维问题,需要研究降维和分解的方法。探讨压缩大数据的方法,直接对压缩的数据核进行传输、运算和操作。除了常规的统计分析方法,包括高维矩阵、降维方法、变量选择之外,需要研究大数据的实时分析、数据流算法。不用保存数据,仅扫描一遍数据的数据流算法,考虑计算机内存和外存的数据传送问题、分布数据和并行计算的方法。如何无信息损失或无统计信息损失地分解大数据集,独立并行地在分布计算机环境进行推断,各个计算机的中间计算结果能相互联系沟通,构造全局统计结果。研究多个数据资源的融合算法。研究利用数据流寻找模型变化时间点的动态变化模型。

  在大数据环境,很多数据集不再有标识个体的关键字,传统的关系数据库连接方法不再适用,需要探讨利用数据库之间的重叠项目来结合不同的数据库,利用变量间的条件独立性整合多个不同变量集的数据为一个完整变量集的大数据库的方法。探索不必经过整合多数据库,直接利用局部数据进行推断和各推断结果传播的方法。另一方面,利用统计性质无信息损失地分解和压缩大数据。

统计学取样方法范文2

  一、统计及其基本思想与方法

  1 什么是统计学。

  问:一般认为,统计学这个词来源于拉丁语的国情学,原是国家管理人员感兴趣的事情。《大不列颠百科全书》对统计学下的定义是:“统计学是关于收集和分析数据的科学和艺术。”陈希孺院士认为:“统计学是有关收集和分析带有随机性误差的数据的科学和艺术。”

  史宁中教授,作为统计学家,您是如何认识统计学的?

  史教授:我们先来简单地回顾统计学的历史是有益处的。正如拉丁语所说,统计原本就是收集和分析国家管理中需要的各种数据,比如国民收入、各种税收。为了直观,人们才发明了各种报表、直方图、扇形图,等等。可以看到,这种传统意义上的统计学现在仍然是非常重要的,这也是我们现在小学统计教学中的主要内容之一。后来到了14世纪左右,随着航海业在欧洲兴起,航海保险业开始出现。为了合理地确定保险金与赔偿金,需要了解不同季节、不同路线航海出现事故的可能性大小,需要收集相关的数据,根据数据进行分析和判断,这被称为近代统计学的发端。到了19世纪末20世纪初,人们把数学、特别是概率论的有关知识引入到统计学,构建了统计学的基础。与古典统计学相比,虽然二者都是对数据的收集和分析,但却有本质的不同,因为后者进行分析的基础是“不确定性”,我们称之为“随机”。

  到了现代,人们发现,对于大量数据的分析,采用随机的方法不仅方便而且准确。比如,对于国民收入,我们可以动用大量的人力来收集数据,但是谁都知道这样的数据不可能是准确的,远不如我们依据某种原则规划分出地区和人群,然后抽样、加权求和准确。再比如,对于股票市场,一天交易之后,可以得到精确的交易总量,但是人们宁可用部分核心企业的股票交易量来反映股票的变化,这便是“恒生指数”“上证指数”,等等。特别是到了2l世纪,银行、保险、电信,以及材料科学、基因组学等新兴学科的实验中涉及大量数据,其分析更需要借助随机方法了。我想,大概就是因为这些原因,国家才决定在现在中小学数学的教学中加入统计学的内容。

  因此,你们谈到的关于统计学的定义都是可以的'。但是,要把握统计学的根本思想方法却是非常困难的。

  问:那么,您认为统计学的基本思想方法是什么呢?

  史教授:这是一个不容易回答的问题。对于统计学的掌握很大程度上依赖于感悟,需要比较长的时间的理解与实践。我们先来回顾一下中小学传统数学的教学内容。这些内容主要是对日常生活中见到的图形和数量的抽象,研究的问题是图形的变化和计算法则,研究的基础是定义和假设,研究的方法主要是归纳、递归、类比和演绎推理。

  统计学则不同。如我上面谈到的,统计学是通过数据来进行分析和推断的。因此,统计研究的基础是数据。这些数据的特点是,对于每一个数据而言,都具有不确定性,我们需要抽取一定数量的数据,才能从中获取信息。因此,统计学的研究依赖于对数的感悟,甚至是对一堆看似杂乱无章的数的感悟。通过对数据的归纳整理、分析判断,可以发现其中隐藏的规律。因为可以用各种方法对数据进行归纳整理、分析判断,所以,得到的结论也可能是不同的。而且,我们很难说哪一种方法是对的,哪一种方法是错的,我们只能说,能够更客观地反映实际背景的方法要更好一些。比如,我们希望知道某公司员工的收入情况,可以用平均数也可以用中位数,很难说哪个方法错。事实上,如果收入比较均衡,用平均数要好一些;如果收入比较极端,用中位数要好一些。当然,最好的方法是对收入。情况进行分类,但是分类的方法又有好坏之分。我们可以看到,统计学关心更多的是好与不好,而中小学传统数学关心更多的是对与错。

  因此,统计学的基本思路是,根据所关心的问题寻求最好的方法,对数据进行分析和判断,得到必要的信息去解释实际背景。

  2、统计学的研究对象。

  问:我们对于统计学有了一定的了解。从您的谈话中我们感觉到,统计学似乎是包罗―万象的。那么,统计学到底是研究什么呢?

  史教授:是这样的,统计学的应用面非常广,凡是涉及数据分析的都可以成为统计学的研究领域。特别是到了近代,人们希望更加精细地了解实际背景,更多地借助数据分析,甚至人文科学也是如此,并且逐渐形成了专业的研究领域,比如计量经济学、计量社会学、计量教育学、计量心理学,等等。这些研究领域分析方法的基础大体是统计学。统计学并不研究某一个领域的具体内容,在本质上只是研究数据分析的方法,这包括创新的方法,也包括分析方法的好坏、分析方法的适用条件。

  问:您能否结合中小学统计的内容谈得更具体一些?特别是在统计教学过程中,应当把握的基本原则是什么呢?

  史教授:可以在统计研究中首先遇到的问题是如何获取“好”的数据。所谓“好”的数据,是指那些能够更加客观地反映实际背景的数据,而要获取好的数据要依赖于“好”的方法。根据数据的不同,方法主要分两大类,一是通过调查收集数据,二是通过实验制造数据-中小学统计教学中涉及的主要是前者,称为抽样调查(而后者通常被称为实验设计)。抽样调查又包含两个方面,一个是对已经存在的数据的收集,称之为抽样,比如市场的物价、学生的身高、企业的产值,等等;另一个是需要我们了解才能够获取的,称之为调查,比如美国总统的民意支持率、人们日常消费的主要项目、中小学生喜欢的歌手,等等。

  根据问题的不同,所要采用的方法也可能不同,但是要建立两个基本原则。第一个基本原则是,采用能够获取好的数据的方法。为了获取好的数据,我们需要尽可能多地利用对于实际背景已有的先验知识。比如,希望知道学生的身高,先验知识是“年龄之间差别很大”。因此,最好是根据年龄段学生数的多少按比例抽取样本,我们称这种方法为分层抽样。可以看到,统计方法的直观想法是很明显的。如果对于实际背景一无所知,那么一定要抽取样本,这便是随机抽样。比如,希望知道学生喜欢的歌手,因为这些学生年龄之间差别可能不大,就可以采取随机抽样。当然也可以用分层抽样,但要麻烦得多。第二个基本原则是,采用简单的方法。能够基于上述两个原则的方法就是一个好方法。我们不要小看第二个原则,一个好的方法往往能够节省很多调查经费。这就是为什么咨询公司非常欢迎统计学家的原因。

  问:刚才您提到了样本,许多教师对样本这个概念总是感到费解。

  史教授:是的,这个概念很难把握。样本实质上就是数据,但是,统计学中涉及的数据往往是随机性的。还是回到“学生的身高”这个问题上来。在抽样之前。我们可能并不知道具体数据的大小,这些数据对于我们是随机的。为了讨论出一个好的方法,我们假想能够得到这些数据,并且假想这些数据的出现是依据某种规律的,这种规律就是数据出现的可能性在小,我们称之为概率。比如,高年级学生出现大数据(高个子)的可能性要大于低年级学生,就是说,出现大数据的概率要大。但是,只有当抽样之后我们才能得到真实的数据;才能进行实质的计算与分析。这样,我们所要研究的数据既具有随机性又具有真实性。为了方便起见,我们称这样的数据为样本。

  问:根据您的阐述,统计学怎么有一些哲学式的思考呢?

  史教授:你们理解到了根本。这是统计学与中小学传统数学的最大区别。传统数学可以根据假设和规定的原则进行计算或者推理,但是统计学往往要问你所采用的方法是不是有道理,是不是还有更为合理的方法。不过,传统数学是统计学不可缺少的工具。

  问:是不是因为统计学需要计算呢?

  史教授:不仅仅如此,判断统计方法的好坏也是依赖传统数学的。