反思抽样调查在青年研究中的应用

发表日期:2003-12-30作者:马德峰编辑:system出处:

反思抽样调查在青年研究中的应用

 

马德峰

 

 

【提要】 该文从抽样的角度,对社会调查方法在青年研究中的应用状况进行了反思。指出样本抽取的代表性、可操作性、数量性、规范性,是困扰社会调查顺利进行的主要方面,并对所述问题提出几点建议。

【关键词】  社会调查  青年研究  抽样方法  样本

 

 

 

 “20世纪90年代以来,以问卷调查为主要标志的实证性青年问题研究在青年研究领域占据主导地位。这一方面有利于我们在掌握大量第一手材料的基础上,对青年的社会发展状况及其存在的问题做出比较客观的定性和定量的判断与评估,从而走出纯思辨性的争论困境;但另一方面,相当多的问卷调查存在值得注意的问题”(吴鲁平:《实证性青年问题研究中究竟存在什么问题》,《青年研究》,1997年第2期,第16页)。

“现在书刊报纸上经常刊登抽样调查报告和相关的分析文章,遗憾的是绝大多数都没有说明进行的是什么性质的抽样调查,是概率抽样还是非概率抽样,如果概率抽样,那么总体范围是什么等。相当多的文章使用非概率抽样调查的结果作为全国性的问题来分析,什么‘我国青少年…’、‘中国妇女…’。有些研究单位缺乏懂抽样的技术人员,草率进行抽样调查,写调查报告时就照葫芦画瓢。照抄他人的抽样报告,好在这类报告大多是文字叙述,少有具体内容和数据,抄了也不至出纰漏”(高嘉陵:《“抽样调查”亟待科学指导和监督》,《青年研究》,1995年第9期,第40页)。

“由于作者自身条件所限,不少调查仅是根本无法推及总体的小样本抽样,罗列一大堆数据或简单的百分比,忽视哲学思考和思辨方法,忽视历史、文化的影响,就企图宣示‘发现’和‘结论’”(《青年研究》编辑部:《来稿建议》,《青年研究》,2001年第1期,第46页)。

上述引文说明在实证性的青年研究中,不合格的抽样调查大量存在。针对这些问题,本文结合20年来青年社会调查研究报告的文献分析,试图从抽样角度对抽样方法运用过程中面临的若干挑战做一梳理和反思。

 

 

样本抽取的代表性

 

“调查研究,是和实地研究、文献研究、实验研究相并列的一种社会研究方式,它主要采用自填式问卷或结构式访问的方法,系统地、直接地从一个取自总体的样本那里收集资料,并通过分析这些资料来认识社会现象及其社会规律”(风笑天:《社会学研究方法》,中国人民大学出版社,2001年第1版,第153页)。其显著的特征之一是调查的抽样性,意即从总体中的一个样本那里收集资料,通过调查样本来了解总体,这使它与那种对总体中的每一个个体都进行调查的普遍调查以及那种只对一个或少数几个个案进行调查的个案调查和典型调查区别开来。既然是抽样,那么所涉及的主要问题是样本的代表性如何。如果我们通过研究总体中的一部分个体,但所得到的却不仅仅是这一部分个体的情况,而是渗透在、折射在、体现在这一部分个体身上的总体的情况,那么,我们可以顺利地达到调查研究的目的。反之,如果样本不具有代表性,即使花再多的人力、物力、时间,哪怕调查数以万计的对象个体,哪怕进行高深莫测的数学统计,结果都是徒然无功。因而,在青年社会调查研究中,样本的代表性至关重要。

就抽样方式而言,可分成概率抽样和非概率抽样。概率抽样是依据概率论的基本原理(指能够很好地按总体内在结构中所蕴涵的各种随机事件的概率来构成样本,使样本成为总体的缩影),按照随机原则(总体中的每一个成员被抽中的概率相等,而且任何一个个体的入选与否,与其他个体毫不相关,互不影响)进行的抽样,它能够避免抽样过程中的人为误差,保证样本的代表性。而非概率抽样的运用主要是,当我们对即将研究的问题不太熟悉,了解很少时,或者准备研究的问题本身十分特殊,很少有人涉及时,我们可以运用非概率抽样的方法,采用参与观察和无结构式访问等方法收集资料,从而探究某类问题的基本范围、内容或特征,给人们一个大致的轮廓或印象,用来提示深入研究这一现象的可能途径和合适工具。因此,非概率抽样主要用于探索性研究,但对于需要推论总体的描述性、解释性调查研究来讲,它往往不大适合,因为它不是按照概率均等的原则,而是根据人们的主观经验或其它条件来抽取样本,样本的代表性较小,误差比较大,且这种误差又无法估计。因此,样本抽取的代表性要求我们在大规模的正式研究中要尽可能的采用概率抽样方式,少用或不用非概率抽样。困难在于概率抽样它有一套严格的程序、原则,按照这些要求来进行实施有较大的难度;而非概率抽样比较灵活、操作简便,省钱省力,统计简单,所以青年社会调查研究中,研究者往往在碰到“钉子”之后,纷纷采取非概率抽样方式,诸如偶遇抽样、立意抽样、滚雪球抽样等,降低社会调查研究标准和要求。笔者对292篇青年社会调查研究报告的文献分析表明,明确采用概率抽样方式的比率不到30%;大部分抽样方式为非概率抽样,这在很大程度上影响了社会调查研究的准确性。

在样本抽取的代表性上,还有一个需要注意的问题,那就是“随机”和“随意”的区别。两者之间虽只有一字之差,但含义相去甚远。随机,所对应的是概率抽样,即总体中的每一个个体都有同等的被抽中可能;而且任何一个个体的入选与否,都是独立事件,不会影响其它个体。在概率抽样当中,不包含任何的主观成分,样本具有很强的代表性。而随意,所对应的是非概率抽样,它蕴涵的主观色彩较为浓厚,是研究者根据自身的兴趣、偏好等来选取调查样本,总体中的每一个个体不具有同等的入选机会,抽取出来的样本不能代表总体,只能对总体起一个初步、笼统的了解作用。因此,在青年社会调查研究中,不能将“随机”和“随意”两者混淆、等同起来,否则会犯原则性的错误,降低青年社会调查研究的科学性。遗憾的是在青年调查研究中,我们仍会发现这样的错误。例如,“为使大学生勤工助学活动制度化,发挥它在大学生成长中的重要作用。我们对重庆市六所高校的大学生进行了随机抽样调查,在公共教室、图书馆、自修室等专业、年级混杂的场所共发放1190份调查问卷。本次调查共进行两次:第一次是在西南师范大学范围内进行的开放式调查,为修订问卷打下良好基础;第二次是在重庆市六所高校展开的半封闭式调查,采取自愿参加、问卷不署名的方式进行,因此,调查结果较为真实可信”。从这篇调查报告的介绍可以看出,虽表面上是随机抽样调查,但实际上是非概率抽样调查,因为它不能保证那些不在公共教室、图书馆、自修室的大学生有同等的被选中的概率机会,研究者混淆了随机抽样和随意抽样。

 

 

样本抽取的可操作性

 

样本抽取的可操作性实际解决的是理想和现实的关系问题,也就是样本抽取的理论原则和程序要求如何与社会现实接轨问题。在指导思想上,抽样调查是通过调查部分来了解总体,样本的代表性如何决定了能否用样本的结果来推论总体。多数情况下,抽样调查需采取概率抽样方式,要求把各种人为的主观因素,如研究者的态度、情感、价值观、偏好等等,全部排除在抽样程序之外,使抽样过程近乎于一种自然界的随机选择状态,从而做到真正的客观,让样本逼近总体。

然而,这是一种理想状态,现实的青年社会调查研究往往无法做到这一点。因为无论是整个抽样方案的设计、抽样方法的选择、抽样程序的确定,还是抽样的具体实施,都必须在研究者主观意志的参与下完成。可以说,概率抽样的整个过程始终存在研究者主观因素进行干预和影响的可能,只要稍微对主观因素放松警惕,都会给抽样增加非概率成分,从而影响调查结果。这就解释了近20年来很多研究者宣称进行概率抽样调查,但实际采取的是非概率抽样调查,而且样本结果与总体偏差很大的奇怪现象。

解决的对策在于研究者如何清醒、自觉地对自身的主观因素进行有效的抵制和约束,对待每一个主观决定,都力求给出客观的依据。例如,有学者试就大学生消费现代性进行研究,“作为本研究基础的经验材料是通过统计调查获得的。笔者1998年6月组织了这次调查。由于经济及实际操作技术的考虑,调查总体被限定为华中师范大学在校本科生。尽管该校属面向全国招生的综合性师范大学,学科门类较多,学生来自全国各地,以其所属学生为调查总体具有一定的代表性,但由于这些学生在某些方面仍具有明显的集中趋势(如湖北籍学生较多等),本研究的局限性是显而易见的;并且单个学校相对于全国所有高校亦不过沧海一粟,毋宁说本研究乃个案研究。确定了调查总体后,笔者依据学籍管理部门提供的学生名册编制了全校95级、96级、97级共4925名本科生构成的抽样框,由计算机按简单随机抽样方式选取220名学生为样本”。从研究者的介绍可以看出,虽然研究者想对大学生总体的消费现代性进行研究,但在现实条件的制约下,研究者主观上产生妥协、让步,不得不承认该研究属于个案研究,这大大削弱了研究的价值和意义。

在程序上,概率抽样有一整套严密思索和符合数理原则的程序,它具有很强的理想化色彩,而抽样的实际过程又是处于各种现实生活条件的限制之中,科学的程序和现实生活条件之间充满矛盾。一方面,要想达到概率抽样的随机性要求,必须具备一系列的条件。比如,简单随机抽样,其前提条件之一,是需要有一个清楚、明确的抽样框,即一份构成总体的所有个体的名单。另一方面,现实社会调查中所缺乏的恰恰是其中的若干条件,而缺乏这些前提条件,抽样的随机性就不复存在,社会调查的质量就大大降低。以某城市青年为总体的社会调查,如果采用简单随机抽样,抽样框这一前提条件就是无法满足的,因为不会存在一份现成的人员名单,研究者必须采用其它形式的抽样方法。如果不顾这一现实,随意采用一些不符合概率原理的变通办法,必然会在实践中产生出一些形形色色的非概率抽样调查。20年来,青年社会调查研究就存在类似的情况,这引起了学术界的高度注意,一些学者专门撰文批评这一现象。可见,研究者需要花费大量精力进行抽样设计,强化样本抽取的操作性,力争使理想的抽样设想与实际社会调查完美结合。

 

 

样本抽取的数量性

 

在青年社会调查研究中,到底确定多少数目的调查样本合适是研究者比较头疼的问题。笔者翻阅了一些青年社会调查研究报告,发现各种社会调查的样本数目不一,有的成千人,有的上百人,有的只有几十人,但多数调查样本在400-800人之间。应该说,样本数目不是研究者想当然、任意决定的,它需要研究者考虑相关的重要因素。

一是总体的规模总体的规模越大,所要求的样本数量也越大,这样才能保证一定的精确度。例如,对全国青年和某省青年的调查,样本数量肯定不一样,前者的样本数量庞大,后者相对较小。

二是总体的异质性程度。在异质性程度高的总体中抽样时,所需要的样本数量大些;而在同质性程度高的总体中抽样时,达到同样的精确性,所需要的样本数量小些,因此,在具体的抽样中,研究者需要判断总体的异质与同质程度。

三是抽样的精确性。它涉及置信区间问题(指在一定的把握性下,样本值和总体值之间的误差范围),置信区间越小,抽样的精确性程度越高,所需要的样本数量也越大;置信区间越大,抽样的精确性程度越低,所需要的样本数量也越小。

四是研究者所拥有的经费、人力和时间。通常情况下,样本数量当然是越大越好,这样更能逼近总体,但是抽取出来的样本是要进行调查的。样本数量越大,意味着研究者所需要投入的人力、时间和费用越多,意味着调查很可能受到更大的限制。就这点而言,研究者选择多大的样本,需要充分考虑自身所拥有的各种条件,量力而行。

在实际青年社会调查研究中,这四个因素不是相互独立的,对于研究者来讲,往往需要将这四个因素综合权衡、通盘考虑,从而合理地确定适宜的样本数量,以较低的费用得到精确度尽可能高的样本。可以肯定的是,样本过少,一定不能反映现象真实情况。比如,有这样一篇调查研究报告,“本次调查在湖北、湖南、安徽、江西、辽宁、河南、四川、广西9个省的相对欠发达地区的农村进行,共发放问卷100份,回收问卷100份,调查对象的年龄集中在15-40岁之间,基本上属于青年农民群体…”,以区区百人的调查,来了解整个中国欠发达地区青年农民素质状况,令人“难以置信”。

在样本数量的计算上,可采用简化公式N=t2/4e2(N为样本数量,t为置信度所对应的临界值,e为抽样误差)。只要t值和e值确定,那么,可根据公式,计算出相应的样本数目。例如,在95%的置信度下,抽样误差为4%时所需要的样本数量为625;如果抽样误差为5%,所要求的样本一般数目为400。稍为困难的是抽样误差的估计,研究者通常根据以前类似情况调查的抽样误差以及本次调查情况来进行选定。当样本数量确定后,仍存在样本数目的不同分配问题。典型的例子是多阶段抽样,由于它是根据抽样元素的层次关系,把抽样过程分成几个阶段(初始阶段、中间阶段、终极阶段)进行,这里面就有一个确定各个阶段的样本数量问题:精确性和代表性要求,尽可能地扩大初始阶段的样本数量,相对缩小终极阶段的样本数量;而可行性和一致性则要求:尽量缩小初始阶段的样本数量,相对扩大终极阶段的样本数量。因此,虽然样本数量是确定的,但它却有多种分配方式,且各种分配方式所带来的精确性和可行性往往是不一样的。何去何从,研究者面临困难抉择。由此可见,样本抽取的数量性,不是一个简单的数字符号问题,也不是研究者主观随意决定所能解决的,而是牵涉到抽样调查的众多方面,需要研究者慎重考虑、合理确定,做到行之有理有据。

 

 

样本抽取的规范性

 

样本的实际抽取过程不规范,有没有弄虚作假的现象。由于没有现场监督,我们本不可以“说三道四”,但幸运的是,多数抽样调查会向社会公众、读者公布社会调查报告。因此,可从社会调查报告上来反向探寻样本抽取的规范性问题。20年来的青年社会调查研究报告表明,样本抽取的规范性不容乐观:

一是总体的界定问题。抽样调查虽然只是对总体中的一部分个体实施,但其目的却是为了描述和认识总体的状况和特征,是为了发现总体中存在的规律性,因此必须先明确总体的范围;另一方面,界定总体也是达到良好抽样效果的前提条件。如果不明确地界定总体的范围和界限,即使采用严格的概率抽样方法,也可能抽出对总体严重缺乏代表性的样本来。界定的过程,就是对它的基本构成单位所包含的内容以及时空范围等做出规定的过程,同时也是确定调查对象即它的内涵、外延及数量的过程。遗憾地是,在诸多青年社会调查报告中,我们很少看到有关总体的明确界定,只能看到调查的具体对象,所谓“见树不见林”,在了解总体的道路上迷失方向,这样抽样调查最终就丧失了其存在的意义。

二是抽样方式问题。抽样方式应首先明确是概率抽样还是非概率抽样,这一点绝大多数研究者能够做到;然后要具体说明是哪一种抽样方式,如果采用概率抽样,是采取简单随机抽样、系统抽样、分层抽样还是整群抽样、多阶段抽样?如果是非概率抽样,是采用偶遇抽样、判断抽样还是定额抽样、雪球抽样?应该说,这几种抽样方式各有不同的特点、程序、原则及其适用条件。就整群抽样来讲,抽样单位是成群的个体,可以简化抽样的过程,降低收集资料的费用,但是它所涉及的面相对缩小,因而在很多情况下会导致样本的代表性不足,使得结果偏差较大。可见,在概率抽样当中,假如某项社会调查要求抽样精度很高,那么最好不要采用整群抽样。而在当前的青年社会调查研究中,整群抽样比较简单、操作方便,研究者对此十分偏好。因此,在抽样方式上,研究者应该明确具体地予以说明,一方面,让读者明白自己的抽样方式;另一方面,更为主要的是触发研究者对该抽样方式的认识和警醒,避免不必要的错误。

三是样本质量的评估问题。样本抽样从初步设计到实际抽取完成,并不表示整个抽样过程的结束,完整的抽样还应包括样本抽出后对样本进行的评估工作,包括对样本质量、样本代表性、样本偏差等内容进行初步的检验和衡量。通常作法是依据某些重要特征,如性别比例、年龄比例,将总体中分布的资料和样本中分布的资料进行对比,如果两者之间的差别很小,可以认为样本的质量比较高,代表性比较强。反之,若两者之间的差别十分明显,那么样本的质量和代表性就值得怀疑,这就需要加以修正补充然后再实施调查。可惜的是,多数青年社会调查研究缺少这方面的评估,“有头无尾”,读者只能了解样本抽样方法和样本数量等,样本抽取的代表性到底如何不得而知。

由上述反映在青年社会调查报告中的问题可以看出,我们样本的实际抽取过程还存在不规范的地方,这与社会调查研究的科学性、严谨性是不相符合的,也与青年研究的深入发展相背离的,因此,加强样本抽取的规范性很有必要。

 

 

小  结

 

社会调查在青年研究中得到广泛运用的同时,其自身也面临诸多挑战,本文仅以抽样为例,阐述了样本抽取的代表性、可操作性、数量性、规范性对研究者调查研究构成的干扰。笔者认为,迎接这一挑战,必须做好以下几点:

1、熟练掌握抽样知识,并且灵活加以运用。作为一名合格的研究者,必须全面、准确、清楚地掌握抽样理论知识,避免一些常识性错误;而且对抽样所面临的各种挑战要有充分的认识,尽可能将书本所学知识和现实实践结合起来,灵活运用。一方面,要通过科学的设计、周密的部署、严谨的分析,努力克服抽样过程中面临的各种挑战,尽可能减少实际操作中的妥协和让步,提高抽样的质量;另一方面要清醒地意识到抽样在各种挑战面前做了哪些妥协和让步,从而在看待和汇报调查结果时保持客观的头脑,解释上留有余地。

2、重视抽样设计。作为调查研究的一个重要部分,20年来一些青年社会调查研究常常在不充分的抽样设计和计划的基础上,甚至是在完全没有抽样设计的基础上进行的,这正是它们质量不高的关键因素之一。应该认识到,“社会学研究不只是按固定的程序进行一系列具体操作活动的过程,其灵魂和核心,是研究者的研究思路、研究策略和研究艺术。而那些具体的操作,则是这种研究思路、研究策略和研究艺术的外在表现形式”(风笑天:《近五年社会学方法研究述评》,《社会学研究》,1995年第1期,第11-12页)。因此,研究者应高度重视抽样设计工作,切实提高抽样设计水平。

3、加强社会约束和监督。社会调查报告,应该向社会公众、读者介绍抽样的具体内容和过程,让社会公众、读者来评判调查结果的价值和代表性。一学者提出的建议非常好,凡是新闻媒介向社会公布的“抽样调查”,包括全国性的或一定范围地区性的“抽样调查”和科学研究中的“抽样调查”都必须说明抽样的性质、总体范围、抽样方案和主要目标量估计及精度。否则,没有这些必要技术内容的调查报告和由此出笼的分析文章应视为无效的,不应允许向社会公众公布刊登在书刊、报纸上。因为这些内容的介绍是整个调查研究报告中重要的一部分,是其结论成立的基础和依据。

 

 

马德峰:苏州大学社会学系博士研究生、讲师

责任编辑:杨长征

读者读过此文章