教育研究中的分层随机抽样的内容是什么

发表时间：2024-07-12 07:40:52 来源：网友投稿

教材出版业的市场调查、评估和预测方法

摘要

本题是一个设计型题目，题目有数据量大，信息多的特点。

首先我们分析数据库中数据，按一定规则将各大学排序，采用系统随机抽样的方法，外加地域性修正，把市场调查的范围从205所高校缩小到26所。针对此26所学校进行问卷调查。我们分析调查所得数据，对于某出版社的市场份额，用与该出版社相关的问卷数与总问卷数的比值来衡量，从而得到三年各出版社市场份额的数据表格，并利用拟合的方法进行预测。

其次我们还考虑到了问卷抽样调查过程中有可能出现的特殊情况，即：抽样无回答情况。我们利用两种补救无回答的二级抽样调查方法对此问题进行了解决，传统方法和贝叶斯方法，并对它们之间的异同作简略的概括和比较。此两种方法均是为降低非抽样误差、提高数据质量服务的。

再次我们还提出了对按需印刷理论的新理解，从而大大减少了出版社的成本投入。在数据的验证中，我们将通过抽样调查得出的市场份额与分析总体得到的市场份额进行比较，求出相对误差。发现绝大多数数据误差不超过0.1，效果较好。在模型改进中，也提出了改进模型的新思路。

最后我们还对题目进行了更加完备的讨论和使用说明，并在此题的基础上对出版社提出了意见和建议。

关键词：系统随机抽样地域性修正补救无回答二级抽样调查方法按需印刷理论

一、问题背景

随着党中央国务院“十一五”发展规划的提出，我国的文化产业也受到了前所未有的重视，同时“十一五”也宣告了出版产业面临着前所未有的挑战。“十一五”期间，出版发行业将面临因特网、手机短信、数字出版等科技发展引发的对出版环境的影响，不少出版社和发行单位已经或者正在开始着手对自身未来发展的思考和规划，这种现象本身也是出版业理性回归的一个重要标志。对于出版发行单位而言，战略规划的最大价值在于它的过程，在于培养一种在市场经济环境中的系统思考与应变能力，而不仅仅是规划的结果。根据加入WTO的承诺，2006年是我国出版分销行业全面放开的最后一年，深化体制改革以应对入世，正在成为出版发行行业的重中之重。行业对竞争力的关注前所未有的重视，任何研究报告、市场调查、行业排名都会触动出版社敏感的神经。教育出版对出版社的竞争力影响大，经营成为最主要的提高竞争力的手段，形成了相对稳定的竞争力优势。因此占据出版业优势地位的教材出版业更注重对市场的调查研究，对市场作出科学的评估和预测，我们需要的就是一种科学的调查、评估和预测方法。

二、问题重述

某出版社出版多类高等教育和职业教育的教材。从出版社的战略发展、投资策略、生产安排、销售方式、和产品策划等业务考虑，需要对出版社的市场占有率（市场份额）及其逐年变化进行调查。请你设计有效而可行的调查方法，并且建立调查数据的分析模型，以及对市场作出科学评估和预测的方法。

本题的附录中给出的基础数据是问卷式普查数据，由于抽样成本的限制，普查是不可取的，而且抽样数应该在调查目的的基础上尽量少。

题目说明

1.由于抽样成本，普查不可取，但是抽样方法的样本数和调查效益之间有平衡关系，确定你的抽样数时应该考虑这种平衡关系。

2.完整地描述你的调查方法，并且清楚地给出你的模拟数据。如果使用问卷式抽样调查（不限于问卷式），请给出问卷格式。

3.给出基于调查数据的市场评估和预测模型，并用数据说明你的方法的有效性和科学性。

4.在附录1中给出了一个参考的问卷格式，也给出与该问卷相关的一个数据库(附录4)。这个数据库是包含十个省，全部学生（为了减少数据量，假定全班学生填表相同，因此每个专业只有一个学生填写问卷）的模拟答卷（包括三年的），作为本竞赛题的背景数据

5.附录2中给出供本题提供的数据库的29类教材名称以及分类号，附录3给出某出版社各类教材的三年销售量，可供查询。

6.在附录4中也给出十个省所有学校名称以及其专业名称，你可以用在这些检索词确定你对数据库的取样查询。

7.如果你自行选用数据，请给出调查数据的可靠性和合理性的检验方法和数据来源。

三、基本假设

为了便于我们从题目的整体理解，从出版社的战略发展、投资策略、生产安排、销售方式和产品策划等业务考虑，对出版社的市场占有率（市场份额）及其逐年变化进行调查。从而设计有效而可行的调查方法，并且建立调查数据的分析模型，以及对市场作出科学评估和预测的方法。我们在此做出合理的基本假设：

（1）在相当长的一段时期内教材出版业的市场是基本稳定的；

（2）社会环境稳定，社会政策关于出版业方面无较大调整；

（3）教育部门对教材的应用无较大变化；

（4）学校各专业无较大的变化，学校的人数不会有大幅度的增加或减少；

（5）教材出版社的数量基本稳定，经营状况起伏不大；

（6）出版社的经营情况良好，无意外事件发生；

（7）教材出版社出版的教材质量有保证，无质量问题；

四、问题的分析与模型的准备

一、问题的分析

鉴于本题的附录中所给出的数据较多，有：

（1）在附录1中给出了一个参考的问卷格式；

（2）在附录2中给出供本题提供的数据库的29类教材名称以及分类号；

（3）在附录3给出某出版社各类教材的三年销售量，可供查询；

（4）在附录4中给出十个省三年的原始数据以及相对应的学校专业名录；

（5）还可自行选用数据。

而且题目中要求基础数据是问卷式普查数据，由于抽样成本的限制，普查不可取，抽样数应该在调查目的的基础上尽量少，所以我们从以下方面考虑，处理数据，解决问题：

首先我们分析数据库中数据，按一定规则将各大学排序，采用系统随机抽样的方法，外加地域性修正，把市场调查的范围从205所高校缩小到26所。针对此26所学校进行问卷调查。我们分析调查所得数据，对于某出版社的市场份额，用与该出版社相关的问卷数与总问卷数的比值来衡量，从而得到三年各出版社市场份额的数据表格，并利用拟合的方法进行预测。

其次我们还考虑到了问卷抽样调查过程中有可能出现的特殊情况，即：抽样无回答情况。我们利用两种补救无回答的二级抽样调查方法对此问题进行了解决，传统方法和贝叶斯方法，并对它们之间的异同作简略的概括和比较。此两种方法均是为降低非抽样误差、提高数据质量服务的。可以说在模型的应用一个非常好的补救方案，使我们的模型更加完整，更具有有效性和科学性。

再次我们还提出了对按需印刷理论的新理解，从而大大减少了出版社的成本投入。在灵敏度分析中，我们还利用某出版社的数据对模型进行了验证，将模型推广到一般。

最后我们还对题目进行了更加完备的讨论和使用说明，并在此题的基础上对出版社提出了意见和建议。

二、模型的准备（名词解释）

1、数据压缩

数据压缩是以信息损失最小为前提，简化或压缩数据以提高其传输、存储和处理效率的一种技术。考虑到数据量相当庞大，需要获取和处理的数据量较多，数据压缩是减少工作量、节省计算机时间的有效方法。可通过去掉间隔、空白段、冗余项目或不必要数据，只保留反映特征的数据等手段实现，达到在给定空间内增加所能存储的数据量，减少数据量所占的空间。数据压缩方法通常有：①削减。用外延或内插方法推算冗余数据并将其去掉；②参数抽出。即仅保留特征数据和参数；③等时间采样。按等时间间隔对连续输入的数据进行采样；④编码变换。将数据变成简化代码，或对每个数据块进行编码变换，其效率用每个像元的比特数来衡量；⑤函数应用。根据由等间隔或不等间隔采样得到必要的采样点，用函数算法推算出削减的数据。

2、无回答

所谓无回答是指出于某些原因，不能从所有的样本单位或问卷的所有问题中获得所需的信息。它可以是样本单位没有提供或者没有完全提供所需的信息，可以是所提供的信息中有一部分无法使用。无回答的调查者与回答的调查者通常具有不同的特征，因此如果对无回答不进行纠正的话，将会降低样本的有效性和代表性，使调查估计值产生偏差，从而降低调查的精度，甚至导致整个调查的失败。

3、二级抽样方法

二级抽样方法是人们常用的一种处理无回答问题的方法，它的基本思想是：对最初的无回答进行再一次的随机抽样，然后用最初样本的回答数据和子样本数据对总体进行估计，以消除无回答的偏差影响，提高估计量的精度。这种方法常用于邮寄调查中。下面我们将介绍两种补救无回答的二级抽样调查方法：传统方法和贝叶斯方法，并对它们之间的异同作简略的概括。

4、按需印刷

按需印刷(PrintOnDemand，简称POD)的本意是指按照不同时间、地点、数量、内容的需求，通过数码及超高速挽印技术实现出版行业整个流程的全新改造来适应个性化、短版化、高效率的现代市场需求。它尤其适用于一些定向较窄、专业性强、可变性强、批昼较小的印刷业务。按需印刷是先进的数据库技术和数字印刷技术相结合的产物。其操作过程是先将图书内容数字化，然后用电子文件在专门的激光打印机上高速印制书页，并完成折页、配页、装订等工序。它具有印刷时间上的即时性，印刷数量、印刷内容的可变性和个性化等特点。

在此我们利用它的引申意，按照市场所需的教材的数目进行印制。由于各高校对于教材的需求种类不同，所以很需要这么一种模式来满足客户的需求，因此我们在此提出按需印刷模式。

同时按需印刷采用即时供货结账的方式，使出版社节省了图书储存空间。实现“零库存”，而且还能解决图书绝版及印数问题。通过按需印刷，出版社可摆脱图书印刷、库存、运输、投资所带来的资金风险和发行量的压力，节省成本。

五、模型的建立与预测

（一）、抽样调查方法的陈述

我们的抽样调查可分前期、中期、后期三个工作阶段，即“样本－数据－分析”。前期工作是进行抽样设计获得调查单位名单，解决向谁搜集统计资料的问题（样本）；中期工作是对抽选的调查单位进行统计调查，获得统计数据并对数据进行必要整理，提供准确的、可供统计分析的数据，解决数据获取和数据格式问题；后期工作是利用统计软件对调查和整理得到的数据进行统计分析，得出科学的分析结论，达到统计工作的最终目的（分析）。三者相辅相成，缺一不可。

抽样调查所考虑的问题在实际抽样调查中无外乎包括以下三个方面:调查指标估计的精度；调查成本的高低；样本的容量。在抽样调查方案设计中以上三个方面是相互矛盾的。因此在抽样调查方案设计中应当根据实际对以上三个方面问题进行重要性排序，一般情况下,调查指标估计的精度是最重要的,其次应当考虑调查成本,最后再考虑样本容量。

所以抽样调查方案设计中三个问题的优先级：

(I是优先级)

以下是我们归纳的抽样调查的步骤：

5.1、抽样的目的

抽样的目的是从已有的普查数据库中选取有代表性的数据，即数据压缩。通过数据压缩，得到误差允许范围内的数据，从而对市场进行科学的评估和预测。

5.2、抽样的基本原则

为了掌握市场的情况，所抽得的数据应该具有全面性和代表性，这是抽样的基本原则。

5.3、常用的抽样方法（简述）

抽样方法可分为概率抽样和非概率抽样两大类。由于非概率抽样结果的可能性不能准确地计量,一般都使用概率抽样方法，简单随机抽样、分层随机抽样和系统随机抽样均属概率抽样方法。

1.简单随机抽样

简单随机抽样是指“从含有N个个体的总体中抽取n个个体，使包含有n个个体的所有可能的组合被抽取的可能性都相等”。采用此方法抽样时，数据库中的每个数据被抽入样本的机会均等，它是完全不带主观限制条件的随机抽样法。它是一个基本的随机抽样方法，也是其他随机抽样方法的基础。

2.分层随机抽样

有时产品可分为若干层，各层产品质量存在明显的差异，为了取得有代表性的样本，把整批产品分为若干层，使同一层内产品质量尽可能均匀整齐，在各层内分别随机抽取一些产品，合在一起组成一个样本，这样的抽样方法叫分层随机抽样。在正确分层的前提下，分层抽样的代表性比简单随机抽样好，但是如果对批质量的分布不了解或分层不正确，则分层抽样的效果会适得其反。

3.系统随机抽样

如果一个批的产品可按一定的顺序排列，并可将其分为数量相当的n个部分，从每个部分按简单随机抽样方法确定的相同位置，各抽取一个单位产品构成一个样本，这样的抽样方法称为系统随机抽样。它的代表性在一般情况下比简单随机抽样要好些，但在产品质量波动周期与抽样间隔相当时，抽到的样本单位可能都是质量好的或都是质量差的产品，此时代表性就较差。

5.4、抽样方法的正确选择

为了更好的评估和预测市场，选择合适的抽样方法是非常重要的。

1.当数据比较稳定，数据并不多时，选择简单随机抽样，在对总体质量一无所知的情况下，也应选择简单随机抽样。

2.当不同的数据来自不同的地域时，为了取得有代表性的样本,可以采用分层随机抽样。

3.当数据不稳定，中间相差较大时，应采用系统随机抽样。

根据实际情况,选择正确合理的抽样方法,提高样本的代表性和随机性,从而提高抽样的有效性,是十分重要的。只有科学、合理、有效地实施抽样，才能使我们的要求得以实现。

为此我们针对此题数据多，地域性广，各类书籍需求量相差很大等特点，综合考虑三种抽样方法，采取以系统抽样为主，其它抽样为辅的方法，利用数据压缩解决抽样问题。

同时我们还应用了Excel软件，Excel软件在统计分析方面的功能虽不及专业统计软件（如SPSS、SAS等），但它那强大的、灵活易用的数据管理和整理功能是专业统计软件所不能及的。因此我们在处理数据方面较多的利用了Excel软件，使我们的处理数据的速度大大加快。

抽样调查问卷采用题中给出格式。

（二）、模型的建立

首先我们从数据库中查询出一些有用数据，先写在下面。

1.学科类别29类

2.出版社数目25个

3.大学数量205所，各个省市对应的大学数量见下（表一）：

北京广东河北安徽河南福建广西甘肃贵州海南

493026242414131294

（表一）

4.基于数据库中全部数据，每一年收回问卷数中与该出版社有关的问卷数目，见（表二）：

出版社第一年与出版社有关的问卷数目第二年与出版社有关的问卷数目第三年与出版社有关的问卷数目

p196325323327

p559328336346

p106353352351

p199380379393

p307406411418

p102444451452

p131476475472

p511490495503

p030497503512

p063506508515

p416640637635

p304654661666

p110747754764

p246773778781

p432871870868

p091910913913

p118100210151031

p210130813111308

p044160616041602

p390204120352025

p405309831623227

p534402140013983

p293509549474767

p115182671811617967

p357204902064620812

（表二）

分析：题目说明4中，说明了一份问卷的意义。在一份问卷上出现一个出版社的名字，说明填写该问卷的学生所在的整个专业，使用该出版社的教材。我们可以假设，总体上说，专业平均的人数相同，则某一年与某出版社对应的问卷数目越大，在该出版社购书的人越多，说明该出版社的市场占有率越大。

5.基于数据库中全部数据，可以考察每一年各个大学的购书情况。我们可以统计出各个大学的学生填写问卷的数目。根据我们的假设，问卷数越大，学校对书的需求量越大。

我们按不同大学对应的问卷数目降序排列。同时经分析发现，各大学三年的问卷数目并没有发生变化，因此各大学的排名也不会发生变化，因此三年的问卷数目都可以按第一年的情况考虑。

由于大学数目有205所，我们分析得到的各大学排名数据仍然很多，在这里我们省略。

下面我们来分析每一个问卷数目段中的大学数量：见（表三）

某大学的填写问卷数目大学的数量

700~7991

600~6997

500~59934

400~49934

300~39939

200~29938

100~19920

0~9932

（表三）

据此我们采取系统随机抽样，对于按填写问卷数目降序排列的205大学，将其分为数量相当的26个部分（按照排名，每8个学校为一个部分，前25部分满额，第26部分有空缺）。对于每个部分，采用简单随机抽样确定相同的位置（本题选用每一部分的第一个位置）。

下面我们来考察我们现在确定的方案是否符合数据的“全面性、地域性和代表性”

见（表四）

省份北京广东河北安徽河南福建广西甘肃贵州海南

共有大学数量493026242414131294

选取大学数量7435130111

（表四）

从表格中我们看出，个别数据并不能很好的体现地域性和代表性。我们需要对系统随机抽样的结果作出人为的微调。举例来说我们可以把某一所安徽省的学校换为和它排名相差较小的广西省的学校。

最后我们确定的学校数量如下（表五）：

省份北京广东河北安徽河南福建广西甘肃贵州海南

共有大学数量493026242414131294

调整后选取大学数量6433322111

（表五）

最终我们所选出来具体的大学，结果见下（表六）：

郑州大学福州大学广西民族学院北京理工大学中国农业大学贵州工业大学河北农业大学北京联合大学

河南省福建省广西北京市北京市贵州省河北省北京市

744597552542519507470451

续上表

海南大学广西师范大学茂名学院郑州航空工业管理学院北京广播学院商丘师范学院湛江师范学院北京机械工业学院

海南省广西广东省河南省北京市河南省广东省北京市

414405385369342305301276

续上表

唐山师范学院河西学院仲恺农业技术学院巢湖学院福建医科大学北京电子科技学院安徽医科大学安徽中医学院

河北省甘肃省广东省安徽省福建省北京市安徽省安徽省

2532392082041381037768

续上表

中国人民武装警察部队学院广州体育学院

河北省广东省

3532

（表六）

总结我们的调查方法，是：在205所学校中，选取部分学校作为代表，接受问卷调查。学校的选取方法为：总体采用系统随机抽样的方法，但为了保证“全面性、地域性和代表性”，也对抽样方法作了一些修正。我们选取了如上26所高校作为发放调查问卷的对象。

下面我们根据上述调查方法，从数据库中分别找出第一年26所大学对应每个出版社的问卷数目。我们采用Excel软件进行处理，得出第一年每个出版社对应26所大学的问卷数目的和。

对应表格如下（表七）：

出版社P559P199P102P106P196P307P304P030P131P511P063P416

问卷数目384547474955596467687285

续上表

P110P246P091P118P432P210P044P390P405P534P293P115P357

889911811911916020426637851563125072657

（表七）

我们利用Matlab软件，也表示出了第一年每一个出版社对应的问卷数目与总问卷数目的比值如下（表八）：

出版社P559P199P102P106P196P307P304P030P131P511P063P416

问卷比例0.00440.00530.00550.00550.00570.00640.00690.00750.00780.00790.00840.0099

续上表

P110P246P091P118P432P210P044P390P405P534P293P115P357

0.01030.01160.01380.01390.01390.01870.02380.03110.04420.06020.07370.29300.3105

（表八）

基于原来的假设和说明，我们可以用它来考察市场占有率。相应的也可以求出第二年，第三年每一个出版社对应的问卷数目与总问卷数目的比值。

下面给出第二年的结果，见（表九）

出版社P559P199P106P102P196P307P304P131P030P511P416P110

问卷比例0.00440.00510.00550.00580.00610.00650.00690.00720.00760.00830.00980.0105

续上表

P063P246P432P118p091P210p044P390P405P534P293P115P357

0.01070.01180.01380.01410.01390.01850.02590.0310.04470.05950.07110.28860.3123

（表九）

六、模型的误差分析

运用Matlab软件，可以求出基于数据库全部数据时，每一年每一个出版社对应的问卷数目与总问卷数目的比值。

对于我们的采样方法，以第一年为例，我们可以计算两个比值之间的相对误差，以此来检验我们的方法。

表格见（表十）

P196

p559p106P199

p307p102p131p511p030p063p416p304

标准0.00490.00500.00540.00580.00620.00680.00720.00750.00760.00770.00970.0100

测量0.00570.00440.00550.00530.00640.00550.00780.00790.00750.00840.00990.0069

误差16.3%12.0%1.8%8.6%3.2%19.1%8.3%5.3%1.3%9.1%2.1%31%

续上表

P110p246p432p091p118p210p044p390p405p534p293p115p357

0.01140.01180.01330.01380.01520.01990.02440.03110.04710.06120.07750.27790.3117

0.01030.01160.01390.01380.01390.01870.02380.03110.04420.06020.07370.29300.3105

9.6%1.7%4.5%08.6%6%2.5%06.2%1.6%4.9%5.4%0.4%

（表十）

由上面表格可以看出，除个别组外，其余各组的相对误差均小于0.1。可见我们的方法在精度要求范围内较好。

七、模型的验证及改进

从出版社的角度考虑，在印刷方面，我们提出按需印刷理论。为了验证模型的有效性和科学性，我们按地区划分，将10个省市三年的售书情况进行了统计，然后我们利用Excel软件对数据进行了处理，并作出直观的图表，借以26所大学的选取进行验证。

某出版社三年内在10个省市的售书情况：

1.表格见（表十一）：

北京市广东省河南省河北省安徽省福建省甘肃省广西省贵州省海南省合计

第一年3934283725442374199814001136101784429018374

第二年3902280925332354198013961133101783828218244

第三年3870277325042315196313781122100983028318047

合计117068419758170435941417433913043251285554655

平均值3902280725272348198119321131101583828518222

排名12345678910

（表十一）

由表格我们可以看出：

（1）10个省市，每个省市三年中书的销售数量基本相同，每年数量相差不大；

（2）在三年中，每一年，10个省市书的总销售量基本相同，平均每年销售18222册；

（3）通过三年的比较，可以得出10个省市每年的售书情况及其排名。

2.作图如下：

（图一）为三年10各省市的售书情况的自然条形图

（图一）

（图二）为三年10各省市的售书情况的比例圆饼图

（图二）

通过作图我们可以看出：

（1）北京市三年内售书最多，达到了21.4％；广东省其次达到了15.4％；河南省紧跟其后，达到了13.9％；它们三个省市的售书量已达到50.7％，超过了一半。

（2）北京市、广东省、河南省、河北省、安徽省、福建省五省的售书量均超过10％，其五省的总销售量达到了74.5％。

我们根据（附录），可以求出基于我们的模型，P115出版社各个省份所占的百分比，如下（表十二）

省份北京广东河北安徽河南福建广西甘肃贵州海南

百分比25.4%10.2%10.2%4.7%18.1%7.9%10.4%3.3%4.5%5.4%

（表十二）

可以看出和圆饼图相比，一些省份的数据有所出入。

据此我们找到了模型的改进方向。在选取大学的时候，不仅做到系统随机抽样和地域性修正，还要做到各个省份学校分布相对均衡。这样所得结果必定效果更好。

免责声明：本站发布的教育资讯（图片、视频和文字）以本站原创、转载和分享为主，文章观点不代表本网站立场。

如果本文侵犯了您的权益，请联系底部站长邮箱进行举报反馈，一经查实，我们将在第一时间处理，感谢您对本站的关注！

当前位置：新励学网 > 考研教学 > 教育研究中的分层随机抽样的内容是什么

教育研究中的分层随机抽样的内容是什么