学业成就测验：课堂教学评价修养

时间：2023-10-23 理论教育版权反馈

【摘要】：测验编制者应当努力使试题的赋分体现命题双向细目表的意图。目前，我国大规模的校外考试已开始采用征题与命题相结合的方式进行命题组卷，即按照测验的双向细目表的意图，制定出命题的范围和要求，向有关人士广泛征集试题，形成初步的试题素材库，然后，再由专业的命题人员选择、修改，并命制一些新题，组合成试卷。

学业成就测验：课堂教学评价修养

在学生认知发展评价中，学业成就测验是学校和教师最常用的测评方法之一。因此，搞好学生学业成就测验是提高学生学力评价质量的重要因素。

一、学业成就测验编制的基本程序

（一）确定测验的目的和对象

测验可以具有不同的目的。测验目的不同，其编制的侧重点与技术也应有所不同。同样，测验对象的特征也影响到测验的编制。被测试者的年龄、智力水平和受教育程度不同，所采用的编制技术也应有所不同。

（二）规定测验的内容和形式

在学业成就测验中，要涉及确定该学科内容范围的书面、操作、口试等测试方式。

（三）编制、设计测验蓝图

在编制测验前，首先要设计好测验蓝图，即命题双向细目表。这一环节极为重要，关系到测验能否体现评价的要求，是否有效、可靠，评价者应当认真对待。命题双向细目表具有两个维度：一维是考核的学科知识内容要点，另一维是考核的能力层次（认知水平）。这两个维度体现了考核的整体要求。

设计双向细目表一般包括以下几个基本步骤：

1.考核内容的抽样和考核认知水平的确定

由于一次测验的容量有限，因此评价者不可能对学生已学习的全部内容、已发展的各种认知水平进行全面考核，必须科学地进行抽样。

在大规模的校外考试中，抽样方案一般由学科专家和有教育经验的教师经集体讨论后确定。抽样的基本原则为保持综合平衡。具体来说，测验的内容分布，既要有较宽的覆盖面（如重要章节），又要突出基本或重点部分，做到点面结合；各部分内容的比重，应大致与该部分的教学时数比重相当。测验所考核的认知水平分布也要合理，覆盖各种认知水平（如记忆、理解、应用、综合应用等）。同时，还应当尽量减少单纯记忆的考核，注重理解能力，并适当加强高层次能力（如应用能力）的考核，发挥评价的良好导向功能。

校内测验和考试，常常由任课教师或学校的教导处教师进行命题。上述的抽样策略也同样适用于校内测验。一般来说，由于教师对学生的实际情况更加了解，校内测验应具有更大的灵活性和针对性，如教师可根据教学的具体要求或发现的问题，有意识地加强对学生未充分掌握的内容、或着重培养的认知水平进行考核，使评价为改进教学服务。

2.确定题型和题量

选择题型时，应当主要考虑所要测量学习结果的特性。最适当的题型是由考核目标与学科特点所决定的。

在通盘考虑整个测验的题型时（还要做到主观题与客观题相结合；选答题与自答题相结合），一般说来，校内形成性测验应适当提高自答题的比重，以便了解学生解题的过程和思路，为改进教与学提供充分的信息。

测验总题量的确定受很多因素的制约，主要包括测验时间的长短、题型、阅读、计算机以及文字书写量、试题难度、内容与认知水平的覆盖面等因素。鉴于大部分学业成就测验都不是速度测验，因此应当让学生有充分的时间解题并进行必要的核查，发挥其实际水平。国外的一些负责大规模的校外测验编制的机构，十分重视对题量的研究。他们通过统计在规定时间内考生来不及完成的试题数量及比例，来评价测验的题量是否适当。

3.确定试题的平均难度和难度分布

在编制测验时，一定要考虑试题的平均难度，测验过难或过易，都不利于学生发挥正常的水平。确定试题的平均难度，可采用经验估计的方法，也可通过预测，再计算出试题的难度。试题难度受到多种因素的制约，有些与内容本身的难度有关，如原理、规律通常比事实、术语更难掌握，另一些则与考核的认知水平有关，如单纯考记忆的试题最容易，考理解的试题稍难些，考应用，尤其是考创造性应用的试题难度最大。此外，难度与题型也有一定的关系，如果考察的内容与认知水平相同，选择题一般比要求学生写出答案的题型容易些，因为选择题提供了各种备选答案，学生可从中选正确答案。

不同性质的考试所需的试题平均难度是不同的。例如，我国高考的试题平均难度一般定在0.5～0.6之间，以提高高考的选拔性，而高中毕业会考的试题平均难度一般定在0.7～0.8之间，以保证会考的合格率。

在编制测验时，除了考虑试题的平均难度之外，还要考虑不同难度试题分布情况。一般说来，大部分试题的难度应当在0.2～0.8之间，中等难度的试题数量较多，同时又有一些较容易的试题以及一些较难的试题。在实践中，人们提出了各种难度试题在整个测验中所占的大致比例。如在高考中，容易题、中等难度题和难题的比例大致可定为6∶2∶2；而会考各种难度试题的比例则大致可定为7∶2∶1。

4.试题赋分和测验期望分的预估

试题赋分问题是指每道试题应给予多大的满分值。在一定意义上，不同的分值代表了不同的权重，即试题越重要，其分值也越大。因此，试题的赋分会直接影响到测验各部分在试卷中的地位与比重，同时试题的分值也会影响考生的作答时间和精力的分配。测验编制者应当努力使试题的赋分体现命题双向细目表的意图。

主观评分试题的赋分问题比较复杂，在赋分时通常要考虑考核内容在知识技能体系中的地位、认知水平的要求、试题难度和容量、解题所需的技巧与时间等因素。选择题（包括其他可客观评分的题型）的赋分则比较简单。人们一般都赋以选择题相同的分值，而不过多考虑其他的因素。因为选择题的题量较大，赋以相同的分值，可以方便地把试题得分组合成总分。

有了试题的预估难度及试题的分值，便可估算出测验的期望平均得分。人们可根据这一预估的测验期望分，对试题的难度和赋分进行微调，使测验既体现其预定的意图，又较好地符合学生的实际。

双向细目表是编制测验的蓝图，它由两个维度组成：一维是考核的学科知识内容要点；另一维是考核的能力层次（认知水平）。这两个维度体现了考核的整体要求。

（四）命题

试卷质量取决于试题质量，因此，命制良好的试题是测验编制中最核心的环节。编制高质量的试题要花费大量的资源，对命题者的素质要求也很高，如能熟练把握命题的基本规范与技巧等。有些试题的命制，还需要命题者发挥其创造性思维。

目前，我国大规模的校外考试（如高考及高中毕业会考）已开始采用征题与命题相结合的方式进行命题组卷，即按照测验的双向细目表的意图，制定出命题的范围和要求，向有关人士广泛征集试题，形成初步的试题素材库，然后，再由专业的命题人员选择、修改，并命制一些新题，组合成试卷。国外大规模考试的命题周期大多很长。如美国两大高校入学考试——学术性向测验（SAT，由考试服务中心编制中心编制）、教育发展组试（ACT，由美国高校测试中心编制）的命题周期长达1年半至2年。严格的命题程序和持续的监控、修订有效地保证了测验编制的质量。

校内测验编制一般都采用有关教师在考前临时命制的方式由于各种因素（如时间、经验、专业素质等）的制约，命题质量与大规模的校外考试存在较大的差距。下面的命题技术部分，将介绍一些不同题型以及不同认知水平的命题规范。了解并掌握这些规范，将有助于教师提高自己的命题水平。

（五）试测和试题统计分析

试测是指将命制好的试题在具有代表性的样本中进行预先测试。这是国外大规模考试命制试卷时，对试题进行进一步筛选的常用措施。根据试测样本的反应，可以计算出试题的各种性能指标（如难度、区分度等）。测验编制者可以利用这些指标对试题进行修改、筛选、更换，以确保正式试卷中每道试题都具有较高的质量。

（六）组卷

组卷是指把命制好的试题按一定的标准组合成试卷。可采用许多不同的标准进行组卷，如按考核内容组卷、按考核的认知水平组卷等。但国内外最常用的组卷方式是按题型组卷，即把相同题型的试题编在一起。这样做的好处是每种题型只要写一次指示语，十分简明、醒目。

组卷时还有一些基本的规则，如试题应当尽可能按由易到难的顺序排列；指示语要准确，使学生了解解答的要求；排版要方便学生阅读和回答，并有利于评分统计等。

目前，许多校外大规模考试，均采用客观题与主观题相结合的形式。通常对选择题部分提供单独答卷纸，以便机器阅卷，提高效率。国外一些考试（如TOEFL）为了防止作弊，在组卷时采用调整题序印制试卷的策略，使相邻考生相同题号的试题内容不同，有效地排除了考生相互抄袭而获益的可能性，从而提高了考试的效度。

（七）制定评分细则

评分细则的制定是测验编制的最后环节。命题者应当较详尽地列出评分的要点，给分的原则。评分细则应当具有较强的规范性和可操作性，以便为阅卷、评分者提供统一的标准，尽量减少评分误差。事实上，不管事先制定的评分细则多么详尽，在阅卷过程中，还会出现各种预料不到的问题。必要时，命题者应根据实际情况再制定补充细则。

二、命题技术

试卷的质量取决于每个题目的质量。要命制出高质量的试题，命题者掌握各种基本题型的编制技术和不同认知水平的命题技巧是必要的。从以下两个方面作进一步的论述。

（一）题型的分类

测验所采用的题型有不同的分类方法，简述如下：

1.按学生作答的方式分类

按学生作答的方式可分为选答题和自答题两类。选答题要求学生从给定的几个备择答案中选出正确的或最佳的答案。自答题则要求学生自己提供并书写答案。一般而言，选答题均能客观地评分，而自答题的评分相对主观些，存在着不同程度的评分误差。当然，两种分类也会有个别的交叉，例如填空题需要学生写出答案，属于自答题，但由于只需填写少量的词（或词组）或数值，评分误差很小，又属于客观题。

2.按评分误差大小分类

按评分误差大小分类，可分为客观题和主观题两类。客观题是指无评分误差、或评分误差很小的题型。主观题是指评分误差较大的题型。

按学生作答的方式可分为选答题和自答题两类。选答题要求学生从给定的几个备择答案中选出正确的或最佳的答案。自答题则要求学生自己提供并书写答案。

本节采用选答题与自答题这一分类，介绍了一些相应的命题原则。

（二）选答题的特点、种类和命题原则

1.选答题的种类和特点

选答题是目前各种测验中最常用的题型。选答题的主要优点是：覆盖面大，效率高，能考核多种能力，答案惟一，评分客观。主要缺点是：编制困难，命题需要较高的技巧、费时，较难测量组织材料过程、思维过程、表达能力和独创性。

选答题有多种表现形式。最典型的是多项选一的选择题，即给出一个题干和3～5个备择答案，要求考生从中选出一个正确或最佳的答案。近年来，为了减少猜测，不少学科推出了多项选多的选择题，即备择答案中所包含的正确答案数量不确定，可以是一个，也可以是多个，考生必须从备择项中选出所有正确的答案。一般来说，多项选多的选择题（比多项选一的选择题）的难度更大，区分度也有所提高。

选答题还有几种变式。如是非题（或正误判断题）、组配题等。

是非题实际上是只有两个备择答案的选择题。因其猜测答对的成功率较高，目前使用范围日益缩小。

组配题是选择题的复合形式，一般有两个栏目组成，其中一个栏目是需要组配的题干，另一栏目是备择项目。组配题的最大优点是能在较短的时间内测量大量相关的内容。在多数情况下，一个备择项目只能组配一次。如规定同一备择项目可组配多次，将有助于提高组配题的难度和区分度，因为考生无法用排除法猜出答案。

2.选答题的猜测校正

由于选答题普遍存在着猜对的可能性，因此，国外学者提出应当对选择题进行猜测校正。校正的方法主要有两种。其一是根据答对与答错题量进行调整。计算公式为：

式中，R为答对题数；W为答错题数；K为备择答案的数量。

例如，一次测验共有50道四项选一的选择（每题2分），某生答对38题，答错12题。如不进行猜测校正，该生的得分应为76分。如进行猜测校正，则该生的校正分为：

因每题分值为2分，则学生的校正分为68分。两者相差8分，扣除的分数便是对猜测的校正。

其二为惩罚猜测法，即对答错的试题实行倒扣分。这种方法过于严厉，不利于学生尝试完成所有试题，促使学生对无把握的试题采取放弃的态度。因此，在实践中并不常用。

我国目前的做法是鼓励学生对无把握的试题进行猜测，不进行猜测校正，更不对答错试题的考生实行惩罚，这是较为合理的做法。

3.选答题的命题原则

编写良好的选答题时，应该做到：

（1）题干的设问要明确，尽量使用肯定式题干。

（2）尽可能压缩备择项的字数，所有备择项都要用到的相同词语，应设法放在题干中。

（3）避免任何形式和内容上的暗示，应选项（正确答案）与干扰项（错误选项）的长短与句式要大体相仿。(www.xing528.com)

（4）应选项应确保“正确”或“最佳”，不应引起歧义或争执。干扰项应有似真性，并尽可能使其在错误类型上具有典型性。

（5）备择项数以4～6个为宜，各备择项应相互独立，无交叉或重复。应选项在各题中的位置，应随机排列，无规律可循。

（6）尽可能少用“是非题”，如必须采用，最好每题只出现一个概念或事实，以免造成模棱两可的情况。要谨慎使用特殊的限定词。如“通常”、“一般”等常意味着命题是正确的，而“总是”、“从不”等常意味命题是错误的。

（7）组配题的题干项数量与备择项数量不应相等，防止通过排除法可做出正确回答。

4.选答题的备择项分析

就选答题而言，还应当对备择项选择情况进行分析。

最简单的方法是统计各备择项的选择人数比例。编制良好的选答题，其各个备择项都会有一定比例的学生选择。如果所有学生都选择了正确答案，说明该题太容易，或可能提供了某种暗示。如果某个（或更多）的错误答案无人选择，则说明这个（些）错误答案不具有迷惑性，错得过于明显。在规模较大的考试中，选答题每个备择项的选择人数比例应当高于20%～50%，如低于该比例就说明此备择项命制得不好，应当修改。

比较深入的分析是计算选择每个备择项的学生群体各自的测验平均总分，即分别计算选择A、B、C、D项四组学生的测验平均总分。这种分析可以提供更为详尽的信息：平均能力（以测验总分为指标）最高的学生组选择了哪个备择项（理论上说，应当选择正确答案）？中等能力的学生组选择哪个答案？能力较差（或最差）的学生组选择哪个答案？从而进一步了解不同能力学生的反应倾向或典型错误，并可总结出特定能力学生具有迷惑力的备择项的特征。

（三）自答题的特点、种类及命题原则

1.自答题的特点

自答题也是测验中最常用的题型。自答题的主要优点是：考核有一定深度、容量较大；可了解过程；考查综合能力、表达能力和独创性；容易编制；排除了猜测因素。主要缺点是：覆盖面较小、评分费时、客观性较差。

2.自答题的种类及命题原则

根据对所提供答案限制程度的不同，自答题一般可分为三种形式。

（1）填空题

填空题是一种最简单的自答题，也称为完形题。填空题包括填图、填表等变式。填空题对所提供的答案有严格的限制，一般只需填写一个词、式子或数值，因此，评分基本客观。填空题主要考查结论。

编写填空题时要做到：

①确保只有一个正确答案。待填的内容应当具有重要意义。

②不应从教材上摘录原文作为题目。

③每题以填1～2个空为宜，切忌过多留空，使句子支离破碎。

④如要求填写经计算得到的数值时，应当规定预期的精确度。

（2）简答题

简答题是一种半限制的自答题，即提供较为简短的答案，如简要的陈述、含几个步骤的计算题、制作图形或表格等。简答题还包括名词解释、列举题等变式。其中列举题最为简单，结构性强，主要考查结论，评分相对客观。名词解释是结论的简单展开，简答题是过程和结论的结合。随着陈述量的增大，评分的主观性也逐渐增加。

编写简答题时要做到：

①考查重要的内容和较高的认知水平，不宜只考查记忆。

②问题措辞明确简洁，指出所期望的要求（如范围、容量和精度等）。

（3）论述题

论述题是允许学生自由作答的非限制性自答题，包括文科测验中的作文题、问答题，理科测验中的计算题、证明题、解答题等。论述题适用于考查高层次的认知水平，如选择材料，组织材料，逻辑论证，分析与综合，评价、表达与写作等综合应用知识解决问题的能力。由于是自由作答，有利于学生发挥其主动性与创造性。学生解答所提供的信息比较丰富，不仅可了解学生对问题理解的深度与广度，还可了解其解答的过程、思路、风格、策略等情况。当然，论述题也有一些明显的缺点，由于容量大，分值高，不利于增加题量、扩大测验的覆盖面。此外论述题的评分误差较大，考前猜题、押题的可能性也较大，这在文科中尤其突出。

编写论述题时应当做到：

①题意明确，不产生歧义。

②设置新的问题情境，考查高层次的认知水平。

③设问应富有启发性，使学生有发挥余地。

④问题不宜过于空泛或繁琐，应突出重点。

⑤解答要求与评分规则要明确。

（四）不同认知水平的评价技术

命题者除了要掌握基本题型的一般编制原则外，还应当了解不同认知水平的评价原则，才能对学生的认知发展进行全面的评价。下面我们按布卢姆的认知目标的分类水平，简要论述不同认知水平的评价原则。

1.知识水平的评价原则

知识水平是指学生能够回忆或识别已经学习过的内容要素。知识是学生进一步学习和发展的基础，各种技能和能力正是在广泛的知识基础上发展起来的。因此，知识水平应当成为学业评价的组成部分。

知识水平也有难易之分，如事实性的知识一般为最具体、简单，较容易回忆，而方法的知识、原理的知识则相对抽象、复杂，记忆会困难些。

在考查学生的知识水平时，应当注意把握如下一些要点：

（1）在选材上，应当尽可能选择重要的知识内容，即对重要的、基础性的、反映学科核心本质的概念、事实、方法、原理进行考核，决不能为了提高试题的难度，出偏题、怪题，偏离了评价的本意。学生不太可能记住所有学过的内容，在记忆上耗费过多的时间和精力，会给学生发展更高级的认知水平带来不利的影响。

（2）考核知识水平的方式有两种：一种是要求学生提供答案，即能够回忆并再现已学过的知识；另一种是要求学生从给定的答案中识别出正确的答案，即能够再认已学过的知识。两者相比，再现（回忆）要比再认难度高些。

（3）命题时，对知识试题答案所要求的准确程度应当与教学时基本相似，而且问题中不出现新的术语或问题情境。如果采用新的术语，便可能成为对词汇的测试。

由于知识水平的考核注重的是记忆和再认的能力，因此，在学业评价中，知识水平考核的比重不应过大，否则可能会产生不良的导向作用，使学生形成靠死记硬背也能得高分的错误想法和习惯。

2.理解水平的评价原则

理解水平是指学生能把握已学过知识的本质含义，并能用自己的语言进行阐述。理解是在知识的基础上发展起来的，是比知识水平更为高级的认知水平。理解是对知识的加工、内化和改组，也为知识的应用奠定了基础。

在考查学生的理解水平时，应当注意把握如下一些要点：

（1）考核理解水平所用的材料应与教学时有所不同，但使用的语言、符号、内容的复杂性要与教学时相似。

（2）考核理解水平的方式有三种：第一种方式是转换，即将一种符号系统转换成另一种符号系统（如将语言形式转换为图表、符号形式等）。转换注重对材料要素作基本对应的变换，强调忠实和准确性。典型的考核实例是阅读各种图表，获取有关信息，根据上下文领会词汇与句子的含义等。第二种方式是解释，即除了进行要素转换外，还要求学生能把握总体信息中各要素的内在联系，并区分出关键的内涵，并进行说明与解释。典型的考核实例是对一种重要概念、原理进行说明、解释等。第三种方式是推断，即学生能够超越信息本身的字面含义，对其发展趋势或倾向作出推论，如在时间、范围、样本或主题等方面进行拓展和延伸。这是一种最高层次的理解，体现了对知识的实质性把握。

发展学生的理解能力是学校教育的最重要目标之一。因此，在学业评价中，对理解水平的考核应占较大的比重。

3.应用水平的评价原则

应用水平是指学生能把学过的抽象概念运用于某些特定而具体的情境中去。从根本上说，学习的目的在于应用，因此，应用成为检验教学是否有效的重要标志之一。

在评价学生的应用水平时，应当注意把握如下一些要点。

（1）必须提供新的、学生不太熟悉的问题情境，否则所考核的只是知识或理解水平。新的问题情境可以是虚构的，但最好是真实的。问题情境可以根据社会生活和科学研究中的实例加以裁剪和改编，也可以通过变换提问的角度，为熟悉的情境赋予新意。

（2）解决问题所需的概念或原理是学过的，但解决问题的模式并未具体说明，需要学生自己选择确定。

美国学者奥苏伯尔和鲁宾逊提出解决问题的模式，揭示了应用原理的思路过程。学生在解题前，首先要理解题意——明确问题的目标和条件，找出已知的条件及缺少的条件。然后选择适合问题类型的抽象概念（原理）及具体材料，逐步填补从已知条件（或前提）到要达到目标之间的认知空隙，通过演算、论证或阐述解决问题。最后再对结论进行必要的检验。

应用是一种重要的迁移能力。发展学生的应用能力，有助于培养其智力的独立性，能够对复杂多变的情境和问题做出适当的反应。因此，在学业评价中，应当加强对应用能力的考查。

4.分析、综合、评价水平的评价原则

在布卢姆的认知目标分类中，分析、综合、评价属于比应用更加高级的复合能力，我们把它们统称为高级认知水平。

分析是指将有关信息进行分解，能区别事实与假设、结论与证据，把握各种观念之间的关系及组织原则。

综合是指对各种信息进行加工，并改组成一个新的整体。综合十分强调独特性和创造性。

在评价学生的上述高级认知水平时，应当注意把握如下一些要点：

（1）应当提供新的问题、情境和材料。就评价综合水平而言，还可以允许学生自定问题或任务。

（2）高级认知水平的考核方式，可采用常规的书面闭卷测试的形式。在需要时，也可采用开卷考核，学生可利用各种参考资料解决问题。有时，还可以采用小论文、小课题研究、小实验的方式，放宽时间、工作条件等规定，让学生利用课余时间进行深入研究，完成课题。

（3）高级认知水平的表现形式是多种多样的。如分析包括某种社会或自然现象的原因和结果，找出若干现象之间存在的联系。综合包括表达自己的观点、体验，进行叙述或说明，制定研究或调查计划，设计一个实验方案，提出一种假说和命题、理论、模型等。评价则包括评价特定作品、原理、方法、方案的客观性、可靠性、准确性、自洽性、艺术性、感染力、社会与经济效果及价值，比较各种作品、原理、方法、方案的特点和优劣等。

高级认知水平的培养和评价，对学生终身的持续发展具有深远的影响。因此，在学业评价中，评价者应注意加强对这些高级认知水平的考核。当然，考核的深度、广度等要求应当符合学生的年龄、心理发展的具体水平。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈

研究成果

注意事项

解决方案

计算方法

发展趋势

中国古代

社会主义

心理健康

控制系统

建筑工程

经济发展

传统文化

民事诉讼

中国传统

程序设计

轨道交通

解决方法

工程施工

研究结果

建设工程

文史资料

持续发展

计算机网

使用方法

学业成就测验：课堂教学评价修养

相关推荐

学业成就测验：课堂教学评价修养

有关课堂教学评价修养的文章

相关推荐