《从初级教育到中级教育的升级》 Promotion from Primary to Secondary Education

 严元章藏书0206

 

从初级教育到中级教育的升级

Promotion from Primary to Secondary Education

 



主要介绍了一项于 1948 出版的研究报告,题为《从初级教育到中级教育的升级》,该报告由 Douglas M. McIntosh 撰写,是苏格兰教育研究委员会的出版物之一。该报告的核心内容是 McClelland 调查的通俗版本,该调查旨在通过实验方法确定最可靠的测试或测试组合,用以 预测 学生最适合哪种中学课程。研究探讨了包括 智力测验标准化学习成绩测验普通考试 和 教师评估 在内的多种评估方法在选拔过程中的 预测价值,特别关注如何 减少选拔错误 和 不适应者 的数量。最终的建议包括不应只使用单一衡量标准、在城市地区使用 智商 + 统一考试 + 教师评分 的组合电池,以及科学地确定 录取分数线

 I 章:引言 (Introduction)

本章介绍了苏格兰教育中的合格阶段的历史背景。1901 年教育法令将义务教育年龄提高到 14 岁,催生了对学校系统重组的需求。1903 年的《法典》引入了补充课程Supplementary courses),入学资格取决于合格考试(Qualifying Examination),该考试旨在作为小学教育和中学教育之间的障碍hurdle)。

教育当局自 1922 年以来尝试了多种选拔方案,包括书面英语和算术考试、学校记录,以及逐步引入智力测验和标准化学习成绩测验。作者指出,合格考试的功能正在从单纯的障碍转变为预测功能,反映出对儿童个体差异的日益重视。研究的核心目标正是通过实验方法找出能够最可靠地预测学生最适合的后期课程的测试或测试组合。

研究考虑的四种评估方法是:智力测验、标准化学习成绩测验、普通考试和教师评估。此外,研究首次将重点放在不合格者misfits)身上,即那些勉强通过考试但在中学失败的学生,以及那些被淘汰但在中学取得成功的学生。

 II 章:实验的总体规划 (General Plan of the Experiment)

实验在邓迪市(Dundee)进行。当时该地区没有统一的合格考试,升学主要由教师对学生能力和成就的评估决定。实验设计是:对处于合格阶段的学生进行全面评估,然后追踪他们在后期教育部门三年的发展,最终将小学评估与中学成绩进行比较。

实验采用了六种评估方法:

  1. 智力测验 (Intelligence Test): 使用 Moray House 团体智力测验,结果以智商(IQ)表示,旨在诊断先天的智力能力。
  2. 学习成绩测验 (Attainment Tests): Moray House 英语和算术成就测验,具有完全的客观性和标准化。
  3. 合格考试 (Qualifying Examination): 邓迪教育总监根据苏格兰近年来的考试情况编制的英语和算术试卷,耗时 3.5 小时,由一位经验丰富的考官阅卷。
  4. 教师评估 (Teachers’ Estimates): 教师实际用于分配课程的百分制分数,以及对手工、绘画等实用科目的定性分级。
  5. 评分卡 (Rating Cards): 专门设计的卡片,由班主任完成,评估学生的能力、成就、个性及预期成功率,并由学校首席医务官提供健康分级。
  6. 助学金考试 (Bursary Examination): 仅针对参加助学金考试的学生提供分数。

 III 章:考试及其结果 (Examinations and their Results)

本章强调了解释考试分数的基本原理:分数意义取决于(1)教师的阅卷标准和(2)分数的分布或分散程度(scatter)。标准不同会导致及格率差异巨大。分数的散布程度决定了该科目在总分中的实际权重。为确保分数的可比性,本摘要使用百分位数percentile)来表示分数。

本章定义了考试的可靠性(reliability,即测量的一致性)和效度(validity,即测量的准确性)。可靠性涉及儿童自身的可靠性、考试本身的可靠性以及阅卷的可靠性。研究发现标准化测验(如智力测验和学习成绩测验)因其客观的阅卷机制,比普通合格考试更可靠。

 IV 章:教师的评估 (Teachers’ Estimates)

教师评估有三个主要特征:(1)分数通常偏高;(2)倾向于高估弱者,低估强者,从而减小分数的散布范围(不利于选拔);(3标准因学校而异,差异很大(某些学校标准差异超过 28%)。这一差异使得来自不同学校的未定标(unscaled)分数几乎不可能用于升学预测。

为了解决变异性问题,研究尝试了两种方法:

  1. 指导教师进行分级: 给出 A, B, C, D, E 五点分级及相应的学生百分比指导。这种方法的改进幅度很小。
  2. 定标分数 (Scaling Marks): 使用统计技术将各学校的分数调整到相同的标准和散布程度,通常以统一考试的结果为定标基准。麦金托什描述了在调查中使用的图表定标法(通过最高、最低、第 75 和第 25 百分位数点进行转换)。研究建议英语和算术的教师评估应该分别基于各自的统一考试成绩进行定标。结论是,教师评估必须经过定标才能用于选拔目的

 V 章:测验之间的关系 (Relation between Tests)

本章探讨了如何选择最有效的测试组合(电池)。一个理想的测试应该与中学成绩有高相关性,但与其他测试的测量内容差异较大(避免冗余)。研究发现智力测验(I)与英语成绩的相关性高于算术成绩。未定标的教师评估(T)与智力测验的一致性最低,但定标后(Ts)显著改善。此外,评分卡上的勤奋Industry)和兴趣Interest)分级与学习成绩高度吻合,这意味着它们对预测的独立价值不大。

 VI 章:后续追踪 (Follow-up)

后续追踪使用中学考试成绩作为衡量学生在中学成功的标准。研究决定,所有科目的平均分(包括艺术、手工、音乐、体育)将被用于衡量成功,因为只计算重要科目得出的平均分与此非常接近。

为了确保不同学校和课程之间的成绩可比性,采用了统计检查方法。最终,成功的判断由中学校长做出:如果学生有超过 50% 的机会在六年内获得一份最低毕业证书,则被视为成功。校长们在确定资优中学课程的及格/不及格边界时,表现出相当一致的客观标准。

 VII 章:小学成绩与中学分数之间的比较 (Comparison between Primary School Results and Secondary School Marks)

本章评估了各种评估措施的预测价值(即与中学成绩的吻合程度)。

  • 资优中学 (Senior Secondary) 课程: 预测价值顺序是:Q (合格考试总分)Ts (定标教师评估总分)S (学习成绩测验总分)IQ (智力商数)排名最高。
  • 普通中学 (Junior Secondary) 课程: 预测价值顺序是:Ts 排名最高,其次是 QS 和 IQ

智商(IQ)在四年主要测量中预测价值最低,但其预测价值在后期课程中呈上升趋势。研究发现,最佳测试组合(电池)始终是 IQ + Q + Ts。对电池中的分数进行权重调整(例如,给英语更多的权重)所带来的预测价值提升微乎其微。因此,建议使用简单的平均分,并将时间和精力投入到教师分数的定标上。

 VIII 章:剖面图 (Profiles)

“剖面图是一种直观的工具,用于研究个别学生的测试结果,以便检查预测的准确性。图表以百分位数形式显示了七项合格测试、平均分、实用能力、勤奋度、健康评级、小学教师预测以及随后的中学三年成绩和最终成功评估。

图表中标记的 75th 百分位数线是资优中学的合格分数线,位于此分数以上的学生有 50% 以上的成功机会。通过案例分析,剖面图展示了预测清晰的成功者和失败者,以及预测与实际结果不符的案例(例如,因家庭动力或健康因素导致的成功或失败)。

 IX 章:使用剖面图确定不合格者 (Use of Profiles to determine Misfits)

本章的核心是寻找固定合格分数线的原则,以使不合格者的数量降至最低。不合格者包括录取失败者admit-fails)和拒绝成功者reject-successes)。

研究通过实验证明了一个基本原理:对于任何入学考试,都存在一个使不合格者数量最少的及格分数线。当采用这条分数线时,学生正好有 50% 的成功机会。如果分数定得过高或过低,不合格者的数量都会增加。

采用最佳测试组合(IQ + Q + Ts)可以将不合格者人数降到最低 57 人(总样本 416 人),这比没有选拔制度(112 人)或只用单一考试的错误率(考试最低 59 人)更低。

 X 章:临界个案 (Borderline cases)

本章探讨了如何进一步减少不合格者(总数 59 人)。

  1. 设置科目最低分数: 要求学生在每个科目(如 Qe + E + Tes 的英语总分)都达到最低 50th 百分位数,可以将不合格者总数减少 3 人,降至 56 人。
  2. 考虑单科高分: 如果学生在某一科目有极高的分数(高于 90th 百分位数),允许略微降低他们的及格分数线。
  3. 结合上述两点并允许失常” (Flops) 识别并忽略那些由于健康、紧张或其他因素导致某一科目分数特别低(失常)的情况,将不合格者总数进一步降至 53 人。

研究发现,将健康、勤奋、个人品质、家庭条件或年龄津贴等因素普遍应用于选拔程序,并没有减少不合格者的数量,甚至常常导致增加。这可能是因为这些因素已在学生的考试成绩中有所体现。教师的预测虽然在个别案例中有帮助,但如果被普遍采用,会导致严重的错误。

 XI 章:预测价值的最终顺序 (Final Order of Predictive Value)

本章重申,测试组合(电池)优于任何单一测试。最佳的单一预测指标是精心设计和批改的合格考试(Q)。

最佳电池是 IQ + Q + Ts,其次是 IQ + Q + S + Ts。在实际应用中,推荐的电池及其顺序是:IQ + Q + TsIQ + Q + S + TsIQ + QQ + TsIQ + S

为了避免外部考试(Q)带来的不良教育影响(如应试教育),作者提出了进一步研究的可能性,即使用 IQ + Ts(分数定标在 IQ 上)或 IQ + Ts + S(分数定标在 S 上)来代替 Q。最终建议:在城市地区使用 IQ + Q + Ts,在难以定标教师分数的农村地区使用 IQ + Q

 XII 章:不合格者是谁? (Who are the Misfits?)

本章从定性的角度分析了 51 名最终的不合格者(32 名录取失败者,19 名拒绝成功者)。

  • 原因分析: 至少有三分之一(18 名)的不合格案例是由于外部因素造成的(如家庭条件、健康变化、课程不适宜或个人意愿)。家庭条件是提及次数最多的外部因素。
  • 案例: 案例研究展示了因健康不佳(尽管测试成绩很高)而失败的学生,以及因情感因素/个性变化需要转介到儿童指导诊所(Child Guidance Clinic)的学生。
  • 建议: 麦克莱兰建议改进选拔的措施包括:为选定的临界个案提供小学报告、进行特殊体检、利用儿童指导诊所的资源。
  • 中学系统灵活性: 研究发现,中学系统缺乏灵活性。没有学生从资优中学转到普通中学。在资优中学内部,只有约 15% 的学生进行了课程转换(主要是从双语课程转到单语课程)。

 XIII 章:助学金考试 (Bursary Examination)

本章批判了设立特殊的助学金或管制考试的必要性。单一考试结果不可靠。在实验中,有 28 名获得助学金的学生后来失败,而 69 名被拒绝助学金的学生成功了。由于 1946 年的法案要求教育免费,选拔应基于获益能力Ability to profit)。因此,一套构建良好的测试组合可以替代任何特殊的助学金考试。

 XIV 章:留在小学 (Retention in the Primary School)

将学生留在小学进行额外学习(留级)是基于合格考试是门槛的旧观念。虽然数据显示某些学生从留级中受益,但建议只在特殊情况下保留六个月,并放弃长期留级。研究建议为智力低下和落后儿童设置专门的小班教学。

 XV 章:适合接受中等教育的儿童百分比 (Percentage of Children fit for Secondary Education)

本章确定了不同类型二次教育的适宜性百分比(基于调查时的标准):

  1. 资优中学(高级毕业证书)适宜性:
    • 具有成功所需能力和成就的比例:30.1%
    • 实际会成功的比例(计入外部因素):15.4%
    • 实际已成功的比例:10.6%
    • 要达到 30.1% 的潜力,需要改善社会环境,并增加资优中学课程的种类和吸引力。
  2. 普通中学(初级毕业证书)适宜性: 具有成功所需能力和成就的比例为 32.6%。但实际获得证书的比例仅为 15.2%,表明普通中学也存在教育资源的浪费。

 XVI 章:中学试读期 (Probationary Period in the Secondary School)

一些观点认为,应允许所有学生在中学进行试读期,以克服环境变化带来的影响。研究发现,如果根据第一年结束时的成绩进行预测,可以将不合格者人数从 53 人减少到 44 人。

但作者认为,这种改善幅度不足以证明让 112 名不适合的学生进行试读是合理的。试读期如果实施,应至少为期一年。即使有试读期,仍然需要某种选拔系统。

 XVII 章:各种毕业证书所需的智力水平 (Level of Intelligence necessary for Success in the various Leaving Certificates)

本章提供了智力水平与成功机会的关联数据:

  • 高级毕业证书(Senior Leaving Certificate): 智商 108-109 的学生有同等的成功机会;智商低于 91-92 几乎肯定失败;高于 128-130 几乎肯定通过。
  • 初级毕业证书(Junior Leaving Certificate): 智商 109 的学生有同等的成功机会。
  • 低级日校证书(Day School Certificate (Lower)): 智商 94 的学生有同等的成功机会。

 XVIII 章:成就与社会需求 (Attainment and Necessity)

研究发现,学校的平均智商和学习成就水平与学区的人口社会地位密切相关(级学校平均 IQ 115.7级学校平均 IQ 89.6)。此外,同一学校的班级平均智商每年都有变化。

通过比较 IQ 和成就商数(EQ/AQ),研究显示,某些社会评级较低的学校(例如 D 级)在考虑学生的智力水平后,其教师可能比社会评级较高的学校取得了相对更好的教学效果。来自条件较好的家庭的学生在健康、勤奋和实用能力方面也表现出优势。

 XIX 章:谁被中学课程录取,他们为什么选择这些课程? (Who were admitted to the Secondary Courses and why did they enrol in these Courses?)

  • 录取群体的能力水平: 资优中学群体的平均 IQ  115.7,普通中学为 102.0。但图表显示,许多普通中学学生具备资优中学课程的成功能力,反之亦然。
  • 课程选择: 在资优中学,语言/文学课程的生源能力最弱(如 French-Literary 平均 IQ 108.0),这似乎承担了安置能力不足学生的职能。在普通中学,商业课程吸引了能力最强的学生(平均 IQ 110.0)。
  • 选择原因: 对于资优中学,父母的愿望是决定选择的最强因素。对于普通中学,学生的自身愿望起主导作用。来自小学教师的建议影响最小。许多学生对学术课程感到不快,希望转向技术或商业课程。

 XX 章:合格分数线 (The Pass Mark)

本章是关于选拔技术最重要的发现之一。传统的 50% 及格分是武断的。小学教师倾向于定得过低。

重申了关键原理:合格分数线必须固定在使不合格者数量最少的点上(即学生有 50% 成功机会的点)。如果合格学生比例大于不合格学生比例(苏格兰的常见情况),则这条正确的及格线倾向于惠及学生(即录取失败者数量将大于拒绝成功者数量)。此外,选拔系统越准确,及格线就越高,错误固定及格线的风险也越大

对于使用 IQ + Q + Ts 组合的当局,建议将合格分数线设定为整个合格群体的 75th 百分位数,作为资优中学入学的合理初步近似值。

 XXI 章:最终建议 (Final Recommendations)

总结了研究得出的关键建议:

  1. 绝不应使用单一衡量标准进行选拔
  2. 智力测验(I)、定标教师评估(Ts)和合格考试(Q)是最有用的工具。
  3. 必须对所有合格阶段的学生进行测试
  4. 最佳测试组合是 IQ + Q + Ts。教师评估必须经过定标,最好是英语和算术单独定标。
  5. 对于城市地区,资优中学入学的及格线为 75th 百分位数;双语课程的及格线为 92nd 百分位数
  6. 提出了处理临界个案的补充原则,包括设置单科最低分数、为高分者降低及格线,以及忽略失常成绩。
  7. 强调必须认识到人的个性无法精确测量,教育系统必须足够灵活,以适应个体儿童意想不到的发展。

 



此博客中的热门博文

‘98印尼华人遭遇实录

华文独中教科书~高中华文各册目录