席小明：中国教育考试的前景与发展途径-行业新闻-工作动态-医护英语水平考试官网（METS）

行业新闻

首页 > 工作动态 > 行业新闻

席小明：中国教育考试的前景与发展途径

3605 2021.02.08

编者按

“十四五”时期是我国加快推进教育现代化、建设高质量教育体系和教育强国的重要阶段，也是教育考试事业深化新时代教育评价改革、建设中国特色现代教育考试制度、提升国家教育考试治理体系和治理能力现代化的关键时期。为深入探讨“十四五”时期我国教育考试事业的发展方向和实现路径，本刊邀请专家围绕教育考试事业发展愿景展开笔谈，希冀能为教育考试在“十四五”时期高质量发展提供有益参考。

作者

席小明，VIPKIDS International首席测评和学习产品官，美国教育考试服务中心新产品研究开发部原执行总监。

摘要

中国教育考试在“十四五”期间应在研发不同用途的教育测评、将学习轨迹追踪和高风险考试相结合、拓展人工智能技术的应用3个方面着力。为推动中国测试品牌走向世界，应注重培养跨学科复合型测试人才，积极鼓励和扶持民间测试机构参与发展测试行业，制定适合中国国情的测试标准。

关键词

教育考试；高风险考试；过程评价；测试机构；测试标准；测试人才

正文

一、中国教育考试的发展方向

1.1　研发不同用途的测评

　　目前，中国大规模、高风险的终结性教育评价比较普遍，比如中考、高考、研究生考试等。2020年推出的《深化新时代教育评价改革总体方案》提出“改进结果评价，强化过程评价，探索增值评价，健全综合评价”。这一要求表明，中国的教育评价改革在继续提高终结性评价质量的基础上，还要对过程评价、增值评价和综合评价给予更多的重视。现阶段中国低风险的过程评价主要由授课教师开发、实施和使用，对那些与教学大纲结合相对紧密的科目来说，在教学环境中使用教师自己开发的测评非常可取，但需要注意的是，开发测评的教师要具备一定的测评知识和较高的专业素养，这样才能有效地使用过程评价的结果反馈来指导教学。对一些能力测试而言，如语言能力和软技能等，由教师和第三方专业测评公司合作开发过程评价，进而推广使用，也不失为一条有效的路径。这样既可以利用授课教师的学科专业素养及对学生比较了解的优势，也可以依托测评公司的测试专业化推出更加有效的过程评价。

1.2　将学习轨迹追踪和高风险考试相结合

　　随着科技在电子教育学习产品中越来越广泛的使用，在学习过程中追踪学生的知识拓展和能力提高成为可能。关于在学习中嵌入测评是否能取代高风险考试的问题，测评领域有2种不同的观点：一种观点认为，学习和测试的边界将越来越模糊，直至电子学习产品中嵌入的由人工智能辅助或驱动的测评可以不断地提供积累叠加的证据，并完全取代标准化高风险考试[1]；另一种观点认为，高风险考试和形成性评价目的不同，考试内容和形式存在一定差异，因此二者不能混为一谈，有必要并存[2]。

　　学习轨迹的追踪与高风险考试有如下区别：第一，学习轨迹的追踪在提取信息的公平性和可比性方面面临挑战。高风险考试具备标准化考试的优势，即对所有考生而言，考试内容相同或类似，考试形式、过程都有严格的质量控制，从而保证考试结果的效度、信度、公平性，以及基于考试成绩的高风险决策的公平性。第二，学习和测试的目的不同，学生使用的策略也不同。学习过程中，教师会鼓励学生冒险、试错、探索不同的解题途径；而参加高风险考试，学生的首要目的是在规定的考试时间内最大程度地展现自身的知识和能力，以取得最好的成绩[2]。第三，学习过程中的测评和高风险考试所考查的知识和技能的侧重点不同，颗粒度或称细分度通常也不同。在标准化考试中，由于考试的时间长度和可行性的限制，以及基于信度、效度和考试公平性等方面的考虑，往往不会考查太细分的知识和技能，而且有些技能也难以用标准化的形式测评；学习过程中的测评则可以侧重比较细分的知识点和技能，以及比较难测的技能，如团队合作精神和创造性思维等。如果学习过程的测评和高风险考试所使用的知识能力框架结构不同，二者不能联系起来，那么把这2类测评信息结合起来使用的难度就非常大。

　　尽管存在上述挑战，学习过程中的测评如果按照相对标准的知识能力框架严格精心地设计，就可以具备标准化考试无法提供的优势。Randy Bennett认为学习中的测评有2类：第一类是随意的、连续的、与某个特定的教学大纲完全吻合的测评，第二类是严格设计的、在规定频率下使用的、与特定教学大纲不完全吻合的测评[2]。笔者认为：第一类测评可以用在特定的教学环境中，为教学和学习提供反馈信息，除考查传统的知识技能外，还可以考查解题思路、创造性思维、参与程度和团队合作精神等。这类测评还可以描画出学生的学习习惯和耐力，以及基于特定教学大纲的进步轨迹。第二类测评则有可能与高风险考试结合使用，动态追踪学生的进步轨迹，以及预测学生未来的发展潜能。但是，使用第二类测评，要解决的首要问题是为各个科目建立统一的知识能力框架，包括粗放的以及细分的知识能力，并阐述它们之间的关系和发展轨迹，从而对学习过程中的测评和标准化考试起到指导作用，如中国英语能力等级量表（China’s Standards of English Language Ability）[3]和欧洲共同语言框架（Common European Framework of Reference for Languages: Learning, Teaching, Assessment）[4]都对不同级别的语言能力水平进行了框架性的描述，可以用来指导语言水平考试的设计和开发。基于能力水平框架开发的更细分的知识能力描述可以帮助我们设计更好的学习过程测评。其次，要加强对学习轨迹的描述和发展潜力的预测的信度、效度及公平性研究，建立适合学习轨迹的理论框架。此外，还要开展学习环境、学生背景和成长轨迹之间关系的研究，由此才可以对学生进步的轨迹和发展潜能有更准确的诠释。

　　学习轨迹追踪和高风险考试相结合，可以从学习过程中的测评和标准化考试中提取不同类别的证据，学习过程中的测评侧重测量学生的动态成长和发展潜能，而标准化考试则主要考查学生在某一特定阶段的整体水平。近年来，中国的互联网技术、人工智能技术、数字化教学和学习的发展迅速，为学习过程中的测评提供了可能。运用电子档案追踪学生的学习轨迹[5]，并研究如何与一次性考试相结合，不仅能测试学生在某一个时间点的水平，而且能描画出学生的学习习惯和耐力、进步轨迹及进步空间。在作高风险决定时，综合考虑学习过程中的测评信息和标准化考试成绩将会日渐成为测试界具有变革意义的共识，具体而言，就是以标准化考试提供的信息为主，以学习过程测评为辅，在学生标准化考试成绩未达到但接近规定分数线时，可以适当考虑学习过程测评中所反映出来的学生发展潜力，从而作出相对合理灵活的决定。

1.3　拓展人工智能技术的应用

　　人工智能技术在教育考试中的应用由来已久，特别是在自动评分领域的应用最为广泛，如作文、口语及数学考试中都有很多使用自动评分系统的例子；但是，目前最好的作文自动评分系统也只是用语法、词汇、拼写及简单的篇章分析来预测人工评分[5]，口语自动评分则基于发音、流利程度、词汇、语法等比较浅层的分析。现阶段用人工智能技术评阅作文和口语的篇章结构、内容和连贯性的挑战相当大[6]；自动批阅其他科目（如科学）的答题内容，人工智能技术还停留在简单地核查陈述的正确性层面，复杂内容的自动分析技术还非常落后。

　　人工智能在测量模型领域也应用已久，如IRT测量模型最初应用在自适应考试中，然后被应用于自适应学习系统中。在命题方面，人工智能技术普遍应用在数学测试和语言的低级技能（如词汇、语法等）测试中，而对一些较复杂的题型目前还没有成熟到可以支持自动命题。研究者普遍认为，在语言测试领域，可以有所突破的一个方面是使用人机交互系统支持考生和机器对话。人机交互系统在口语测试中的使用已有很多研究[7]，但目前都还不够成熟，不能运用到大规模标准化测试中，这是未来口语听力能力测试的一个重要发展方向。

　　在追踪测试中，人工智能技术在学生的应试行为及提供测试结果反馈方面的应用还不太多，主要原因是自动反馈技术还不够成熟。在过程分析方面，使用键盘监控（keystroke logging）技术，可以通过即时记录、回放学生写作文的过程，包括打字速度、句子编辑、段落编辑和停顿等来分析或猜测学生的写作策略[8]；但是，有一些写作策略的分析还只是停留在猜测层面，需要在学生写完后用访谈或其他形式进一步证实。在结果反馈方面，作文及限制性口语的自动反馈技术发展的时间较长，也相对比较成熟[5, 9-11]。但是，针对口语各个维度的分析及开放式口语的反馈方面，目前的技术还不够成熟，尤其是在开放式口语中找出发音、语法和用词错误等方面还面临很大挑战；此外，在分析作文和口语的篇章结构、语用和连贯性并提供有用的反馈等方面，人工智能技术的局限性更大[5-6, 11]。对这些技术的完善将是人工智能反馈技术的发展方向。

二、测试行业的发展趋势

从科举考试开始，考试在中国教育的发展中一直发挥着重要作用，可以说考试是教学的风向标。为了培养面向21世纪的人才，提高中国人才的全球竞争力，从考试改革入手带动教育其他方面的变革是一个很好的切入点。笔者认为，建立专业的国际测试品牌是提高中国教育产业国际竞争力的一条必经之路。为建立国际测试品牌，应该鼓励设立民间测试机构，成立民间测试机构的会员联盟，以及制定业内共同遵守的测试行为准则。

2.1　鼓励设立民间测试机构

　　目前中国大型教育类考试基本由教育部所属机构及各地教育考试院设计、开发及实施。第三方考试多与国际教育相关，如SAT、ACT、TOEFL、IELTS等出国留学考试，也有一些服务于中国本土用途的考试，如剑桥少儿英语考试、ETS HEIghten批判性思维能力考试等，这些考试都是由国际知名测试机构，如美国大学理事会（College Board）、美国ACT公司、美国教育考试服务中心（Educational Testing Service）、剑桥大学考试委员会（Cambridge Assessment）及英国文化教育协会（British Council）等开发的。除官方及国际测试机构外，目前中国还没有具有影响力的民间测试机构和测试品牌，这与中国教育考试长期由政府主导推行的传统密切相关，也与国内专业测试人员的储备不足相关。相比之下，国际知名测试机构吸纳了来自世界各地的尖端人才，人员专业素质普遍较高。通过建立民间测试机构招募全世界教育测试人才，不仅可以满足中国国内考试需求，而且可以把测评推向海外，建立国际品牌；官方考试机构也可以更积极地招募一些国际专家，利用国际团队补充目前国内人才建设和储备的短板，不断提高本土测试人员的专业水平和国际视野。官方考试机构可以集中力量承办公立学校的中考、高考、研究生考试等与国家教育政策紧密相关的考试，对私立学校、民办学校和一些教育机构使用的考试、社会化考试及低风险测评则可以放开，鼓励民间测试机构参与良性竞争，以促进测试行业的发展。

　　目前，民间测试机构或技术公司给政府提供的服务大多集中在技术平台的设计、承建、维护及人工智能技术的支持等领域。随着民间测试机构的发展，政府可以加强与其在考试设计、命题、评分和数据分析等方面的合作；同时，通过对其服务进行监控以保证考试质量。在海外，政府和教育部门主要采取公开竞标的方式选择第三方测试公司的服务，政府和教育部门所属专业测试人员的主要任务是制定标准、明确服务范畴、提供详细的说明，并指导验收工作。这样既可以鼓励行业竞争，也可以高效低成本地使用第三方公司的专业人员，通过项目监管验收保证考试质量。

2.2　成立民间测试机构的会员联盟

　　鼓励民间测试机构发展可以促进测试领域的发展和繁荣，但如果没有监管就可能造成鱼龙混杂的状态。很多测试都具有高风险性，如果不能保证质量，就会影响考生的升学、就业乃至升职，损害他们的利益。尤其需要指出的是，目前大多数分数使用用户和教师的评价素养偏低，对测试使用的信度和效度要求以及反拨作用了解不够。在这种情况下，如果没有行业规范，则可能造成质量差的测评充斥市场，或导致对测评的滥用。

　　成立民间测试机构的会员联盟，对测试行业进行一定的监管可以起到规范行业行为的作用。会员联盟可以是一个相对灵活的组织，由专业人员对入会机构的从业人员资质进行审核，以保证人员配备的专业化达到一定标准。这些加入会员的机构也应该在测试设计、开发及使用时自觉地遵循国际通用测试行业标准（如美国《教育与心理测量标准》[12]），并通力合作开发适合中国国情的测试标准以供成员机构遵循[13]。

三、测试人才培养

中国教育测评领域的发展离不开人才，为此需要花大力气培养专业的测试人才。

3.1　开设实践性测试研究方向的硕士生培养项目

　　目前，中国高校开设教育测评研究方向的研究生项目不仅数量少，而且偏重理论研究。根据语言测试领域的专家调研，中国高校语言测试研究生项目中有关命题实践和测试社会影响力等方面的课程设置非常少[14]。一方面，通过研究生项目培养的测试及统计专业人才偏重理论、方法论和研究，对考试实践知之甚少，如考试框架设计和命题，评分标准设计及验证，针对不同用途考试的分数标尺如何设立，各种分数计算模型如何构建，整套试卷的综合难度和区分度如何控制，单个试题质量如何分析，等等；另一方面，教育考试机构聘请的命题和考后评卷人员以教师为主，这些教师很少有人接受过专业的测试理论和技术培训。这2方面因素导致中国测试领域人才紧缺。为此，笔者建议高校的测试学硕士生培养应侧重于学科的实践性，重点开设测试学研究方向，设置考试设计、考试命题、评分标准设计及验证、考试测量模型、考试数据分析、考务管理及人工智能技术评估等相对实用的课程，从而帮助考试机构培养和储备专业测试人才，助力中国的测试行业实现科学化、专业化，增强国际竞争力。博士生培养项目可以注重于理论研究，以保证测试领域基础学科的长期发展。此外，建议在博士生和硕士生培养项目中设置测试社会责任学[9]、测试与教育改革等课程，这样可以影响并鼓励测试人员跳出技术与内容的舒适圈，依托其专业背景，积极参与教育改革和教育政策的制定，推动测试公平合理的使用，增加测试专业人员在重大教育决策中的话语权。

3.2　培养跨学科测试复合型人才

　　由于受到科技及交叉学科的深度影响，测试行业需要大力培养教育、科技、认知科学和脑神经科学等领域的复合型人才，以保证科技及其他影响教育的行业对教育的推动作用实现最大化。举例说明，目前全球通晓测试和人工智能的复合型人才非常稀缺，如果懂测试的人员缺乏人工智能技术知识，就不利于其与人工智能技术专家的深度合作，并妨碍其对技术的使用作出正确判断；反之，人工智能技术专业人才如果不具备教育测试背景知识，就不能抓住教育测试领域人工智能运用的需求和痛点，人工智能技术就不能被合理运用于测试领域。高深晦涩的人工智能领域有可能让教育领域用户对人工智能望而却步，也有可能不加批判地全盘接受。由计算机/电子工程系和教育系联合培养教育领域人工智能综合性人才，不仅能保证教育人工智能技术的飞速发展，而且有利于人工智能公司和用户之间进行更加良性、积极、有效的沟通，鼓励用户合理地使用人工智能教育测试产品。因此，加强跨学科测试复合型人才的培养已成为当务之急。此外，在跨学科测试复合型人才尚未培养出来之前，可以全职或兼职聘请教育测试人工智能领域既有理论背景又有深厚实践经验的国际知名专家，这样也可以快速提升中国教育测试领域的整体实力。

四、结束语

建设高质量教育体系是中国未来5年对教育提出的要求，教育考试作为高质量教育体系的重要组成部分，也应在提高质量上下功夫。我们要把握住教育测试的未来发展趋势，注重培养跨学科复合型测试人才，积极鼓励和扶持民间测试机构参与发展测试行业，建立具有国际竞争力的测试品牌，推动中国的测试走向世界。

——摘自《中国考试2021年第1期》

<< 上一篇 Mets开发者和设计者之一蔡雨阳教授在国际知名学术出版机构出版英文专著下一篇 METS考试开发者之一蔡雨阳教授的框架性论文在国际知名学术出版机构Routledge出版 >>

010-62118953/62168438（办公时间：周一至周五：9:00-11:30、13:30-17:00；周六（考试日）：8:00-12:00）

mets@mets.org.cn

微信公众号

行业新闻

考试通知：[6-21] 2024年医学英语水平考试第二场三级机考-四川省集中机考报名通知