MOOC 中的同儕互評機制(三):如何改善 MOOCs 中的互評機制--評分標準 Rubrics


前情提要:MOOCs中互評機制的成效與影響

作為互評機制的使用者,我們該如何改善互評機制的成效呢?回頭思考一下互評為何有效:使同儕之間互相評分、再經由某些合計的機制--通常是某種平均的概念--最後得到接近教學者評分的效果。於是,我們至少有兩個大方向可以思考:其中之一是改進機制本身,亦即想出更完善的合計方法,讓作業(或作品)的品質能更準確的被衡量;另一個方向,就是設法讓單一的互評分數更為接近教學者所作的評分。

如果我們著眼於後者,則可以從教學者本身的評分行為開始發想。一個兼具專業知識和經驗的教學者,是如何為創造性作業評分的呢?相信絕少數的教學者是將分數信手拈來。絕大多數的教學者,心中對「怎樣的作品應得怎樣的分數」,是有其原則和標準存在的。若能將這個標準具體化、作為互評的依據,不同互評者做出的評分應該會更趨近一致--這正是所謂的「評分標準」(rubrics)的概念。如同互評並非為MOOCs而生,rubrics亦然;它的使用甚至並不限於互評或自評中,也能用於協調專業人士之間的評分(如聯考中的作文給分)。


若以評分標準的形式來區分,可分為整體性(holistic)及解析性(analytic)兩類(註1)。整體性的評分標準,指得就是對一份作品只打一個綜合性的分數;兩份作品可能各有所長,卻都大致落在同樣的區間內,最後得到同樣的分數。這類的評分標準,通常對某一個分數級別作一段整體性的敘述,通常較適用於作品的整體性較重要、細節上可以容許瑕疵的創造性作業或作品;例如國中會考作文目前採取的六級分標準,就是整體性的評分標準。


解析性的評分標準,則是分成數個面向來評分,不同面向之間的得分互不相關,最後再以某種加權的方式算出總分;這樣的標準會直接標示出各個面向的名稱、以及每個分數層級各自的敘述。如果上述國中會考的作文標準改為分別針對立意取材、結構組織、遣詞造句、錯別字四個項目各打一個分數,最後再整體相加,就會形成解析性的評分標準。和整體性標準相比,解析性的標準可以更為細部的規範一份好的作品應該具有哪些特質,也可以自由調整各面向之間的比重;然而除了使評分變得複雜之外,解析性的標準通常無法處理高自由度、風格濃烈或具爭議性的作品。另外,要求評分者對所有細項分級評分時,不同項目之間無法互補,評分結果之間的差異可能會因此放大;如何設定細項之間的權重和分級,也是棘手的任務。因此,現今主流MOOCs中的互評機制通常還是以整體性的評分標準為主。


那麼,怎樣才是一套好的rubrics呢?Popham在1997年提到(註2),好rubrics應該避免「過與不及」。所謂的「過」,就是指過度注重細節,甚至將無關緊要的小事也納入評分標準;「不及」,則是指評分標準太為空泛,彷彿套用到任何的作業上都能適用。再度以會考作文為例,如果為每年不同的作文題目特別制定一套標準,顯然太過;而如果每個級分的描述就只有「頂尖、良好、尚可、不佳」,則就跟沒有標準無異。好的rubrics應該緊緊扣合「教學者希望學習者展現的能力或達成的目標」,依此概念來調整標準的範圍;此外,在用字遣詞上應盡可能明確、消除歧義的可能性,避免使用詮釋上因人而異的形容詞。


好的rubrics除了能讓評分者共享一套標準、減少主觀的成份,使結果更為一致,還有一個重要的附加效果:它能預先將教學目標傳達給學習者。在著手寫作業或作作品之前,學習者就能得知這個學習活動著重哪些層面;以此作為依據來進行,搞錯重點或不符要求的情形自然會減少。


在MOOCs的世界中,學習者之間異質性高、教學兩方之間還存在時間、空間、甚至語言上的隔閡,這時一套明確的標準就更加重要。另外,MOOCs中的學習者之間也不再像傳統課堂上存在競爭的關係;因此,也有愈來愈多的MOOCs採用單一標準來界定學習者的通過課程與否,而不再特別區分合乎標準的學習者之間孰優孰劣。當教學目標愈趨簡單,採用rubrics作為衡量學習表現的工具就愈有利。
文/ 柯劭珩


下集預告:

如何改善MOOCs中的互評機制--下一代的互評機制


註1.Moskal, B. M. (2000). Scoring Rubrics: How?
註2.Popham, W. J. (1997). What's wrong-and what's right-with rubrics. Educational leadership, 55, 72-75.

留言

這個網誌中的熱門文章

【MOOC專訪】計算機程式設計 — 劉邦鋒老師

遊戲化學習 (上篇) 八個讓生活不再無聊的心理學大公開

遊戲化學習(下篇) 結合 PaGamO 遊戲平台,讓人不再抗拒測驗