簡介 (Introduction)
Versant 英語口說與聽力測驗是一項旨在評量個人理解與口說英語能力之測驗工具。該測驗適用於 15 歲以上之成人與學生,需時約 20 分鐘。測驗結果能提供可靠的資訊,應用於分班、資格認定決策,並可追蹤進度與衡量教學成果。分數透過全球英語量表 (GSE)(介於 10 到 90 分)以及歐洲語言共同參考架構 (CEFR) 進行報告。
Versant 英語口說與聽力測驗是一項旨在評量個人理解與口說英語能力之測驗工具。該測驗適用於 15 歲以上之成人與學生,需時約 20 分鐘。測驗結果能提供可靠的資訊,應用於分班、資格認定決策,並可追蹤進度與衡量教學成果。分數透過全球英語量表 (GSE)(介於 10 到 90 分)以及歐洲語言共同參考架構 (CEFR) 進行報告。
測驗可透過手機應用程式或電腦隨時隨地進行。施測時,系統會以會話語速播放一系列錄音提示,並引導考生以英語口頭回答。提示語音由來自美國、英國與澳洲的母語人士錄製。測驗從大型題庫中隨機抽取約 37 題,分為六個部分。測驗指令由單一配音員播報,並逐字顯示於螢幕上以確保考生理解。
測驗核心能力 定義為「英語口語流暢度 (Facility in spoken English)」,即理解日常主題之口語英語,並以平順的會話語速及清晰的英語給出適切回應的能力。這與日常對話中發生的情況相關,人必須在維持會話語速的同時,追蹤說話內容、擷取意義,然後構思並產出相關的回應。
在日常對話中,英語母語人士從建構子句結構到語音編碼大約需要 40 毫秒。而日常對話輪替 (Turn taking) 的典型時間視窗約為 500 到 1000 毫秒。如果語言使用者無法在短時間內成功執行完整的聽與說,將無法有效溝通。
關於自動化 (automaticity) 評量的心理語言學說明:
此評量可能會被誤解為記憶力測驗。然而,心理語言學研究顯示,用於記憶數字串的口語工作記憶,與用於處理和理解句子的認知資源是截然不同的。若測量的是記憶力,母語人士的分數應會隨記憶力差異產生較大變異,但實證顯示母語人士皆獲得極高分。
題目的設計普遍簡短,考生不需要理解大量脈絡 (Context-independent) 即能作答。
此設計有三個原因:
測驗內容設計為跨區域中立。大部分詞彙選自 Switchboard 語料庫中最常用的 8,000 個單字。題目由具備語言學進階學位的專家撰寫,並經外部語言學家審核,確保符合不同地區的口語習慣,且無歧視或偏見。為保留於測驗中,每道題目必須有至少 90% 的母語參考樣本能理解並正確作答。
分數於全球英語量表 (GSE,範圍 10-90) 及對應的 CEFR 上進行報告。
由三個診斷次分數加權組成,代表理解口語英語及以會話語速清晰表達的能力。
佔總分 50%。反映從會話語速的英語語音中追蹤意義與推斷訊息的能力。
佔總分 50%。由「說話方式 (25%)」與「語言使用與內容 (25%)」組成。透過物理聲學特徵測量發音、流暢度與清晰度。
測驗採用針對非母語口音優化的自動語音辨識系統。短答及句子複誦的內容依據預期單字的存在與順序計分;短文複述與表達意見則透過潛在語意分析 (Latent Semantic Analysis) 的變體技術,比對預期單字與序列的權重進行評分。分數透過 Rasch 項目反應理論 (IRT) 模型進行校準,並使用 EAP (expected a posteriori) 演算法計算。透過專家小組評估 200 位考生的表現進行標準設定 (Standard-setting),將 IRT 分數轉換並對應至 GSE 和 CEFR 量表。
為驗證 Versant 測驗之機器評分模型,官方進行了以下研究:
樣本包含 260 位成人(123 名男性、135 名女性、2 名非二元性別)。其中 26 位為英語母語人士,234 位為英語語言學習者 (ELL),涵蓋 30 種不同的母語背景(如阿拉伯語、日語、中文、西班牙語等)。
驗證測驗是否能反映母語人士與英語學習者間的預期差異。結果顯示,26 位母語人士的平均總分為 87.48 分,且無人低於 70 分;而 234 位英語學習者的分數則廣泛分布,平均分為 61.26 分,僅 36% 高於 70 分。累積密度函數 (CDF) 圖表顯示,總分能有效地將母語群體與非母語群體區分開來。
透過以題目為中心 (Item-centered) 與以考生為中心 (Candidate-centered) 兩種獨立的方法,將測驗分數對應至 CEFR 等級。兩者得到的估計值高度一致 (r=.99)。對應標準如下:
| CEFR 等級 | Versant 分數區間 |
|---|---|
| A1 | 22 - 29 分 |
| A2 | 30 - 35 分 |
| B1 | 43 - 50 分 |
| B2 | 59 - 66 分 |
| C1 | 76 - 84 分 |
| C2 | 85 - 90 分 |
驗證研究的資料支持以下結論: