Versant 英語口說與聽力測驗 白皮書摘要

01


簡介 (Introduction)

Versant 英語口說與聽力測驗是一項旨在評量個人理解與口說英語能力之測驗工具。該測驗適用於 15 歲以上之成人與學生,需時約 20 分鐘。測驗結果能提供可靠的資訊,應用於分班、資格認定決策,並可追蹤進度與衡量教學成果。分數透過全球英語量表 (GSE)(介於 10 到 90 分)以及歐洲語言共同參考架構 (CEFR) 進行報告。


02


測驗說明 (Test Description)

2.1 測驗設計與施測

測驗可透過手機應用程式或電腦隨時隨地進行。施測時,系統會以會話語速播放一系列錄音提示,並引導考生以英語口頭回答。提示語音由來自美國、英國與澳洲的母語人士錄製。測驗從大型題庫中隨機抽取約 37 題,分為六個部分。測驗指令由單一配音員播報,並逐字顯示於螢幕上以確保考生理解。

2.2 測驗題型 (Test Format)

  • 錄製語音樣本:考生聽取問題後有最高 30 秒時間回答。此部分不計分,僅用於收集自發性語音樣本供授權人員檢閱。
  • A部分:簡短回答(約 8 題):考生需用單字或短語回答問題。問題涵蓋時間、順序、數量或基本邏輯的簡單推論,不預設特定領域之背景知識,12 歲母語人士或未曾居住於英語系國家之成人皆可理解。
  • B部分:句子複誦(約 16 題):考生聽取長度介於 5 到 15 個單字的句子後逐字複誦。習慣將詞彙視為有意義的意群 (chunk) 來處理的考生能複誦較長的句子。隨著句子長度增加,對不熟悉英語句法者難度會提高。
  • C部分:對話問答(約 6 題):聽取兩人之間約三回合的對話後,回答一個理解問題。需具備快速的詞彙識別與意義解碼能力。
  • D部分:短文問答(約 6 題):聽取一段 50 到 150 字的短文(通常為敘事),隨後回答三個理解問題,包含主旨與細節。
  • E部分:短文複述(約 2-3 題):聽取一段短文後,有 30 秒時間用自己的話複述。此題型評量流暢度、發音、理解力、詞彙與複述的準確度。
  • F部分:表達意見(約 2-3 題):聽取問題後有 40 秒時間提供答案並給予解釋。測量考生流暢地使用正確文法和詞彙建構連貫語句的能力。

2.3 測驗核心能力 (Test Construct)

測驗核心能力 定義為「英語口語流暢度 (Facility in spoken English)」,即理解日常主題之口語英語,並以平順的會話語速及清晰的英語給出適切回應的能力。這與日常對話中發生的情況相關,人必須在維持會話語速的同時,追蹤說話內容、擷取意義,然後構思並產出相關的回應。

在日常對話中,英語母語人士從建構子句結構到語音編碼大約需要 40 毫秒。而日常對話輪替 (Turn taking) 的典型時間視窗約為 500 到 1000 毫秒。如果語言使用者無法在短時間內成功執行完整的聽與說,將無法有效溝通。

關於自動化 (automaticity) 評量的心理語言學說明:
此評量可能會被誤解為記憶力測驗。然而,心理語言學研究顯示,用於記憶數字串的口語工作記憶,與用於處理和理解句子的認知資源是截然不同的。若測量的是記憶力,母語人士的分數應會隨記憶力差異產生較大變異,但實證顯示母語人士皆獲得極高分。

題目的設計普遍簡短,考生不需要理解大量脈絡 (Context-independent) 即能作答
此設計有三個原因:

  1. 測量最基本的單字和短語意義。
  2. 減少世界知識或認知風格的干擾,使表現更貼近語言能力本身。
  3. 最大化作答密度,減少建立背景認知的時間,增加收集語言評量數據的時間。

03


內容設計與開發 (Content Design and Development)

3.1 詞彙選擇與開發

測驗內容設計為跨區域中立。大部分詞彙選自 Switchboard 語料庫中最常用的 8,000 個單字。題目由具備語言學進階學位的專家撰寫,並經外部語言學家審核,確保符合不同地區的口語習慣,且無歧視或偏見。為保留於測驗中,每道題目必須有至少 90% 的母語參考樣本能理解並正確作答。


04


分數報告與計算 (Score Reporting & Scaling)

分數於全球英語量表 (GSE,範圍 10-90) 及對應的 CEFR 上進行報告。

總分 (Overall)

由三個診斷次分數加權組成,代表理解口語英語及以會話語速清晰表達的能力。

聽力 (Listening)

佔總分 50%。反映從會話語速的英語語音中追蹤意義與推斷訊息的能力。

口說 (Speaking)

佔總分 50%。由「說話方式 (25%)」與「語言使用與內容 (25%)」組成。透過物理聲學特徵測量發音、流暢度與清晰度。

測驗採用針對非母語口音優化的自動語音辨識系統。短答及句子複誦的內容依據預期單字的存在與順序計分;短文複述與表達意見則透過潛在語意分析 (Latent Semantic Analysis) 的變體技術,比對預期單字與序列的權重進行評分。分數透過 Rasch 項目反應理論 (IRT) 模型進行校準,並使用 EAP (expected a posteriori) 演算法計算。透過專家小組評估 200 位考生的表現進行標準設定 (Standard-setting),將 IRT 分數轉換並對應至 GSE 和 CEFR 量表。


05


效度驗證 (Validation)

為驗證 Versant 測驗之機器評分模型,官方進行了以下研究:

5.1 驗證樣本 (Validation Sample)

樣本包含 260 位成人(123 名男性、135 名女性、2 名非二元性別)。其中 26 位為英語母語人士,234 位為英語語言學習者 (ELL),涵蓋 30 種不同的母語背景(如阿拉伯語、日語、中文、西班牙語等)。

5.2 內部效度 (Internal Validity)

  • 折半信度 (Split-half reliability):機評的總分信度為 .96,而使用人類專家評分的總分信度亦為 .96。這顯示機評對信度的影響極小,測驗能提供高度一致的分數。
  • 次分數相關性:各次分數間呈現高度相關(如口說與聽力相關係數為 .82,說話方式與聽力相關係數為 .85),但並非完全相關(未達 1.0),顯示次分數確實能測量到語言能力的不同面向。
  • 機評與人評之比較:對於同一批考生的錄音,機器評分與人類專家評分呈現極高相關性。總分相關係數為 .96,聽力為 .95,口說為 .96,顯示機器評分結果與仔細的人類評分幾乎無法區分。

5.3 與已知母體的關係 (Relationship to Known Populations)

驗證測驗是否能反映母語人士與英語學習者間的預期差異。結果顯示,26 位母語人士的平均總分為 87.48 分,且無人低於 70 分;而 234 位英語學習者的分數則廣泛分布,平均分為 61.26 分,僅 36% 高於 70 分。累積密度函數 (CDF) 圖表顯示,總分能有效地將母語群體與非母語群體區分開來。

5.4 與 CEFR 的關聯 (Relationship to CEFR)

透過以題目為中心 (Item-centered) 與以考生為中心 (Candidate-centered) 兩種獨立的方法,將測驗分數對應至 CEFR 等級。兩者得到的估計值高度一致 (r=.99)。對應標準如下:

CEFR 等級 Versant 分數區間
A1 22 - 29 分
A2 30 - 35 分
B1 43 - 50 分
B2 59 - 66 分
C1 76 - 84 分
C2 85 - 90 分

06


結論 (Conclusions)

驗證研究的資料支持以下結論:

  • 測驗能產生精確且可靠的技能估計值。
  • 總分能有效區分第一語言為英語之人士與英語語言學習者。
  • 次分數具有合理區別度,能提供各項技能的診斷資訊。
  • 機器評分與人類評分具有極高的相關性。
  • 此驗證數據符合美國平等就業機會委員會 (EEOC) 針對員工選擇程序中關於測驗可靠性與效度之準則要求。