《GAI 筆記》RAG 評估策略(無參考價值)

本次測試 Gemini 的 Deep Research 功能,等有空時再編輯。

提醒:GAI 有可能不完全正確。

主要參考資料:LLM Zoomcamp 課程材料中的 Jupyter Notebooks 和 YouTube 影片。

其他資料來源:筆記中的數字指資料來源。

本節課程目標:對 LLM 的評估策略進行理解,特別聚焦於檢索增強生成(RAG)系統。


▌觀看結論

GAI 所撰寫的筆記,與本課程關連很低。

很明顯大部分內容都不是課堂內容。

我對 RAG 的評估策略不熟,沒有能力判斷 GAI 筆記內容對不對。

但我看過文章後,確定這篇筆記的可讀性很差,參考價值極低。


1. LLM 評估導論:Zoomcamp 的原則

本節將闡述在 LLM 開發與部署生命週期中,穩健評估的根本重要性,這也是 DataTalksClub LLM Zoomcamp 課程所強調的核心。報告將著重說明在實際應用場景中,準確評估 LLM 性能所固有的複雜性與挑戰。

評估的關鍵作用

大型語言模型正日益整合到現實生活應用中,例如開發能夠回答知識庫問題的 AI 機器人,這正是 DataTalksClub LLM Zoomcamp 課程強調「LLM 的現實生活應用」的重點 1。這種廣泛的採用要求嚴格且系統的評估,以確保這些系統在實際場景中的可靠性、準確性和整體實用性。

評估作為一種關鍵機制,有助於理解 LLM 模型固有的能力和局限性,尤其是在識別諸如幻覺等不良行為方面 3。此外,它也是整個開發生命週期中疊代改進的指導力量。缺乏健全的評估框架將導致「猜測」 3,從而阻礙明智的決策和最佳的模型優化。

基本評估挑戰概述

LLM 的生成性質意味著它們可以產生多種多樣的輸出,這使得在不同模型之間,甚至同一模型的不同運行之間進行客觀和一致的比較本身就具有挑戰性 5。LLM 開發的快速步伐意味著標準化基準測試可能會迅速過時,一旦模型在這些測試中達到峰值性能,它們作為進度衡量標準的有效性就會喪失 5。這要求持續開發新的、更具挑戰性的基準測試。

評估 LLM 驅動的應用程式不僅僅是評估核心模型。現實世界的系統包含了複雜的元素,例如提示工程、與外部知識庫的整合(例如在 RAG 系統中),以及複雜的業務邏輯。因此,通用模型基準測試不足以滿足需求;有效的評估需要針對特定用例量身定制的自訂、應用程式特定標準和數據集 5。對於開放式生成模型而言,定義「正確性」和「品質」是一個重大的概念和實際挑戰,因為可能存在多個有效回應 6。

研究資料顯示,隨著 LLM 從理論研究和通用模型轉向實際部署的應用程式,評估的重點也必須從廣泛的學術基準測試轉向高度特定、情境感知的評估。這項趨勢反映了業界的根本性轉變:組織在開發 LLM 驅動的解決方案時,必須投入大量資源來建立量身定制的評估框架和數據集,以準確捕捉與其獨特操作環境相關的性能細微差別,從而超越僅依賴公開排行榜來判斷生產就緒狀態。

此外,評估不僅僅是部署後的檢查,它更是一種疊代開發的推動者。資料顯示,評估作為一個過程,能夠促進「AI 模型的精煉」 7,幫助「找出隱藏問題」 4,並回答諸如「能否切換到更小、更便宜的模型?」或「溫度調整能否改善結果?」等關鍵開發問題 3。這表明評估與開發週期之間存在因果關係:透過提供對模型調整、超參數調優或提示修改所引起的性能變化的快速回饋,評估成為一種積極的優化工具。這意味著有效的 LLM 開發管道應在整個過程中嵌入評估機制,從而實現快速實驗、明智決策,並最終產生更高性能的 LLM 應用程式。


2. 評估 LLM 性能的核心指標

本節將詳細闡述用於評估 LLM 的基本指標,區分基於參考(Reference-Based)和無參考(Reference-Free)方法,並解釋每種指標的實用性與局限性。

基於參考的指標

這些指標透過將 LLM 的實際輸出與預定義的「黃金標準」(Ground Truth, GT)答案進行比較來計算分數 6。儘管這些指標具有確定性,但其實用性受限於現實世界數據集中 GT 答案的可用性 6。

  • 答案正確性(Answer Correctness):此指標評估生成回應的事實準確性。一種直接的方法是衡量生成答案與 GT 之間的語義相似性。然而,Ragas 作為一個重要的評估框架,透過結合語義相似性與事實正確性來增強此指標。它利用 LLM 識別生成答案中的真陽性(TP)、假陽性(FP)和假陰性(FN),隨後計算 F1 分數,以提供更可靠的事實正確性衡量標準 6。
  • 上下文精確度(Context Precision):此指標專門評估檢索器組件在正確排序相關上下文方面的有效性。一種常見的方法是計算加權累積精確度,該方法賦予排名靠前的上下文更高的重要性,並能有效管理檢索文檔中不同程度的相關性 6。
  • 上下文召回率(Context Recall):此指標量化了檢索到的上下文為得出黃金標準答案提供了多少必要資訊。它計算為黃金標準答案中可直接歸因於或推斷自所提供上下文的句子百分比 6。
  • 困惑度(Perplexity):這是一個令牌級別的確定性指標,其計算不依賴於其他 LLM。困惑度是模型對其生成答案確定性的指標;分數越低表示對其預測的信心越高。其計算要求模型的輸出包含生成令牌的對數機率 6。

無參考指標

這些指標旨在評估 LLM 輸出,而無需預定義的黃金標準答案,通常利用其他 LLM 作為「評審」 6。這種方法在黃金標準數據稀缺或難以獲得的情況下尤為寶貴。

  • 答案相關性(Answer Relevancy):此指標確保 LLM 的回應直接解決用戶問題並保持主題一致性。Ragas 透過 LLM「逆向工程」從生成答案中推斷出潛在問題,然後計算此重構問題與原始輸入問題之間的餘弦相似性來實現。其基本前提是,清晰完整的回應應能準確重構原始查詢。DeepEval,另一個評估框架,則透過計算從答案中提取的相關陳述佔所有陳述的百分比來衡量答案相關性 3。
  • 忠實度(Faithfulness):此指標直接解決 LLM 幻覺的關鍵問題,評估模型輸出的可信度和事實依據。一種通用方法是計算生成答案中由所提供上下文支持的真實聲明百分比。DeepEval 透過檢查聲明是否與上下文中的任何資訊矛盾來確定真實性,而 Ragas 則採用更嚴格的標準,要求聲明必須明確從上下文中的陳述推斷出來 3。
  • 毒性(Toxicity):此指標評估生成的答案是否包含不適當、有害或帶有偏見的內容。可以使用多種方法來計算毒性分數,包括使用專門的分類模型來檢測語氣,或利用 LLM 根據預定義標準判斷適當性。例如,DeepEval 內建的毒性指標計算有毒意見的百分比,而 Ragas 則透過多次提示 LLM 進行判斷來採用多數投票集成方法 6。

研究指出,「答案正確性」在 Ragas 框架中的描述 6 展示了一種複雜的方法,它將傳統的語義相似性與基於 LLM 的事實驗證(識別真陽性、假陽性、假陰性)相結合。這不僅僅是「LLM 作為評審」的獨立應用,而是一種整合,其中 LLM 透過評估事實成分來增強基礎指標。這表明了朝向開發更穩健、多面向評估指標的重大趨勢。這些混合指標旨在利用確定性、定量比較(如語義相似性)和 LLM 細緻的定性理解能力的優勢,從而追求既可靠又更符合人類判斷正確性的評估結果。

此外,研究資料中一個關鍵的陳述指出「黃金標準答案在現實世界數據集中並不總是可用」 6。這種實際限制對在各種應用中部署 LLM 構成了重大挑戰,因為在這些應用中,手動標記黃金標準是不可行或成本過高的。這一局限性直接推動了「無參考指標」的必要性和日益普及,例如答案相關性和忠實度,這些指標通常是透過「LLM 作為評審」範式實現的 6。這表明對於許多現實世界的 LLM 應用,特別是涉及新內容生成或高度動態資訊的應用,無參考評估成為持續評估的主要(如果不是唯一)可行選項。這突顯了明確的因果關係:現實世界 LLM 用例固有的數據稀缺性和動態性質正在推動更靈活、自包含評估方法的創新和採用。

以下表格總結了 LLM 評估中的關鍵指標:

表 2.1:關鍵 LLM 評估指標

指標名稱 類型 定義 / 目的 衡量方式 主要益處 / 指示 相關工具 / 框架
答案正確性 基於參考 評估生成回應的事實準確性。 語義相似性 + 事實 F1 (透過 LLM 識別 TP/FP/FN) 反映事實準確性。 Ragas
上下文精確度 基於參考 評估檢索器正確排序相關上下文的能力。 加權累積精確度,優先考慮排名靠前的上下文。 反映檢索器排名品質。 Ragas
上下文召回率 基於參考 量化檢索上下文為得出黃金標準答案提供了多少資訊。 黃金標準句子中可歸因於上下文的百分比。 反映檢索上下文的完整性。 Ragas
困惑度 基於參考 指示模型對其生成答案的確定性。 令牌對數機率 (分數越低,信心越高)。 反映模型信心。
答案相關性 無參考 確保 LLM 回應直接解決問題並保持主題一致。 Ragas: LLM 逆向工程問題,計算餘弦相似性;DeepEval: 相關陳述百分比。 反映對查詢的相關性。 Ragas, DeepEval
忠實度 無參考 評估模型輸出的可信度和事實依據(防幻覺)。 由上下文支持的真實聲明百分比 (DeepEval: 無矛盾;Ragas: 從上下文推斷)。 反映真實性 / 幻覺率。 Ragas, DeepEval
毒性 無參考 評估生成答案是否包含不適當、有害或帶偏見的內容。 分類模型檢測語氣;LLM 判斷;DeepEval: 毒性意見百分比;Ragas: 多次提示 LLM 判斷。 反映內容的適當性。 Ragas, DeepEval

3. 檢索增強生成 (RAG) 系統評估深入探討

本節將擴展討論評估 RAG 系統的特定維度和指標,強調評估檢索器和生成器兩個組件的重要性。

RAG 評估的關鍵維度

對檢索增強生成(RAG)系統進行全面評估,需要考慮多個維度,這些維度超越了僅評估最終輸出品質。這些維度提供了系統穩健性和適用性的整體視圖 8。

  • 指令或聊天(Instruct or Chat):此維度區分了為直接指令查詢設計的模型與為多輪對話互動設計的模型。指令模型通常專注於根據直接問題提供資訊,而對話模型必須熟練處理對話流程、在多輪中保持上下文,並在整個互動過程中提供連貫且相關的回應。例如,客戶支援場景中的對話模型必須記住先前的互動,以提供與上下文相關的回應 8。
  • 上下文長度(Context Length):這指的是模型處理和有效利用不同長度輸入上下文的固有能力。雖然較短的上下文更容易管理,但可能缺乏處理複雜查詢的足夠資訊。相反,較長的上下文雖然資訊量更大,但在記憶體和處理能力方面帶來了重大挑戰。評估模型在不同上下文長度下的性能對於理解其穩健性和可擴展性至關重要,特別是在處理需要數千個令牌才能全面回答的法律文件等大量文檔時 8。
  • 領域(Domain):不同的應用領域具有獨特的語言、術語和準確性要求。例如,法律文件需要精確的語言和遵守特定的術語,而醫學文本則要求極高的準確性和對上下文的敏感性。評估模型在各個領域的性能可確保其在現實世界應用中的多功能性和可靠性,因為通用知識模型在沒有適當調整和評估的情況下,可能無法在金融或醫療保健等專業領域中表現良好 8。
  • 表格數據問答(Tabular Data QA):此維度評估模型處理、理解和推理表格數據的能力,這在許多現實世界應用中很常見。這包括執行過濾、排序和數值計算等操作的能力。評估此能力對於金融和醫療保健等數據密集型領域至關重要,在這些領域中,模型可能需要解釋和分析複雜的財務報告 8。
  • 對噪音的穩健性(Robustness to Noise):這衡量了模型有效過濾檢索文檔中不相關資訊並專注於相關細節的能力。這在檢索文檔包含相關和不相關資訊混合的情況下尤為重要,可確保模型能夠從嘈雜的數據集中提取有用數據 8。
  • 反事實穩健性(Counterfactual Robustness):這評估了模型識別和適當處理檢索文檔中不正確或誤導性資訊的能力,確保即使面對錯誤數據也能提供準確回應。例如,模型應能檢測並忽略新聞文章中的不正確資訊,以提供可靠的答案 8。
  • 負面拒絕(Negative Rejection):這評估了模型是否能識別何時缺乏足夠資訊來回答查詢,並能適當地拒絕提供答案。此能力對於維持系統的可靠性和可信度至關重要,可防止生成推測性或不正確的答案。例如,如果模型無法存取最新資訊,它應能表示無法回答有關近期事件的問題 8。
  • 資訊整合(Information Integration):此維度衡量模型透過整合多個檢索文檔中的資訊來提供連貫且全面答案的能力,特別是對於無法透過單一文檔完全解決的複雜查詢。一個例子是整合各種法律文本和專家意見中的資訊,以回答有關新法律多方面影響的問題 8。
  • 資訊更新(Information Update):這評估了模型處理可能隨時間過時的資訊的能力,透過有效整合最新上下文。這確保系統提供最新且準確的回應,特別適用於生成式網路搜尋應用,其中模型需要處理最新新聞文章並丟棄其預訓練階段的過時內部記憶 8。

RAG 特定指標

這些指標專門用於評估 RAG 系統中獨特組件和互動的性能 3。

  • 上下文相關性(Contextual Relevancy):此指標量化了檢索上下文與輸入查詢的相關程度。它通常採用「LLM 作為評審」來評估和量化檢索文本塊中與用戶輸入相關的比例。此指標對於確定檢索管道中「top-K」(檢索文檔數量)和「塊大小」(文本段大小)參數的配置效果至關重要 3。
  • 上下文召回率(Contextual Recall):此指標確定檢索上下文是否包含生成給定輸入的理想輸出所需的所有必要資訊。它是一個基於參考的指標,使用「LLM 作為評審」來量化標記的預期輸出中發現的無爭議事實中可直接歸因於檢索文本塊的比例 3。
  • 上下文精確度(Contextual Precision):此指標量化檢索集中相關文本塊是否比不相關文本塊排名更高。它衡量重排序器組件的品質和有效性,確保提供給生成器 LLM 的上下文不僅相關和完整,而且以最佳順序排列,以便 LLM 適當地考慮每個文本塊的重要性 3。

評估 RAG 組件的策略(檢索器與生成器)

RAG 管道最終生成品質的整體表現,關鍵取決於其檢索器和生成器組件的有效運作。任一組件的次優性能都可能顯著降低整體輸出品質,甚至可能使其降至零 3。因此,獨立評估這兩個組件對於精確定位故障或效率低下的發生點至關重要。

研究資料明確指出,RAG 管道的最終生成品質高度依賴於檢索器和生成器的良好運作。如果任一組件表現不佳,整體輸出品質可能會降至零 3。這突顯了整體系統性能受到其最弱環節的根本性瓶頸。因此,有效的 RAG 評估需要雙重策略:對整個系統進行端到端(黑箱)評估,以及對檢索器和生成器進行細粒度、組件級別(白箱)的獨立分析 3。這意味著,為了穩健的 RAG 系統開發和調試,對每個組件如何影響最終輸出有全面的理解至關重要。這超越了簡單地觀察最終答案,而是診斷性能下降或故障發生的確切階段,從而實現有針對性的優化工作。

  • 檢索器評估(Retriever Evaluation):此評估側重於 RAG 管道的初始階段:嵌入查詢(將輸入轉換為向量表示)、執行向量搜尋(檢索 top-K 個相似文本塊)和重新排序(透過重新排列檢索到的塊來優化初始結果) 3。檢索指標有助於回答關鍵問題,例如:嵌入模型是否準確捕捉領域特定細微差別?重排序器是否有效排序結果以實現最佳相關性?是否檢索了適量的上下文(考慮塊大小和 Top-K)? 3。SuperAnnotate 等工具被強調其在幫助識別合適的嵌入模型和透過創建更好、領域特定數據集來提高其準確性方面的實用性 4。
  • 生成器評估(Generator Evaluation):此評估側重於後續階段:提示構建(將用戶輸入與檢索上下文結合)和 LLM 生成最終輸出 3。生成指標有助於解決關鍵問題,例如:模型在給定檢索上下文的情況下是否產生幻覺?是否可以有效利用更小、更具成本效益的模型?溫度調整是否改善了結果品質?輸出對提示模板的變化有多敏感? 3。對於生成,通常強調對自定義、任務特定指標的需求,特別是當回應必須符合特定格式(例如,項目符號、Markdown、JSON)時,DeepEval 的 G-Eval 被引用為一種多功能自定義指標 3。
  • 端到端與組件級評估(End-to-end vs. Component-Level Evaluation):課程材料區分了端到端評估(將 RAG 管道視為黑箱,僅關注可觀察的輸入、輸出和檢索上下文)和組件級評估(允許對檢索器和生成器等單個組件進行有針對性的評估)。DeepEval 被指出支持這兩種評估類型,包括與持續整合 / 持續部署(CI/CD)管道的整合 3。

研究資料顯示,除了基本的文檔檢索之外,詳細的 RAG 評估維度還包括「上下文長度」、「對噪音的穩健性」、「反事實穩健性」和「資訊整合」 8。這表明在 RAG 評估中,「上下文」的概念遠比僅僅檢索到的文本量更為細緻。它涵蓋了上下文的「品質」、「可靠性」以及 LLM 處理該上下文的「辨別能力」。對過濾不相關資訊(噪音)和處理誤導性數據(反事實)的強調 8 表明,評估重點正從 LLM 僅僅整合檢索資訊的能力,轉向評估其「對上下文的批判性推理能力」。這意味著未來的 RAG 系統不僅會評估它們「檢索了什麼」,還會評估它們「如何智慧且可靠地解釋、過濾和合成」檢索到的資訊,以產生準確和可信的回應。

以下表格提供了 RAG 評估中關鍵維度的全面概述:

表 3.1:RAG 綜合評估維度

維度 描述 / 目的 對 RAG 的重要性 範例場景
指令或聊天 區分模型是為直接指令查詢還是多輪對話互動設計。 影響模型如何處理用戶意圖和上下文維護。 客戶支援聊天機器人需記住先前對話以提供相關答案。
上下文長度 模型處理和有效利用不同長度輸入上下文的能力。 決定模型處理複雜或冗長文檔的能力和可擴展性。 法律文件分析需要模型處理數千個令牌以提供全面答案。
領域 模型在不同專業領域(如法律、醫療)的性能。 確保模型在特定應用中的多功能性、準確性和可靠性。 醫療問答系統需要精確的醫學術語和高準確性。
表格數據問答 模型處理和推理表格數據(如過濾、排序、計算)的能力。 對於金融報告或數據庫查詢等數據密集型任務至關重要。 回答有關財務報告的問題,要求模型解釋和分析複雜表格。
對噪音的穩健性 模型從檢索文檔中過濾不相關資訊的能力。 確保模型在檢索內容混雜時仍能提取有用資訊。 從包含相關研究論文和不相關文章的數據集中提取有用資訊。
反事實穩健性 模型識別和處理檢索文檔中不正確或誤導性資訊的能力。 確保即使面對錯誤數據,模型也能提供準確回應。 模型能檢測並忽略新聞文章中的不正確資訊以提供可靠答案。
負面拒絕 模型識別何時缺乏足夠資訊回答查詢並適當拒絕的能力。 維持系統可靠性和可信度,防止生成推測性答案。 模型能表示無法回答有關近期事件的問題,若無最新資訊。
資訊整合 模型從多個文檔中綜合資訊以提供全面答案的能力。 對於需要多源資訊的複雜查詢至關重要。 整合多個法律文本和專家意見以回答新法律的影響。
資訊更新 模型處理過時資訊並整合最新上下文的能力。 確保系統提供最新且準確的回應,特別是動態資訊。 準確處理最新新聞文章,並丟棄預訓練階段的過時內部記憶。

4. LLM 作為評審:方法論、優勢與局限性

本節將深入探討「LLM 作為評審」範式,這是一種快速發展的自動化評估方法。它將涵蓋其操作原理、相較於傳統人工評估的比較優勢,以及包括各種偏見和實際挑戰在內的關鍵局限性。

LLM 作為評估者的概念與應用

「LLM 作為評審」指的是一種創新方法,即利用一個大型語言模型來審查、評估和評分其他 AI 模型生成的輸出 7。由於 AI 生成數據的指數級增長以及 LLM 日益複雜,使其能夠進行自我評估或評估同行模型,這種方法獲得了廣泛關注。

LLM作為評審評估的主要方法:

  • 單一輸出評分(無參考):在此方法中,評審 LLM 根據一組預定義的準則或標準直接對單一回應進行評分或分類,而不與參考答案進行比較。這種方法特別適用於持續評估和監控系統在特定品質類別(如語氣、政策遵守或一般正確性)下的性能 7。
  • 單一輸出評分(有參考):此方法透過在提示中加入補充資訊(稱為「參考」)來增強單一輸出評分。此參考可能包括「理想」回應、推理步驟或來源文檔(例如 RAG 中檢索到的上下文)。LLM 隨後根據此提供的上下文對生成答案進行評分。當有黃金標準或官方文檔可供比較時,或在 RAG 場景中驗證模型是否正確利用了檢索資訊時,此方法特別有用 7。
  • 成對比較(Pairwise Comparison):此範式涉及向評審 LLM 呈現兩個不同的輸出,並要求其直接比較它們,根據指定標準(例如準確性、清晰度、完整性、語氣)選擇較優者。此方法有助於緩解與絕對評分相關的一些固有挑戰,因為它側重於比較判斷,使其在相對評估和模型選擇方面有效 7。
  • 這些方法也可以適應評估更長、多輪的互動,只要整個對話適合 LLM 的上下文窗口 7。

比較分析:LLM 作為評審與傳統人工評估

  • LLM作為評審的優勢:
  • 可擴展性:LLM 能夠高速處理大量數據,使其非常適合大規模評估任務,而這些任務對於人類團隊來說是不切實際或不可能的 7。
  • 成本效益:透過顯著減少或最小化評估中大量人工勞動的需求,這種方法可以大幅降低成本 7。
  • 速度與一致性:像 GPT-4 這樣的高級模型可以提供快速、一致且易於重複的評估,這對於開發中的快速疊代至關重要 7。
  • 靈活性:LLM 可以針對高度特定的評估任務進行微調或精心設計提示,從而提高相關性並潛在地減少某些偏見 9。
  • 複雜理解:這些模型展示了評估各種格式複雜文本的卓越能力,提供超越簡單關鍵字匹配的細緻評估 9。
  • 初步檢查:LLM 評審特別適用於執行快速初步檢查,在人類評估者介入之前有效識別輸出中明顯的成功或問題 7。
  • 人工評估的挑戰(導致採用LLM作為評審):
  • 主觀性與偏見:人類偏好分數本質上是主觀的,並可能受到諸如輸出斷言性或呈現風格等混淆因素的不當影響,無論其實際內容如何,都可能將更具斷言性的輸出視為更具事實準確性 9。
  • 事實錯誤覆蓋率低:一個令人擔憂的發現是,即使模型產生了事實上不正確的資訊,只要人類評估者偏愛輸出的風格或呈現方式,模型仍可能獲得有利的評分 9。
  • 有害的回饋循環:研究表明,使用人類回饋訓練模型可能會不成比例地增加其輸出的斷言性,可能導致模型過度自信並誤導用戶 9。
  • 資源密集型:在企業規模上進行人工評估既昂貴又耗時,需要與註釋者進行大量協調、開發自定義介面、詳細說明、廣泛的數據分析以及對眾包工作者的仔細管理。這些要求可能會顯著阻礙實驗和系統改進週期 9。

LLM 評審固有的偏見與挑戰

儘管 LLM 作為評審具有引人注目的優勢,但基於 LLM 的評估本身也容易受到各種偏見的影響,這主要是因為它們是根據人類標註數據進行訓練的,因此繼承了這些數據中存在的偏見 7。

  • 一致性:未經特定微調用於評估任務的 LLM,已知會對相同的查詢產生不同的答案或分數。它們的訓練基礎是「生成」文本,而不一定是像人類那樣以一致性和客觀性「評分提交」 10。
  • 延遲:評估過程本身可能會引入顯著延遲。如果基礎 LLM 需要數秒才能生成輸出,那麼 LLM 評審可能需要相似的時間來生成評估,這可能會使總體回應時間加倍,對於即時應用程式來說可能無法接受 10。
  • 成本:LLM 提供商通常根據令牌使用量收費。當使用 LLM 評審時,尤其是在生產環境或多代理系統中,這些令牌成本可能會迅速累積,導致大量的財務支出 7。
  • 切換評審:每個 LLM 都具有獨特的特性和訓練數據。因此,組織將其評審模型從一個 LLM 提供商(例如 OpenAI)切換到另一個(例如 Anthropic)時,可能會發現其整個 LLM 作為評審的準確性「岌岌可危」 10。
  • 對提示設計的依賴性:LLM 評審的效率和可靠性嚴重依賴於評估提示的品質和清晰度。設計不佳的提示可能導致不一致、不正確或有偏見的判斷 7。
  • 缺乏領域知識:通用 LLM 本質上可能不具備在特定領域(例如金融、特定技術領域)準確評估輸出所需的深度專業知識,導致「錯誤的準確感」 11。
  • 無法追蹤執行邏輯:在複雜、多工具或多步驟代理管道中,LLM 評審可能難以追蹤底層的執行邏輯。這可能導致幻覺或錯誤隱藏在「間隙」中,而通用評估框架可能無法檢測到 11。
  • 裙帶關係偏見(Nepotism Bias):LLM 評估者被觀察到傾向於偏愛他們自己生成的文本。例如,GPT-4 可能會將自己的回應評分高於來自另一個模型(如 Claude Sonnet)的同樣具資訊量的回應 9。
  • 權威偏見(Authority Bias):LLM 可能會將更高的可信度或準確性歸因於看似來自權威的陳述,即使所提供的證據客觀上並不優越 9。
  • 美觀偏見(Beauty Bias):LLM 可能會無意中偏愛美觀或更優雅的文本,可能忽略內容的事實準確性或可靠性 9。
  • 冗長偏見(Verbosity Bias):LLM 有時可能會將資訊量等同於品質,無意中優先考慮冗長的文本而非更簡潔準確的內容 9。
  • 位置偏見(Positional Bias):LLM 可能會對資訊的位置表現出偏見,認為文檔開頭或結尾的資訊更重要,這可能會影響文本解釋和評估 9。
  • 注意力偏見(Attention Bias)(針對長文本):在長文本中,LLM 有時可能會錯過位於中間部分的關鍵上下文資訊,過度關注段落的開頭和結尾,導致理解不完整和評估有缺陷 9。
  • 仍增加人類工作量:儘管 LLM 評審具有自動化能力,但它們並未完全消除人類的努力。除非在相關數據集上對 LLM 進行大量基準測試,否則仍然需要人類審閱者閱讀、審查和驗證 LLM 生成的評分和推理,這使得「盲目信任 LLM」成為一廂情願的想法 10。

研究資料顯示,LLM 作為評審的主要吸引力在於其「可擴展性」和「成本效益」 7。然而,研究中反覆出現的主題是,這種方法仍然「增加了人類的工作量」 10,用於關鍵任務,如基準測試、驗證和精煉。此外,「人類監督」被明確認為是「至關重要的」 7。這呈現了一個悖論:旨在自動化和減少人類評估工作量的技術,卻在根本上依賴人類專業知識來進行自身的驗證、品質控制和持續改進。這表明 LLM 作為評審並非完全取代人類評估者,而是一種「增強」。它將人類的努力從勞動密集型的初步評分轉向更高價值的元評估、品質保證,以及為 LLM 評審本身創建高品質訓練數據。

同時,研究明確警告,基於 LLM 的評估「容易受到偏見的影響,就像人類標註一樣,因為這些 LLM 是根據人類標註數據進行訓練的」 9。研究詳細列舉了諸如「裙帶關係偏見」、「權威偏見」、「美觀偏見」和「冗長偏見」等具體偏見 9。這突顯了一個關鍵且常被忽視的風險:如果用於微調評審 LLM 的訓練數據本身包含固有的人類偏見,這些偏見不僅會在自動化評估過程中傳播,還可能被放大。這可能導致系統性地偏斜評估,強化不良的模型行為,並提供「錯誤的準確感」 11。因果關係清晰可見:用於訓練評審 LLM 的數據集中未解決的偏見可能導致評估從根本上存在缺陷且不可靠,從而損害整個 LLM 開發和部署週期的完整性。

設計與實施 LLM 作為評審系統的最佳實踐

為了減輕上述局限性並最大限度地發揮 LLM 作為評審的有效性,建議遵循以下幾項最佳實踐:

  • 避免自我評估:至關重要的是,不要使用相同的 LLM 模型來生成輸出和評估它們,因為 LLM 會表現出各種認知偏見,這可能會損害其評估性能 10。
  • 提供上下文範例:向 LLM 評審提供高品質和低品質評估的範例,使它們能夠更好地區分理想和不理想的回應,從而提高判斷準確性 7。
  • 採用思維鏈(CoT)提示:提示 LLM 在提供最終分數之前逐步推理其評估過程,可以顯著提高準確性,因為它促進了結構化的思維過程並減少了衝動或有偏見的回應。然而,這可能會導致更長的回應時間 9。
  • 微調評審LLM:為了獲得最佳性能,特別是在領域特定評估任務中,可能需要對指定為評審的 LLM 進行微調。此過程有助於模型對任務特定目標建立更深入的理解,並導致更一致的評估 7。
  • 明確定義評估標準:在實施之前,精確定義在任務上下文中何為「正確」或「高品質」。提供具體指南和範例可減少 LLM 的模糊性和猜測 7。
  • 建立不確定性閾值:實施一個置信分數或邏輯閾值,以確定 LLM 的判斷何時被認為是「確定」或「不確定」。低於此閾值的項目應標記並轉交給人類審閱者進行驗證 7。
  • 透過回饋疊代:持續收集 LLM 評審性能的回饋,識別成功和失敗的領域。然後應使用此資訊來精煉提示、更新模型或調整標註指南 7。
  • 監控模型漂移:定期檢查 LLM 評審的性能,以確保其沒有因數據分佈變化或其他因素而隨時間退化 7。
  • 利用回應多樣性(例如,Galileo的ChainPoll):除了單一的思維鏈之外,從 LLM 獲取多個獨立生成的響應並將其聚合,可以產生更細緻的分數,反映 LLM 的確定性並捕捉更廣泛的潛在響應 9。
  • 戰略性提示工程:精心微調提示可以最大限度地減少 LLM 固有的偏見,並透過使用簡潔有效的提示以及可能更具成本效益的 LLM 來優化成本 9。
  • 考慮用於評估的小型語言模型:雖然大型商業 LLM 功能強大,但經過微調的 BERT 大小模型(例如 Galileo 的 Luna)可以提供具有顯著更低延遲和成本的競爭性評估性能,解決敏感數據的隱私和安全問題 9。

5. 人工與自動化評估方法的協同作用

本節將闡述一種混合評估範式,它結合了「LLM 作為評審」的優勢與不可或缺的人工監督,以實現更穩健和可靠的 LLM 性能評估。

解決純自動化或人工評估的局限性

儘管「LLM 作為評審」在速度和可擴展性方面具有顯著優勢,但人類審閱者在情境理解和細緻解釋方面仍保持著當前 AI 模型無法完全複製的獨特能力 7。

相反,僅依賴人工評估會帶來相當大的挑戰,包括其資源密集性(成本和時間)、固有的主觀性,以及容易受到偏見的影響,例如無論事實準確性如何,都偏愛斷言性輸出 9。

純自動化的「LLM 作為評審」系統,儘管有其優點,但在一致性、潛在偏見、高營運成本、對細緻提示設計的依賴,以及缺乏深層領域特定知識或追蹤複雜執行邏輯的能力方面面臨局限性 7。

穩健評估工作流程的混合「人機協作」策略

業界正逐漸形成共識,認為最有效的評估方法是「LLM 作為評審加上人工評估」的結合 7。這種混合模型充分利用了兩種方法的優勢。

在這種協同方法中,LLM 執行關鍵的第一步,有效過濾掉明顯正確或不正確的註釋,並快速標記可疑數據點。這種自動化使得人類審閱者能夠將其寶貴的時間和專業知識集中在需要細緻判斷的更複雜、模糊或關鍵案例上 7。

這種「團隊合作」方法,即 AI 處理廣泛覆蓋,人類提供專業見解,持續提高評估覆蓋率並減少整體錯誤 7。人類專家在提供專業見解、根據現實世界細微差別完善評估標準以及捕捉 LLM 可能錯過的異常邊緣情況或主題突然轉變方面發揮著至關重要的作用 7。

至關重要的是,這種持續的回饋循環使 LLM 評審能夠隨著時間從人類修正中學習,在專案的每次疊代中逐漸成為更準確可靠的評估者 7。

組合方法的案例研究或範例

  • SuperAnnotate 的方法:SuperAnnotate 倡導一種人機協作的方法,其中 LLM 用於快速、廣泛覆蓋的數據點標記,而人類專家則對模糊案例提供最終決策,並持續完善模型的評估標準。這確保了評估系統與不斷變化的需求和複雜性保持一致 7。
  • Databricks 案例研究(透過 SuperAnnotate):這種協同作用的一個引人注目的例子是 SuperAnnotate 與 Databricks 之間的合作。Databricks 最初在其基於 GPT-3.5 的「LLM 作為評審」管道中面臨結果不一致、LLM 引入偏見和主觀性等挑戰。透過與 SuperAnnotate 合作進行「啟用人類的 LLM 作為評審」,他們開發了一個可擴展且客觀的 RAG 評估解決方案。人類專家在根據明確定義的評分標準創建高品質的「黃金評估數據集」方面發揮了關鍵作用。這個由人類策劃的數據集隨後用於重新訓練 Databricks 的 LLM 評審,顯著將 GPT-3.5 的性能提高到與 GPT-4 相當的水平。這個案例研究有力地證明了即使在利用 AI 提高效率的情況下,人類生成數據和專業知識的根本性和不可替代的作用 7。
  • 創建這樣一個穩健、啟用人類的「LLM 作為評審」系統的過程涉及多項最佳實踐:選擇合適的基礎 LLM(例如 GPT-4)、仔細闡明評估標準、設計結構良好且包含正反例的提示、設定明確的不確定性閾值以將任務路由給人類審閱者、建立持續疊代的回饋循環,以及積極監控模型漂移 7。

研究資料持續將人類審閱稱為「數據品質的黃金標準」 7。Databricks 的案例研究 7 提供了具體證據:人類專家被明確要求創建一個「高品質的『黃金數據集』」,然後用來「重新訓練」他們的 LLM 評審,以提高其性能。這突顯了一個關鍵的因果關係:雖然 LLM 作為評審可以自動化大規模評估,但這些自動化系統的基礎準確性和可靠性最終取決於高品質、人類策劃的黃金標準數據。這表明人類專業知識並未被取代,而是被提升和重新導向,用於戰略性地創建和完善自動化評估系統所依賴的基礎數據,從而確保其長期準確性和可信度。

SuperAnnotate/Databricks 的案例研究清楚地說明了一個顯著的效益:透過實施結合「LLM 作為評審」與人類協作的方法,Databricks 實現了「速度提高三倍,成本降低十倍」 7。這表明了直接的因果關係:戰略性地整合 AI 的速度和可擴展性(透過 LLM 作為評審實現廣泛覆蓋)與人類的智慧和細緻入微(用於關鍵案例和品質控制),能夠顯著提高營運效率和成本效益。這意味著 LLM 評估的未來並非人類與 AI 之間的二元選擇,而是一種優化的協作,最大限度地發揮兩者的獨特優勢,從而產生更具可持續性和更高性能的 AI 開發管道。


6. 利用合成數據增強 LLM 評估

本節將探討合成數據生成在克服 LLM 評估(特別是 RAG 系統)中數據稀缺問題方面日益增長的重要性,並討論 RAGSynth 等框架。

合成黃金標準生成在改善 RAG 評估中的作用

大型語言模型具有「合成數據生成的潛力」 12,為 AI 開發中的常見挑戰提供了可擴展的解決方案。合成數據生成是一種強大的方法,可以緩解「數據稀缺」問題 12,這是訓練和評估穩健 LLM 系統(特別是針對利基領域或特定用例)的常見瓶頸。它實現了控制和優化生成需求品質的系統方法,為開發人員提供了對其評估數據集特徵的細粒度控制 12。

至關重要的是,合成數據已被證明可以「顯著提高檢索器的穩健性和生成器在檢索增強生成(RAG)系統中的忠實度」 13。這意味著它可以直接增強 RAG 管道的核心組件。此外,透過 RAGSynth 等框架生成的合成數據已證明能夠「在不同領域中良好泛化」 13,表明其多功能性及其在生成領域之外的更廣泛適用性。

合成數據生成解決了數據稀缺問題,這使得 LLM(特別是 RAG 系統)能夠進行快速迭代和領域特定微調。透過提供受控、大容量的數據集,合成數據成為加速 LLM 開發和部署的戰略性推動因素,確保模型在數據受限的場景中也能表現出色。

合成數據創建的框架與方法論

  • RAGSynth:作為一種新穎的框架,專門設計用於優化 RAG 系統中的檢索器穩健性和生成器忠實度。它包含一個數據構建建模組件和相應的合成數據生成實現 13。
  • SynthBench:與 RAGSynth 一同開發的基準測試,包含來自 4 個不同領域的 8 個特定領域文檔。其特點是查詢複雜性、線索完整性和細粒度引用粒度各不相同,為評估合成數據的影響提供了穩健的環境 13。
  • 多樣本提示(Multi-sample Prompting):研究表明,每次提示請求多個需求(例如,每次提示生成 20 個樣本,表示為 synthetic_20)顯著提高了生成合成數據集的實用性和多樣性。這種方法在各種分類任務中帶來了 6 到 44 個百分點的 F1 分數改進 12。
  • 基於 PACE 的提示優化(PACE-based Prompt Optimization):討論其對多樣性(較低的 INGF)的影響以及混合實用性(任務相關的 F1 分數變化) 12。
  • 基於相似性的策劃(Similarity-Based Curation):解釋其對多樣性(降低 INGF/APS)的影響,但通常對實用性產生負面影響(F1 分數下降),這表明並非所有冗餘都是有害的 12。
  • 合成數據與人工撰寫數據:強調合成數據在特定任務(安全、缺陷)中可以與人工數據匹配甚至超越,提供成本節約和控制,儘管人工數據在功能需求方面仍優於合成數據 12。

研究資料表明,僅僅生成更多數據是不夠的;合成數據的品質取決於其多樣性和實用性,這在多樣本提示與基於相似性的策劃中得到了體現。例如,多樣本提示顯著提高了實用性和多樣性,而基於相似性的策劃雖然提高了多樣性,但通常會損害分類性能 12。這強調了對複雜生成技術的需求,以確保合成數據不僅數量充足,而且具有足夠的品質和多樣性,能夠有效訓練和評估 LLM,從而避免引入新的性能瓶頸。


7. 結論

本報告深入探討了大型語言模型(LLM)的評估策略,特別是針對檢索增強生成(RAG)系統,並綜合了 DataTalksClub LLM Zoomcamp 課程材料中的核心概念和方法。

評估在 LLM 的開發和部署中扮演著不可或缺的角色,它不僅是品質保證的最後一道防線,更是整個開發生命週期中持續改進的關鍵驅動力。隨著 LLM 從通用模型轉向現實世界應用,評估的焦點已從廣泛的學術基準測試轉向針對特定應用場景量身定制的、情境感知的評估框架。這項轉變要求組織投入資源建立客製化的評估數據集和標準,以確保模型在實際操作環境中的可靠性與有效性。

LLM 評估指標的發展呈現出多樣化趨勢,涵蓋了基於參考和無參考兩大類。基於參考的指標,如答案正確性、上下文精確度和召回率,雖然提供了客觀的量化評估,但其應用受限於黃金標準數據的可用性。因此,無參考指標,特別是利用「LLM 作為評審」的方法,如答案相關性和忠實度,變得日益重要。這些方法在缺乏黃金標準數據的現實世界場景中提供了靈活性和可擴展性。值得注意的是,評估指標本身也正朝著混合模式發展,例如 Ragas 框架中的答案正確性,它結合了語義相似性和 LLM 的事實驗證能力,旨在提供更穩健且與人類判斷更一致的評估結果。

「LLM 作為評審」範式為自動化評估帶來了顯著的效率和可擴展性優勢,能夠大幅降低評估成本和時間。然而,這種方法並非沒有挑戰。LLM 評審可能繼承訓練數據中的偏見,導致評估結果的不一致性、潛在的偏見傳播,甚至在複雜的代理管道中難以追蹤邏輯。此外,儘管 LLM 評審實現了自動化,但其自身的驗證、品質控制和持續改進仍需人類專業知識的介入。

因此,最有效的 LLM 評估策略是將「LLM 作為評審」與人類監督相結合的混合「人機協作」方法。在此模式下,LLM 負責大規模、初步的評估,快速篩選出明顯正確或錯誤的結果,從而使人類專家能夠將精力集中於需要細緻判斷的複雜或邊緣案例。這種協同作用不僅提高了評估的覆蓋率和準確性,還透過人類對評審 LLM 的持續回饋,實現了評估系統的自我完善。Databricks 與 SuperAnnotate 的合作案例證明,這種混合方法能夠顯著提升評估速度並降低成本,突顯了人類策劃的黃金標準數據在訓練和驗證自動化評估系統中的基礎性作用。

最後,合成數據生成已成為克服數據稀缺問題、增強 LLM 特別是 RAG 系統評估能力的重要手段。RAGSynth 等框架的出現,以及多樣本提示等方法的應用,證明了合成數據能夠有效提高檢索器的穩健性和生成器的忠實度,並在不同領域中展現出良好的泛化能力。然而,合成數據的品質不僅取決於數量,更取決於其多樣性和實用性,這要求在生成過程中採用精密的技術和策略。

總體而言,LLM 評估是一個複雜且動態的領域,它不斷演進以適應 LLM 技術的快速發展和日益多樣化的應用場景。未來的發展將繼續聚焦於開發更智能、更細緻的評估方法,這些方法將有效結合自動化工具的效率與人類判斷的深度,並戰略性地利用合成數據來推動 LLM 在現實世界中的性能和可靠性。


▌參考資料

  1. LLM Zoomcamp 2025 - YouTube
  2. LLM Zoomcamp 2024 - YouTube
  3. Are LLMs the best way to judge LLMs? - AIMon Labs
  4. https://www.reddit.com/r/LLMDevs/comments/1kealia/llmasajudge_is_not_enough_thats_the_quiet_truth/
  5. Evaluating LLM Performance at Scale: A Guide to Building Automated LLM Evaluation Frameworks | Shakudo
  6. RAG evaluation: Complete guide 2025 | SuperAnnotate
  7. 20 LLM evaluation benchmarks and how they work
  8. [2506.21138] How Good Are Synthetic Requirements ? Evaluating LLM-Generated Datasets for AI4RE
  9. RAG Evaluation Metrics: Assessing Answer Relevancy, Faithfulness, Contextual Relevancy, And More - Confident AI
  10. [2505.10989] RAGSynth: Synthetic Data for Robust and Faithful RAG Component Optimization
  11. Mastering RAG: How To Evaluate LLMs For RAG
  12. LLM-as-a-Judge vs Human Evaluation
  13. LLM-as-a-judge vs. human evaluation: Why together is better | SuperAnnotate