隨著 AI 模型的快速迭代,能力也增強了許多,可以在以下的網站查看各個模型的排名。
可以得知模型在不同任務中的排名,也可以讓你知道除了 GPT Gemini 以外還有其他的模型。

模型綜合評分

會提供多個面向的排行榜網站

LMSYS.Org

LMSYS Org (Large Model Systems Organization)是一個開放的研究組織,由 UC Berkeley 的學生和教師與 UCSD 和 CMU 合作創立。
旨在通過共同開發開放模型、數據集、系統和評估工具,使大型模型對所有人都能夠接觸和使用。
希望建立一個開放和透明的平臺,提供語言模型基準數據和評估工具,幫助研究人員和開發者更好地理解和提升他們的模型性能。

Chatbot Arena

選擇模式

  1. ⚔️ Arena (battle)
    使用者可以輸入問題,會隨機提供不同的模型回答,使用者可以對回答較佳的模型投票,投票後會顯示剛剛回答的模型。
  2. ⚔️ Arena (side-by-side)
    可以讓使用者選擇2個指定的模型,使用者可以對回答較佳的模型投票。
  3. 💬 Direct Chat
    使用者可以直接和模型對話,可以選擇指定的模型。
向模型提問的範例

LLM 排行榜

lmsys.org 每隔一段時間都會發布排行榜,可以做為模型能力的參考,可以選擇不同的分類,查看該分類的排行榜。

  • 使用 Elo 評分

贊助商

可以看到有許多大模型公司都贊助了 LMSYS,且會提供最新(或是測試中未公開)的語言模型給 LMSYS 測試。
模型未公開時會使用代號名稱,例如當時流傳的 m-also-a-good-gpt2-chatbot,也就是現在的 GPT-4o。

Artificial Analysis Image Arena Leaderboard

  • 採用 Elo 分數

Design Arena

LiveBench

LiveBench 是一個用於評估大型語言模型(LLM)的基準測試平台,目標是防止測試集污染並提供客觀評分。

  • 每月更新問題,確保模型沒有見過這些問題
  • 可以自行驗證分數,也可以接入模型 API 進行跑分

coding 排行榜

基於不同的方式評斷模型寫程式的能力

Aider Leaderboards

  • Aider 是一個開源的 AI 程式碼撰寫工具。

Aider LLM Leaderboards 是由 Aider 開發的一組基準測試,用於評估大型語言模型(LLM)編輯程式碼的能力。
這些基準測試專注於模型編輯現有程式碼的能力,確保模型能夠一致地遵循系統提示詞(Prompt)完成編輯任務,適合評估在程式碼編輯的表現。

如何進行基準測試?

基準測試是 Aider’s polyglot benchmark,選取 Exercism 的 225 個困難的程式練習,測量模型完成任務的百分比以及使用正確編輯格式的百分比。

  • diff 輸出程式碼的部分更改
  • whole 輸出整個程式碼文件

RooCode Evals

RooCode 是一個開源的 AI 程式碼程式開發工具,RooCode 提出的測試方式: https://github.com/RooCodeInc/Roo-Code-Evals

GSO

SWE-rebench

  • 有包含像是 Claude Code、Codex 的 cli 工具的排名

來自: https://huggingface.co/datasets/nebius/SWE-rebench-leaderboard

  • 有各種自訂基準 然後跑分

幻覺 / 上下文衰減

Vectara 的模型幻覺排行榜

透過 Hughes Hallucination Evaluation Model (HHEM) 來測試模型幻覺。

所謂「幻覺」(hallucinated)或「事實不一致」(factually inconsistent),是指一段文本(待判斷的假設)無法由源文本(給定的證據/前提)所支持。在檢索增強生成(RAG)的情境中,模型會從資料集中檢索到多段文本(通常稱為事實或上下文),若生成的摘要(假設)與這些源文本(給定的證據/前提)不符,即構成幻覺。

RAG中一種幻覺類型是,LLM 生成的陳述在現實世界中是正確的,但是並未出現在提供的源文本。

  • 檢索到的事實(前提):「法國的首都是柏林」(源文本內容)
  • LLM 回答的摘要(假設):「法國的首都是巴黎」(符合真實世界知識)

這表示 LLM 未依賴 RAG 提供的資料,反而仰賴預訓練時學到的知識。

fiction.live 評估模型在長上下文上的能力

核心目標: 測試 AI 模型在處理長篇文本時,能否維持回答品質,並深度理解動態發展的故事情節。

測試數據來源

  • 基於 十幾部超長且複雜的故事(來自 Fiction.live 的真實用戶內容),並結合人工驗證的問答題(quizzes)。
  • 實際的測試數據集(包含這些問題範例)是保密的。
  • 測試時,會對原始故事進行分段裁剪,生成不同長度的版本:
    • 0-token 測試:僅保留與問題直接相關的片段(最小上下文)。
    • 逐步增加上下文長度:在相關內容周圍逐漸加入更多原始故事文本(即增加無關信息),測試模型在更長、更複雜的上下文中的表現。

問題設計

  • 具有難度梯度

    • 同一個問題會提供短上下文版本(如 1k tokens),多數模型能答對。
    • 但是長上下文版本(如 8k tokens),這對多數模型來說則非常困難。
  • 問題類型旨在測試深度理解能力

    • 追蹤角色關係和動機的動態變化(例如,從恨轉變為愛,再到執念)。
    • 基於故事中的隱晦線索進行邏輯推理。
    • 區分讀者知曉但角色未知的秘密。
  • 刻意設計無法單靠搜索解決的問題:

    • 避免模型僅依賴關鍵字搜索來定位答案,強制模型必須真正閱讀和理解整個上下文。
    • 這更貼近小說寫作中對理解潛台詞、伏筆和情感細微變化的要求。

模型評估方式

  • 橫向比較不同模型在不同上下文長度(如 1k, 8k tokens 等)下的表現。
  • 關鍵指標是準確率 (accuracy),觀察其隨上下文增長而如何變化或衰減。
  • 傳統測試聚焦從長文中找答案,而 Fiction.LiveBench 測試綜合理解能力
    • 模型不僅要能找到某句對話,更要能理解角色關係如何隨時間演變。
  • 更貼近真實寫作需求,測試結果反映模型在創作輔助(如生成連貫的角色分析、維持情節一致性)中的實用性。

Context Arena

其他 / OCR

OpenRouter Ranking

用戶在 OpenRouter 中的模型使用量排行,並不直接代表模型的絕對強弱,而是呈現了用戶願意付費使用的市場偏好

OCR Arena

  • OCR 的排行榜
  • 使用 Elo 評分標準

Vals.ai

  • 針對特定領域的跑分

Open ASR Leaderboard

  • 沒有針對中文的測試集,ASR 中錯字率在不同語言評分基本上沒有參考性

speechmap.ai

測試 AI 模型對敏感和爭議性提示的反應。

EQ-Bench 3

角色扮演和分析任務來評估模型的同理心、社交技巧和洞察力

opper.ai

  • 用戶可以提交自己的任務來跑分

Terminal Bench

Scale Humanity’s Last Exam

Scale 認為傳統基準測試(如 MMLU 和 GPQA)已經沒辦法區分模型的能力,所以推出了「Humanity’s Last Exam (HLE)」,截至 2025 年 4 月 3 日,該測試集已完成最終定案與清洗。

  • 所以 2025 年 4 月 3 日之後推出的模型,可以拿這些題目訓練,可能不具有參考價值。

Elo評分方式

Elo 原本是由 Arpad Elo 為西洋棋設計的。它的核心概念是:根據對手的強弱來決定勝負後的加減分。贏了強者加的分數多,贏了弱者加的分數少。

讓用戶去投票也就是將評分權交還給社群,透過集體偏好來構建排行榜

  • 核心數學模型:Bradley-Terry

是一個統計學模型,傳統的 Elo 往往是「打一場、算一場」的即時更新,但在大數據分析或排行榜構建中,可以使用 Bradley-Terry 模型一次性分析大量的成對比較資料。

不直接看分數,而是看「機率」。假設每個選手有一個潛在的「實力值」(Strength, π\pi),選手 ii 擊敗選手 jj 的機率為:

P(i>j)=πiπi+πjP(i > j) = \frac{\pi_i}{\pi_i + \pi_j}

運算方式:這通常需要透過最大概似估計(MLE)或迭代算法來算出所有人的 π\pi 值。

用戶能判斷模型的能力嗎?

之前在 LMArena ˊ排行榜中的 GPT-4o-mini 勝出其他大模型後,許多人對這個榜單提出質疑,因此提供用戶的對話與投票紀錄之後也提出 style control 功能,目標是要有辦法區分模型分數是來自內容或是風格