LLOMA
Beta
リーダーボード
ダッシュボード
LLMの性能と安全性を
正確に評価する
英国AI安全研究所のInspect AIフレームワークを基盤に、 107以上の評価ベンチマークをWebブラウザから実行・比較できるプラットフォーム
無料で始める
リーダーボードを見る
107+
評価タスク
19
カテゴリ
10+
対応モデル
OSS
Inspect AI 基盤
主な機能
107+ プリビルト評価
Inspect AI
コーディング、推論、知識、安全性など19カテゴリの評価タスクをGUIから即座に実行
マルチモデル比較
比較
OpenAI, Anthropic, Google, Mistral 等の主要LLMをワンクリックで横断比較
エージェント評価
Agent
ReActエージェントのマルチターン・ツール使用シナリオを安全にテスト
安全性監査
Safety
AgentHarm, StrongREJECT, WMDP等の安全性ベンチマークでモデルのリスクを可視化
今すぐLLM評価を始めましょう
APIキーを登録するだけで、すぐに評価を実行できます
無料で始める