LLMの性能と安全性を
正確に評価する

英国AI安全研究所のInspect AIフレームワークを基盤に、 107以上の評価ベンチマークをWebブラウザから実行・比較できるプラットフォーム

107+
評価タスク
19
カテゴリ
10+
対応モデル
OSS
Inspect AI 基盤

主な機能

107+ プリビルト評価
Inspect AI
コーディング、推論、知識、安全性など19カテゴリの評価タスクをGUIから即座に実行
マルチモデル比較
比較
OpenAI, Anthropic, Google, Mistral 等の主要LLMをワンクリックで横断比較
エージェント評価
Agent
ReActエージェントのマルチターン・ツール使用シナリオを安全にテスト
安全性監査
Safety
AgentHarm, StrongREJECT, WMDP等の安全性ベンチマークでモデルのリスクを可視化

今すぐLLM評価を始めましょう

APIキーを登録するだけで、すぐに評価を実行できます