LLOMABeta

LLMの性能と安全性を
正確に評価する

英国AI安全研究所のInspect AIフレームワークを基盤に、 107以上の評価ベンチマークをWebブラウザから実行・比較できるプラットフォーム

107+

評価タスク

カテゴリ

10+

対応モデル

OSS

Inspect AI 基盤

主な機能

107+ プリビルト評価

Inspect AI

コーディング、推論、知識、安全性など19カテゴリの評価タスクをGUIから即座に実行

マルチモデル比較

比較

OpenAI, Anthropic, Google, Mistral 等の主要LLMをワンクリックで横断比較

エージェント評価

Agent

ReActエージェントのマルチターン・ツール使用シナリオを安全にテスト

安全性監査

Safety

AgentHarm, StrongREJECT, WMDP等の安全性ベンチマークでモデルのリスクを可視化

APIキーを登録するだけで、すぐに評価を実行できます