首页

LLM测试榜单

智能体指数表现排行榜

核心评估指标

MRCR 长文本召回能力 查看详情 →
Tau2Bench 工具调用能力 查看详情 →
VitaBench 工具调用和规划能力 查看详情 →
MultiChallenge 指令跟随能力 查看详情 →
IFBench 指令跟随能力 查看详情 →
Terminal-bench-2 编程能力(规划中)
longBench v2 长文本召回能力(规划中)

模型与评测集对比

选择模型

点击搜索并选择模型...

选择评测集

点击搜索并选择评测集...

金融指数

面向金融行业的专业评估指标正在开发中。

电商指数

面向电商行业的专业评估指标正在开发中。