🔬 评测概览
AI-Seeks 使用多维度、可复现的标准评测体系,衡量大模型在理解、推理、生成等能力上的表现。
标准样本集
采用公开评测数据集,涵盖多语言、多任务、多学科
公平执行环境
统一推理环境,记录评测设备与资源条件
动态可更新
每轮模型更新后自动复测并归档
📚 基准说明
SuperCLUE
中文大模型通用能力评测体系,覆盖生成、阅读、推理等任务
MMLU
涵盖57个学科的跨领域多项选择题,强调知识深度
HELM
来自 Stanford,强调鲁棒性、公平性与对齐性三重指标
OpenCompass
支持开源模型自动评测和统一对比的开放平台
📈 指标体系
- 🧠 推理能力多步逻辑与抽象推理任务中的表现
- 📝 生成质量输出文本的流畅度、连贯性与结构性
- 🧮 数学与代码数学表达与代码生成的正确性与效率
- 🌐 多语言能力非英语场景下的理解与表达能力
- 🔒 安全对齐输出是否符合安全与价值观要求
🧪 自定义评测
上传数据集,自定义任务类型,即时运行评测并获取图表结果。
[上传面板 & 参数设置占位区]
💡 FAQ
评测结果可信吗?
我们采用公开标准+统一环境,支持结果复查与模型复测。
是否可以上传自定义模型?
未来将支持用户上传模型镜像并执行评测任务。
评分标准会变动吗?
会定期更新评分体系,并保留历史记录以供对比。