Articles | 优智AI | cms-nuxt-web

🔬 评测概览

AI-Seeks 使用多维度、可复现的标准评测体系，衡量大模型在理解、推理、生成等能力上的表现。

标准样本集

采用公开评测数据集，涵盖多语言、多任务、多学科

公平执行环境

统一推理环境，记录评测设备与资源条件

动态可更新

每轮模型更新后自动复测并归档

SuperCLUE

中文大模型通用能力评测体系，覆盖生成、阅读、推理等任务

MMLU

涵盖57个学科的跨领域多项选择题，强调知识深度

HELM

来自 Stanford，强调鲁棒性、公平性与对齐性三重指标

OpenCompass

支持开源模型自动评测和统一对比的开放平台

上传数据集，自定义任务类型，即时运行评测并获取图表结果。

[上传面板 & 参数设置占位区]

评测结果可信吗？

我们采用公开标准+统一环境，支持结果复查与模型复测。

是否可以上传自定义模型？

未来将支持用户上传模型镜像并执行评测任务。

评分标准会变动吗？

会定期更新评分体系，并保留历史记录以供对比。