原因
提供模型能力测试基准
根据真实场景任务,测试大模型能力边界
提供大模型优化方向指引
对比不同模型的能力
内容
知识、推理、语言
长文本
情感、认知、价值观
方法
自动化客观评测
人机交互评测
基于大模型的评测



基础作业
环境安装
conda create --name opencompass --clone=/root/share/conda_envs/internlm-base
source activate opencompass
git clone https://github.com/open-compa