图片来自ideogram生成
今天(3月16日)是广西2024年度公务员笔试考试时间,有听到一些朋友在讨论报考的岗位情况。
锅头心想:现在国产AI大模型这么多,有没有可能用它们来帮我快速解读职位表的信息?文心一言3.5、讯飞星火、豆包、智谱清言GLM-3、智谱清言GLM-4、通义千问、Kimi哪家更强?
脑子里过了下自己的需求,具体如下:
- 上传职位表excel文件。
- 验证AI是否能正确读取表格数据。
- 了解广西南宁市有多少个岗位?
- 南宁市符合“计算机类专业”的有多少个岗位?
- 广西各个城市的分别有多少个岗位?
- 基于各城市岗位数据,能否以表格形式呈现?
- 基于各城市岗位数据,能否以柱状图的形式呈现?
- 基于各城市岗位数据,分别占比多少?
- 基于各城市岗位数据的占比情况,能否以饼图的形式呈现?
下图为本次测评结果,满分45分,具体评分标准和测评过程见下文。
图片来自锅头测评结果
评分标准
在测试前,为了能更直观方便比较各模型测试结果,我们简单定义下测试评分标准,具体如下:
评分标准 |
分数 |
与预期完全相符 |
5 |
与预期大部分相符 |
4 |
与预期少部分相符 |
3 |
无法判别是否相符 |
2 |
与预期完全不符,答非所问 |
1 |
无此功能或不支持生成 |
0 |
( 注意:该评分仅供本次测试的感性反馈使用,非权威测试,请勿纠结。)
测试项
- 上传表格文件。
- 读取数据表中某行某列的单元格的值。
- 读取数据表中某个维度的统计数。
- 读取数据表中两重维度的统计数。
- 基于对数据表的理解,输出多个统计数据。
- 基于对数据表的理解,输出多个统计数据,并将统计数据转化成表格形式呈现。
- 基于对数据表的理解,输出多个统计数据,并将统计数据转化成柱状图形式呈现。
- 基于对数据表的理解,输出多个统计数据的占比。
- 基于对数据表的理解,输出多个统计数据的占比,并将占比数据转化成饼图形式呈现。
测试模型
- 文心一言-文心大模型3.5
- 讯飞星火
- 通义千问
- 豆包
- 智谱清言-GLM-4
- 智谱清言-GLM-3
- Kimi
测试时间
2024年3月15日、16日。
准备工作完成后,我们开始进入测试。
文心一言-文心大模型3.5
测试项1:上传表格文件
反馈与评分:仅支持word、pdf,不支持xlsx等表格格式。无法进行后续测试,还没开始就结束了-_-||
总分:0。
讯飞星火
测试项1:上传表格文件
反馈与评分:不支持xlsx等表格格式。无法进行后续测试,还没开始又结束了-_-||
总分:0。
豆包
测试项1:上传表格文件
反馈与评分:不支持上传文件。无法进行后续测试,还没开始再次结束了-_-||
总分:0。
智谱清言-GLM-3
测试项1:上传表格文件
反馈与评分:不支持xlsx等表格格式。无法进行后续测试,还没开始再又结束了-_-||
总分:0。
智谱清言-GLM-4
测试项1:上传表格文件
反馈与评分:成功上传职位表xlsx文件,这一项打5分。
测试项2:读取数据表中某行某列的单元格的值
反馈与评分:下图为表格截图,剔除表头列名后,正文第一行第三列确实是“各级人民法院”,这一项打5分。
测试项3:读取数据表中某个维度的统计数
反馈与评分:下图为表格截图,从南宁sheet表中筛选南宁sheet表中包含岗位524个,答案正确,打5分。
测试项4:读取数据表中两重维度的统计数
发现直接检索了包含“计算机类专业”的关键词,没有找到。
那换一种问法:南宁市符合计算机类专业的有多少个岗位?发现可以检索到21个。
反馈与评分:下图为表格截图,从南宁sheet表中筛选专业类别中包含“计算机”的共21个,答案正确,但由于第一次检索结果为0,所以算部分符合预期,打3分。
测试项5:基于对数据表的理解,输出多个统计数据。
反馈与评分:下图为部分城市岗位统计截图,答案正确,打5分。
测试项6:基于对数据表的理解,输出多个统计数据,并将统计数据转化成表格形式呈现。
反馈与评分:虽然表头有英文名,但答案正确,打5分。
测试项7:基于对数据表的理解,输出多个统计数据,并将统计数据转化成柱状图形式呈现。
反馈与评分:能生成柱状图,但是城市名无法展示,算少部分符合预期,这一项打3分。
测试项8:基于对数据表的理解,输出多个统计数据的占比。
反馈与评分:占比答案正确,打5分。
测试项9:基于对数据表的理解,输出多个统计数据的占比,并将占比数据转化成饼图形式呈现。
反馈与评分:饼图占比数据比例值正确,但是选项名称无法显示,算少部分符合,打3分。
总分:5+5+5+3+5+5+3+5+3=39。
通义千问
测试项1:上传表格文件
反馈与评分:成功上传职位表xlsx文件,这一项打5分。
测试项2:读取数据表中某行某列的单元格的值
反馈与评分:无法给出答案,再进一步明确输入后还是无法给出答案,还说需要推测出来,算它答非所问,完全不符,这一项打1分。
测试项3:读取数据表中某个维度的统计数
反馈与评分:只是从表格中读取了部分信息,并基于此做部分取数,断章取义,答非所问,打1分。
测试项4:读取数据表中两重维度的统计数
反馈与评分:和第三项测试结果一样,选择性截取部分信息给答案,断章取义,答非所问,打1分。
测试项5:基于对数据表的理解,输出多个统计数据。
反馈与评分:和之前测试结果一样,选择性截取部分信息给答案,断章取义,答非所问,打1分。
测试项6:基于对数据表的理解,输出多个统计数据,并将统计数据转化成表格形式呈现。
反馈与评分:基于测试项5得出的结果,正确转化成表格形式呈现了,表格形式呈现功能符合预期,打5分。
测试项7:基于对数据表的理解,输出多个统计数据,并将统计数据转化成柱状图形式呈现。
反馈与评分:不支持绘制图形或柱状图,无此功能,这一项打0分。
测试项8:基于对数据表的理解,输出多个统计数据的占比。
反馈与评分:提出数据占比需求,无法直接识别总人数,老是要我提供总人数数据。好吧,那就基于已给出的信息作为总人数,还是说没有所有岗位的总人数。行吧,那我再给出岗位总人数为4210。这时候又跟我说一堆道理,实战没耐心跟它耗下去了。算答非所问,打1分。
测试项9:基于对数据表的理解,输出多个统计数据的占比,并将占比数据转化成饼图形式呈现。
反馈与评分:不支持绘制图表,无此功能,打0分。
总分:5+1+1+1+1+5+0+1+0=15。
Kimi
测试项1:上传表格文件
反馈与评分:第一次上传提示超过对话长度,不支持。删掉excel表中大部分内容,只保留梧州市的岗位计划表内容后成功上传,算少部分符合,这一项打3分。
测试项2:读取数据表中某行某列的单元格的值
反馈与评分:下图为表格截图,剔除表头列名后,正文第一行第三列确实是“市级”,这一项打5分。
测试项3:读取数据表中某个维度的统计数
反馈与评分:下图为表格截图,从梧州sheet表中看到总共有308行,除去表头后,共307个岗位明细,答案正确,打5分。
测试项4:读取数据表中两重维度的统计数
反馈与评分:第一次筛选是“计算机类专业”,Kimi转化成了“计算机科学与技术类”关键词,但输出结果不对。第二次没有用引号框起来,Kimi转化成提及“计算机类专业”的就算,但是统计数据和明细描述都是错误的,见下面截图,可以看出来职位序号14-19,对应专业(学科)类别的内容中并没有“计算机”出现。这里算答非所问,打1分。
测试项5:基于对数据表的理解,输出多个统计数据。
反馈与评分:下图为excel表透视结果,发现部分数据准确,部分数据错误,算少部分符合预期,打3分。
测试项6:基于对数据表的理解,输出多个统计数据,并将统计数据转化成表格形式呈现。
反馈与评分:能够基于数据结果正确转化为表格,符合预期,打5分。
测试项7:基于对数据表的理解,输出多个统计数据,并将统计数据转化成柱状图形式呈现。
反馈与评分:无法创建图表,无此功能,打0分。
测试项8:基于对数据表的理解,输出多个统计数据的占比。
反馈与评分:基于已有结果统计占比的答案按估算结果正确,符合预期,打5分。
测试项9:基于对数据表的理解,输出多个统计数据的占比,并将占比数据转化成饼图形式呈现。
反馈与评分:无法创建图表,无此功能,打0分。
总分:5+3+5+1+3+5+0+5+0=27分。
测评总结
本次测评结果汇总表如下:
从测评结果表可以看出:
智谱清言GLM-4在表格数据处理上的体验效果遥遥领先。
其次到Kimi,能回答对大部分数据问题,但无法生成图表。
接下来到通义千问,只能说有上传表格文件的功能,智商上还不足以正确处理分析表格数据。
最后是文心一言大模型3.5、讯飞星火、豆包、智谱清言GLM-3,这几个现在是干脆不支持了。
按智谱清言GLM-4目前的表现,你会用它来处理表格文件吗?
期待各厂大模型更新后的再次测评(*^▽^*) 。