国内AI大模型表格数据处理哪家强?智谱GLM-4、Kimi优秀(4000字详细测评过程+结果)

国内AI大模型表格数据处理哪家强?智谱GLM-4、Kimi优秀(4000字详细测评过程+结果)

图片来自ideogram生成

今天(3月16日)是广西2024年度公务员笔试考试时间,有听到一些朋友在讨论报考的岗位情况。
锅头心想:现在国产AI大模型这么多,有没有可能用它们来帮我快速解读职位表的信息?文心一言3.5、讯飞星火豆包智谱清言GLM-3、智谱清言GLM-4、通义千问Kimi哪家更强?

脑子里过了下自己的需求,具体如下:

  • 上传职位表excel文件。
  • 验证AI是否能正确读取表格数据。
  • 了解广西南宁市有多少个岗位?
  • 南宁市符合“计算机类专业”的有多少个岗位?
  • 广西各个城市的分别有多少个岗位?
  • 基于各城市岗位数据,能否以表格形式呈现?
  • 基于各城市岗位数据,能否以柱状图的形式呈现?
  • 基于各城市岗位数据,分别占比多少?
  • 基于各城市岗位数据的占比情况,能否以饼图的形式呈现?

下图为本次测评结果,满分45分,具体评分标准和测评过程见下文。

国内AI大模型表格数据处理哪家强?智谱GLM-4、Kimi优秀(4000字详细测评过程+结果)

图片来自锅头测评结果

评分标准

在测试前,为了能更直观方便比较各模型测试结果,我们简单定义下测试评分标准,具体如下:

评分标准

分数

与预期完全相符

5

与预期大部分相符

4

与预期少部分相符

3

无法判别是否相符

2

与预期完全不符,答非所问

1

无此功能不支持生成

0

( 注意:该评分仅供本次测试的感性反馈使用,非权威测试,请勿纠结。)

测试项

  • 上传表格文件。
  • 读取数据表中某行某列的单元格的值。
  • 读取数据表中某个维度的统计数。
  • 读取数据表中两重维度的统计数。
  • 基于对数据表的理解,输出多个统计数据。
  • 基于对数据表的理解,输出多个统计数据,并将统计数据转化成表格形式呈现。
  • 基于对数据表的理解,输出多个统计数据,并将统计数据转化成柱状图形式呈现。
  • 基于对数据表的理解,输出多个统计数据的占比。
  • 基于对数据表的理解,输出多个统计数据的占比,并将占比数据转化成饼图形式呈现。

测试模型

  • 文心一言-文心大模型3.5
  • 讯飞星火
  • 通义千问
  • 豆包
  • 智谱清言-GLM-4
  • 智谱清言-GLM-3
  • Kimi

测试时间

2024年3月15日、16日。

准备工作完成后,我们开始进入测试。

文心一言-文心大模型3.5

测试项1:上传表格文件

国内AI大模型表格数据处理哪家强?智谱GLM-4、Kimi优秀(4000字详细测评过程+结果)

反馈与评分:仅支持word、pdf,不支持xlsx等表格格式。无法进行后续测试,还没开始就结束了-_-||

总分:0。

讯飞星火

测试项1:上传表格文件

国内AI大模型表格数据处理哪家强?智谱GLM-4、Kimi优秀(4000字详细测评过程+结果)

反馈与评分:不支持xlsx等表格格式。无法进行后续测试,还没开始又结束了-_-||

总分:0。


豆包

测试项1:上传表格文件

国内AI大模型表格数据处理哪家强?智谱GLM-4、Kimi优秀(4000字详细测评过程+结果)

反馈与评分:不支持上传文件。无法进行后续测试,还没开始再次结束了-_-||

总分:0。

智谱清言-GLM-3

测试项1:上传表格文件

国内AI大模型表格数据处理哪家强?智谱GLM-4、Kimi优秀(4000字详细测评过程+结果)

反馈与评分:不支持xlsx等表格格式。无法进行后续测试,还没开始再又结束了-_-||

总分:0。

智谱清言-GLM-4

测试项1:上传表格文件

国内AI大模型表格数据处理哪家强?智谱GLM-4、Kimi优秀(4000字详细测评过程+结果)

反馈与评分:成功上传职位表xlsx文件,这一项打5分。

测试项2:读取数据表中某行某列的单元格的值

国内AI大模型表格数据处理哪家强?智谱GLM-4、Kimi优秀(4000字详细测评过程+结果)

反馈与评分:下图为表格截图,剔除表头列名后,正文第一行第三列确实是“各级人民法院”,这一项打5分。

国内AI大模型表格数据处理哪家强?智谱GLM-4、Kimi优秀(4000字详细测评过程+结果)

测试项3:读取数据表中某个维度的统计数

国内AI大模型表格数据处理哪家强?智谱GLM-4、Kimi优秀(4000字详细测评过程+结果)

反馈与评分:下图为表格截图,从南宁sheet表中筛选南宁sheet表中包含岗位524个,答案正确,打5分。

国内AI大模型表格数据处理哪家强?智谱GLM-4、Kimi优秀(4000字详细测评过程+结果)

测试项4:读取数据表中两重维度的统计数

国内AI大模型表格数据处理哪家强?智谱GLM-4、Kimi优秀(4000字详细测评过程+结果)
国内AI大模型表格数据处理哪家强?智谱GLM-4、Kimi优秀(4000字详细测评过程+结果)

发现直接检索了包含“计算机类专业”的关键词,没有找到。

那换一种问法:南宁市符合计算机类专业的有多少个岗位?发现可以检索到21个。

国内AI大模型表格数据处理哪家强?智谱GLM-4、Kimi优秀(4000字详细测评过程+结果)

反馈与评分:下图为表格截图,从南宁sheet表中筛选专业类别中包含“计算机”的共21个,答案正确,但由于第一次检索结果为0,所以算部分符合预期,打3分。

国内AI大模型表格数据处理哪家强?智谱GLM-4、Kimi优秀(4000字详细测评过程+结果)

测试项5:基于对数据表的理解,输出多个统计数据。

国内AI大模型表格数据处理哪家强?智谱GLM-4、Kimi优秀(4000字详细测评过程+结果)

反馈与评分:下图为部分城市岗位统计截图,答案正确,打5分。

国内AI大模型表格数据处理哪家强?智谱GLM-4、Kimi优秀(4000字详细测评过程+结果)
国内AI大模型表格数据处理哪家强?智谱GLM-4、Kimi优秀(4000字详细测评过程+结果)
国内AI大模型表格数据处理哪家强?智谱GLM-4、Kimi优秀(4000字详细测评过程+结果)
国内AI大模型表格数据处理哪家强?智谱GLM-4、Kimi优秀(4000字详细测评过程+结果)

测试项6:基于对数据表的理解,输出多个统计数据,并将统计数据转化成表格形式呈现。

国内AI大模型表格数据处理哪家强?智谱GLM-4、Kimi优秀(4000字详细测评过程+结果)

反馈与评分:虽然表头有英文名,但答案正确,打5分。

测试项7:基于对数据表的理解,输出多个统计数据,并将统计数据转化成柱状图形式呈现。

国内AI大模型表格数据处理哪家强?智谱GLM-4、Kimi优秀(4000字详细测评过程+结果)
国内AI大模型表格数据处理哪家强?智谱GLM-4、Kimi优秀(4000字详细测评过程+结果)

反馈与评分:能生成柱状图,但是城市名无法展示,算少部分符合预期,这一项打3分。

测试项8:基于对数据表的理解,输出多个统计数据的占比。

国内AI大模型表格数据处理哪家强?智谱GLM-4、Kimi优秀(4000字详细测评过程+结果)

反馈与评分:占比答案正确,打5分。

测试项9:基于对数据表的理解,输出多个统计数据的占比,并将占比数据转化成饼图形式呈现。

国内AI大模型表格数据处理哪家强?智谱GLM-4、Kimi优秀(4000字详细测评过程+结果)

反馈与评分:饼图占比数据比例值正确,但是选项名称无法显示,算少部分符合,打3分。

国内AI大模型表格数据处理哪家强?智谱GLM-4、Kimi优秀(4000字详细测评过程+结果)

总分:5+5+5+3+5+5+3+5+3=39。

通义千问

测试项1:上传表格文件

国内AI大模型表格数据处理哪家强?智谱GLM-4、Kimi优秀(4000字详细测评过程+结果)

反馈与评分:成功上传职位表xlsx文件,这一项打5分。

测试项2:读取数据表中某行某列的单元格的值

国内AI大模型表格数据处理哪家强?智谱GLM-4、Kimi优秀(4000字详细测评过程+结果)

反馈与评分:无法给出答案,再进一步明确输入后还是无法给出答案,还说需要推测出来,算它答非所问,完全不符,这一项打1分。

测试项3:读取数据表中某个维度的统计数

国内AI大模型表格数据处理哪家强?智谱GLM-4、Kimi优秀(4000字详细测评过程+结果)

反馈与评分:只是从表格中读取了部分信息,并基于此做部分取数,断章取义,答非所问,打1分。

测试项4:读取数据表中两重维度的统计数

国内AI大模型表格数据处理哪家强?智谱GLM-4、Kimi优秀(4000字详细测评过程+结果)

反馈与评分:和第三项测试结果一样,选择性截取部分信息给答案,断章取义,答非所问,打1分。

测试项5:基于对数据表的理解,输出多个统计数据。

国内AI大模型表格数据处理哪家强?智谱GLM-4、Kimi优秀(4000字详细测评过程+结果)

反馈与评分:和之前测试结果一样,选择性截取部分信息给答案,断章取义,答非所问,打1分。

测试项6:基于对数据表的理解,输出多个统计数据,并将统计数据转化成表格形式呈现。

国内AI大模型表格数据处理哪家强?智谱GLM-4、Kimi优秀(4000字详细测评过程+结果)

反馈与评分:基于测试项5得出的结果,正确转化成表格形式呈现了,表格形式呈现功能符合预期,打5分。

测试项7:基于对数据表的理解,输出多个统计数据,并将统计数据转化成柱状图形式呈现。

国内AI大模型表格数据处理哪家强?智谱GLM-4、Kimi优秀(4000字详细测评过程+结果)

反馈与评分:不支持绘制图形或柱状图,无此功能,这一项打0分。

测试项8:基于对数据表的理解,输出多个统计数据的占比。

国内AI大模型表格数据处理哪家强?智谱GLM-4、Kimi优秀(4000字详细测评过程+结果)
国内AI大模型表格数据处理哪家强?智谱GLM-4、Kimi优秀(4000字详细测评过程+结果)

反馈与评分:提出数据占比需求,无法直接识别总人数,老是要我提供总人数数据。好吧,那就基于已给出的信息作为总人数,还是说没有所有岗位的总人数。行吧,那我再给出岗位总人数为4210。这时候又跟我说一堆道理,实战没耐心跟它耗下去了。算答非所问,打1分。

测试项9:基于对数据表的理解,输出多个统计数据的占比,并将占比数据转化成饼图形式呈现。

国内AI大模型表格数据处理哪家强?智谱GLM-4、Kimi优秀(4000字详细测评过程+结果)

反馈与评分:不支持绘制图表,无此功能,打0分。

总分:5+1+1+1+1+5+0+1+0=15。

Kimi

测试项1:上传表格文件

国内AI大模型表格数据处理哪家强?智谱GLM-4、Kimi优秀(4000字详细测评过程+结果)
国内AI大模型表格数据处理哪家强?智谱GLM-4、Kimi优秀(4000字详细测评过程+结果)

反馈与评分:第一次上传提示超过对话长度,不支持。删掉excel表中大部分内容,只保留梧州市的岗位计划表内容后成功上传,算少部分符合,这一项打3分。

测试项2:读取数据表中某行某列的单元格的值

国内AI大模型表格数据处理哪家强?智谱GLM-4、Kimi优秀(4000字详细测评过程+结果)

反馈与评分:下图为表格截图,剔除表头列名后,正文第一行第三列确实是“市级”,这一项打5分。

国内AI大模型表格数据处理哪家强?智谱GLM-4、Kimi优秀(4000字详细测评过程+结果)

测试项3:读取数据表中某个维度的统计数

国内AI大模型表格数据处理哪家强?智谱GLM-4、Kimi优秀(4000字详细测评过程+结果)

反馈与评分:下图为表格截图,从梧州sheet表中看到总共有308行,除去表头后,共307个岗位明细,答案正确,打5分。

国内AI大模型表格数据处理哪家强?智谱GLM-4、Kimi优秀(4000字详细测评过程+结果)

测试项4:读取数据表中两重维度的统计数

国内AI大模型表格数据处理哪家强?智谱GLM-4、Kimi优秀(4000字详细测评过程+结果)
国内AI大模型表格数据处理哪家强?智谱GLM-4、Kimi优秀(4000字详细测评过程+结果)

反馈与评分:第一次筛选是“计算机类专业”,Kimi转化成了“计算机科学与技术类”关键词,但输出结果不对。第二次没有用引号框起来,Kimi转化成提及“计算机类专业”的就算,但是统计数据和明细描述都是错误的,见下面截图,可以看出来职位序号14-19,对应专业(学科)类别的内容中并没有“计算机”出现。这里算答非所问,打1分。

国内AI大模型表格数据处理哪家强?智谱GLM-4、Kimi优秀(4000字详细测评过程+结果)

测试项5:基于对数据表的理解,输出多个统计数据。

国内AI大模型表格数据处理哪家强?智谱GLM-4、Kimi优秀(4000字详细测评过程+结果)

反馈与评分:下图为excel表透视结果,发现部分数据准确,部分数据错误,算少部分符合预期,打3分。

国内AI大模型表格数据处理哪家强?智谱GLM-4、Kimi优秀(4000字详细测评过程+结果)

测试项6:基于对数据表的理解,输出多个统计数据,并将统计数据转化成表格形式呈现。

国内AI大模型表格数据处理哪家强?智谱GLM-4、Kimi优秀(4000字详细测评过程+结果)

反馈与评分:能够基于数据结果正确转化为表格,符合预期,打5分。

测试项7:基于对数据表的理解,输出多个统计数据,并将统计数据转化成柱状图形式呈现。

国内AI大模型表格数据处理哪家强?智谱GLM-4、Kimi优秀(4000字详细测评过程+结果)

反馈与评分:无法创建图表,无此功能,打0分。

测试项8:基于对数据表的理解,输出多个统计数据的占比。

国内AI大模型表格数据处理哪家强?智谱GLM-4、Kimi优秀(4000字详细测评过程+结果)

反馈与评分:基于已有结果统计占比的答案按估算结果正确,符合预期,打5分。

测试项9:基于对数据表的理解,输出多个统计数据的占比,并将占比数据转化成饼图形式呈现。

国内AI大模型表格数据处理哪家强?智谱GLM-4、Kimi优秀(4000字详细测评过程+结果)

反馈与评分:无法创建图表,无此功能,打0分。

总分:5+3+5+1+3+5+0+5+0=27分。

测评总结

本次测评结果汇总表如下:

国内AI大模型表格数据处理哪家强?智谱GLM-4、Kimi优秀(4000字详细测评过程+结果)

从测评结果表可以看出:
智谱清言GLM-4在表格数据处理上的体验效果遥遥领先。
其次到Kimi,能回答对大部分数据问题,但无法生成图表。
接下来到通义千问,只能说有上传表格文件的功能,智商上还不足以正确处理分析表格数据。
最后是文心一言大模型3.5、讯飞星火、豆包、智谱清言GLM-3,这几个现在是干脆不支持了。

按智谱清言GLM-4目前的表现,你会用它来处理表格文件吗?

期待各厂大模型更新后的再次测评(*^▽^*) 。

 

声明:内容均采集自公开的网站等各类媒体平台,若收录的内容侵犯了您的权益,请联系邮箱,本站将第一时间处理。
教程百科

ChatGPT提示词技巧,如何让 ChatGPT 提供信息来源和引用?数据真实吗?

2024-4-16 10:00:21

教程百科

免费的AI视频工具PixVerseAI重磅更新!视频可以保持IP角色形象不变了!

2024-4-16 10:11:51

搜索