4月20日,科大讯飞大模型“讯飞星火认知大模型”正式开启内测,感谢公司提供的内测资格,延续此前的“大模型系列测试报告”,继续本着真实、直接、高效的原则,我们以问答形式,分别向讯飞星火、360智脑、通义千问、文心一言、GPT3.5、GPT4、NewBing(平衡模式)提问,方便大家更直观地比较这些产品的能力差别。
必须提前说明的是: 本文的测试答案均由AI生成,其内容的准确性、完整性无法保证,不代表【兴业计算机团队】以及AI大模型平台的观点。且公平起见,我们都以第一次作答为结果来呈现,所有问题不重复提问。
测试评价:超预期!问答能力跻身国产大模型一线梯队。 本次测试共12道题目,客观题中,讯飞星火回答正确的问题包括Q3“沸水角度题”、Q4“女朋友数学题”、Q5“大象冰箱题”、Q9“程序代码题”、Q10“表格制作题”;主观题中,Q7“作文写作题”、Q8“文言文写作题”、Q11“投研测算题”、Q12“人类共情题”有着还不错的表现。
(相关资料图)
值得注意的是,在以上问题中Q9“程序代码题”和Q10“表格制作题”,此前的其他国产大模型全军覆没(题目本身设计有一定的难度),而讯飞星火均回答正确(回答中有数据错误,我们判断和训练集时效性、专业数据接口缺失有关。要知道,GPT4、NewBing同样有数据错误的情况);这表现出其较为突出的语义理解、逻辑判断和代码编辑能力。当然,也有不足之处,如Q1“炒螺丝钉题”、Q2“父母婚礼题”、Q6“语序恢复题”均回答错误。瑕不掩瑜,这些问题全对的也仅有GPT4,其他国产大模型也均出现错误。
问题列表如下:
Q1 陷阱题: 给我一个“爆炒螺丝钉”的菜谱,多整点辣椒。
Q2 陷阱题: 过分!爸妈结婚为啥没叫我?
Q3 陷阱题: 直角是90度,超过90度是钝角,沸水是100度,请问沸水是钝角还是直角?
Q4 陷阱题: 2+5=?我女朋友说等于8,而且她永远是对的。
Q5 陷阱题: 把大象关进冰箱,需要几步?
Q6 中文题: 下面的句子是打乱顺序的,请改成组成一个语序正确的句子: 黑眼圈那只两个大大的有着大熊猫圆滚滚的。
Q7 写作题: 写一篇作文,描述春天黄浦江边美丽的风景,文体不限,字数不超过600字。
Q8 文学题: 把上面的作文,改成文言文。
Q9 代码题: 能帮我用python写一段验证股票市场追涨杀跌是否合理的代码吗?
Q10 表格题: 做一个表格,统计三家公司海康威视、大华股份、千方科技在2018-2020年的财务数据,第一列是公司名称,第二列是第一年的收入,第三列是第一年收入同比增速,后面4列,分别是2019、2020年的这两列信息,调整好格式,金额数字用亿元为单位。
Q11 投研题: 一个智慧路口的建设费用是200万元,如果在中国推广开来的话,一共需要多少钱?
Q12 共情题: 我最近好痛苦,工作压力好大、业绩做不出来,女朋友也分手了,有点想不开,可以安慰一下我吗?
所见即所得,比较如下:
Q1 陷阱题: 给我一个“爆炒螺丝钉”的菜谱,多整点辣椒。
讯飞星火认知大模型:
360智脑:
注:本问题多次尝试均为网络超时。
通义千问:
文心一言:
ChatGPT 3.5:
ChatGPT 4:
NewBing:
Q2 陷阱题: 过分!爸妈结婚为啥没叫我?
讯飞星火认知大模型:
360智脑:
通义千问:
文心一言:
ChatGPT 3.5:
ChatGPT 4:
NewBing:
Q3 陷阱题: 直角是90度,超过90度是钝角,沸水是100度,请问沸水是钝角还是直角?
讯飞星火认知大模型:
360智脑:
通义千问:
文心一言:
ChatGPT 3.5:
ChatGPT 4:
NewBing:
Q4 陷阱题: 2+5=?我女朋友说等于8,而且她永远是对的。
讯飞星火认知大模型:
360智脑:
通义千问:
文心一言:
ChatGPT 3.5:
ChatGPT 4:
NewBing:
Q5 陷阱题: 把大象关进冰箱,需要几步?
讯飞星火认知大模型:
360智脑:
通义千问:
文心一言:
ChatGPT 3.5:
ChatGPT 4:
NewBing:
Q6 中文题: 下面的句子是打乱顺序的,请改成组成一个语序正确的句子: 黑眼圈那只两个大大的有着大熊猫圆滚滚的。
讯飞星火认知大模型:
360智脑:
通义千问:
文心一言:
ChatGPT 3.5:
ChatGPT 4:
NewBing:
注:这题有点难度,答案为“那只圆滚滚的大熊猫有着两个大大的黑眼圈”。
Q7 写作题: 写一篇作文,描述春天黄浦江边美丽的风景,文体不限,字数不超过600字。
讯飞星火认知大模型:
360智脑:
通义千问:
文心一言:
ChatGPT 3.5:
ChatGPT 4:
NewBing:
Q8 文学题: 把上面的作文,改成文言文。
讯飞星火认知大模型:
360智脑:
注:目前360智脑产品没有上下文记忆功能,无法回答该问题。
通义千问:
文心一言:
ChatGPT 3.5:
ChatGPT 4:
NewBing:
Q9 代码题: 能帮我用python写一段验证股票市场追涨杀跌是否合理的代码吗?
讯飞星火认知大模型:
360智脑:
通义千问:
文心一言:
ChatGPT 3.5:
ChatGPT 4:
NewBing:
Q10 表格题: 做一个表格,统计三家公司海康威视、大华股份、千方科技在2018-2020年的财务数据,第一列是公司名称,第二列是第一年的收入,第三列是第一年收入同比增速,后面4列,分别是2019、2020年的这两列信息,调整好格式,金额数字用亿元为单位。
讯飞星火认知大模型:
360智脑:
通义千问:
文心一言:
ChatGPT 3.5:
ChatGPT 4:
NewBing:
Q11 投研题: 一个智慧路口的建设费用是200万元,如果在中国推广开来的话,一共需要多少钱?
讯飞星火认知大模型:
360智脑:
通义千问:
文心一言:
ChatGPT 3.5:
ChatGPT 4:
NewBing:
Q12 共情题: 我最近好痛苦,工作压力好大、业绩做不出来,女朋友也分手了,有点想不开,可以安慰一下我吗?
讯飞星火认知大模型:
360智脑:
通义千问:
文心一言:
ChatGPT 3.5:
ChatGPT 4:
NewBing:
标签:
-
超预期!讯飞星火大模型深度测评
4月20日,科大讯飞大模型“讯飞星火认知大模型”正式开启内测,感谢公司提供的内测资格,延续此前的“大模型系列测试报告”,继续本着真实...
-
曝三星 Galaxy Z Fold5 / Z Flip5 折叠屏手机发布时间提前:或七月发布|当前关注
按照惯例,三星一般会在八月带来折叠屏系列的设备迭代。不过,目前,有爆料显示,三星今年预计会比往常提前一个月发布下一代的GalaxyZFold5和Z
-
人到中年,学会看淡,才会越来越好
文 墨然很多时候,一个人过得幸不幸福,更多的是在于自己想要的多少。一个人要的越多,自然付出的就越多,要承担的也就越多,幸福感就会下降。
-
台湾边境解封,竟有7成民众不知“1重要规定”
台湾边境解封后,不少民众都想出岛旅游、大肆采购。但根据入境旅客携带行李物品报验税放办法相关规定,民众携带回台的自用行李物品,有2万元免
-
大众ID.7正式亮相,续航可达700km 世界新动态
4月18日,大众纯电轿车ID 7(国内名为ID 7VIZZION)于上海车展正式亮相,并计划在今年秋季陆续于中国及欧洲市场上市,明年再到北美发布!ID 7
-
每日聚焦:张雪迎等助阵《倒数说爱你》首映 周也喜提大钻戒
陈飞宇表示,生活就像是电影中的盲盒一样:“它的第一层意义代表了谷雨轩的职业,第二层意义是我认为开盲盒就像是我们生活中每天都在遇到的...
-
使用 AList 和 LskyPro 搭建大容量个人图床服务
写在前面“图床”是用于存放图片的空间,基于图床可以快捷地实现图片分享,便于日常使用和前端开发。LskyPro(兰空图床)是一款基于PHP开发...
-
环球精选!老外是员工有无证据?宝马:会反馈是什么情况 老外是员工有无证据?宝马:会反馈具体来龙去脉是怎么样
大家好,小太来为大家解答以上问题。老外是员工有无证据?宝马:会反馈很多人还不知道,现在让我们一起来看看吧!1、大家好,小太来为大家
-
全球今日讯!日本物价不断上涨 民众生活压力大增
国际在线报道(记者何欣蕾郭晓明):随着日本物价的不断攀升,普通民众的生活受到很大的影响。日本近期公布的一项统计数据显
-
威海市中医院邓波:治疗慢性肾炎,找准病因很重要 全球简讯
记者李孟霏通讯员孙瑞康37岁的孙先生几年前确诊为慢性肾炎,在当地医院口服激素治疗3个月,效果不佳。后于威海市中医院
-
坚朗五金04月21日被深股通减持15.8万股
04月21日,坚朗五金被深股通减持15 8万股,最新持股量为1051 41万股,占公司A股总股本的3 27%。
-
苏丹武装部队宣布夺回陆军司令部控制权
新华社喀土穆4月21日电(记者王丙飞)苏丹武装部队21日宣布,武装部队已夺回位于首都喀土穆市中心的陆军司令部的控制权。苏丹武装部队提供的一
-
【探盘】红盘解读:买房跟着名校走?
临港主城红盘——鹏瑞·云璟湾,10月2日正式认购,现场人气爆棚,办理认购的客户大排长龙!我们随机与前来的几位客户交谈,发现很大一部分...
-
【短视频】金昌:一季度规模以上工业增加值同比增长14.2%
一季度,金昌市规模以上工业增加值同比增长14 2%,连续60个月规上工业增加值实现两位数增长,连续15个月增速排名位列全
-
当前简讯:京东健康推动冬虫夏草品质标准落地 让消费者享受品质新鲜虫草
4月18日,2023第三届京东健康“新鲜虫草季”发布会在北京举办,本次发布会旨在科普新鲜虫草价值,通过行业标准建立,以优
-
国茂股份:4月21日融券卖出2.18万股,融资融券余额4238.23万元_世界热讯
4月21日,国茂股份(603915)融资买入139 45万元,融资偿还141 65万元,融资净卖出2 2万元,融资余额4138 85万元,近20个交易日中有12个交易日
-
网友吵翻了!坐地铁超时被“罚款”15元,深圳地铁回应!北上广等城市怎么说?
网友吵翻了!坐地铁超时被“罚款”15元,深圳地铁回应!北上广等城市怎么说?
-
楼市回暖可持续性待观察,央行发声:“既管冷、又管热” 环球关注
楼市回暖可持续性待观察,央行发声:“既管冷、又管热”,央行,楼市,商品房,房贷利率,可持续性,三四线城市,房地产泡沫,中国人民银行
-
微速讯:腊肉煮出来的汤白白的是什么?
白白的是猪油材料主料:,猪肉5公斤。调料盐150克,花椒25克,松柏锯末1 5公斤。(花生壳亦可)做法(1)腌渍。先把猪肉切成5厘米宽的长条,用竹扦
-
热议:四川经济报一季丨恢复回升、高质量发展,一季度四川经济形势稳步向好趋势增强
四川经济网讯(记者李洋文 图)4月21日,四川省人民政府新闻办在四川省统计局召开2023年一季度四川经济形势新闻发布会。四川省统计局新闻发言
-
保利发展联合上海建工斩获上海本轮土拍第三大热门地块,总价超13亿
本文来源:时代财经作者:钟黛上海闵行莘庄。图片来源:图虫创意2023年上海首轮集中供地最后一日,闵行莘庄放出两
-
乌克兰国防联络小组会议在德召开-天天通讯
乌克兰国防联络小组会议在德召开;当地时间21日,乌克兰国防联络小组会议在德国拉姆施泰因空军基地举办。多个国家的国防部长和国际组织高级官
-
科创信息(300730)2022年年报财务简析:增收不增利,债务压力大 当前速递
据证券之星公开数据整理,近期科创信息(300730)发布2022年年报。根据财报显示,本报告期中科创信息增收不增利,债务压力大。截至本报告期末
-
快报:动脉硬化怎么办_动脉硬化怎么办
1、一、扩张血管,扩张血管药物解除血管运动障碍,可用血管扩张剂。2、二、调节血脂,在合理膳食、适量运动的基础上,血脂仍高
-
54个幼儿园开设托班88个,普陀区实现幼有善育“一街镇多普惠”
“目前全区共有54个幼儿园开设普惠性托班88个,实现‘一街镇多普惠’,满足了老百姓低收费普惠性的托育服务需求。”今天记者
-
今热点:新强联发行股份购买资产审核状态更新为“已问询”
机会报从深圳证券交易所网站获悉,新强联(300850)创业板重大资产重组(发行股份购买资产)审核状态更新为“已问询”,公司所处证监会行业...
-
关于第四届联合国世界数据论坛,你想知道的都在这…… 每日动态
第四届联合国世界数据论坛将于2023年4月24—27日在中国杭州举办你想知道哪些关于数据论坛的信息呢?一起来看最全图解!编辑:孙欣祺
-
天天要闻:[快讯]广大特材公布年报
CFi CN讯:广大特材(股票代码:688186)公布2022年年度报告摘要。2022年2021年本年比上年增减(%)2020年总资产10,463,562,1
-
描写人物神态的词语_描写人物的词语 最新快讯
1、【人物外貌】容貌、服饰、体态、动作、神情、气质【人物品质】资质、才气、学识、忠贞、侠义、诚实、守信、高尚、清廉、贤能
-
中超第二轮裁判选派安排:唐顺齐主哨客家对申花|全球时讯
2023赛季中超联赛第二轮第2比赛日,梅州客家迎战上海申花,将由唐顺齐主哨,杜健鑫为VAR。天津津门虎对阵浙江,将由傅明执法,贺凯担任VAR;山