ChatGPT是美国OpenAI公司去年11月发布的一款人工智能技术驱动的自然语言处理工具,去年11月30日推出以来,炉人60天内月活用户直接破亿,工智被认为是然也史上用户增长最快的消费级应用。
写代码、偏科文案,高考成绩做数学题,炉人进行不同语言之间的工智翻译,ChatGPT的然也强大功能让学习人工智能相关专业的复旦大学硕士研究生张啸天感到既震惊又兴奋。
“我主要让它写代码,偏科包括一些技术问题,高考成绩解决方案。炉人我感觉到它很聪明,工智笃定它可以通过图灵测试。然也但它的偏科极限是什么?我想知道它究竟有多聪明。”
于是,去年12月,张啸天和两位同学一起搜集了2010年到2022年的高考全国卷试题,剔除部分含有图片的题目,让ChatGPT作答。
经过近5个月的测试,近日,ChatGPT的高考测试报告新鲜出炉。包括选择题、填空题和问答题在内,ChatGPT共回答了2811道题目。结果显示, ChatGPT更擅长文科,在历史、地理、政治上取得了不错的成绩;而在生物、化学、物理等理科学科上表现不佳,尤其在物理上。
高考全国卷满分为750分。复旦大学计算机科学技术学院硕士研究生宗一告诉看看新闻Knews记者,“综合历年得分情况,ChatGPT做文科卷的得分会更高一些,接近400分;理科题的话,只有300分出头。”。
对于ChatGPT“文强理弱”的偏科情况,该项目的负责人、复旦大学计算机科学技术学院教授邱锡鹏解释说,与文科试题侧重考察常识不同,理科试题更关注逻辑推理能力,这恰恰是目前通用人工智能模型的短板。
据悉,通过对超过1万亿个人类词汇和1700亿个模型参数进行高效迭代训练,ChatGPT具备强大的自我学习、推理和归纳总结能力。既然如此,为何它的“高考”成绩却不太理想呢?
邱锡鹏认为,一方面是因为高考试题确实有难度;另一方面,测试成绩与评价方式相关。“早期我们采用的是人工评分,发现ChatGPT的水平大概可以达到500分。现在我们使用了更严格的方式,也就是机器评分,所以成绩有一定的波动。”
值得注意的是,此次测试的版本为ChatGPT-3.5。随着该模型不断升级迭代,它的能力会越来越强。此次测试除了了解ChatGPT的高考水平外,研究团队还有一个更大胆的设想。
“我们构造一个数据集,这个数据集可以用来衡量不同大型语言模型的效果。因为现在不同的公司、单位、机构都在做自己的大模型,那么就是说我们就要有一个客观的评价标准。大家都说自己的模型水平可以达到ChatGPT的百分之七八十,到底怎么样,需要有一个客观的测试。我认为高考评测是比较客观综合的一种测试方式。”邱锡鹏表示,未来该数据集将大有可为。
(看看新闻Knews记者:周智敏 徐玮)返回搜狐,查看更多
责任编辑:






鲁尼最怕丈母娘的故事
《权力的游戏:崛起》更切远本著 政治诡计连连
《尽天潜兵2》玩家要建复没有要通止证 开辟者:出那么简朴
麻枝准催泪新做《炽焰苍穹》简中服尾曝 预定正式开启!
幻塔遗迹A03宝箱位置图文介绍
《尽命毒师》小粉演员或将插足《辐射》好剧第两季
《游仄易远星空周刊》22期 CODOL对劲、暗乌3悲剧
典范FPS游戏《天旋天转3》开辟者已免费公开源代码
CF穿越火线7月最炫幸运星第二期活动介绍与网址
网飞小讲改编剧散《百年孤傲》预报 年内上线