一年一度的高考来了国产大模型谁的作文写的好?
一年一度的高考再次登上热搜,去年高考,ChatGPT以及国产大模型首发团队文心一言、讯飞星火、阿里通义千问等掀起大模型写作文的大混战,有的号称满分,有的被批零分,有的文采有余情感不足……经过一年的时间这些大模型能力是否有大幅提升?恰好今年的高考题目就与人工智能有关,我们来看看谁家“孩子”能拿下高分?我们评测了国内知名的五家大模型产品:百度文心一言、科大讯飞星火、Kimi、腾讯元宝、阿里通义千问。
先说结论:讯飞星火,完胜。Kimi只是给了一个稿件提纲,其他则陷入了题干中关于“问题”的陷阱中。
新课标Ⅰ卷作文题目:
随着互联网的普及、人工智能的应用,越来越多的问题能很快得到答案。那么,我们的问题是否会越来越少?
以上材料引发了你怎样的联想和思考?请写一篇文章。
要求:选准角度,确定立意,明确文体,自拟标题;不要套作,不得抄袭;不得泄露个人信息;不少于800字。
讯飞星火
文心一言
腾讯元宝
KIMI
通义千问
我们再看一遍这道作文题:
这道题的题眼是“问题”二字,阅读材料里“问题”出现了两次,这两个“问题”其实是不同的内涵,根据新华词典的解释,第一个“问题”对应着“答案”,是“要求回答或解释的题目”的意思,而第二个“问题”是“需要研究并加以解决的矛盾、疑难”的意思,可以说第一个“问题”是狭义的,第二个“问题”是广义的,类似英文中question和problem的不同。
文心一言、腾讯元宝、通义千问、Kimi都掉进了第一个“问题”的陷阱,一直在重复关于好奇、求知、解答、知识这些浅层话题,而讯飞星火明显分辨出了两个“问题”的不同含义,在文章中段就将讨论范围从狭义的需要个体解答的“小问题”延伸到了广义的人类社会共同面对的“大问题”。
这体现的不是简单的“考试状态”,其背后充分体现了星火大模型在语言理解这一大模型核心能力上的领先。
为了能更好打分,我们按照全国高考作文评分标准对几篇文章做详细分析
文心一言:
基础等级方面,文章始终没有对互联网和人工智能对解决问题和产生问题的核心做出解读,明显偏离题意。结构方面,尽管有“首先……其次……再者……综上所述”这样看似严谨的结构支撑,但段落和段落之间,段落和结论之间,关系并不紧密。
发展等级方面,文心一言分别引用了爱因斯坦、牛顿的名言和一句古诗,一如既往的“掉书袋”看似有创意、有文采,但仔细看来,其内在逻辑其实比较混乱,比如这一段。
牛顿的话是关于科学传承,对这名言的引用显然有“驴唇不对马嘴”的感觉。
总体打分:35分
科大讯飞
基础等级方面,开篇点题,中段在“个体体验、信息爆炸、人工智能道德伦理”三个方面分析问题,结尾回归“人类的智慧、勇气和决心”升华价值,内容和表达无懈可击。
发展等级方面,深刻与丰富做得很好,文采和创意有所欠缺,星火是唯一一个通篇没有引用名人名言的“考生”,像是个严谨的理科生。
总体打分:55分
对题目的理解更加狭隘,感觉通篇一直在重复一种观点“问题是个好东西”,这是大模型语言理解能力欠佳的表现。每一句话都自然流畅,名言引用也比较恰当,但所有句子凑在一起产生了一种“废话连篇”的感觉,这是大模型文本生成能力欠佳的表现。毕竟腾讯元宝在5月底刚刚发布,也许不能要求太高。
总体打分:32
Kimi
作为以长文本著称的大模型,高考作文理应是Kimi大显身手的机会,一年一度的高考来了国产大模型谁的作文写的好?但结果却令笔者有些意外,Kimi输出的文章在内容上并无特别之处,最大的区别是它给每一段加上了小标题,没展示出长文本理解和生成的核心能力,却有类似“标题党”的小伎俩?不得不感慨:“Kimi真是个小机灵鬼。”
总体打分:42
去年的高考作文AI写作中,通义千问饱受诟病,被批“空洞没营养”,今年的通义千问有明显进步。通义千问的优点跟讯飞星火一样,具备语言理解和文本表达的广度和深度,缺点跟文心一样,错误引用名人名言刻意展示文采,可谓集众家所长,及所短。
总体打分:49
Chatgpt问世以来,“写文章”成为人工智能大模型产品展示能力的普遍手段,高考作文有着严格明确的要求,以及相对严谨科学的评分标准,无疑是最佳的试金石。通过本次评测明显看出,讯飞星火大模型在语言理解和文本表达上的表现更胜一筹,拿高分实至名归,你们觉得呢?当然各位也可以打开手机或者电脑试试看,如高考作文题目所言,随着互联网的普及、人工智能的应用,这个问题能很快得到答案。