模型“日日新”:商汤“商量SenseChat 2.0”多个评测基准综合表现超ChatGPT
(相关资料图)
商汤科技近日公布了自研中文语言大模型“商量SenseChat 2.0”在MMLU、AGIEval、C-Eval三个权威大语言模型评测基准的成绩。根据评测结果,“商量SenseChat 2.0”在三个测试集中表现均领先ChatGPT,实现了我国语言大模型研究的重要突破。
截至目前,已有近千家企业客户通过申请,应用和体验“商量SenseChat 2.0”超强的长文本理解、逻辑推理、多轮对话、情感分析、内容创作、代码生成等综合能力,并且“商量SenseChat 2.0”还在服务客户过程中,持续实现着快速迭代和提升,以及知识的实时更新。
商汤科技公布的评测结果中,选取了全球三大权威语言模型测评基准MMLU、AGIEval、C-Eval,结果显示“商量SenseChat 2.0”在三个测试集中表现均领先ChatGPT,部分已十分接近GPT4的水平。
其中,MMLU是由美国加州大学伯克利分校、哥伦比亚大学、芝加哥大学及伊利诺伊大学厄巴纳-香槟分校联合打造的大规模多任务语言理解的评测基准,涵盖了科学、技术、工程、数据,人文、社会科学等领域的57个科目,难度从初级水平到高级专业水平,考验世界知识和解决问题的能力。
在该评测中,“商量SenseChat 2.0”综合得分为68.6,远超GLM-130B(45.7分)的得分,同时还超过了ChatGPT(67.3分)、LLaMA-65B(63.5分)仅落后GPT-4(86.4分),位居第二。
AGIEval是由微软研究院发布的,专门用于评估基础模型在人类认知和问题解决相关任务中表现出的一般能力,从而实现模型智能和人类智能的对比。
在该评测中,“商量SenseChat 2.0”测出49.91的分数,遥遥领先GLM-130B(34.2分)、LLaMMA-65B(34.0分),并再次超越ChatGPT(42.9分),仅次于GPT-4的56.4分。在其中的AGIEval(GK)评测子集中,“商量SenseChat 2.0”以58.5分全面领先,仅微弱差距落后GPT-4(58.8分)。
C-Eval是由上海交通大学、清华大学和爱丁堡大学合作构建的面向中文语言模型的综合性考试评测集,包含了13948个多项选择题,涵盖了52个不同的学科和四个难度级别。
面对C-Eval评测基准,“商量SenseChat 2.0”拿到了66.1的分数,在参评的18个大模型中,仅次于GPT-4(68.7分),全面领先ChatGPT等一众海内外大模型。其中,C-Eval(Hard)子评测集,是选择了8个具有挑战性的数据、物理和化学科目,进一步考核大语言模型的推理能力,“商量SenseChat 2.0”也表现居于前列。
据悉,今年4月,商汤正式发布“商汤日日新SenseNova”大模型体系,以及自研中文语言大模型“商量SenseChat”。截至6月,全球范围内正式发布的大语言模型已超过40款,其中由中国厂商、高校、科研院所等发布的大语言模型近20款。
关键词:
相关阅读
-
模型“日日新”:商汤“商量SenseChat ...
商汤科技近日公布了自研中文语言大模型“商量SenseChat2 0”在MMLU、AG -
快资讯丨海内外艺术家“相遇”古都大同...
(记者 胡健)“寻邑·2023大同当代艺术季”21日晚在山西省大同市 -
当前快讯:新股覆盖研究:信音电子
第一时间提供各大券商研究所报告,最大程度减少个人投资者与机构之间信 -
中国电力建设发展大会赋能电力高质量发...
6月20日,由中国电力建设企业协会举办的中国电力建设发展大会在北京召 -
【快播报】进入第三年的“沪惠保”,可...
进入第三年的“沪惠保”,可持续性会有变化吗?首席承保这么回应,保... -
观察:广西启动重大气象灾害(暴雨)Ⅲ...
央广网南宁6月21日消息(记者黄月芬)6月21日上午,广西壮族自治区气象 -
探索泰坦尼克号遗址潜艇失踪三天 氧气...
美加两国继续在北大西洋搜索前往参观泰坦尼克号残骸失踪的观光潜艇,但 -
今日讯!爱婴室:截至2023年6月20日,公...
爱婴室60321406月21日在投资者关系平台上答复了投资者关心的问题投资者 -
证监会公布最新券商“白名单” 共计31...
证监会公布最新券商“白名单”共计31家券商上榜,证监会,国泰君安证... -
马斯克谈AI如何毁灭人类:操纵舆论 挑...
在VivaTech峰会上,马斯克警告称,AI是有史以来最具颠覆性的技术,人类 -
基于EMP2 V3平台/采用全新设计 全新DS...
我们从官方渠道获悉,全新DS4将于7月13日在杭州宣布正式上市。新车基于 -
宠物狗有跳蚤怎么办 苹果醋怎么用
宠物狗,这是很多人都是喜欢养殖的,好看,还好玩,给自己的生活来一个 -
全球观点:招联逾期被起诉了怎么应诉?...
在金融市场中,借贷是人们满足资金需求的常见方式。然而,由于各种原因 -
全球微速讯:汇安成长优选混合增聘基金...
汇安成长优选混合增聘基金经理单柏霖柳预才离任---中国经济网北京6月21 -
2023四川科技馆端午节开闭馆时间
2023四川科技馆端午节开闭馆时间开闭馆时间:9:00-17:00(16:00停止入馆 -
第十一届中德经济技术合作论坛在德国柏...
【第十一届中德经济技术合作论坛在德国柏林举行】当地时间6月20日,第 -
停航三年今复航,成都到伊斯坦布尔可直...
该航线由四川航空公司执行,每周一、三执飞。 -
鞍钢股份:主要受钢材价格同比大幅降低...
鞍钢股份在近期的机构调研中指出,2023年一季度,中国钢铁行业下游需求 -
航空工业哈飞:复材精准制造的“水晶球...
小旋风在一线,持续在线。人要精心、智慧。技术要精益、智能。今天故事 -
杰瑞股份:终止境外发行全球存托凭证事项
证券时报e公司讯,杰瑞股份(002353)6月21日晚间公告,鉴于内外部环境等