世界实时:模型“日日新”!中文语言大模型“商量2.0”多个评测基准综合表现超ChatGPT
近日,商汤科技公布了自研中文语言大模型“商量 2.0”在MMLU、AGIEval、C-Eval三个权威大语言模型评测基准的成绩。根据评测结果,“商量2.0”在三个测试集中表现均领先ChatGPT,实现了我国语言大模型研究的重要突破。
截至目前,已有近千家企业客户通过申请,应用和体验“商量2.0”的长文本理解、逻辑推理、多轮对话、情感分析、内容创作、代码生成等综合能力,并且“商量2.0”还在服务客户过程中,持续实现着快速迭代和提升,以及知识的实时更新。
“商量2.0”综合能力超ChatGPT
【资料图】
商汤科技公布的评测结果,选取了全球三大权威语言模型测评基准MMLU、AGIEval、C-Eval,结果显示“商量2.0”在三个测试集中表现均领先ChatGPT,部分已十分接近GPT-4的水平。
MMLU是由美国加州大学伯克利分校、哥伦比亚大学、芝加哥大学及伊利诺伊大学厄巴纳-香槟分校联合打造的大规模多任务语言理解的评测基准,涵盖了科学、技术、工程、数据,人文、社会科学等领域的57个科目,难度从初级水平到高级专业水平,考验世界知识和解决问题的能力。在该评测中,“商量2.0”综合得分为68.6,超过了ChatGPT(67.3分),落后GPT-4(86.4分)。
AGIEval是由微软研究院发布的,专门用于评估基础模型在人类认知和问题解决相关任务中表现出的一般能力,从而实现模型智能和人类智能的对比。该基准选取20种面向普通人类考生的官方、公开、高标准往常和资格考试,包括普通大学入学考试(中国高考和美国SAT考试)、法学入学考试、数学竞赛、律师资格考试、国家公务员考试等。在该评测中,“商量2.0”测出49.91的分数,再次超越ChatGPT(42.9分),仅次于GPT-4的56.4分。在其中一项评测子集中,“商量2.0”以58.5分仅微弱差距落后GPT-4(58.8分)。
C-Eval是由上海交通大学、清华大学和爱丁堡大学合作构建的面向中文语言模型的综合性考试评测集,包含了13948个多项选择题,涵盖了52个不同的学科和四个难度级别。面对C-Eval评测基准,“商量2.0”拿到了66.1的分数,在参评的18个大模型中,仅次于GPT-4(68.7分),全面领先ChatGPT、Claude、Bloom等一众海内外大模型。
技术创新+应用落地 推动能力持续提升
今年4月,商汤正式发布“商汤日日新”大模型体系,以及自研中文语言大模型“商量”。截至6月,全球范围内正式发布的大语言模型已超过40款,其中由中国厂商、高校、科研院所等发布的大语言模型近20款。
在“百花齐放”的市场格局中,通过对比成绩与表现,可以了解各大预言模型的特点与差异,并且直观地了解每个大语言模型当前的智能水平。目前“商量2.0”实现了对GPT-3.5超越,并且随着商业化落地的推进,在众多行业、场景中发挥令人满意的作用。
例如在需要大量文案工作的场景中,“商量2.0”可以协助处理各类文章、报告、信函、产品信息、IT信息等,进行编辑、重写、总结、分类、提取信息、制作Q&A等,有效提高企业员工的生产效率。在客户服务场景中,“商量 2.0”还可以扮演许多不同的企业角色,如银行客服、给孩子讲故事的绘本老师等等,并进行顺畅的交流和互动,提升客户体验。
此外,“商量2.0”还拥有广泛的知识储备,能够结合企业自身所在行业的专有数据,非常高效地打造满足企业需要的高阶知识库,帮助实现更智能化的知识库管理。“商量2.0”还是高水平的AI代码助手,能够极大帮助提高开发效率,实现新的“二八定律”——80%的代码由AI生成,20%则由人工生成。
据悉,商汤大语言模型能力的提升源于更多高质量中文数据的训练学习,得益于团队在底层大模型技术上的不断创新。商汤团队在训练阶段采用自研的一系列增强复杂推理能力的方法,以及更加有效的反馈学习机制,让大模型增强推理能力的同时,减轻了传统大模型的幻觉问题。
新民晚报记者郜阳
【延伸阅读】商汤大模型体系“日日新”带来什么惊喜?和ChatGPT之类比“会有一点差距,但可以很快追上。”
关键词:
相关阅读
-
世界实时:模型“日日新”!中文语言大...
根据评测结果,“商量2 0”在三个测试集中表现均领先ChatGPT,实现... -
每日速读!问鼎天下_关于问鼎天下的介绍
1、问鼎天下是须生写的架空历史小说。2、连载于纵横中文网。本文到此结 -
西媒:巴萨今晚将与京多安签约,年薪900...
直播吧6月22日讯RAC1消息,巴萨今晚将与京多安签约,年薪900万欧。巴萨 -
76场演出、12个夏令营、3个音乐马拉松等...
一年一度的中山公园音乐堂“八喜·打开艺术之门——2023暑期艺术节... -
福建二建成绩查询时间2023 全球今热点
福建二建成绩查询时间2023由二级建造师考试栏目提供,查找更多考试报名 -
从2699元跌至1929元,256GB+1.6亿像素+...
重视产品高性价比的人,基本上都是米粉,因为小米旗下产品性价比几乎是 -
杭州一男子在绿化带内迷路3天 吃野花喝...
6月5日说起,当日,市民赵先生急匆匆跑到萧山宁围派出所求助,称自己的 -
中华1951细20支烟价格-环球微速讯
平时很少接触中华香烟的,所以对于中华的烟售价多少钱并不是非常的清楚 -
科学幼小衔接,高埂学校助力孩子有准备...
6月20日,邛崃市高埂学校组织开展了“让孩子有准备地进入小学”幼小... -
全球热消息:华为5G杀回来了?余承东:假!
昨天有条消息传得沸沸扬扬。有外媒表示:高通将要对华为恢复5G芯片供应 -
【千年荣昌•历史文化周】濑溪河上划桨...
6月20日,在濑溪河金科礼悦东方河段,参加千年荣昌·历史文化周“迎... -
每日资讯:日照路吉综合开发有限公司开...
粽香飘爱意,囊香寓平安。端午来临之际,日照路吉公司联合两城镇西张家 -
浙江发布今年首个山洪红色预警
浙江省水利厅、省气象局2023年6月22日8时联合发布山洪灾害预警:根据省 -
研究生英国留学有哪些学校比较好
《研究生英国留学有哪些学校比较好》由热门专业网发布,主要内容:英国拥 -
【天天速看料】2023水产预制菜行业规模...
预制菜是指经过洗、切、搭配、加工完成的菜品,采取冷冻或真空等一系列 -
世界微速讯:通货膨胀的影响有哪些简答...
通货膨胀的影响有哪些简答,通货膨胀的影响有哪些这个很多人还不知道, -
宁德时代:拟使用不超过人民币78亿元闲...
宁德时代(300750):拟使用不超过人民币78亿元闲置募集资金进行现金管理 -
环球通讯!天津美达菲学校高中部2023招...
天津美达菲学校高中部2023招生政策招生范围及报名条件面向天津市,具有 -
三好男人_关于三好男人的介绍 热消息
1、三好男人,就像三好学生一样,三好男人是德智体兼佳的男人,并且性 -
分享com 超值分享汇
1、网站好像没有。2、新浪微博有好多分享的,,比较像你说的网站,,有