商汤大模型“商量”评测表现超ChatGPT 用户可申请试用
永华财经
2024-01-16 18:57:32
0

K图 00020_0

  商汤科技近日公布了自研中文语言大模型“商量SenseChat 2.0”在MMLU、AGIEval、C-Eval三个权威大语言模型评测基准的成绩。评测显示,“商量”在这三个测试集中的表现均领先ChatGPT,实现了我国语言大模型研究的突破。

  今年4月,商汤发布了“商汤日日新SenseNova”大模型体系以及中文语言大模型“商量SenseChat”。目前,“商量”已在众多行业和场景中发挥作用。例如在需要大量文案工作的场景中,它可以协助处理各类文章、报告、信函、产品信息、IT信息等,进行编辑、重写、总结、分类、提取信息、制作Q&A(问答)等,有效提高员工的生产效率。在客户服务场景中,它还可以扮演许多不同的企业角色,如银行客服、给孩子讲故事的绘本老师等,并进行顺畅的交流互动,提升客户体验。

  据悉,已有近千家企业客户通过申请,应用和体验“商量”的长文本理解、逻辑推理、多轮对话、情感分析、内容创作、代码生成等综合能力。

  各大语言模型在MMLU、AGIEval、C-Eval三个评测基准中的得分

  MMLU是由美国加州大学伯克利分校、哥伦比亚大学、芝加哥大学及伊利诺伊大学厄巴纳-香槟分校联合打造的大规模多任务语言理解的评测基准,涵盖了科学、技术、工程、人文、社会科学等领域的57个科目,难度从初级水平到高级专业水平,测试知识和解决问题的能力。

  在该评测中,“商量”综合得分为68.6,远超GLM-130B的得分(45.7分),也超过了ChatGPT(67.3分)、LLaMA-65B(63.5分),仅落后于GPT-4(86.4分),位居第二。

  图中粗体表示结果最佳,下划线表示结果第二。

  AGIEval由微软研究院发布,专门用于评估基础模型在人类认知和问题解决相关任务中表现出的一般能力,从而实现模型智能和人类智能的对比。该基准选取20 种面向人类考生的考试,包括大学入学考试(中国高考和美国SAT考试)、法学入学考试、数学竞赛、律师资格考试、国家公务员考试等。

  在该评测中,“商量”得分为49.91,遥遥领先于GLM-130B(34.2分)、LLaMMA-65B(34.0分),也超过ChatGPT(42.9分),仅次于GPT-4(56.4分)。在其中的AGIEval(GK)评测子集中,“商量”以58.5分排名第二,仅以微弱差距落后于GPT-4(58.8分)。

  图中粗体表示结果最佳,下划线表示结果第二。

  C-Eval是由上海交通大学、清华大学和爱丁堡大学合作构建的面向中文语言模型的综合性考试评测集,包含13948道多项选择题,涵盖52个不同的学科和四个难度级别。

  在该评测中,“商量”获得66.1分,在参评的18个大模型中仅次于GPT-4(68.7分),全面领先ChatGPT、Claude、Bloom、GLM-130B、LLaMA-65B等大模型。其中,C-Eval(Hard)子评测集选择了8个具有挑战性的数学、物理和化学科目,考核大语言模型的推理能力,“商量”的表现也居于前列。

  最新C-Eval 排行榜

  商汤研发团队在训练阶段采用自研的一系列增强复杂推理能力的方法,以及更加有效的反馈学习机制,让大模型在增强推理能力的同时,减轻了传统大模型的幻觉问题。

  据介绍,“商量”还拥有广泛的知识储备,能结合企业自身所在行业的专有数据,打造满足企业需要的高阶知识库。它还是AI代码助手,可以实现新的“二八定律”,即80%的代码由AI生成,20%由人工生成。

相关内容

广州增城推出粤港澳大湾区女...
  2024年1月1日,号称“新年第一马”的粤港澳大湾区女子半程马...
2024-03-09 19:56:01
猝不及防!60多亿筹码站岗...
  本周五(12月16日)已经是*ST左江连续第三个交易日20cm...
2024-03-09 19:55:41
选择正规配资平台,稳健布局...
选择正规配资平台是非常重要的,因为这关系到你的资金安全和交易的合法...
2024-03-05 09:57:47
藏格矿业为地震灾区捐款捐物
  《证券日报》记者12月22日从藏格矿业获悉,甘肃临夏州积石山县...
2024-03-05 09:57:45
联想王传东:未来每个企业和...
  南方财经12月20日电,12月20日,联想集团副总裁、中国区首...
2024-03-01 20:23:42
12月27日信用债市场收益...
  12月27日信用债市场收益率整体下行。具体来看,中债中短期票据...
2024-03-01 20:23:39

热门资讯

外滩、豫园均无新年迎新倒计时活...   2024年元旦小长假即将到来,上海公安机关将启动社会面高等级勤务,重点围绕城市地标、商圈闹市等人...
2030年左右将实现6G商用 ...   随着移动通信技术持续演进,推动6G创新发展成为全球共识。  12月5日,2023全球6G发展大会...
广州增城推出粤港澳大湾区女子半...   2024年1月1日,号称“新年第一马”的粤港澳大湾区女子半程马拉松赛将在广州增城举办。当广州新年...
长沙非遗“分馆”进小学校园 让...   12月22日,“非遗在校园文化共传承”主题活动在长沙湘府英才益清小学开展。作为长沙首家建在小学里...
南京期货配资:解读市场机遇,助... 南京期货配资是指通过借款购买期货合约来进行投资的一种方式。在南京期货市场中,投资者可以通过配资来解读...
日本央行行长:实现2%通胀率目...   12月19日,日本央行行长植田和男说,他看到了有关明年加薪前景的积极言论,实现2%通胀率目标的可...
现货黄金26日早盘开盘后一度短...   现货黄金26日早盘开盘后一度短线拉升近5美元,至2057.70美元/盎司,现回落至2055美元/...
模塑科技获得外饰件产品项目定点...   上证报中国证券网讯(记者骆民)模塑科技公告,公司全资子公司沈阳名华模塑科技有限公司于近日接到某头...
联合国教科文组织国际STEM教...   今年11月,联合国教科文组织第42届大会以协商一致的方式,通过了在中国上海设立国际STEM教育研...
三七互娱:实控人增持11153...   证券时报e公司讯,三七互娱(002555)12月28日晚间公告,公司实控人、控股股东、董事长李卫...