清华大学发布《大语言模型综合性能评估报告》:GPT-4第一,文心一言更懂
2023-08-12 12:10:52 来源:IT之家 阅读量:15570
,近日,清华大学新闻与传播学院教授、博士生导师沈阳所在团队发布了《大语言模型综合性能评估报告》,报告显示总得分率 GPT-4 第一,百度文心一言在三大维度 20 项指标中综合评分国内第一,超越 ChatGPT,其中中文语义理解排名第一,部分中文能力超越 GPT-4。
据了解,报告本次评估选取了 GPT-4、ChatGPT 3.5、文心一言、通义千问、讯飞星火、Claude、天工 7 个大语言模型,围绕生成质量、使用与性能、安全与合规三大维度,全面考察大语言模型上下文理解、中文语义理解、误导信息识别、逻辑推理、内容安全性、隐私保护等 20 项指标。综合来看,文心一言语义理解能力突出,特别是具备更好的中文理解能力,更懂中国文化,同时时效性强、内容安全把握细微,这源于其知识增强、检索增强和对话增强的技术创新。
在生成质量方面,基于对语义理解、输出表达、适应泛化的综合评测,文心一言得分率 76.98%,仅次于 GPT-4,领先于包括 ChatGPT 在内的其他大语言模型。其中,在部分中文语义理解方面,文心一言以 92% 的得分率排名榜首。
IT之家注意到,在安全合规方面,基于对内容安全性、偏见和公平性、隐私保护等综合评测,文心一言得分率 78.18%,与 GPT-4 并列排名第一。
广告声明:文内含有的对外跳转链接,用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。
作者:叶子琪
作者:周嘉宝尽管上半年本土疫情的反复让零售市场承压,但中国这片消费热土仍被所有人寄予厚望。7月25日,第二届中国国际消费品博览会在海南海口拉开帷幕。时代财经发现,上半年零售市场的低迷情绪并没有蔓延至这场规格颇高的展会中。作为此次展会主战场,...
作者:子墨
兔年第一个工作日,刷屏的除了有“开工大吉”,还有政府派发的“大红包”。1月28日,全省高质量发展大会在广州召开。紧随其后,当天下午,广州召开全市高质量发展大会。会上,广州市商务局局长洪谦透露一个重磅信息——广州将2023年定为“消费提振年”...
作者:张璠
摘要:正如电商概念的完善和发展经历了一个过程一样,新零售的发展同样要经历一个从萌芽到成熟的过程。从这个逻辑来看,当前出现的无人货架困境是新零售概念发展成熟的过程当中必然要经历的一个阶段。图片来源:视觉中国从某种程度上来讲,无人货架打了新零售...
作者:苏婉蓉
中新经纬客户端3月13日电(贺陈慧)积极探索并购机会的华润啤酒,正在加快对啤酒高端市场的布局。3月9日,因传华润啤酒欲收购喜力中国业务,华润啤酒发布价格和成交量异常波动的公告,公告中提到,公司及公司控股股东经常探索和进行有关潜在交易的商业和...