图片介绍
通义千问是阿里云大模型。2023年4月7日,“通义千问”开始邀请测试。关于通义千问的技术细节,阿里达摩院官方没有透露详细信息。
而通义千问自己,是这么回答的:训练资料来自阿里巴巴达摩院,截止到2023年2月。训练资料包括大量语言和文本数据,包括中英日法西班牙语多语种文本数据。还提到自己是个能联网的大语言模型。
公开资料显示,2019年,阿里就已经启动了中文大模型研发。当时阿里发布的语言大模型StructBERT超越谷歌、微软、Facebook,登顶了CLUE榜单。
2021年,阿里先后发布了国内首个超百亿参数多模态大模型M6,以及被称为“中文版GPT-3”的语言大模型PLUG。其中,M6在多次迭代之后,实现了十万亿级别的参数规模,并且M6和支付宝、淘宝的业务需求相结合,首个在国内实现了商业化落地。PLUG的参数规模则为270亿,是基于达摩院的两种自研模型——语言理解模型StructBERT和语言生成模型PALM打造。这一大模型初登场,就以80.614分刷新了权威中文语言理解基准CLUE分类任务榜单记录。在去年的WAIC(世界人工智能大会)上,阿里还发布了通义大模型系列。其中核心模型均已开源开放。
为什么叫“通义千问”?目前阿里云方面尚未给出官方解释。钱江晚报记者拿到了内测邀请码,看看通义千问是如何回答的:
“通义千问”这个名字来源于两个方面,“通义”意味着该模型具有广泛的知识和普适性,可以理解和回答各种领域的问题。作为一个大型预训练语言模型,“通义千问”在训练过程中学习了大量的文本数据,从而具备了跨领域的知识和语言理解能力。
“千问”代表了模型可以回答各种问题,包括常见的、复杂的甚至是少见的问题。它表达了通义千问致力于满足用户在不同场景下的需求,无论问题多么复杂或者独特。综合起来,“通义千问”这个名字表达了这款人工智能语言模型的强大功能和广泛适用性。
—— 部分内容节选自公众号量子位,钱江晚报
浏览统计(最近30天)
评论列表 (0条)