• 您当前的位置:首页 > 财经新闻 > 产业经济 > 达摩院发布中文社区最大规模预训练语言模型
  • 达摩院发布中文社区最大规模预训练语言模型

    时间:2021-05-08 00:00:00  来源:  作者:

    近日,阿里巴巴达摩院发布中文社区最大规模预训练语言模型PLUG。该模型参数规模达270亿,集语言理解与生成能力于一身。

    该模型背后的操作原理是自然语言处理。这是人工智能的核心技术。它无缝弥合了复杂的人类语言和编码机器之间的通信鸿沟,让机器“听得懂”人话。而预训练语言模型正是目前自然语言处理的一种主流技术。它可以基于大规模文本预训练,得出通用的语言知识,然后经过微调,有针对性地将学习到的知识传递给不同的下游任务。

    从产业发展的角度来看,基于人工智能的语言模型提供了一种基于海量非监督数据自学习的范式,减少人工干预成本,加快AI技术的商业化落地。近年来,AI领域兴起了预训练语言模型浪潮。2020年5月,OpenAI发布的1750亿参数超大规模预训练模型GPT-3“一炮而红”。微软巨额投资跟进,获得GPT-3语言模型的独家许可。2021年1月,谷歌推出1.6万亿参数的超级语言模型Switch Transformer,也受到了高度关注。

    “通常情况下,越多训练数据,越大参数规模,一般能够获得更好的性能。当然,到了一定程度也有一定的上限。”达摩院深度语言模型团队负责人黄松芳在接受记者采访时表示。大规模AI语言模型竞争的背后,实际上是数据量、算力和模型结构设计之间的较量。

    据黄松芳介绍,PLUG的亮点主要体现在两个方面:首先,不同于GPT-3单向生成模型,PLUG是一个双向的自然语言理解和生成统一模型,集成了达摩院自研的语言理解StructBERT和语言生成PALM双模型,通过构建输入文本双向理解能力,显著提升了输出文本的相关性。其次,得益于阿里云EFLOPS高性能AI计算集群和高效的并行训练优化算法,PLUG基于1TB的文本数据训练,参数规模达到270亿,在语言理解任务上,PLUG以80.614分刷新了CLUE分类榜单纪录;在语言生成任务上,PLUG多项应用数据较业内最优水平提升了8%以上。

    然而,黄松芳也坦言:“目前PLUG是全球中文领域最大的纯文本预训练语言模型,但相比国外以英文为核心的GPT-3模型1750亿的参数规模,还只有其1/6不到。”据介绍,达摩院计划将PLUG参数规模扩大至2000亿级,并进一步提升文本生成质量。

    “后续,我们在尽力继续扩大模型参数规模的同时,也会关注超大模型的落地应用实践,努力探索低碳、高效、业务可用的预训练语言模型。另外,对于大规模训练语言模型的发展趋势,我们将从数据驱动逐步发展到知识驱动,探索数据和知识深度融合的预训练语言模型。”黄松芳说。

    未来,PLUG有望广泛运用于日常生产及生活的场景中。例如,在医疗领域中,PLUG可用于电子病历的质量控制、临床医学的辅助诊疗等;在电力领域,可用于各种电力设备文档的解析,打造为电力企业员工提供设备故障诊断的AI助手,还可以帮助理解电力故障报案需求,提供高效的电力调度支持。

    “超大规模预训练模型将作为一种AI基础设施,推动相关理论研究和技术应用更上一层,从而改变整个产业格局。”智源学术副院长、清华大学教授唐杰表示,“继基于数据的互联网时代、基于算力的云计算时代之后,接下来可能将进入基于模型的AI时代。”(记者宋婧)

    转自:中国电子报

    关键词:
    最近更新
    推荐资讯