曹操读书--知行合一,化于无形

智源研究院发布超大规模智能模型“悟道1.0”

作者 :猎云网 2021-03-20 20:20:33 审稿人 : admin 围观 : 评论

WechatIMG72_meitu_1Kie曹操读书网

【猎云网北京】3月20日报道Kie曹操读书网

3月20日,北京智源人工智能研究院举办“智源悟道1.0 AI研究成果发布会暨大规模预训练模型交流论坛”。会上,智源研究院发布超大规模智能模型“悟道1.0”。Kie曹操读书网

据悉,“悟道1.0”是我国首个超大规模智能模型系统,由智源研究院学术副院长、清华大学唐杰教授领衔,带领来自北京大学、清华大学、中国人民大学、中国科学院等单位的100余位AI科学家团队联合攻关,取得了多项国际领先的AI技术突破,形成超大规模智能模型训练技术体系,训练出包括中文、多模态、认知、蛋白质预测在内的系列模型,勇闯通用智能发展前沿,构建我国人工智能应用基础设施。同时,与龙头企业共同研发工业级示范性应用,加快大规模智能模型应用生态建设。Kie曹操读书网

此外,为了更好地推动“悟道”大模型的研发,保持研发过程中技术的领先性,此次发布上,还同时成立了由9位来自学术界和产业界的顶尖科学家组成的“悟道”大模型技术委员会。委员会主任由清华大学唐杰教授担任,委员会成员包括:北京大学鄂维南院士、清华大学鲁白教授、中国人民大学人工智能信息学院院长文继荣教授、清华大学计算机系长聘副教授刘知远、清华大学计算机系长聘副教授黄民烈、北京大学王选计算机研究所万小军研究员、一流科技创始人袁进辉、循环智能联合创始人杨植麟。Kie曹操读书网

“悟道”模型:旨在从更加本质的角度进一步探索通用智能

会上,智源研究院院长黄铁军教授介绍了“悟道”模型研发的初衷。据他介绍,本轮人工智能浪潮的基本特点是“数据+算力+算法=模型”,模型浓缩了训练数据的内部规律,是实现人工智能应用的载体。近年来人工智能的发展,已经从“大炼模型”逐步迈向了“炼大模型”的阶段,通过设计先进的算法,整合尽可能多的数据,汇聚大量算力,集约化地训练大模型,供大量企业使用,这是必然趋势。Kie曹操读书网

Kie曹操读书网

智源研究院院长 黄铁军

智能模型不仅要规模大(主要体现为参数量),还要智商高,才能满足各种应用需要,这需要突破大量技术挑战。例如:如何使得预训练模型具备像人类一样的符合逻辑、意识和推理的认知能力?如何实现对图、文和视频等多模态数据和信息的理解和建模的统一?如何将中文融入预训练模型,推动中文应用背景下的人工智能的发展?如何使得预训练模型深入融入自然科学研究,在目前基础上进一步实现对超长/复杂蛋白质序列的建模和预测?Kie曹操读书网

作为以人工智能源头创新为使命的新型研究机构,智源研究院2020年10月正式启动超大规模智能模型“悟道”项目,研发既博大又精深的超大规模训练模型,从更加本质的角度进一步探索通用人工智能。同时,构建大规模智能模型应用生态,推动相关机构和个人开发者基于模型研发各类新型智能应用,服务我国实体经济产业升级。Kie曹操读书网

“悟道1.0”:我国首个超大规模智能模型

会上,“悟道”模型技术委员会主任、智源研究院学术副院长唐杰教授介绍了“悟道”模型的战略布局及阶段性成果。据介绍,“悟道1.0”先期启动了4个大模型的研发。Kie曹操读书网

Kie曹操读书网

智源学术副院长唐杰 介绍”悟道”大模型团队

1.悟道·文源:面向中文的预训练语言模型

“悟道·文源”是“以中文为核心的大规模预训练模型”,目标是构建完成全球规模最大的以中文为核心的预训练语言模型,在中英文等多个世界主流语言上取得最好的处理能力,在文本分类、情感分析、自然语言推断、阅读理解等多个任务上超越人类平均水平,探索具有通用能力的自然语言理解技术,并进行脑启发的语言模型研究。Kie曹操读书网

目前,“悟道·文源”模型参数量达26亿,具有识记、理解、检索、数值计算、多语言等多种能力,并覆盖开放域回答、语法改错、情感分析等20种主流中文自然语言处理任务,技术能力已与GPT-3实现齐平,达到现有中文生成模型的领先效果。Kie曹操读书网

2.悟道·文澜:首个公开的中文通用图文多模态预训练模型

“悟道·文澜”是“超大规模多模态预训练模型”,目标是突破基于图、文和视频相结合的多模态数据的预训练理论难题,并最终生成产业级中文图文预训练模型和应用,并在多个评测应用上超过国际最高性能。Kie曹操读书网

目前,“悟道·文澜”模型参数量达10亿,基于从公开来源收集到的5000万个图文对上进行训练,是首个公开的中文通用图文多模态预训练模型。目前,该模型性能已到达国际领先水平,在中文公开多模态测试集AIC-ICC的图像生成描述任务中,得分比冠军队高出5%;在图文互检任务中,得分比目前最流行的UNITER模型高出20%。Kie曹操读书网

“悟道·文澜”模型已对外开放API。发布会上,为了展示如何使用“悟道·文澜”模型,智源研究院联合中国人民大学高瓴人工智能学院和一览群智公司,推出了两款基于该模型的小应用,其中“赋魂”AI小程序,可以为用户上传的照片配文,“AI心情电台”小程序可以利用图片和歌词的相关性,为用户上传的照片搭配最合拍的音乐。Kie曹操读书网

Kie曹操读书网

“悟道·文澜”模型根据图片自动搭配歌曲

3.悟道·文汇:我国首个具有认知能力的超大规模预训练模型

“悟道·文汇”为“面向认知的超大规模新型预训练模型”,致力于从认知的角度研究通用人工智能中一系列更本质问题,侧重进一步提升和发展预训练模型基于逻辑、意识和推理的认知能力,目标是研发出千亿至万亿级别参数量的、更通用且性能超越国际水平的预训练模型,搭建预训练模型体系,同时形成认知智能生态。Kie曹操读书网

目前,“悟道·文汇”模型的参数规模达113亿,在多项任务中“悟道·文汇”的表现已经接近突破图灵测试,通过简单微调就已经实现AI作诗、AI作图、AI制作视频、图文生成、图文检索、复杂推理。Kie曹操读书网

例如,“悟道·文汇”模型可以应用在电商行业自动撰写商品文案等场景,在阿里电商场景下进行微调,输入以下图片。Kie曹操读书网

“悟道·文汇”模型可以生成以下文字:Kie曹操读书网

旗袍是一种古典的风格,它不仅能够彰显出女性优雅气质,而且还具有很好的修饰身形。这款旗袍采用了经典的圆领设计,穿着舒适自在,同时又能够展现出女性柔美的颈部线条,让你更加的迷人。精致的绣花工艺,使得整件衣服看起来更加的精致,也更加的凸显出女性的魅力。Kie曹操读书网

Kie曹操读书网

“悟道·文汇”模型基于图片自动撰写商品文案

另外,“悟道·文汇”在图灵测试中已取得接近人类的作诗水平。Kie曹操读书网

Kie曹操读书网

“悟道·文汇”模型实现的自动作诗

“悟道·文汇”模型还可以实现“以文生图”,自动作画。Kie曹操读书网

Kie曹操读书网

“悟道·文汇”模型实现的“以文生图”

4.悟道·文溯:超大规模蛋白质序列预测预训练模型

“悟道·文溯”是“超大规模蛋白质序列预测预训练模型”,最终目标是以基因领域认知图谱为指导,研发出十亿参数规模、可以处理超长蛋白质序列的超大规模预训练模型,在基本性能、可解释性和鲁棒性等多个方面达到世界领先水平。Kie曹操读书网

目前,“悟道·文溯”已在蛋白质方面完成基于100GB UniParc数据库训练的BERT模型,在基因方面完成基于5-10万规模的人外周血免疫细胞(细胞类型25-30种)和1万耐药菌的数据训练,同时搭建训练软件框架并验证其可扩展性。Kie曹操读书网

据唐杰教授介绍,此次发布的“悟道”大模型1.0版本,已经完成了百亿和千亿参数规模的预训练,在多个国际评测中取得世界第一,在部分任务上具有一定认知能力。今年,还将陆续发布后续迭代版本,面向产业界开放使用。Kie曹操读书网

“悟道1.0”:构建了超大规模预训练模型技术体系,取得多项国际领先的AI技术突破

在科研方面,“悟道1.0”模型正在逐步搭建并完善超大规模预训练模型技术体系,取得了多项国际领先的AI技术的突破。Kie曹操读书网

1.基础性能方面,在自然语言理解和生成、跨视觉和文字的理解与检索等多项任务上取得更好表现

(1)“悟道·文汇”提出了全新的预训练范式GLM,以生成为核心,打破BERT和GPT瓶颈,历史上首次实现单一模型在理解、生成、seq2seq三种任务上取得最优效果;相同训练量下,超越BERT、RoBERTa、T5等常见预训练模型。Kie曹操读书网

(2)“悟道·文澜”发布首个公开中文通用图文多模态预训练模型,能够懂得基于图文弱相关的“内涵信息”。Kie曹操读书网

2.针对预训练模型有效使用,提出高效算法

(1)“悟道·文汇”提出基于连续向量的微调方法P-Tuning,历史上首次实现自回归模型在理解任务上超越自编码模型,并在知识抽取(LAMA)、少样本学习(Superglue Fewshot)等10多个任务上取得世界第一,性能提升超20%;Kie曹操读书网

(2)“悟道·文汇”提出Inverse Prompting算法,显著改善了对语言模型生成结果的控制,效果大幅度超越当前最好方法,在问答和诗歌生成任务中接近人类水平,并首次实现根据现代题材创作古体诗;Kie曹操读书网

(3)“悟道·文源”发布开源的中文预训练模型CPM,并进一步开源了微调算法代码。以此为基础的模型蒸馏技术CPM-Distill,实现语言困惑度降低38%,在下游任务上获更好效果;Kie曹操读书网

(4)“悟道·文澜”不同于OpenAI的CLIP模型,采用更先进的跨模态对比学习算法:给定某一图文对,基于MoCo思想,对每种模态扩大负样本数目,特别是区分难度大的负样本,进一步提高神经网络的表达能力。Kie曹操读书网

3.进一步实现规模和性能的扩增中面临的挑战

(1)“悟道·文溯”发布并开源了万亿参数模型训练的基石FastMoE,是首个支持PyTorch框架的高性能MoE(混合专家模型)系统,不再受限于谷歌软硬件,支持多种硬件,只需一行代码即可完成MoE化改造,相比传统PyTorch实现,模型训练速度提升47倍;Kie曹操读书网

(2)“悟道·文澜”可以方便地把图像和文本的编码器替换成最先进的单模态预训练模型,随即达到增大模型表达能力的目的,在预测阶段,速度是UNITER模型的20倍,容易部署。Kie曹操读书网

4.建设并开放了全球最大中文语料数据库WuDaoCorpora

WuDaoCorpora数据集的数据规模达2TB,超出之前全球最大的中文语料库CLUECorpus2020十倍以上,同时着重去除了数据中包含的隐私信息,防止了隐私泄露。另外,WuDaoCorpora的数据来源丰富,包括新闻咨询、评论、百科、论坛、博客、学术论文等,使得该数据集能够适用于不同种类的自然语言处理任务,训练出的模型泛化性更强。此外,WuDaoCorpora数据标签的完备性较高,语料中包含医疗、法律、金融等领域标签,可以依据需求抽取某个特定领域的数据,用于训练该领域的模型,也可以用于对大模型进行微调,构建某一特定领域的应用。Kie曹操读书网

该数据集不仅为“悟道”项目提供了数据支撑,还可被用于中文自然语言处理领域的多种任务模型训练,包括文本生成模型、词嵌入模型、问答对话模型等,对于国际自然语言处理领域的发展将有着积极的促进作用。Kie曹操读书网

应用生态“三步走”:探索“悟道”大模型生态发展

在模型研发的同时,智源研究院也在同步探索“悟道”模型的应用生态建设模式。据唐杰教授介绍,后续“悟道”模型将以开放API(应用程序接口)的形式对外提供服务,用户通过申请并经授权后可以基于模型API开发各类智能化应用。另外,也会开源模型的社区版本,服务我国AI科研发展。Kie曹操读书网

Kie曹操读书网

智源研究院学术副院长 唐杰

据唐杰教授介绍,下一步,“悟道”模型应用生态建设分为三个主要阶段,分别关注示范应用、API生态及社区运营维护等。第一阶段为示范性应用搭建,将构建面向电子商务、智能文本服务、垂直领域以及数个独立的示范性应用,将开放几个高质量的应用Demo,支持用户在平台页面上使用及测试。第二阶段为API及平台生态构建,将设计多个API,支持对模型的不同请求方式,构建支持高并发、高速推理的API接口,分别支持企业级用户、个人独立开发者对模型或特定功能的请求。第三阶段为社区运营及迭代,将逐步增量扩大在线评测,构建开发者及使用者社区,建立完善的使用反馈机制,并作为模型迭代的参考标准,同时加强社区维护及管理,加快模型迭代。Kie曹操读书网

目前,智源研究院已启动第一阶段的示范性应用搭建,正与快手、搜狗、360、阿里、智谱华章、一览群智、循环智能、新华社等机构就模型的应用进行洽谈,联合构建一批工业级示范性应用。Kie曹操读书网

下一步,智源研究院将加强用户的开发,做好用户服务,与AI龙头企业共同研发更多工业级示范性应用,并将加快推动API生态构建及社区运营迭代工作,通过举办学术交流、技术挑战赛等活动提高“悟道”模型的影响力,吸引更多AI企业、研究机构、个人开发者等开展基于模型的应用开发工作,推动构建国际领先的超大规模智能模型应用生态。Kie曹操读书网

核心关键字: 人工智能

相关文章

  • 抖音十大神曲中文歌是什么?抖音十大神曲是哪几首?
    抖音十大神曲中文歌是什么?抖音十大神曲是哪几首?

    抖音十大神曲是那几首?抖音是和我们生活关联很大的一个软件,已经融入了我们的生活。那么抖音十大中文神曲是那几首呢?现在和小编一起来看看吧。 两只老虎爱跳舞是什么歌 1、《出山》 民谣歌手花粥的这一首《出山》 ......

    2021-02-24 10:45:51
  • 火币研究院年度报告:创新提出区块链应用热力模型 TOP 3应用领域出炉
    火币研究院年度报告:创新提出区块链应用热力模型 TOP 3应用领域出炉

    2月7日,火币研究院与清华大学互联网产业研究院、区块链服务网络(BSN)联合发布年度报告《全球区块链产业全景与趋势年度报告(2020-2021年度)》(下称“报告”),全面而深刻地剖析了2020年区块链行业的发展,并对2021年行业发展给出前瞻性预测。本次年度报告历时两个多月,共调研了近30家区块链企业,最终形成长达141页的近10万字宏文。清华互联网产业研究院院长朱岩,国家信息中心信息化和产业发...

    2021-02-07 12:00:19
  • 魏晨冷知识 他竟然是第一个在M!Countdown打中文歌的中国歌手
    魏晨冷知识 他竟然是第一个在M!Countdown打中文歌的中国歌手

    韩流在中国已经盛行了很多年,很多网友都希望中国的明星也能够火到韩国去,其实早年真的有中国明星试图打到韩国娱乐圈内部,比如说魏晨。魏晨冷知识,他竟然是第一个在韩国电视台大型的音乐节目M!Countdown中,打中文歌的中国歌手,大家是不是觉得很意外呢? 魏晨冷知识介绍 虽然大家现在对魏晨更熟悉的是她演员的身份,但...

    2021-01-08 21:31:26
  • 苏宁内容电商中心总经理武建伟:通过SWOT分析模型,把素人打造成网红
    苏宁内容电商中心总经理武建伟:通过SWOT分析模型,把素人打造成网红

    【猎云网北京】12月20日报道12月18日,在中国首届电商新媒体峰会上,苏宁内容电商中心总经理武建伟以《内容电商的“新通路系统”》为主题发表演讲,他表示,今年在电商布局上,除了自身业务,苏宁还有与罗永浩合作直播,找贾乃亮作直播明星联合主理人。此外,苏宁还通过独有的“蚂蚁雄兵”系统,培养员工等“素人”,学会直播带货。武建伟分享了苏宁打造网红的一套体系和方法,首先人设和定位是最重要的,通过SWOT表展...

    2020-12-20 19:50:21
  • 龙之声军事观察——地图开疆,模型造舰,其实做模型也是极好的
    龙之声军事观察——地图开疆,模型造舰,其实做模型也是极好的

    以往在我国的网络上,军迷网友们在研究战史时,经常会看到“地图开疆”一说。意思就是说过去的国民党当局,军事力量不行,无力争取国家权利,只能通过在地图上标注领土的方式来维护国家的领土主权,因此被称为“地图开疆”。如今,俄罗斯人似乎也继承了当年国军的“优良传统”,不过,俄罗斯人并不是通过地图去开疆拓土,而是用造模型来代替军舰,来设想自己的“大舰队”。在苏联解体后,俄罗斯经济历经“休克疗法”、1998年经济危机、2016年金融制裁等多轮打击,可谓是千疮百孔、遍体鳞伤。如今的俄罗斯GDP更是沦落到只相当于我国广东省...

    2020-12-08 12:46:59
  • 抖音潘南奎YY直播开播,加入发哥奇领公会,潘南奎无美颜直播中文很好
    抖音潘南奎YY直播开播,加入发哥奇领公会,潘南奎无美颜直播中文很好

    提及网红潘南奎,想必许多网友都是通过短视频平台认识这位外籍美女网红。对于这位网红,可能许多网友都无法确切的猜出她的真实年龄,因为她的 脸蛋 实在是太漂亮,一般人一眼确实是很难看出其真实年龄。潘南奎个人资料简介:昵称:【奇领】❤潘南奎直播平台:YY直播YY直播间:8584公会:奇领公会811八卦公众号:粉丝邦微博:@Seojin_Ban潘南奎国籍:韩国身高:身高:171cm职业:模特生日:1989年抖音昵称:Seojin_Ban潘南奎抖音ID号:1502184128潘南奎出生于1989年,曾是一位模特,也是...

    2020-12-08 10:55:25
  • 月迷风影歌词中文鉴赏
    月迷风影歌词中文鉴赏

    这首歌是《十二国记》的片尾曲,是十二幻梦绘卷一辑中的音乐,由吉良知彦作曲有坂美香演唱。这首歌旋律优美,歌词意境深远,被翻译了多种中文版本。下面一起来看一看月迷风影歌词中文鉴赏。...

    2020-11-21 17:04:53
  • 预测:两个模型推导出比特币会在本轮牛市突破10万美金
    预测:两个模型推导出比特币会在本轮牛市突破10万美金

    图片来源@视觉中国链得得App注:本文原文标题 Bitcoinstocktoflowmodellivechart;译者&编写:Rain,Jade。2019年有位PlanB的作者在博客中发布了一篇文章,《以稀缺性为基础为比特币价值建模》。核心逻辑是将比特币与其他贵金属如黄金,白银等进行分析,因为都可以划归为通缩性的资产(越来越少)然后基于建模分析预测比特币价格。基本的原理我觉得可以作为一个价值依据,...

    2020-11-18 22:17:05
  •  豆瓣9.3分!诺兰执导的《星际穿越》公布重映版中文预告
    豆瓣9.3分!诺兰执导的《星际穿越》公布重映版中文预告

    由传奇导演克里斯托弗·诺兰执导的经典科幻烧脑巨制《星际穿越》国内重映已定档8月2日。今日,IMAX官方微博放出《星际穿越》最新重映版中文预告。



    时隔六年,当《星际穿越》中神秘而广袤的太空再次出...

    2020-07-29 21:00:04
  • 闵玧其怎么读中文 他所喜欢的女生类型是什么样子引好奇
    闵玧其怎么读中文 他所喜欢的女生类型是什么样子引好奇

    闵玧其是韩国超火的男团防弹的成员,他也是队内的人气成员。不过很多网友第一次看到闵玧其的名字时,表示不会读。闵玧其怎么读中文呢?作为超级偶像,闵玧其的理想型也是引发了很多粉丝的好奇,闵玧其喜欢什么样的女孩子呢?小编今天就来揭秘一下。 闵玧其怎么读中文 闵...

    2020-07-29 11:20:01
留言与评论(共有 0 条评论)
   
验证码: