AI大模型小技巧

我们为什么要关注和推动AI的科研发展?在过去几十年里,AI技术的发展给我们现实生活带来了前所未有的变革,AI技术赋能很多场景,譬如搜索、推荐、机器人、自动驾驶、蛋白质研究,等等。在我们的生活中,有文本、语音、图像、视频等信息媒质出现的地方,其背后可能就隐藏着AI的影子。

近日,智源社区联合了将近百位清华、北大、微软等机构的研究学者,推出了大模型技术实践路线图《A Roadmap for Big Model》,从大模型基础资源、大模型构建、大模型关键技术与大模型应用探索4个层面出发,对15个具体领域的16个相关主题进行全面介绍和探讨。作为一枚NLP爱好者,看到这个消息的时候,忍不住好奇心一探究竟。

图1:论文

从图2可以看出,自2018年OpenAI推出1.1亿参数的GPT以后,谷歌、微软、Facebook等前后相继推出自己的预训练模型,特别是2020年OpenAI推出了1750亿参数的GPT-3,轰动全球,引发了各大顶尖科研机构在大模型研究的竞赛,大模型的参数规模逐渐增加。

图2:大模型参数规模变化

大模型除了模型参数规模大,还有3个特点:

1、Big-data Driven,模型基于大规模语料训练而成;

2、Multi-tasks Adaptive,支持多种任务,包括自然语言生成NLG和自然语言理解NLU类的任务;

3、Few-shot (Zero-shot),在少甚至无标注样本的条件下支持推理。