Cerebras的晶圆级引擎创下了在单个芯片上训练最大AI模型的记录。为什么重要?

Cerebras已经展示了其第二代晶圆级引擎的能力,宣布它已经创下了在单个设备上训练的最大人工智能模型的记录。

首次在单个设备上训练了一个具有200亿参数的自然语言处理网络GPT–NeoX 20B。这就是为什么这很重要。

为什么我们需要训练这么大的模特?

一种新型的神经网络,变压器,正在接管。今天,变形金刚主要用于自然语言处理(NLP),在那里,它们的注意力机制可以帮助发现句子中单词之间的关系,但它们正在传播到其他人工智能应用,包括视觉。变压器越大,越准确。语言模型现在通常有数十亿个参数,它们在快速增长,没有任何放缓的迹象。

巨大的变压器正在被使用的一个关键领域是在表观基因组学等应用领域的医学研究中,这些变压器被用来模拟基因的“语言”——DNA序列。

为什么这是在单个设备上完成的?

如今的大型模型大多使用多处理器系统(通常是GPU)进行训练。Cerebras表示,其客户发现,根据模型的财产、每个处理器的特性(即它是什么类型的处理器以及它有多少内存)和I/O网络的特性,将大型模型跨数百个处理器进行划分是一个耗时的过程,这对于每个模型和每个特定的多处理器系统来说都是独一无二的。这项工作不可移植到其他模型或系统。

对于多处理器系统,通常有三种类型的并行性:

巨大的模型,如Cerebras发布的GPT–NeoX 20B,需要所有三种类型的并行训练。


今天用于训练大型模型的并行类型的分解(来源:Cerebras)

Cerebras的CS–2避免了对模型进行并行化的需要,部分原因是其处理器的巨大尺寸——它实际上是一个巨大的850000–单晶圆芯片上的核心处理器即使是最大的网络层也足够大,这部分是因为Cerebras具有从计算中分离出来的记忆。可以添加更多内存以支持更多参数,而无需添加更多计算,从而保持系统计算部分的架构不变。


Cerebras的WSE–2是其CS–2系统中的处理器,其大小与餐盘一样大(来源:Cerebras)

如果不需要使用并行性,就不需要花费时间和资源手动分区模型以在多处理器系统上运行。此外,如果没有定制部分,模型将变得便携。在具有多个参数的GPT模型之间进行更改只需更改一个文件中的四个变量。类似地,在GPT–J和GPT–Neo之间切换只需几次按键。根据Cerebras的说法,这可以节省数月的工程时间。

对更广泛的行业有什么影响?

NLP模型已经发展得如此之大,以至于在实践中,只有少数公司拥有足够的资源(从计算成本和工程时间两方面来看)来训练它们。

Cerebras希望,通过使其CS–2系统在云中可用,以及帮助客户减少所需的工程时间和资源,它可以为更多的公司,甚至是那些没有庞大系统工程团队的公司,提供巨大的模型培训。这包括加速科学和医学研究以及NLP。

一个CS–2可以训练具有数千亿甚至数万亿参数的模型,因此未来的巨大网络和今天的网络都有很大的空间。

小脑有真实世界的例子吗?

生物制药公司AbbVie正在使用CS–2进行生物医学NLP变压器培训,这为该公司的翻译服务提供了动力,使大量生物医学文献库可以在180种语言中进行搜索。

“我们在编程和培训BERT方面遇到的共同挑战大的,大的生物制药公司AbbVie的AI负责人Brian Martin在一份声明中表示:“这些模型在足够的时间内提供了足够的GPU集群资源。“CS–2系统将提供壁钟式的改进,以缓解这一挑战,同时提供一个更简单的编程模型,通过使我们的团队能够更快地迭代和测试更多的想法,从而加快我们的交付。”

葛兰素史克使用了第一代Cerebras系统CS–1表观基因组学研究该系统使得能够用数据集训练网络,否则数据集将非常大。

GSK人工智能和机器学习高级副总裁金·布兰森(Kim Branson)在一份声明中表示:“GSK通过其基因组和基因研究生成了非常大的数据集,这些数据集需要新设备来进行机器学习。”。“Cerebras CS–2是一个关键组件,它允许GSK以以前无法达到的规模和大小使用生物数据集来训练语言模型。这些基础模型构成了我们许多AI系统的基础,并在发现转化药物方面发挥了重要作用。”

其他Cerebras用户包括TotalEnergies,他们使用CS–2加速电池、生物燃料、气流、钻井和二氧化碳的模拟2.存储国家能源技术实验室使用CS–2加速基于物理的计算流体动力学;阿贡国家实验室(Argonne National Laboratory)一直在使用一种CS–1,用于新冠肺炎-19研究和癌症药物;还有更多的例子。

>>这篇文章最初发表在我们的姐妹网站上,EE时间.