OD体育从架构、工艺到能效表示周仔细了LLM硬件加快这篇综述就够了

 公司新闻     |      2024-09-22 18:20:30    |      小编

  大讲话模子(LLM)的生长同时往往伴跟着硬件加快时间的进化,本文对行使 FPGA、ASIC 等芯片的模子职能、能效显示来了一次通盘概览。

  对人类讲话举行大界限修模是一个庞杂的进程,考虑职员花了几十年的时辰才开拓出来。这项时间最早可追溯于 1950 年,当时克劳德・香农将音信表面行使于人类讲话。从那时起,翻译和语音识别等职分赢得了长足的发展。

  正在这个进程中,人为智能 (AI) 和呆板进修 (ML) 是时间发展的枢纽。ML 举动 AI 的一个子集,其应许估量机从数据中举行进修。平常来说,ML 模子要么是有监视的,要么是无监视的。

  遵循论文先容,深度进修模子分为天生式和判别式。天生式人为智能是深度进修的一个子集,它行使神经搜集来管理记号和未记号的数据。大型讲话模子 (LLM) 有帮于理会字符、单词和文本硬件。

  2017 年,Transformer 彻底更正了讲话修模。Transformer 是一种神经搜集,它行使提防力机造管理持久文本依赖相干。谷歌于 2017 年创修了第一个用于文本翻译的 Transformer 模子。Transformer 尔后延续生长,刷新了提防力机造和架构。生长到此日,OpenAI 颁发的 ChatGPT 是一个闻名的 LLM,它可能预测文本并能答复题目、总结文本等。

  本文对行使硬件加快器来加快 Transformer 搜集所做的少少考虑事情举行了通盘的视察。该视察先容了已提出的框架,然后对每个框架的时间、管理平台(FPGA、ASIC、内存、GPU)、加快、能源效能、职能(GOP)等举行了定性和定量对比。

  正在这一局限中,作家以 A-T 编号的形式陈列了相合 FPGA 的考虑OD体育,可谓视察的极度详尽。每项考虑都用简短的几句话具体,阅读起来简略又分明。举例来说:

  多头提防力。2020 年,Lu 等人提出了一种基于 FPGA 的架构,用于加快 Transformer 搜集入彀算最群集的局限。正在他们的事情中硬件,他们为两个枢纽组件提出了一种新型硬件加快器,即多头提防力 (MHA) ResBlock 和处所前馈搜集 (FFN) ResBlock,它们是 Transformer 中最庞杂的两个层。所提出的框架是正在 Xilinx FPGA 上达成的。遵循职能评估,与 V100 GPU 比拟,所提出的策画达成了 14.6 倍的加快。

  除此以表硬件,文中还先容了 ViA 、 FPGA DFX 、 FPGA OPU 等考虑,这里就不再详尽先容了。

  A3。2020 年,Hma 等人提出了一项合于 Transformer 搜集加快的早期考虑,称为 A3 。然而,考虑职员所提出的计划尚未正在 FPGA 上达成OD体育。基于职能评估,与 Intel Gold 6128 CPU 达成比拟,所提出的计划可达成高达 7 倍的加快,与 CPU 达成比拟,能效可普及 11 倍。

  ELSA。2021 年,Ham 等人提出了一种用于加快 Transformer 搜集的硬件 - 软件协同策画要领,称为 Elsa 。ELSA 大大删除了自提防力操作中的估量虚耗。

  ATT。2020 年,Guo 等人提出了一种基于提防力的加快器加将近领,称为 ATT,该要领基于电阻性 RAM。遵循职能评估,ATT 与 NVIDIA GTX 1080 Ti GPU 比拟,可能达成 202 倍的加快。

  iMCAT。2021 年,Laguna 等人提出了一种用于加快长句 Transformer 搜集的新型内存架构,称为 iMCAT。该框架维系行使 XBar 和 CAM 来加快 Transformer 搜集。职能评估证明,看待长度为 4098 的序列,这种要领达成了 200 倍的加快和 41 倍的职能刷新。

  下表 I 列出了目前统统的硬件加快器以及各自的紧要个性,搜罗加快器名称、加快器类型(FPGA/ASIC/In-memory)OD体育、职能和能效。

  正在某些处境下,当提出的架构与 CPU、GPU 举行对比时,以往的事情也会提及加快这一目标。然而,因为每种架构的基线对比分歧,所以本文只涌现了它们的绝对职能和能效,而没有涉及加快。

  下图 1 涌现了分歧工艺时间下,每种加快器的职能;图 2 涌现了越发觉白的对数标准职能OD体育从架构、工艺到能效表示周仔细了LLM硬件加快这篇综述就够了。

  咱们可能看到,采用 14nm 工艺的 AccelTran(效劳器)达成最高职能OD体育,到达了 372000 GOPs,而 ReTransformer 模子的职能最低。其余,ViA、Me-ViT 和 Ftrans 等采用相仿工艺时间的模子并没有达成形似的职能。

  然而,看待没有采用相仿工艺时间的加快器,则很难举行公正对比。到底,工艺时间会对硬件加快器职能出现明显的影响。

  下图 3 涌现了公多半硬件加快器的能效(GOPs/W)秤谌,图 4 涌现了对数标准层面的能效。因为良多架构没有衡量能效,所以本文只列出了供给了能效的加快器。当然,良多加快器采用了分歧的工艺时间,是以很难举行公正对比。

  结果显示,以内存为主(In-Memory 加快器)的模子拥有更好的能效显示。道理正在于数据传输删除了硬件,而且这种特定的架构应许数据正在内存中直接管理,而不须要从内存传输到 CPU。

  下图 5 涌现了当正在相仿的 16nm 工艺时间下表推职能时,分歧硬件加快器的绝对职能,此中 AccelTran 的职能秤谌最高。

  本文针对 FPGA 架构举行了尝试表推,并测试了 20nm、28nm、40nm、 55nm、65nm 和 180nm 工艺下时间分歧的矩阵乘法代码,以验证 16nm 工艺的表面转换成果。考虑者展现,FPGA 时间上的矩阵乘法结果有帮于表推分歧硬件加快器正在相仿工艺时间上的结果。

  下表 III 涌现了分歧 FPGA 设置、工艺时间以及矩阵乘法 IP 核的结果。

  下图 6 涌现了每种 FPGA 设置和矩阵乘法工艺时间的最大时钟频率。因为 FPGA 的职能依赖于最大时钟频率,是以表推职能使得分歧工艺时间下架构之间也许达成公正对比。

  尤其声明:以上实质(如有图片或视频亦搜罗正在内)为自媒体平台“网易号”用户上传并颁发,本平台仅供给音信存储效劳。

  中石油原副总司理徐文荣一审获刑14年 任职时年薪近百万,曾被批靠石油吃石油

  法甲4冠王踢疯,8-0法甲10冠王,飙升7位至第5,多特旧将2球1帮攻

  OpenAI最新一轮融资将结束硬件,获逾额认购,央求投资者起码投2.5亿美元

  Shams:恩比德3年1.93亿顶薪续约!目前合同总额5年3.01亿!

  华为首款三折屏Mate XT 杰出行家体验:高尚且适用 名副本来的超旗舰

  Bose QuietComfort消噪耳塞颁发:经典音质+消噪时间 售价1499元

  iPhone 16 Pro Max正在电池续航时辰测试中未能打败Galaxy S24 Ultra

  华为首款三折屏Mate XT 杰出行家体验:高尚且适用 名副本来的超旗舰