betway必威

你的位置:betway必威 > 激光美容中心 >
某大学的课程竟要修业生自备算力开垦通用版
发布日期:2024-07-01 21:56    点击次数:178

图片通用版

全好意思TOP 5的机器学习博士无语发帖自曝,我方推行室里H100数量是0!这也引起了ML社区的全球网友大参谋。彰着,比较普林斯顿、哈佛这样动辄三四百块H100的GPU大户,更常见的是GPU清苦的「穷东说念主」。兼并个推行室的博士,甚而频频会出现需要争抢GPU的情况。

全好意思TOP 5高校的机器学习博士,推行室却连一块H100都莫得?

最近,这位网友在reddit上发的这个帖子,坐窝激励了社区大参谋——

人人发现,普林斯顿、哈佛这样的「GPU权门」,手上的H100至少以三四百块打底,关联词绝大多半ML博士,却连一块H100都用不上……

不同学校、机构之间的GPU「贫富差距」,居然一经到了如斯悬殊的地步?

大部分推行室,比斯坦福还差多了

两个月前,AI教母李飞飞曾在采访中暗示,斯坦福的天然言语处理(NLP)小组惟有64块A100 GPU。

濒临学术界如斯匮乏的AI资源,李飞飞可谓是无语疾首。

而这位发帖的网友也暗示,我方在攻读博士学位时间(全好意思名次前五的学校),计较资源是一个主要的瓶颈。

如果能有更多高性能的GPU,计较时辰会权贵裁减,研究进程也会快许多。

是以,他的推行室里到底有些许H100呢?谜底是——0。

他向网友们发登程问:你们推行室里都有些许GPU?能从亚马逊、英伟达那儿拿到非常的算力扶持吗?

年青的研究者们纷纷自曝我方所在学校或公司的GPU情况,泄暴露的事实,让统统东说念主大为骇怪。

1张2080Ti+1张3090,已是一说念

一位似乎是亚洲的网友暗示,诚然我方的研究所在是计较机视觉(CV)并不是机器学习,但在2019年刚初始时,只梗概使用一块2080 Ti显卡。

2021年,有契机使用一台配备V100和RTX 8000显卡的管事器。

2022年,取得了使用一块3090显卡的权限。

2023年,梗概使用另一个推行室的一组管事器,这些管事器包括12块2080 Ti、5块3090和8块A100显卡。同庚,还取得了一项计较资助,可以使用A100显卡三个月。

2024年,学校购买了一台配有8块H100显卡的管事器,并允许试用一个月。

此外,在2021年到2023年时间,也可以从一个土产货学术提供商那儿按小时租用GPU。

除了2080 Ti和3090这两张显卡外,大多半这些资源都是分享的。

题主问:这里的「a」便是字面意旨上的「一个」么?

网友暗示,是的,便是这样空乏……

有东说念主现身暗示,我方可太惨了:莫得显卡,莫得credits。因为所在大学无法提供匡助,只可让实习公司帮我方取得一些。

一位2022年底毕业的博士也自曝称,推行室专用的管事器共搭载了差未几30块GPU,其中每台管事器配有4张显卡。(由于购买时辰不同,性能也繁芜不皆)

不外,兼并推行室里抢GPU的事情照旧时有发生。

对此,有网友转头说念,0 GPU很常见。

意义也相配粗浅:咱们并不需要开着法拉利来学车。而且在初始,机器学习的基础是线代、统计和编程,之后才是硬件经过的优化。

而GPU严重匮乏的问题,在我国高校的推行室内也很广漠。

甚而,有博主发帖称,某大学的课程竟要修业生自备算力开垦。

五东说念主一组的学生,至少领有2块3090/4090,或者是1块40G A100,才调完成课程条件的LLM锻练任务。

那么问题来了,为何高校我方不成多采购一些GPU呢?

至好「网瘾大爷」暗示,高校径直购买GPU相配不合算。LLM锻练参数领域增大,需要的是多机多卡,以及让卡之间串联的收集。

不仅有学习资本、还有保养资本,这对于高校来说插足之大。是以比较常见的方法是,去租用管事器。

清华计较机系在读博士孙恒提议了通常的问题,卡可以买,但问题是,放在哪?

天然,有东说念主在负重前行,天然也有东说念主岁月静好。

比如底下这些学校,比较起来就要「浊富」得多了。

「H100,咱们也就几百块吧」

有网友暴露,普林斯顿言语与智能研究所(PLI)和哈佛Kempner研究所领有最大的计较集群,分别配备了300块和400块H100 GPU。

而这个信息,也得到了一位普林斯顿研究者的佐证——

在普林斯顿,可以使用的集群有三种。

- 小组集群有所不同,但对于10个东说念主来说,32块GPU的分派很合理

- 部门集群的资源更多,不外也需要看具体的部门

- 大学集群Della则领有(128x2)+(48x4)个A100和(96x8)个H100通用版

总之,普林斯顿和哈佛都可以说是显卡大户。

此外,也有网友爆料说,UT Austin领有600块H100。

蒙特利尔大学的博士生暗示,我方的推行室疏忽有500块GPU,主如果A100 40GB和80GB。

德国亚琛工业大学的网友暗示,学提供了一个包含52块GPU节点的计较集群,每个节点配备4块H100 GPU。

这些资源天然是统统院系分享的,其他一些机构也能使用。

不外,即使是学生,每个月也会分派到一定的集群使用时辰。如果你需要更多的计较时辰,可以请求不同领域的专用计较形貌。

「我相配可爱这个系统,梗概使用它,对我来说是一次改变研究进程的契机。」

对如斯充沛的算力,题主暗示相配慨叹。

另一位欧洲的网友也暗示,我方的推行室有疏忽16块推行室专用的A100 GPU,况且还能通过几个不同的非常集群探问更多的GPU。

由于这些集群有许多用户,是以具体领域很难揣测,但每个集群疏忽每年提供12万GPU小时的计较时辰。

不外,卓越80GB的GPU内存需求是一个瓶颈。咫尺来说,统共能用的约为5块H100。

肖似的,这位网友所在的推行室,也绝顶浊富:

「咱们推行室有8块H100和8块L40S,专供5名博士生和3名博士后免费使用。」

临了,截取一些「凡尔赛」网友的发言。

比如,这位在云计较供应商责任的网友就暗示,这个帖子很料想,因为我方竟不知说念H100是这样珍稀。

或者,从单元分不到显卡,那就干脆我方买一块。😂

紧俏的H100,为若何此蹙迫

这背后最谨慎的明星,莫过于它的H100 GPU了。

跟粗鄙芯片不同的是,H100内的800亿个晶体管陈设在内核中,这些内核被治疗为高速处理数据,而非生成图形。

开发于1993年的英伟达,押注并行责任的智商有一天将使我方的芯片在游戏以外施展价值,他们赌对了。

在锻练LLM时,H100比前代A100快四倍,在回话用户教唆时快30倍。对于急于锻练LLM实施新任务的公司来说,性能上风至关蹙迫。

也恰是因此,全寰球生成式AI的波浪,正在漂浮为英伟达的骨子收入。而H100的需求如斯之大,以至于许多客户不得不恭候六个月才调收获。

Nebius AI的IaaS本领居品司理Igor,探讨了H100、L4、L40、A100、V100这些最流行的芯片之间的各别,并笃定了每种GPU模子推崇最好的责任负载。

谈到芯片之间的各别之前,蹙迫的是强调Transformer神经收集和数值精度的一些研究属性。

数值精度的作用

如果莫得对FP8精度的硬件援救,英伟达的H100、L4和L40不可能取得雄壮的告捷,这对于Transformer模子尤其蹙迫。

然则,是什么让对FP8的援救如斯蹙迫呢?让咱们深化了解一下。

FP是「浮点」的缩写,它是对于模子存储在RAM中,并在其操作中使用的数字的精度。

最蹙迫的是,这些数字决定了模子输出的质地。

以下是一些要道的数字形貌——

FP64,即双精度浮点形貌,是一种每个数字占用64位内存的形貌。

诚然这种形貌未在机器学习中使用,但它在科学领域占有一隅之地。

FP32和FP16:遥远以来,FP32是统统深度学习计较的事实门径。

关联词,数据科学家其后发现,将模子参数更动为FP16形貌,可以减少内存铺张并加速计较速率,而且似乎不会影响质地。

效劳,FP16就成为了新的黄金门径。

TF32,亦然另一种至关蹙迫的形貌。

在进入张量内核上处理FP32值的计较之前,这些值可以在驱动要领级别自动更动为TF32形貌,而无需改革代码。

彰着,TF32诚然略有不同,但能提供更快的计较速率。也便是说,可以通过模子在张量内核上证明FP32的方法进行编码。

INT8:这是一种整数形貌,不波及浮点数。

锻练后,模子参数可以更动为其他占用内存较少的类型,举例INT8。这种本领称为锻练后量化,可以减少内存需求并加速推理速率。它为许多模子架构创造了遗迹,不外Transformer 是一个例外。

Transformer无法在锻练后进行更动,以申斥推理的硬件条件。量化感知锻练等翻新本领确乎在锻练过程中提供了一种措置方法,但再行锻练现存模子有可能资本奥秘,而且极具挑战性。

FP8:此形貌措置了上述问题,尤其是Transformer模子。

可以接受预锻练的Transformer模子,将其参数更动为FP8形貌,然后从A100切换到H100。

甚而咱们可以在不进行更动的情况下作念到这极少,并仍然取得性能,仅仅因为H100速率更快。

借助FP8,只需疏忽四分之一的显卡即可推断出具有调换性能和负载的调换模子。

另外,使用FP8进行夹杂精度锻练也很可以——这个过程会完成得更快,需要更少的RAM,况且在稍后的推理阶段不再需要更动,因为模子的参数可能一经是FP8的参数。

ML、HPC和图形的要道GPU规格及性能基准

底下让咱们来参谋一下,GPU规格的演变过甚杰出功能。

请非常把稳上图中的前两行:RAM数量过甚带宽。

ML模子必须综合允洽运行时环境可探问的GPU。不然,咱们将需要多个GPU进行锻练。在推理过程中,频频可以将统统内容都装配在单个芯片上。

把稳SXM和PCIe接口之间的区别。英伟达的责任主说念主员仅仅凭据咱们我方或咱们的云提供商已有的管事器来分歧它们。

如果建树包括带有PCI插槽的门径管事器,况且不想为GPU径直连络到主板的专用机器(SXM)用钱,那么H100 PCIe便是咱们的最好选拔。

天然,它的规格可能比SXM版块要弱,但它与门径紧凑型管事器统统兼容。

然则,如果咱们想从新初始构建顶级集群,况且也能职守得起,那么H100 SXM5彰着是更好的选拔。

多样 GPU 在锻练和推理中的性能主义,则可以依据下图——

图表源自Tim Dettmers的这篇有名著作《深度学习应该使用哪些GPU:我在深度学习中使用GPU的教训和建议》

H100 SXM主义用作100%基准,统统其他主义均相对于此进行门径化。

该图表自满,H100 GPU上的8位推理,比调换GPU模子上的16位推理快37%。这是由于硬件援救FP8精度计较。

所谓「硬件援救」,是指将数据从RAM移动到张量中枢进行计较的统统这个词初级管线。在此过程中,多样缓存初始施展作用。

而在A100中,由于硬件级别不援救FP8,此类GPU上的 8 位推理速率并不会更快。来自RAM 的缓存仅以与FP16形貌调换的速率处理数字。

更详备的图表如下——

你慑服把稳到了,某些RTX显卡在AI任务中的效劳也可以。频频,它们的内存比起数据中心专用卡要少,况且不援救集群,但它们的价钱彰着低廉许多。

是以,如果蓄意用于里面推行的土产货基础设施,也可以计划这类RTX显卡。

关联词,GeForce驱动要领EULA径直辞让在数据中心使用此类卡,是以任何云提供商都无权在管事中使用它们。

咫尺,咱们再比较一下图形和视频处理研究任务中的GPU。以下是与此类用例研究的要道范例:

咱们需要再次感情RAM大小和带宽。另外,还要把稳RT中枢的私有性能主义,以及解码器和编码器计数,这些专用芯片负责压缩息争压缩视频源。

「图形模式」行会引导GPU是否可以切换到面向图形的模式 (WDDM)。

H100统统莫得这个功能;A100有此功能,但也会受限,因此不一定实用。

酿成显著对比的是,L4和L40配备了这种模式,因此它们被定位为适用于多样任务(包括图形和锻练)的多功能卡。

英伟达在有些材料中甚而领先将它们算作面向图形的卡进行营销。关联词,它们也相配允洽机器学习和神经收集锻练和推理,至少莫得任何硬性本领防碍。

而用户来说,这些数字意味着H100变体以及A100都不允洽以图形为中心的任务。

V100有可能充任处理图形责任负载造谣责任站的GPU。

L40是资源最密集的4K游戏体验无可争议的冠军,而L4援救1080p游戏。这两种卡还能以各自的分辨率渲染视频。

转头

咱们可以得出下表,凭据不同显卡的假想主义,展示了不同显卡的特色。

该表中有两个主要用例类别:贞洁专注于计较的任务(「计较」)和包含可视化的任务(「图形」)。

咱们一经知说念,A100和H100统统不允洽图形,而L4和L40则是为此量身定制的。

乍一看,你可能会合计A100或L40的推明智商通常出色。关联词,有一些隐糊涂别需要计划。

在「HPC」一列中,自满了是否可以将多个主机合并到单个集群中。

在推理中,很少需要集群——但这取决于模子的大小。要道是确保模子允洽主机上统统GPU的内存。

如果模子超出了此范围,或者主机无法为其组合RAM容纳填塞的GPU,那么就需要GPU集群。

L40和L4的可推广性受到单个主机功能的为止, H100和A100则莫得这个为止。

咱们应该在ML责任负载中选拔哪种GPU呢?推选如下——

L4:经济实惠的通用GPU,适用于多样用例。它是一款初学级模子,是通往GPU加速计较寰球的学派。

L40:针对生成式AI推理和视觉计较责任负载进行了优化。

A100:为传统CNN收集的单节点锻练提供了罕见的性价比。

H100:BigNLP、LLMs和Transformer的最好选拔。它还相配允洽踱步式锻练场景以及推理。

图形场景可分为三组:流式传输、造谣桌面和渲染农场。如果莫得视频输入模子,那么它就不是图形场景。这便是推理,而此类任务最好被描写为东说念主工智能视频。

卡可以处理加密的视频源,况且A100配备了硬件视频解码器来完成此类任务。这些解码器将赠送更动为数字形貌,使用神经收集对其进行增强,然后将其传回。

在统统这个词过程中,自满器上不会出现任何视觉内容,因此诚然H100和A100可以闇练地锻练与视频或图像研究的模子,但它们骨子上并不产生任何视频。

这便是另一个故事了通用版。



友情链接:

Powered by betway必威 @2013-2022 RSS地图 HTML地图