GPU行业深度钻研:AI大模型浪潮风起,GPU芯片再立潮头

小微 科技GPU行业深度钻研:AI大模型浪潮风起,GPU芯片再立潮头已关闭评论124字数 6413阅读模式
摘要(报告出品方/作者:中信建投证券,阎贵成、金戈、于芳博)GPU芯片概述GPU定义和主要组成GPU(Graphics Processing Unit):一般称为图形处理器,被广泛用于...

GPU芯片概述

GPU定义以及主要组成文章源自微观生活(93wg.com)微观生活-https://93wg.com/15143.html

GPU(Graphics Processing Unit):一般称为图形处理器,被广泛用于个人电脑、工作站、移动装备、游戏机、嵌入式 系统中做图象以及图形相关运算工作。 GPU结构:GPU是一个异构的多核处理器芯片,针对图形图象处理优化。通常包含运算单元、L0/L1/L2缓存、Warp调度器、 存取单元、分配单元、存放器堆、PCIe总线接口、显卡互联单元等组件。 GPU工作方式:GPU其实不是一个独立运行的计算平台,需要通过PCIe总线与CPU连接在一块儿来协同工作,可以看做CPU的协处 理器。文章源自微观生活(93wg.com)微观生活-https://93wg.com/15143.html

GPU相较于CPU并行计算能力更强文章源自微观生活(93wg.com)微观生活-https://93wg.com/15143.html

CPU之中运算单元盘踞面积相对于较小。CPU硬件设计进程中为了实现低延迟增添了存储单元以及节制单元的繁杂度,运算单元 在GPU中盘踞面积相对于较小,以Intel Core i7 3960X为例,其运算单元面积(6*21.4 妹妹2)大致占总芯片面积(435 妹妹2) 的30%。 CPU的并行计算能力相对于较弱。CPU通过指令级并行、数据级并行也能够晋升其并行计算能力,然而带来的晋升也是有限的。 单核CPU性能逐渐迫临物理极限。因为CPU受到“能耗墙”的限制,CPU主频难以延续晋升,单核CPU性能逐渐迫临物理极限, 采取多核CPU的策略一定程度减缓了CPU性能晋升的制约,当前大数据以及人工智能带来了海量的数据,CPU已经没法跟上多 源异构数据的爆炸性增长。文章源自微观生活(93wg.com)微观生活-https://93wg.com/15143.html

GPU拥有数量众多的运算单元,采取极简的流水线进行设计,合适计算密集、易于并行的程序。CPU的运算单元数目相对于较 少,单一运算核心的运算能力更强,采取分支预测、存放器重命名、乱序执行等繁杂的处理器设计,合适相对于繁杂的串行 运算。 GPU设计进程中着重吞吐优化,具备强大的内存走访带宽。CPU设计进程中着重时延优化,包括繁杂的多级缓存(L1/L2/L3) 以及逻辑节制单元。 CPU承当运算核心以及节制中心的地位,GPU一般作为协处理器负责图形渲染以及并行计算。文章源自微观生活(93wg.com)微观生活-https://93wg.com/15143.html

GPU的核心功能一:图形渲染文章源自微观生活(93wg.com)微观生活-https://93wg.com/15143.html

GPU凭仗其较强的并行计算能力,已经成为个人电脑中图象渲染的专用途理器。 图形渲染具体实现要通过五阶段:顶点着色、形状装配、光栅化、纹理填充着色、测试与混合。 GPU渲染流程:三维图象信息输入GPU后,读取3D图形外观的顶点数据后,1)在流处理器中构建3D图形的的总体骨架,即 顶点处理;2)由光栅化处理单元把矢量图形转化为一系列像素点,即光栅化操作;3)在纹理映照单元实现纹理填充;4) 在流处理器中完成对像素的计算以及处理,即着色处理;5)在光栅化处理单元中实现测试与混合任务。至此,实现一个完 整的GPU渲染流程。文章源自微观生活(93wg.com)微观生活-https://93wg.com/15143.html

GPU的核心功能二:通用计算文章源自微观生活(93wg.com)微观生活-https://93wg.com/15143.html

2003年,GPGPU(General Purpose computing on GPU, 基于GPU的通用计算)的概念首次被提出,意指应用GPU的计算能力 在非图形处理领域进行更通用、更广泛的科学计算。GPGPU概念的提出,为GPU更加广泛的利用开辟了思路,GPGPU在传统 GPU的基础上进行了优化设计,部份GPGPU会去除了GPU中负责图形处理加速的硬件组成,使之更合适高性能并行计算。 GPGPU在数据中心被广泛地利用在人工智能以及高性能计算、数据分析等领域。GPGPU的并行处理结构无比合适人工智能计算, 人工智能计算精度需求常常不高,INT8、FP16、FP32常常可以知足大部份人工智能计算。GPGPU同时可以提供FP64的高精 度计算,使得GPGPU合适信号处理、三维医学成像、雷达成像等高性能计算场景。文章源自微观生活(93wg.com)微观生活-https://93wg.com/15143.html

微架构设计是GPU性能晋升的关键所在文章源自微观生活(93wg.com)微观生活-https://93wg.com/15143.html

GPU微架构(Micro Architecture)是兼容特定指令集的物理电路形成,由流处理器、纹理映照单元、光栅化处理单元、 光线追踪核心、张量核心、缓存等部件共同组成。图形渲染进程中的图形函数主要用于绘制各种图形及像素、实现光影处 理、3D坐标变换等进程,期间触及大量同类型数据(如图象矩阵)的密集、独立的数值计算,而GPU结构中众多重复的计 算单元就是为适应于此类特色的数据运算而设计的。微架构的设计对GPU性能的晋升施展着相当重要的作用,也是GPU研发进程中最关键的技术壁垒。微架构设计影响到芯片的 最高频率、一定频率下的运算能力、一定工艺下的能耗水平,是芯片设计的灵魂所在。英伟达H100相比于A100,1.2倍的 性能晋升来自于核心数目的晋升,5.2倍的性能晋升来自于微架构的设计。

GPU市场概述

GPU市场范围与细分

依据Verified Market Research的预测,2020年GPU全世界市场范围为254亿美金,预计到2028年将到达2465亿美金,行业保 持高速增长,CAGR为32.9%,2023年GPU全世界市场范围预计为595亿美元。 GPU按利用端划分为PC GPU、服务器GPU、智能驾驶GPU、移动端GPU。 PC GPU可以进一步划分为独立显卡以及集成显卡。独立显卡主要用作图形设计以及游戏,对性能的请求比较高,主要的厂商包 括英伟达以及AMD;集成显卡通经常使用在对图形处理性能需求不高的办公领域,主要产商包含Intel以及AMD。 服务器GPU通常利用在深度学习、科学计算、视频编解码等多种场景,主要的厂商包含英伟达以及AMD,英伟达占主导地位。 在自动驾驶领域, GPU通经常使用于自动驾驶算法的车端AI推理,英伟达盘踞主导地位。

PC显卡市场迎来至暗时刻后的光明

独立显卡市场开始逐步回暖。依据Jon Peddie Research的数据,2022年独立GPU出货量降落至3808万台,同比降落22.5%, 22Q3单季度出货690万台,同比降落45.7%,是十年以来最大的一次下滑,独立显卡出货情况22Q4开始逐步转暖。 集成显卡出货情况依然不容乐观。2022年集成GPU出货量为2.83亿台,同比下滑29.8%。疫情期间的居家办公需求带动了笔 记本电脑的消费增长,集成显卡的购买激增一定程度上过早损耗了市场需求,后疫情时期,笔记本电脑端需求减弱叠加供 应商的多余库存致使集成显卡出货不断走低。 咱们认为2022年独立显卡出货遭受巨大下滑的缘由有三点:一、受宏观经济影响,个人电脑市场处于下行周期;二、部份 独立GPU介入虚拟货泉挖矿,以太坊合并对独立GPU出货造成巨大冲击;三、下游板卡厂商开启降库存周期。

GPU在数据中心的利用储藏巨大潜力

在数据中心,GPU被广泛利用于人工智能的训练、推理、高性能计算(HPC)等领域。 预训练大模型带来的算力需求驱动人工智能服务器市场快速增长。巨量化是人工智能最近几年来发展的重要趋势,巨量化的核 心特色是模型参数多,训练数据量大。Transformer模型的提出开启了预训练大模型的时期,大模型的算力需求晋升速度 显著高于其他AI模型,为人工智能服务器的市场增长注入了强劲的驱动力。依据Omdia数据,人工智能服务器是服务器行 业中增速最快的细分市场,CAGR为49%。 战略需求推进GPU在高性能计算领域不乱增长。高性能计算(HPC)提供了强大的超高浮点计算能力,可知足计算密集型、 海量数据处理等业务的计算需求,如科学钻研、气象预报、计算摹拟、军事钻研、生物制药、基因测序等,极大缩短了海 量计算所用的时间,高性能计算已成为增进科技立异以及经济发展的重要手腕。

人工智能芯片的引领者——英伟达

GPU领域龙头英伟达发展史

英伟达(NVIDIA)创建于1993年,是一家专注于智能芯片设计以及图形处理技术的半导体公司。公司产品利用领域包含游戏、 数据中心、专业可视化、自动驾驶等,针对具体场景特色,英伟达推出了一系列特定优化的芯片以及服务器,同时踊跃打造 相应的软件生态,成为GPU领域的龙头企业。公司当前不但知足于芯片设计厂商的定位,在芯片、服务器等硬件设施之上, 开发CUDA、DOCA等基础软件架构,不断丰厚其软件生态,构成了软件业务的全栈式解决方案,终究在利用层面上提供AI计 算、高性能计算、自动驾驶、云游戏、元宇宙等众多计算服务,公司已从一家GPU公司胜利转型计算平台企业。

公司盈利能力历史表现优异

公司FY2023年实现营业收入269.74亿美元,与FY2022年同比基本持平。数据中心业务维持快速增长趋势,游戏业务、专业 可视化业务营收相对于下滑。FY23Q4营业收入为60.5亿美元,同比降落21%,然而环比晋升2%,收入事迹的恢复性增长主要得 益于游戏业务的快速复苏。公司FY24Q1营收指引为65亿,总体业务重回环比正增长阶段。 FY2023年GAAP净利润43.68亿美元,同比降落55.21%。第四季度GAAP净利润6.8亿美元,同比降落72%。FY2023财年游戏显 卡和数据中心计算芯片的需求相对于疲软,供大于求带来了较高的库存水平,致使了大额的资产减值损失,净利润水平有 所下滑。

2022年公司营收结构产生较大变化

公司FY2023营收结构产生较大变化,数据中心业务成为主要收入

公司游戏GPU拥有显著的技术优势

GeForce RTX 40系列显卡实现游戏性能的大幅晋升。GeForce RTX 40系列显卡采取英伟达Ada Lovelace架构,采取第三代 RT Core技术实现全景光追性能晋升至4倍,DLSS 3技术让渲染帧率成倍增添,配合着色器执行重排序技术、Nvidia Reflex等技术使其性能相较于Ampere架构晋升至两倍以上。

公司逐渐成为全世界AI芯片领域的主导者

英伟达的通用计算芯片具备优秀的硬件设计,通过CUDA架构等全栈式软件布局,深度发掘芯片硬件的性能极限,在各类下 游利用领域中,均推出了高性能的软硬件组合,逐渐成为全世界AI芯片领域的主导者。 初期英伟达在数据中心的产品布局主要为GPU加速服务器。通过不同型号的GPU加速器与CPU、DPU等其他硬件产品组合和 软件的开发,英伟达还推出了面向高性能计算(HPC)、人工智能(DGX)、边沿计算(EGX)等领域中的硬件产品。

全世界第二大GPU厂商——AMD

AMD简介

美国超威半导体公司(Advanced Micro Devices,AMD)创建于1969年,专门为计算机、通讯以及消费电子行业提供各类微 处理器和提供闪存以及低功率处理器方案,公司是全世界领先的CPU、GPU、APU以及FPGA设计厂商,掌握中央处理器、图形 处理器、闪存、芯片组和其他半导体技术,具体业务包含数据中心、客户端、游戏、嵌入式四大部份。公司采取 Fabless研发模式,聚焦于芯片设计环节,制造以及封测环节则拜托给全世界专业的代工厂处理。目前全世界CPU市场呈Intel 以及AMD寡头垄断格局, Intel占主导地位。在独立GPU市场中,主要是英伟达(NVIDIA)、AMD进行角逐,Intel目前凭仗其 锐炬Xe MAX产品也逐渐进入独立GPU市场。

AMD维持优良的增长态势

得益于公司数据中心、嵌入式业务的快速增长,公司营收以及净利润实现范围晋升。2022年公司营业收入236亿美元,同 比增长43.6%;2022Q4公司营收55.99亿美元,同比增长16%。 2022年公司净利润13.2亿美元,同比降落58.25%;2022Q4净利润0.21亿美元,同比降落98%,主要缘由系收购赛灵思的 无形资产摊销致使净利润下滑。 公司预期2023Q1营收53亿美元,同比下滑10%。客户以及游戏的细分市场预计会同比降落,部份被嵌入式以及数据中心细分 市场增长所抵消。

AMD分业务营收情况

公司营收主要包含四部份。数据中心业务主要包含用于数据中心服务器的各类芯片产品;客户端业务主要包含用于PC 的各类处理器芯片;游戏业务主要包含独立GPU及其他游戏产品开发服务;嵌入式业务主要包含合用于边沿计算的各类 嵌入式计算芯片。 公司数据中心、嵌入式业务的营收增长较快。2022年,公司数据中心业务收入60.43亿美元,营收占比25.60%;客户端 业务收入62.01亿美元,营收占比26.27%;游戏业务收入68.05亿美元,营收占比28.83%;嵌入式业务收入45.52亿美元, 营收占比19.29%。

AMD ROCm计算生态

AMD ROCm是Radeon Open Compute (platform)的缩写,是2015年AMD公司为了对标CUDA生态而开发的一套用于HPC以及超 大范围GPU计算提供的开源软件开发平台。ROCm之于AMD GPU至关于CUDA之于英伟达GPU。 ROCm是一个完全的GPGPU生态系统,在源码级别上实现CUDA程序支撑。ROCm在总体架构上与CUDA相似,实现了主要模块 的对齐,封装层次较CUDA更加繁杂。ROCm由下列组件组成:HIP程序、ROC运行库、ROCm库、ROCm核心驱动,ROCm支撑各 类主流的深度学习框架,例如Tensorflow 、PyTorch、Caffe等。

移动GPU厂商

移动端GPU采取不同的架构设计

移动端GPU在设计进程中受到能耗以及体积方面的限制,都是以集成的SOC芯片情势呈现在移动端,被广泛利用在手机、 平板电脑、VR、AR装备、物联网装备之中。 SOC芯片中,CPU、GPU同享有限的内存带宽,频繁使用内存带宽会造成较大的能耗,通过采取分块渲染架构(TileBased Rendering,TBR)可以有效减少带宽损耗,其核心思想是:将帧缓冲分割为一小块一小块,然后在片上高速内存 逐块进行渲染,与PC端采取的及时渲染架构(IMR)相比,极大的减少了DRAM的走访次数,从而降低了总体能耗。 分块延迟渲染架构(TBDR)采取影藏面解除(HSR),不会渲染被遮挡的物体表面片,渲染效力进一步晋升。

高通在旗舰Android智能手机SoC市场中维持领先

高通自研GPU源自2009年收购于AMD的移动GPU Imageon系列,后改名为Adreno,并集成到自家骁龙SoC中,发展至今已 到“Adreno-7”系列,在全世界旗舰Android智能手机SoC市场中维持领先。 据IDC讲演显示,2022Q3全世界手机市场出货量下滑8%,高通手机业务营收仍实现40%增长;Counterpoint Research钻研 显示公司在AP/SoC芯片市场的份额从过往的25%左右晋升至30%左右,稳占高端安卓市场。采取骁龙8+的OEM厂商以及品牌 包含华硕ROG、黑鲨、光荣、联想、Motorola、努比亚、一加、OPPO、OSOM、realme、红魔、Redmi、vivo、小米以及中兴 等。

国内GPU厂商发展情况

国内GPU市场空间广阔

国内市场空间广阔,PC、服务器拉动GPU需求。依据Verified Market Research数据,2020年中国GPU市场范围为47.39 亿美元,预计2023年中国GPU市场范围将到达111亿美元。中国数字化经济转型延续推动,催生大量对GPU的市场需求, 给GPU带来广阔的市场空间。伴同着近期宏观经济回暖和国内互联网企业纷纭加大AI算力布局,PC以及服务器的需求上 升有望为国内GPU市场带来总体拉动效应。 GPU的国产替换进程中也需要战胜诸多难题,例如:软件生态和IP、先进工艺的生产不可控,缺少人材贮备,人力、 时间、资金投入本钱较高等。

海光信息提供服务器、工作站中的高端处理器芯片

海光信息成立于2014年,主营业务是研发、设计以及销售利用于服务器、工作站等计算、存储装备中的高端处理器。产 品包含海光通用途理器(CPU)以及海光协处理器(DCU),目前已经研发出多款新能到达国际同类主流产品的高端CPU以及DCU产 品。2018年10月,公司启动深算一号DCU产品设计,目前海光DCU系列深算一号已经实现商业化利用,2020年1月,公司 启动了第二代DCU深算二号的产品研发工作。

以上就是微观生活(93wg.com)关于“GPU行业深度钻研:AI大模型浪潮风起,GPU芯片再立潮头”的详细内容,希望对大家有所帮助!

继续阅读
 
小微
  • 版权声明: 本文部分文字与图片资源来自于网络,转载此文是出于传递更多信息之目的,若有来源标注错误或侵犯了您的合法权益,请立即通知我们(管理员邮箱:81118366@qq.com),情况属实,我们会第一时间予以删除,并同时向您表示歉意,谢谢!
  • 转载请务必保留本文链接:https://93wg.com/15143.html