首页 抖音热门文章正文

AI芯片黑马融资53亿,估值490亿

抖音热门 2025年09月18日 17:53 2 cc

公众号记得加星标⭐️,第一时间看推送不会错过。

来源 : 内容 编译自 siliconangle 。  

人工智能推理芯片开发商 Groq Inc. 今天宣布已筹集 7.5 亿美元的新资金。

Databricks Inc. 的支持者 Disruptive 领投了此轮融资。思科系统公司 (Cisco Systems Inc.)、三星电子公司 (Samsung Electronics Co.)、德国电信资本合伙公司 (Deutsche Telekom Capital Partners) 和多家投资公司也参与了此次融资。Groq 目前的估值为 690 万美元,高于去年的 28 亿美元。

Groq 推出了一款名为语言处理单元 (LPU) 的处理器。该公司声称,该芯片能够以比显卡高 10 倍的能效运行某些推理工作负载。Groq 表示,LPU 的高效运行得益于多项竞争对手芯片所不具备的优化。

协调运行 AI 模型所涉及的不同处理器组件可能会消耗大量的计算能力。据 Groq 称,其 LPU 降低了这种开销,从而为推理留下了更多的处理能力。该公司表示,其芯片可以运行包含 1 万亿个参数的模型。

Groq 的 LPU 使用自定义编译器减少了与电路协调任务相关的开销。编译器会在推理工作负载启动之前计算出哪个电路应该执行哪个任务,从而无需在运行时运行必要的计算。

Groq 的编译器还以其他方式优化 AI 模型。许多芯片使用一种称为量化的技术来压缩神经网络,这可以减少其内存占用,但会牺牲一些输出质量。Groq 表示,其编译器使用了该技术的改进版本 RealScale。该技术仅压缩神经网络中量化后输出质量不会显著下降的部分。

LPU 的另一个卖点是它具有所谓的确定性架构。因此,可以以单个时钟周期的粒度预测每个给定计算操作所需的时间。据 Groq 称,LPU 的可预测性有助于实现原本难以实现的性能优化。

该公司将其芯片作为名为 GroqRack 的设备的一部分出售。该系统包含九台服务器,每台服务器都配备多个逻辑处理器 (LPU)。Grok 表示,GroqRack 所需的外部网络硬件比同类竞争产品更少,从而降低了成本,并且无需进行大规模设备升级即可安装在数据中心。

该公司还通过云平台提供芯片访问。该平台名为 GroqCloud,托管由 LPU 驱动的 AI 模型,开发人员可以通过应用程序编程接口 (API) 将其集成到自己的软件中。Groq 将利用新融资来扩展支持 GroqCloud 的数据中心网络。

此次投资正值有报道称,一家竞争对手的推理芯片供应商正在寻求新一轮融资之际。据报道,总部位于加州圣克拉拉的Rivos正在洽谈以20亿美元的估值筹集至多5亿美元。该公司正在开发一款将显卡与中央处理器核心相结合的片上系统。

Groq打造的LPU是什么?

Groq 构建快速的 AI 推理。Groq LPU AI 推理技术可提供卓越的 AI 计算速度、质量和规模经济性。

Groq AI 推理基础架构,特别是GroqCloud,由语言处理单元 (LPU) 提供支持,这是一种新型处理器。Groq 完全从零开始创建和构建了 LPU,以满足 AI 的独特需求。LPU 能够以更快的速度运行大型语言模型 (LLM) 和其他领先模型,并且在架构层面,与 GPU 相比,其能源效率最高可提高 10 倍。

Groq LPU 通过四个核心设计原则以及其架构提供如此卓越的性能。具体而言,这些原则包括:软件优先、可编程装配线架构、确定性计算和网络和片上存储器。

LPU设计原则1:软件优先

Groq LPU 架构秉承软件优先的原则,旨在简化软件开发人员最大化硬件利用率的工作,并将尽可能多的控制权交到开发人员手中。

GPU 功能多样、性能强大,能够处理各种不同的计算任务。但它们也十分复杂,给软件带来了额外的负担。它必须考虑工作负载在多个芯片内部和跨芯片执行方式的差异性,这使得调度运行时执行和最大化硬件利用率变得更加困难。为了最大限度地提高 GPU 的硬件利用率,每个新的 AI 模型都需要编写特定于模型的内核。这正是我们“软件优先”原则如此重要的原因——对于 GPU 而言,软件始终是硬件的次要因素。

Groq LPU 从一开始就专为线性代数计算而设计——这是 AI 推理的主要需求。通过将重点限制在线性代数计算上并简化多芯片计算范式,Groq 采用了一种独特的 AI 推理和芯片设计方法。该 LPU 采用可编程流水线架构,使 AI 推理技术能够使用通用的、独立于模型的编译器,并始终秉持其软件优先的原则。软件始终处于主导地位,完全控制推理的每个步骤。

目标是使软件开发人员能够更轻松地最大化硬件利用率,并将尽可能多的控制权交到开发人员手中。

软件优先不仅仅是一种设计原则——它实际上是 Groq 构建其第一代 GroqChip™ 处理器的方式。在设计编译器架构之前,我们从未接触过芯片设计。编译器接受来自多个不同框架的工作负载,并通过多个阶段运行这些工作负载。当编译器映射并调度程序在一个或多个逻辑处理器 (LPU) 上运行时,它会优化性能和利用率。最终,程序将涵盖整个执行过程中的所有数据移动信息。

LPU设计原则2:可编程装配线架构

Groq LPU 的主要定义特征是其可编程流水线架构。

LPU 具有数据“传送带”,用于在芯片的 SIMD(单指令/多数据)功能单元之间传输指令和数据。在组装过程的每个步骤中,功能单元都会通过传送带接收指令。这些指令会告知功能单元应该从哪里获取输入数据(哪条传送带)、应该使用这些数据执行哪些功能以及应该将输出数据放置在何处。此过程完全由软件控制;无需硬件同步。

LPU可编程流式架构支持芯片内和芯片间的流水线流程。芯片间带宽充足,使数据传送带能够像芯片内一样轻松地在芯片间传输。即使在最大容量下,也无需路由器或控制器来实现芯片间连接。

芯片内部和芯片间的装配线流程消除了瓶颈。无需等待计算或内存资源即可完成任务。由于没有瓶颈需要管理,芯片上无需额外控制器。装配线运行顺畅高效,完美同步。

与 GPU 的工作方式相比,这是一个巨大的进步。GPU 采用多核“中心辐射”模型运行,这种模型中低效的数据分页方法需要大量开销,以便在芯片内部和跨芯片的计算单元和内存单元之间来回传输数据。GPU 还利用机架内部和跨机架的多层外部交换机和网络芯片进行相互通信,这进一步加剧了软件调度的复杂性。这导致多核方法难以编程。

LPU设计原则3:确定性计算和网络

为了使装配线高效运行,必须高度确定每个步骤的确切耗时。如果某项任务的执行时间差异过大,这种差异就会影响整条装配线。高效的装配线需要高度精确的确定性。

LPU 架构具有确定性,这意味着每个执行步骤都完全可预测,甚至可以精确到最小执行周期(也称为时钟周期)。软件控制的硬件能够高度精确地了解操作发生的时间和地点,以及执行所需的时间。

Groq LPU 通过消除关键资源(即数据带宽和计算)的争用来实现高度确定性。芯片(传送带)拥有充足的数据路由容量,芯片的功能单元也拥有充足的计算能力。不同任务使用相同资源不会出现问题,因此不会因资源瓶颈而导致执行延迟。

芯片之间的数据路由也是如此。LPU 数据传送带也在芯片之间运行,因此连接芯片会形成更大的可编程流水线。数据流在编译期间由软件静态调度,并且每次程序运行时都以相同的方式执行。

LPU设计原则4:片上存储器

LPU 包含片上内存和计算功能,可大幅提高数据存储和检索的速度,同时消除时序差异。确定性可确保装配线高效运行并消除每个计算阶段的差异性,而片上内存则可使其运行速度更快。

GPU 使用独立的高带宽内存芯片,这带来了复杂性——需要多层内存缓存、交换机和路由器来来回回传输数据——同时也消耗了大量的能源。将内存集成在同一芯片上可以提高每次 I/O 操作的效率和速度,并消除复杂性和不确定性。

Groq 片上 SRAM 的内存带宽高达 80 TB/秒,而 GPU 片外 HBM 的内存带宽约为 8 TB/秒。仅凭这一点差异,LPU 的速度就提升了 10 倍,而且 LPU 还无需往返于单独的内存芯片来检索数据,从而获得了显著的提升。

芯片内部和芯片间的流水线流程消除了瓶颈,无需等待计算或内存资源即可完成任务。

正是得益于这些设计,Groq LPU能 提供卓越的速度、质量和经济实惠的规模化解决方案。得益于其固有的设计原则,LPU 的性能优势将持久有效。GPU 的速度和成本将继续降低,Groq 亦是如此,而且速度会更快。我们目前的芯片组采用 14 纳米工艺制造。随着我们逐步迈向 4 纳米工艺,LPU 架构的性能优势将更加显著。

Groq强调,上述是 Groq 指导 LPU 产品开发的“首要原则”。即使 GPU 制造商试图缩小差距,公司也能确保保持显著的性能优势。

*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。

END

今天是《半导体行业观察》为您分享的第4160期内容,欢迎关注。

加星标⭐️第一时间看推送,小号防走丢

AI芯片黑马融资53亿,估值490亿

求分享

AI芯片黑马融资53亿,估值490亿

求推荐

AI芯片黑马融资53亿,估值490亿

发表评论

德业号 网站地图 Copyright © 2013-2024 德业号. All Rights Reserved.