【ASIC芯片进化，大模型推理翻倍】Groq公司突破，关注ASIC芯片、网络端、边缘推理端投资机遇！-玖儿的学习笔记

导语：Groq公司宣布新一代LPU能以API形式提供先进的语言模型推理，相较GPU推理速度翻倍且价格更低。Groq ASIC芯片在推理端的架构优势凸显，通过定制化编译提升推理性能，并且成本优势体现在内存。此外，芯片互联势必带来网络架构进一步升级。ASIC芯片的进展将影响海外科技巨头，如微软、谷歌和苹果，以及芯片互联架构相关企业。同时，边缘推理技术将有望快速发展，影响苹果、Meta、TSMC等公司。投资者应关注这些领域的投资机会。

事件：2024年2月19日，由谷歌TPU第一代设计者Jonathan Ross所创立的Groq公司正式宣布：新一代LPU（Language Processing Unit），以API形式提供先进的MOE 开源大语言模型 Mistral 8X 7B 的推理，并在多个公开测试中，以几乎最低的价格，相比GPU推理速度翻倍。

我们的判断：
我们在此前2024年9大科技判断即认为“AlphaGo（Self play、Synthetic Data）+LLM重塑大模型架构。计算/成本的最大瓶颈或许不再是内存墙。”
Groq的本质即为减少计算中内存调用次数，实现Scale Out，从而实现推理效率的突破。

Groq ASIC芯片在推理端的架构优势进一步显现：根据Groq官网白皮文档，Groq LPU的先进源于其设计理念的独立，部分放弃卷积的设计，专注于矩阵X向量、矩阵X矩阵计算。芯片的核心是矩阵乘法单元，矩阵引擎通过具有320个元素的向量进行操作。浮点运算中一对字节平面（byte planes）协作产生一个FP16的输出。芯片的中间是矢量执行模块（VXM，vector execution module）。

Groq ASIC芯片通过放弃灵活性和训练性能获得推理性能大幅提升：其对大模型的定制化编译，大幅提升推理速度， LPU 运行编译后的LLM代码,执行生成AI推理应用程序。编译器提供可预测的工作负载性能和计时。

ASIC芯片在成本优势主要体现在内存：根据Groq创始人采访，与GPU不同，LPU只有一个核心，创始人称之为TISC或时间指令集计算机体系结构。它不需要像GPU那样频繁地从内存重新加载。因此采用SRAM而非昂贵的HBM。目前Groq API推理Mistral的定价低于其它32K 上下文长度GPU 定价。

更多芯片互联势必带来网络架构进一步升级：根据Groq官网白皮书，Groq采用蜻蜓拓扑来完全连接机架内的八个全局节点集，系统中可连接多达145个机架，从而实现超过10000 TSP的总可扩展性，势必带来光模块用量的持续提升。

边缘推理成本时延有望进一步突破，应用有望快速爆发：我们认为相比HBM，SRAM设计下的ASIC芯片有望在边缘端实现更低成本下的快速，灵活的推理，在语音交互，图片和视频生成等场景逐步提供与用户需求匹配的体验，从而带动AI应用进一步快速渗透与迭代。

相关标的
海外科技巨头与应用：微软、谷歌、苹果、Meta、Shopify、Duolingo等
ASIC芯片与芯片互联架构：Amazon、Alchips、关注英伟达/AMD ASIC芯片进展、（计算机组覆盖）寒武纪、（电子组覆盖）澜起科技、芯原股份
交换机与光模块：Broadcomm、Marvel、Coherent、Arista、Fabrinet、（通信组覆盖）旭创、天孚、新易盛
边缘推理：苹果、Meta、TSMC、联想股份
AI应用：万兴科技、当虹科技、中广天择、中文在线

1、本网站名称：99学社
2、本站永久网址：https://www.xueshe9.com
3、本网站的文章部分内容可能来源于网络，仅供大家学习与参考，如有侵权，请点击跳转到免责声明页面处理。
4、本站一切资源不代表本站立场，并不代表本站赞同其观点和对其真实性负责。
5、本站一律禁止以任何方式发布或转载任何违法的相关信息，访客发现请向站长举报。
6、本站资源大多存储在云盘，如发现链接失效，请联系我们我们会第一时间更新。

THE END