市场中,已经很久没有新闻了,但龙年春节刚过,一家名为Groq的初创公司从前者手中夺下“最快”AI推理芯片的称号。
Groq宣称其LPU(语言处理单元)的推理性能是GPU(图形处理器)的10倍,而成本仅为其十分之一。此外,Groq凭借自研的推理芯片LPU,使大模型生成速度接近每秒500 token(文本中的一个最小单位),碾压GPT-3.5的每秒40 token。
这在社会化媒体上引发了广泛讨论。2月19日,Groq向用户开放了产品体验入口,“快”是经由Groq加速推理的开源大模型带给人的最直观感受。有用户登入此公司的网站,敲入一个问题,它以闪电般的速度给出了答案,每秒钟278个token!对此,有人评价:“它回复的速度比我眨眼还快。”
然而,虽然Groq的LPU推理速度快,但是这种快也很烧钱,成本比通用的GPU要高出不少。此外,LPU还有些专,现在只能跑两个Mixtral 8×7B-32K、Llama 2-70B-4K开源模型。对于Groq的LPU未来还能跑哪些模型,《中国经营报》记者联系采访该公司方面,截止至发稿未获答复。
电子创新网CEO张国斌对记者表示:“任何一个AI算法都能够正常的使用的H100,但只有Mixtral和Llama 2才能用Groq的LPU。LPU是一款ASIC(专用芯片),只能适用特定模型,通用性较差,而且性价比并不高,不值得高调炒作,以免误导了领域芯片公司的开发方向。”
虽然有观点称其为“史上最快大模型”,但Groq作出了澄清:“我们不是大型语言模型。我们的LPU推理引擎是一种新型的端到端处理单元系统,它为计算密集型应用提供最快的推理能力,这些应用具有序列组件,例如语言应用。”
据了解,Groq由谷歌第一代张量处理单元(TPU)创造者之一的乔纳森·罗斯(Jonathan Ross)在2016年创立。他认为,芯片设计应从软件定义网络(SDN)中吸取灵感。
罗斯表示,Groq的存在是为了消除“贫富差距”,并帮助 AI 社区中的每个人蒸蒸日上。他还表示,推理对于实现这一目标至关重要,因为速度是将研发人员的想法转化为业务解决方案和改变生活的应用程序的关键。
2021年,Groq获得了由知名投资机构老虎环球管理基金、D1 Capital领投的3亿美元,总融资额达3.67亿美元。
在2023年的高性能计算会议SC23上,Groq以每秒超过280个Token的速度生成回复,刷新了Llama-2 70B推理的性能纪录。2024年1月,Groq首次参与公开基准测试,就在 Anyscale的LLMPerf 排行榜上取得了突出的成绩,远超其他基于GPU的云服务提供商。
2月13日,Groq在ArtificialAnalysis.ai最新的LLM基准测试中再次获胜,在延迟与吞吐量等关键性能指标上击败了8名参与者,其处理吞吐量达到其他推理服务的4倍,同时收费还不到Mistral自己的1/3。
Groq创新的核心在于其LPU,它旨在以前所未有的速度加速AI模型,包括ChatGPT这类语言模型。Groq官网介绍说,LPU代表语言处理单元,是一种新型的端到端处理单元系统,可为具有顺序组件的计算密集型应用程序(如大语言模型LLM)提供最快的推理服务。
为什么LPU用于LLM和生成式AI时比GPU快得多?Groq官网解释说,LPU旨在克服LLM的两个瓶颈:计算密度和内存带宽。对于LLM来说,LPU的计算能力要大于GPU和CPU,减少了计算每个单词所需的时间后,可以更快生成文本序列。此外,通过消除外部内存瓶颈,LPU推理引擎能在LLM上提供比GPU高几个数量级的性能。
值得注意的是,与利用高带宽内存(HBM)的GPU不同,Groq的LPU用SRAM进行数据存储。然而,这种设计并非创新突破,据称百度昆仑芯和英国的GraphCore也使用类似的内部存储方式。
另外,Groq LPU基于新的张量流处理器架构,其内存单元与向量和矩阵深度学习功能单元交错,从而利用机器学习工作负载固有的并行性对推理进行加速。
在运算处理的同时,每个TSP都还具有网络交换的功能,可直接利用互联网与其他TSP交换信息,无须依赖外部的网络设备,这种设计提高了系统的并行解决能力和效率。
Groq可支持多种用于模型推理的机器学习开发框架,包括PyTorch、TensorFlow和ONNX,但不支持使用LPU推理引擎进行ML训练。
对于Groq芯片的独特之处,据与Groq关系紧密的投资人k_zeroS在其X平台账号发文表示,LPU的运作方式与GPU不同,它使用时序指令集计算机(Temporal Instruction Set Computer)架构,与GPU使用的SIMD(单指令,多数据)不同。这种设计可以让芯片不必像GPU那样频繁地从HBM内存重载数据。
Groq芯片使用的是SRAM,其速度比GPU所用的存储器快约20倍。这也有助于避免HB短缺问题并减少相关成本,目前HBM的供应除了依赖于三星和海力士,在封装上也依赖台积电的CoWoS技术。
更多信息数据显示,Groq的芯片采用14nm制程,搭载了230MB SRAM以保证内存带宽,片上内存带宽达80TB/s。在算力方面,该芯片的整型(8位)运算速度为750TOPs,浮点(16位)运算速度为188TFLOPs。
原脸书AI科学家、阿里原技术副总裁贾扬清分析称,Groq LPU的内存容量非常小(230MB)。简单计算得出,运行700亿参数模型时,需要305张Groq卡,相当于使用8张英伟达H100。从目前的价格来看,这在某种程度上预示着在同等吞吐量下,Groq LPU的硬件成本约是H100的40倍,能耗成本约是其10倍。
芯片专家姚金鑫(J叔)在接受记者正常采访时表示,从同等算力来看,如果都是用INT8来推理,采用Groq的方案需要9台包含72片的服务器集群,而如果是H100,达到同等算力大约需要2台8卡服务器,此时的INT8算力已经到64P,可以同时部署的7B大模型数量达到80多个。从成本的角度看,9台的Groq服务器的成本,也是远远高过2台H100的服务器。
在第三方网站上,搭载Groq芯片的加速卡售价为2万多美元,差不多15万元人民币,低于H100的2.5万—3万美元。总结来看,Groq的架构建立在小内存、大算力上,因此有限的被处理的内容对应着极高的算力,导致其速度很快。但反之,Groq极高的速度是建立在很有限的单卡吞吐能力上的,要保证和H100同样的吞吐量,就需要更加多的卡。
对此,张国斌表示:“任何一个AI算法都能够正常的使用英伟达的H100,但只有Mixtral和Llama 2才能用Groq的LPU。大模型公司想要使用Groq的产品,还需要先确定需求和指定规格,再进行功能验证,最后产出的产品才能用。”
张国斌指出,Groq的LPU是专门为大模型搞的专用芯片,所以速度快,属于正常。“速度快了,效率高了,电费也省了,挺划算。未来未来市场发展的潜力应该有,比如那种支持大模型的智能体、便携式终端。”他说。
但是,张国斌表明了自己不看好LPU这样的一个东西,由于它的局限性太大了,只能特定的模型使用。“以后有一定的概率会支持更多大模型,但是总没有通用型的好。目前我看一些测试说它的精度也不够。”张国斌用了一个比喻来解释精度不够,在一个交通复杂的城市里,LPU收集了所有人早上上班的方向,然后用软件来决定红绿灯,关掉了一条路上所有的交通灯,让所有同一方向的车子在这条路上只管往前开。
“它是一款ASIC芯片,只能适用特定模型,通用性较差,而且性价比并不高,不值得高调炒作,以免误导了AI领域芯片公司的开发方向。”张国斌还表示,人工智能要深入到千行百业,总不能每个场景搞个ASIC,还是通用GPU比较好,实际上的意思就是需要能多个场景使用的人工智能处理器。
Groq的商业模式是针对大型系统,也为企业部署,它不出售单卡/芯片。因为拥有芯片到系统的整个技术栈,而且没中间商,它能产生单位Token的价格上的优势。在2023年年底的一场采访中,罗斯表示考虑到GPU的短缺和高昂的成本,他相信Groq未来的发展的潜在能力:“在12个月内,我们大家可以部署10万个LPU,在24个月内,我们大家可以部署100万个LPU。”
通用VS专用,谁更好?得让子弹多飞会儿吧。不过,美国当地时间2月22日收盘,受最新财报超预期的刺激,英伟达股价报785.38美元,飙涨16.4%,市值单日飙升2733亿美元(约合人民币2万亿元),创下美股史上最大单日市值增幅纪录。
英伟达一夜增长的市值,相当于增加了一整个的Netflix或Adobe的市值,或接近半个摩根大通或两个高盛的市值。英伟达市值再创历史上最新的记录,逼近2万亿美元,成为微软、苹果之后全球第三高市值。