Groq发布超快LLM引擎速度让英伟达望尘莫及

“
Groq公司最新推出的LLM引擎在速度和智能化方面取得突破,其响应速度达到每秒1256.54个token,远超Nvidia GPU,为AI应用部署提供了新的选择。
Groq公司在AI领域取得了显著进展,其最新推出的大型语言模型(LLM)引擎在速度和智能化方面实现了重大突破。Groq上周低调发布了这项新功能,其响应速度达到了每秒1256.54个token,这一速度几乎是即时的,且据Groq称,是Nvidia等公司的GPU芯片所无法匹敌的。
Groq的这一成就标志着AI处理能力的一个新里程碑。公司网站引擎默认使用的是Meta公司的开源Llama3-8b-8192 LLM,用户还可以选择更大的Llama3-70b,以及一些Gemma(Google)和Mistral模型,未来还将支持更多模型。这种快速且灵活的体验对于开发者和普通用户来说都非常重要,它展示了LLM聊天机器人的潜力。
Groq的CEO Jonathan Ross在接受《华尔街日报》采访时表示,一旦人们发现在Groq的快速引擎上使用LLM是多么容易,LLM的使用率将会进一步提高。例如,在一次演示中,Groq几乎是即时地对即将举行的活动议程进行了批评,并提供了反馈,包括建议更清晰的分类、更详细的会议描述和更完善的演讲者资料。
此外,Groq还允许用户通过语音命令进行查询,使用了OpenAI的最新开源自动语音识别和语音翻译模型Whisper Large V3,将语音转换为文本,然后作为LLM的提示。这种创新的使用方式为用户提供了极大的便利。
Groq之所以受到关注,是因为它承诺可以以比竞争对手更快、更经济的方式完成AI任务。这在一定程度上得益于其语言处理单元(LPU), 它在这类任务上比GPU更有效率,部分原因是LPU以线性方式运行。虽然GPU对模型训练至关重要,但当AI应用程序实际部署时,它们需要更高的效率和更低的延迟。
到目前为止,Groq已经免费提供了其服务,以支持LLM工作负载,并且得到了开发者的广泛欢迎,数量已经超过了282,000。Groq的服务是在16周前推出的,为开发者提供了一个控制台来构建他们的应用程序,这与其他推理服务提供商提供的类似。值得注意的是,Groq允许在OpenAI上构建应用程序的开发者在几秒钟内将他们的应用程序迁移到Groq,只需几个简单的步骤。
现在,用户不仅可以在 Groq 引擎中输入查询,还可以在点击麦克风图标后通过语音进行查询。Groq 使用 OpenAI 的最新开源自动语音识别和语音翻译模型 Whisper Large V3,将用户的语音转换为文本,然后该文本被用作 LLM 的提示。
Groq 表示,其技术在最坏的情况下使用的功率大约是 GPU 的三分之一,但在大多数工作负载中,使用的功率仅为 GPU 的十分之一。在一个 LLM 工作负载似乎永无止境,能源需求不断增长的世界里,Groq 的高效率对以 GPU 为主导的计算领域构成了挑战。


共有 0 条评论