Groq 是什么？

Groq (opens in a new tab) 最近因其作为当今最快的大型语言模型（LLM）推理解决方案之一而广受关注。LLM 实践者对于降低LLM响应的延迟非常感兴趣，因为延迟是一个重要的性能指标，它需要被优化以支持实时人工智能应用。目前，许多公司都在LLM推理领域展开竞争。

Groq 是那些声称在 Anyscale 的 LLMPerf 排行榜 (opens in a new tab)上，比其他顶尖的基于云的服务提供商快 18 倍的公司之一。Groq 目前通过其 API 提供了 Meta AI 的 Llama 2 70B 和 Mixtral 8x7B 等模型。这些模型由 Groq LPU™ 推理引擎驱动，该引擎是基于他们为运行 LLM 特别设计的定制硬件——语言处理单元（LPUs）构建的。

根据 Groq 的常见问题解答，LPU 有助于减少每个单词的计算时间，从而加快文本序列的生成。您可以在他们获得 ISCA 奖项的 2020 年 (opens in a new tab)和 2022 年 (opens in a new tab) 的论文中，阅读有关 LPU 技术细节及其优势的更多信息。

以下是一张展示了他们模型的速度和定价的图表：

"Groq 定价"

下面的图表比较了输出词元吞吐量（Output Tokens Throughput，词元/秒），这是衡量每秒返回的平均输出词元数的指标。图表中的数字代表了基于 150 个请求的 Llama 2 70B 模型上，LLM 推理服务提供商的平均输出词元吞吐量。

"LLMPerf 排行榜"

对于流媒体应用而言，LLM 推理的另一个重要因素是首个词元时间（Time to First Token，TTFT），它指的是 LLM 返回第一个词元所需的时间。以下图表展示了不同 LLM 推理服务提供商在这方面的表现：

"首个词元时间（秒）"

您可以在此处 (opens in a new tab) 阅读有关 Groq 在 Anyscale 的 LLMPerf 排行榜上的 LLM 推理性能的更多信息。

LLM Tokenization 论文