LPU(Language Processing Unit)芯片是一种专为AI推理所设计的芯片。与主要为图形渲染而设计的GPU不同,LPU架构采用了一种与GPU的SIMD(单指令,多数据)不同的设计,这可以让芯片更有效地利用每个时钟周期,确保一致的延迟和吞吐量,并降低复杂调度硬件的需求。
LPU是一个端到端系统,专为需要大量计算和连续处理的应用(如LLM)提供最快的推理而设计。例如,Groq公司的LPU芯片推理速度较英伟达的GPU提高10倍,成本只有其1/10,运行的大模型生成速度接近每秒500 tokens,远超ChatGPT-3.5的约40 tokens/秒的速度。