Groq 介紹

Groq 的主要產品是 LPU (Language Processing Units),能夠大幅提升模型的推論速度,這表示模型回答的速度加快,比 GPT-4o 快了數倍。
Groq 的 實驗性模型 llama-3.3-70b-specdec 在 GroqCloud 上的推論速度最快可以達到 1,660 tokens/s

  • 低延遲 (Seconds to First Token Received)

  • 高性能 (High Output Tokens per Second)

可以使用的 Models

使用

可以在官方網站 https://groq.com/ 或是playground直接使用

API

https://console.groq.com/keys
在左邊 API Keys 的選單中點擊 Create API Key,目前免費層級有提供一定的額度使用,API 兼容 openai 格式,修改 base_url 和 model 後可以直接使用。

import os
import openai

client = openai.OpenAI(
    base_url="https://api.groq.com/openai/v1",
    api_key=os.environ.get("GROQ_API_KEY")
)

Cerebras 介紹

Cerebras 研發的產品是 Wafer Scale Engine(WSE,晶圓級引擎),是一款 超大型 AI 加速晶片。

可以使用的 Models

使用

可以在首頁https://inference.cerebras.ai/直接使用

API

https://cloud.cerebras.ai/platform/
首頁右上方點擊 Get API Key,需要填寫 Google 表單申請,目前免費層級有提供一定的額度使用,
API 兼容 openai 格式,修改 base_url 為 https://api.cerebras.ai/v1model 後可以直接使用。

Sambanova 介紹

SambaNova 開發的產品是 SN40L ,Reconfigurable Dataflow Unit (RDU),專為 AI 推理與訓練設計的整合式加速晶片。

  • SambaNova 與其他競品的比較
  • 來源
指標SambaNova SN40LCerebras WSE-3Groq LPU
晶片數(70B 模型)16 晶片336 晶片(4 晶圓)576 晶片
算力密度優於 Groq 40 倍 / Cerebras 10 倍高算力但受限於 SRAM 與多晶圓管線並行成本需大量晶片互連以補足 SRAM 容量限制
記憶體架構SRAM + HBM + DDR全 SRAM全 SRAM
量化需求無(16-bit 原生)無(官方宣稱使用 16-bit)推測需 int8 量化

可以使用的 Models

使用

可以在官方網站 playground直接使用

API

https://cloud.sambanova.ai/apis
在左邊 API Keys 的選單中點擊 Create API Key,目前提供新用戶 5 美元(3 個月到期),
API 兼容 openai 格式,修改 base_url 為 https://api.sambanova.ai 和 model 後可以直接使用。