Token 與定價
現在我們已經大致了解 AI 模型的運作方式,接著來談一個能同時幫助你理解模型如何思考與使用成本的概念:token。
你可以把 token 想成 AI 模型實際理解的「字」。但重點是,它們和我們平常使用的文字並不完全相同。
就像你的電腦其實不理解字母「A」,而是以二進位(1 與 0)運作,AI 模型也不是直接處理像「hello」或「world」這樣的詞。相反地,它們會把內容拆解成更小的單位,稱為 token。
例如,單字「hello」可能是一個 token,但「understanding」可能會被拆成多個 token,如「under」、「stand」和「ing」。有時候連詞的一部分、標點符號或空白也會成為各自的 token。
執行提示並啟用 tokenizer 檢視StartWhat are some tips for providing better context when working with AI coding assistants? Be concise.
為什麼這很重要?有兩個原因:
- 模型的定價以 token 計費。 你是按 token 付費,而不是按詞或字元。
- 我們以 token 來衡量模型速度。 較快的模型有較高的 TPS(每秒 token 數),會更快回傳結果給使用者。
先談定價,因為這會影響你使用 AI 模型的花費。
認識 Token#
如果我們延續「AI 模型就像 API」的類比,那麼 Token 就是用來衡量並計費輸入與輸出流量的單位。
AI 模型的計費基於兩種類型的 Token:
- 輸入 Token:包含你傳給模型的所有內容,例如你的提示(prompt)與先前的對話。
- 輸出 Token:包含模型回傳給你的所有內容。
輸出 Token 通常比輸入 Token 貴 2–4 倍,因為生成新內容所需的運算量比僅處理你傳送的內容更多。
由於 AI 模型是依據 Token 計費,理解它們對於管理成本至關重要。可以把它想成了解你的伺服器成本。
你會希望有意識地控制在初始上下文中要放多少資訊(我們接下來會談),以及如何引導模型在回應時保持精簡或提供更完整的細節。
串流回應#
你是否注意過 ChatGPT 或其他 AI 聊天機器人似乎會即時「打字」回應?這不只是視覺效果,實際上模型在底層就是這樣運作的。
AI 模型會一次產生一個 token,依序進行。它們會預測下一個 token,然後利用該預測來幫助預測再下一個 token,如此反覆。這就是為什麼你會看到回應逐字出現(更精確地說,是逐個 token 出現)。
接著回應可以以串流方式回傳給你。這很方便,因為你不必等整個回應完成(可能需要數分鐘),而且如果模型開始偏離主題,你也可以中斷它。
以下哪個關於串流的敘述是正確的?
串流只是 UI 小把戲;模型會瞬間產生完整文字。模型會逐個產生 token,並可串流部分輸出。串流可以降低輸出 token 成本。串流會停用中斷功能。CheckReset
最佳化 Token 使用#
AI 工具常會使用各種技巧來減少傳送給底層模型的 Token 數量。比如,自動快取你重複使用的提示片段,或協助你管理每次請求所包含的內容脈絡。
讓我們在下一課深入探討脈絡。