大模型指標(biāo):RPM、TPM…這些“神秘代碼”到底是什么?
一、RPM:每分鐘能“說(shuō)多少話”?
定義:RPM全稱是Requests Per Minute(每分鐘請(qǐng)求數(shù)),表示大模型每分鐘能處理的請(qǐng)求次數(shù)。比如,某模型設(shè)置RPM=300,就意味著每分鐘最多響應(yīng)300次用戶提問(wèn)。
為什么重要?
- 防“薅羊毛”:防止用戶瘋狂刷請(qǐng)求,導(dǎo)致服務(wù)器崩潰。
- 公平分配:像食堂打飯,先到先得,避免有人插隊(duì)占滿資源。
舉個(gè)??:假設(shè)你用AI寫文案,如果RPM限制是300,那么每分鐘最多提交300次請(qǐng)求。如果短時(shí)間內(nèi)發(fā)太多,系統(tǒng)可能會(huì)提示“請(qǐng)求太頻繁”。
二、TPM:每分鐘能“寫多少字”?
定義:TPM全稱是Tokens Per Minute(每分鐘處理tokens數(shù)),衡量模型每分鐘能處理的文本量(包括輸入和輸出)。例如,TPM=30萬(wàn),意味著每分鐘最多處理30萬(wàn)個(gè)“文字單位”(tokens)。
為什么關(guān)鍵?
- 長(zhǎng)文本處理:輸入或輸出太長(zhǎng)會(huì)占用更多tokens,可能觸發(fā)限額。比如寫一篇千字文章,可能比10條短消息更費(fèi)“額度”。
- 計(jì)費(fèi)依據(jù):很多平臺(tái)按TPM收費(fèi),控制成本的關(guān)鍵。
舉個(gè)??:如果某模型TPM=30萬(wàn),而每個(gè)漢字≈2個(gè)tokens,那么每分鐘最多能處理約15萬(wàn)漢字的輸入或輸出。超過(guò)這個(gè)量,請(qǐng)求就會(huì)被“拒簽”。
三、對(duì)比“老朋友”QPS:從秒級(jí)到分鐘級(jí)
QPS(Queries Per Second):傳統(tǒng)指標(biāo),衡量每秒處理請(qǐng)求的能力。比如QPS=5,就是每秒處理5次請(qǐng)求。但大模型處理復(fù)雜任務(wù)(如邏輯推理、長(zhǎng)文本生成)需要更多時(shí)間,所以逐漸轉(zhuǎn)向分鐘級(jí)指標(biāo)(RPM/TPM)。
四、不同大模型的指標(biāo)差異
廠商 | 模型 | 默認(rèn)RPM | 默認(rèn)TPM |
百度 | 文心3.5 | 300 | 30萬(wàn) |
百度 | 文心4.0 | 120 | 12萬(wàn) |
阿里云 | 千問(wèn)-max | 1200 | 100萬(wàn) |
阿里云 | 千問(wèn)-plus | 15000 | 120萬(wàn) |
火山引擎 | 豆包-pro-32k | 10000 | 800萬(wàn) |
數(shù)據(jù)來(lái)源:百度、阿里、火山引擎等廠商公開(kāi)信息。
五、如何應(yīng)對(duì)指標(biāo)限制?
- 控制輸入長(zhǎng)度:精簡(jiǎn)問(wèn)題,避免冗長(zhǎng)文本。
- 錯(cuò)峰使用:避開(kāi)高峰期,分時(shí)段提交請(qǐng)求。
- 升級(jí)套餐:如果需求大,選擇高RPM/TPM的付費(fèi)服務(wù)。
結(jié)語(yǔ)
RPM和TPM是大模型時(shí)代的“新語(yǔ)言”,理解它們就像掌握新工具的使用說(shuō)明書。下次看到這些指標(biāo)時(shí),別慌!記?。?/span>RPM管次數(shù),TPM管字?jǐn)?shù),合理規(guī)劃就能讓AI服務(wù)更順暢~
擴(kuò)展知識(shí):
- 首Token延時(shí):從發(fā)送請(qǐng)求到收到第一個(gè)字的時(shí)間,直接影響用戶體驗(yàn)。
- 每分鐘Token輸出:衡量模型生成效率,越高說(shuō)明“打字越快”。
本文轉(zhuǎn)載自微信公眾號(hào)「碼上煙火」,可以通過(guò)以下二維碼關(guān)注。轉(zhuǎn)載本文請(qǐng)聯(lián)系碼上煙火公眾號(hào)。