日志

令牌排行榜的荒谬问题早就被商鞅两千多年前解决过了

热度 19已有 490 次阅读2026-5-22 17:59 |个人分类:日常

從商鞅軍功制到Token排行榜：別拿“斬首數”衡量員工是否用好AI

快刀青衣

前幾天，一個亞馬遜程序員在職場社交平臺上說了一個自己使用AI的場景。他說：“每當項目經理說蠢話時，我就啟動十個AI去深度研究和分析他。我只需把我們的Slack對話歷史粘貼進去，讓AI玩命跑起來——這是對算力資源的絕佳利用。”

說實話，第一次看到這句話的時候，我還沒反應過來，心想讓AI完成這種工作毫無意義啊。後來我看了下面的一些網友評論，才搞明白這個用法背後的荒謬。

這件事情的大背景是這樣的：亞馬遜內部有一套叫MeshClaw的AI程序設計助手，你可以把它理解成亞馬遜內部的龍蝦。公司給開發團隊設了個硬指標，就是每週至少80%的開發者必須使用它。但光有使用人數的要求還不夠，管理層還專門搭了一個排行榜，追蹤每個員工消耗的AI Token數量，誰用得多，誰就排得靠前。

結果很快就來了。員工們開始往MeshClaw裡塞各種東西，讓AI處理根本不需要處理的超長文檔，就為了讓Token數字刷起來。這種現象現在都有了個專門的名字叫“Tokenmaxxing”，也就是最大化地刷Token。

你可能會說，這不就是員工偷懶、應付考核嗎？甚至有的同學可能還會居高臨下地說，公司定了一個指標，下面員工不想著好好完成，居然去搞這些歪門邪道。

確實，表面上是這樣。但往深了看，這其實是一個古老的管理陷阱又一次被觸發了。排行榜拿出來的那一天，這個結果就無法避免。

這個陷阱有一個正式的名字，叫“古德哈特定律”，內容簡單好理解：當一個指標變成目標，它就不再是一個好指標。

這話聽起來有點拗口，我跟你解釋下就明白了。

英國經濟學家查理斯·古德哈特（Charles Goodhart）最早提出這個觀察的時候，說的是貨幣政策。也就是央行一旦盯住某個貨幣指標來調控經濟，這個指標就會開始失真。但這個規律後來被發現放到哪裡都成立，比如企業管理、醫療、教育、軍事，都不例外。

不過，我腦海裡馬上想到的，不是這些現代管理學教材裡的故事，而是兩千多年前的商鞅變法。當時我用了一兩個月的時間，看完了孫皓暉的那套大部頭《大秦帝國》，書裡就講到了秦國軍功爵位制。

對於這個制度，很多人可能只記住了四個字——斬首記功。山東六國也是這麼認識秦軍的，稱為“首功”。意思就是士兵上戰場，割下敵人的腦袋，換土地、換爵位、換免稅。這套制度讓秦軍的戰鬥力在短時間內暴漲，以至於被後世稱為“虎狼之師”，不是沒有道理。

但書裡專門點出過一件事：斬首記功只是秦國軍功制的一大類，而且只適用于士兵。這套制度真正高明的地方，是它對不同職責的人設計了完全不同的考核標準。

士兵的職責是“殺敵”，所以用斬首數記功，直接、清晰、沒有歧義。但將領不一樣，將領的職責是“號令”，是統籌全域、排兵佈陣。《商君書·境內》裡也提到，攻城圍邑、野戰爭功，都有不同的論功獎賞標準；操、校以上直到大將，也會按軍功一併受賞。換句話說，越往上，考核就越不只是個人砍下幾顆腦袋，而是要結合攻城、野戰和整場戰事的結果來看。

為什麼要這樣區分？書裡說得很透：如果將軍也以斬首記功，一是容易冒功，二是容易使將領忙於斬首而忽視號令職能。換句話說，用錯了指標，將領就會變成搶人頭的大號士兵，而不是指揮戰爭的將帥。

而六國自己的軍功制，只有斬首之賞，沒有勝負“本賞”——哪怕打了敗仗，只要斬首夠多，照樣論功行賞。所以，荀子後來評價秦軍時說：“功賞相長，故四世有勝，非幸也，數也。”

這句話最後這個“數”字，不是數字，而是規律、必然。翻成大白話就是：有功必賞、規則穩定，所以秦國連續幾代打勝仗，這不是運氣，而是制度運行後的必然結果。

大家發現沒有，商鞅想清楚的，其實就是一個根本問題：這個人的職責是什麼，我要的結果是什麼，然後才決定用什麼指標去量化。斬首數是手段，打贏才是目的。他沒有把手段當目的。

所以，現在回頭再看亞馬遜的Token排行榜，問題出在哪就很清楚了。

Token消耗量，本質上跟士兵“斬首數”是同一個概念——是一個可以被觀測、被量化、被排名的過程指標。它原本代表的是“員工在用AI處理問題”，是手段，是路徑。但一旦變成KPI，變成排行榜上那個會被老闆盯著看的數字，就不再代表任何真實的工作產出了。員工要優化的，變成了這個數字本身。

這就是古德哈特定律觸發的那一刻。

而且亞馬遜可不是孤例。Meta的問題更嚴重一點，不只是浪費算力。Meta內部甚至出現了一個叫“Claudeonomics”的非官方排行榜，這個名字的含義，有點像“Token消耗經濟學排行榜”。這是一名員工自己搭的，追蹤了8.5萬名同事的Token消耗量，排名靠前的人會被授予“Token傳奇”的稱號。

榜一大哥30天消耗了2810億個Token，如果按API定價折算，大概是140萬美元。排行榜剛出來的時候，Meta內部以此為榮。但深入調查發現，很多名列前茅的員工不過是在跑一些毫無意義的內部AI任務，產生大量一次性廢棄的工作。更嚴重的是，有幾起線上事故的根源，就是員工為了刷量而隨意生成的低品質代碼。排行榜很快就悄悄撤下來了。

而Salesforce的做法更直接。他們在員工電腦上裝了一個小元件，每15分鐘刷新一次，即時顯示你今天花了多少錢在AI上，以及你離“最低預期消費”目標還差多少。開發者們開始讓AI去寫一些根本不需要寫的廢棄項目，或者明明自己查一下文檔兩分鐘就能搞定的事，偏要讓AI去讀一遍長文檔，就為了多跑幾個Token。

當然，這種事情其實我們身邊也有很多。尤其是現在，能看到網上很多老闆很自豪地說自己每天消耗多少Token。老闆身先士卒使用AI當然值得肯定，但如果還是用傳統管理手段那樣，拿這個當衡量人的KPI指標，就太容易出問題了。

我看到過一個報導，南方某藥企要求全員“擁抱AI”，每週填報“AI成果表”，寫清楚用AI節省了多少時間、完成了哪些任務，部門之間排名打分。聽起來很有執行力對不對？

但實際情況是：研發數據涉及保密，根本不能上傳外部模型；脫敏之後數據量又太少，AI根本幫不上忙。於是員工的做法是，先用“古法手搓”把活幹完，再額外做一個AI版本用來交差。一天工作8小時，表上填“AI節省3小時”。全員造假，沒有人去核實那些提交的代碼能不能跑。

在報導裡，一位員工說了一句話，讓我一直記憶深刻。他說：“我本來不抵觸AI的。”注意，他說的不是“我現在開始用AI了”，而是“我本來不抵觸”——言下之意，現在抵觸了。一個原本對新技術抱有好奇心的人，被這種變異的排名徹底磨滅了興趣。

不過，這不是AI時代才有的問題，這也讓我想起代碼行數的故事。

早年間，很多公司用“代碼行數”來衡量程序員的產出。邏輯上好像說得通：寫得多，不就說明幹得多嗎？結果程序員們很快學會了把本來5行能寫完的邏輯，硬是展開成50行。注釋寫得比代碼還長，函數套函數，繞了三個彎能解決的問題，非要繞十個彎。數字好看了，但代碼爛了。

加班時長也是同理，加班多可能是兢兢業業，也可能是效率奇低、時間拖遝。以絕對加班時長來衡量一個人的表現，最終就會變成：常規8小時本來能幹完的活，也不得不用12小時幹完。

Token量、代碼行數、加班時長，本質上是同一種東西。

那真正衡量一個人會不會用AI，應該看什麼？我覺得可以回到商鞅的那個問題：這個人的職責是什麼，我要的結果是什麼。

舉個最直接的例子。一個產品經理，原來做競品分析要三天——查數據、整理框架、寫報告，反復打磨。現在用AI跑完第一遍，一天出初稿，剩下的時間用來深挖那兩三個真正關鍵的判斷點。這就是結果。這個變化有沒有發生，跟消耗了多少Token，真的沒有必然關係。

判斷一個員工有沒有真正用好AI，最靠譜的方式，是看他的工作產出有沒有變化。比如，交付速度快了嗎？決策品質高了嗎？以前做不了的事現在能做了嗎？

這些東西因為每個人都不一樣，所以沒法量化成一個排行榜上的數字，沒法每15分鐘刷新一次，但它們才是真實發生的事情。這也就對管理者提出了更高的要求，因為沒有一套數位可以衡量所有人的表現。

當然，我也理解為什麼企業會盯著Token量不放。AI工具的使用效果本來就很難量化，產出品質的評估又高度依賴人的判斷，哪有一個數字排行榜來得簡單直接？用Token量來推動AI普及，在最早期確實有它的道理，畢竟那時候大多數員工根本還沒打開過AI工具，先用起來再說。

但現在是2026年了，“先用起來”的階段早就過了。

現在的問題不是大家不知道AI能幹什麼，而是有沒有把它真正用在該用的地方。這時候還在盯著Token排行榜，就像商鞅變法成功之後，秦國統一天下了，還在用斬首數量來考核丞相和官員們治理政務的能力——非常荒謬，方向早就變了，指標還沒跟上。

在經濟學和管理學的教材裡，還有一個典型案例，叫“蘇聯釘子”。雖然真實性已經無從考證，但它能非常直接地呈現出我們今天說的事情。

這個案例說的是，在蘇聯，有一家造釘子的工廠，如果按“生產釘子的重量”來考核，工廠就會造出超大超重的釘子，完全沒人能用。而如果改為按“生產釘子的數量”考核，就會造出無數根細如針的廢品，也沒人能用。

所以，你看，每一個時代都會有它自己版本的“蘇聯釘子”——那些為了滿足指標而生產出來的、對任何人都沒有用的東西。只不過AI時代的版本，可能就是這些無意義的Token。

膜拜

鸡蛋

鲜花

路过

雷人

开心

感动

indy的个人空间 http://aswetalk.net/bbs/?16446 [收藏] [复制] [分享] [RSS]

日志

令牌排行榜的荒谬问题早就被商鞅两千多年前解决过了

刚表态过的朋友 (19 人)

全部作者的其他最新日志

评论 (0 个评论)

indy