從商鞅軍功制到Token排行榜:別拿“斬首數”衡量員工是否用好AI
快刀青衣
前幾天,一個亞馬遜程序員在職場社交平臺上說了一個自己使用AI的場景。他說:“每當項目經理說蠢話時,我就啟動十個AI去深度研究和分析他。我只需把我們的Slack對話歷史粘貼進去,讓AI玩命跑起來——這是對算力資源的絕佳利用。”
說實話,第一次看到這句話的時候,我還沒反應過來,心想讓AI完成這種工作毫無意義啊。後來我看了下面的一些網友評論,才搞明白這個用法背後的荒謬。
這件事情的大背景是這樣的:亞馬遜內部有一套叫MeshClaw的AI程序設計助手,你可以把它理解成亞馬遜內部的龍蝦。公司給開發團隊設了個硬指標,就是每週至少80%的開發者必須使用它。但光有使用人數的要求還不夠,管理層還專門搭了一個排行榜,追蹤每個員工消耗的AI Token數量,誰用得多,誰就排得靠前。
結果很快就來了。員工們開始往MeshClaw裡塞各種東西,讓AI處理根本不需要處理的超長文檔,就為了讓Token數字刷起來。這種現象現在都有了個專門的名字叫“Tokenmaxxing”,也就是最大化地刷Token。
你可能會說,這不就是員工偷懶、應付考核嗎?甚至有的同學可能還會居高臨下地說,公司定了一個指標,下面員工不想著好好完成,居然去搞這些歪門邪道。
確實,表面上是這樣。但往深了看,這其實是一個古老的管理陷阱又一次被觸發了。排行榜拿出來的那一天,這個結果就無法避免。
這個陷阱有一個正式的名字,叫“古德哈特定律”,內容簡單好理解:當一個指標變成目標,它就不再是一個好指標。
這話聽起來有點拗口,我跟你解釋下就明白了。
英國經濟學家查理斯·古德哈特(Charles Goodhart)最早提出這個觀察的時候,說的是貨幣政策。也就是央行一旦盯住某個貨幣指標來調控經濟,這個指標就會開始失真。但這個規律後來被發現放到哪裡都成立,比如企業管理、醫療、教育、軍事,都不例外。
不過,我腦海裡馬上想到的,不是這些現代管理學教材裡的故事,而是兩千多年前的商鞅變法。當時我用了一兩個月的時間,看完了孫皓暉的那套大部頭《大秦帝國》,書裡就講到了秦國軍功爵位制。
對於這個制度,很多人可能只記住了四個字——斬首記功。山東六國也是這麼認識秦軍的,稱為“首功”。意思就是士兵上戰場,割下敵人的腦袋,換土地、換爵位、換免稅。這套制度讓秦軍的戰鬥力在短時間內暴漲,以至於被後世稱為“虎狼之師”,不是沒有道理。
但書裡專門點出過一件事:斬首記功只是秦國軍功制的一大類,而且只適用于士兵。這套制度真正高明的地方,是它對不同職責的人設計了完全不同的考核標準。
士兵的職責是“殺敵”,所以用斬首數記功,直接、清晰、沒有歧義。但將領不一樣,將領的職責是“號令”,是統籌全域、排兵佈陣。《商君書·境內》裡也提到,攻城圍邑、野戰爭功,都有不同的論功獎賞標準;操、校以上直到大將,也會按軍功一併受賞。換句話說,越往上,考核就越不只是個人砍下幾顆腦袋,而是要結合攻城、野戰和整場戰事的結果來看。
為什麼要這樣區分?書裡說得很透:如果將軍也以斬首記功,一是容易冒功,二是容易使將領忙於斬首而忽視號令職能。換句話說,用錯了指標,將領就會變成搶人頭的大號士兵,而不是指揮戰爭的將帥。
而六國自己的軍功制,只有斬首之賞,沒有勝負“本賞”——哪怕打了敗仗,只要斬首夠多,照樣論功行賞。所以,荀子後來評價秦軍時說:“功賞相長,故四世有勝,非幸也,數也。”
這句話最後這個“數”字,不是數字,而是規律、必然。翻成大白話就是:有功必賞、規則穩定,所以秦國連續幾代打勝仗,這不是運氣,而是制度運行後的必然結果。
大家發現沒有,商鞅想清楚的,其實就是一個根本問題:這個人的職責是什麼,我要的結果是什麼,然後才決定用什麼指標去量化。斬首數是手段,打贏才是目的。他沒有把手段當目的。
所以,現在回頭再看亞馬遜的Token排行榜,問題出在哪就很清楚了。
Token消耗量,本質上跟士兵“斬首數”是同一個概念——是一個可以被觀測、被量化、被排名的過程指標。它原本代表的是“員工在用AI處理問題”,是手段,是路徑。但一旦變成KPI,變成排行榜上那個會被老闆盯著看的數字,就不再代表任何真實的工作產出了。員工要優化的,變成了這個數字本身。
這就是古德哈特定律觸發的那一刻。
而且亞馬遜可不是孤例。Meta的問題更嚴重一點,不只是浪費算力。Meta內部甚至出現了一個叫“Claudeonomics”的非官方排行榜,這個名字的含義,有點像“Token消耗經濟學排行榜”。這是一名員工自己搭的,追蹤了8.5萬名同事的Token消耗量,排名靠前的人會被授予“Token傳奇”的稱號。
榜一大哥30天消耗了2810億個Token,如果按API定價折算,大概是140萬美元。排行榜剛出來的時候,Meta內部以此為榮。但深入調查發現,很多名列前茅的員工不過是在跑一些毫無意義的內部AI任務,產生大量一次性廢棄的工作。更嚴重的是,有幾起線上事故的根源,就是員工為了刷量而隨意生成的低品質代碼。排行榜很快就悄悄撤下來了。
而Salesforce的做法更直接。他們在員工電腦上裝了一個小元件,每15分鐘刷新一次,即時顯示你今天花了多少錢在AI上,以及你離“最低預期消費”目標還差多少。開發者們開始讓AI去寫一些根本不需要寫的廢棄項目,或者明明自己查一下文檔兩分鐘就能搞定的事,偏要讓AI去讀一遍長文檔,就為了多跑幾個Token。
當然,這種事情其實我們身邊也有很多。尤其是現在,能看到網上很多老闆很自豪地說自己每天消耗多少Token。老闆身先士卒使用AI當然值得肯定,但如果還是用傳統管理手段那樣,拿這個當衡量人的KPI指標,就太容易出問題了。
我看到過一個報導,南方某藥企要求全員“擁抱AI”,每週填報“AI成果表”,寫清楚用AI節省了多少時間、完成了哪些任務,部門之間排名打分。聽起來很有執行力對不對?
但實際情況是:研發數據涉及保密,根本不能上傳外部模型;脫敏之後數據量又太少,AI根本幫不上忙。於是員工的做法是,先用“古法手搓”把活幹完,再額外做一個AI版本用來交差。一天工作8小時,表上填“AI節省3小時”。全員造假,沒有人去核實那些提交的代碼能不能跑。
在報導裡,一位員工說了一句話,讓我一直記憶深刻。他說:“我本來不抵觸AI的。”注意,他說的不是“我現在開始用AI了”,而是“我本來不抵觸”——言下之意,現在抵觸了。一個原本對新技術抱有好奇心的人,被這種變異的排名徹底磨滅了興趣。
不過,這不是AI時代才有的問題,這也讓我想起代碼行數的故事。
早年間,很多公司用“代碼行數”來衡量程序員的產出。邏輯上好像說得通:寫得多,不就說明幹得多嗎?結果程序員們很快學會了把本來5行能寫完的邏輯,硬是展開成50行。注釋寫得比代碼還長,函數套函數,繞了三個彎能解決的問題,非要繞十個彎。數字好看了,但代碼爛了。
加班時長也是同理,加班多可能是兢兢業業,也可能是效率奇低、時間拖遝。以絕對加班時長來衡量一個人的表現,最終就會變成:常規8小時本來能幹完的活,也不得不用12小時幹完。
Token量、代碼行數、加班時長,本質上是同一種東西。
那真正衡量一個人會不會用AI,應該看什麼?我覺得可以回到商鞅的那個問題:這個人的職責是什麼,我要的結果是什麼。
舉個最直接的例子。一個產品經理,原來做競品分析要三天——查數據、整理框架、寫報告,反復打磨。現在用AI跑完第一遍,一天出初稿,剩下的時間用來深挖那兩三個真正關鍵的判斷點。這就是結果。這個變化有沒有發生,跟消耗了多少Token,真的沒有必然關係。
判斷一個員工有沒有真正用好AI,最靠譜的方式,是看他的工作產出有沒有變化。比如,交付速度快了嗎?決策品質高了嗎?以前做不了的事現在能做了嗎?
這些東西因為每個人都不一樣,所以沒法量化成一個排行榜上的數字,沒法每15分鐘刷新一次,但它們才是真實發生的事情。這也就對管理者提出了更高的要求,因為沒有一套數位可以衡量所有人的表現。
當然,我也理解為什麼企業會盯著Token量不放。AI工具的使用效果本來就很難量化,產出品質的評估又高度依賴人的判斷,哪有一個數字排行榜來得簡單直接?用Token量來推動AI普及,在最早期確實有它的道理,畢竟那時候大多數員工根本還沒打開過AI工具,先用起來再說。
但現在是2026年了,“先用起來”的階段早就過了。
現在的問題不是大家不知道AI能幹什麼,而是有沒有把它真正用在該用的地方。這時候還在盯著Token排行榜,就像商鞅變法成功之後,秦國統一天下了,還在用斬首數量來考核丞相和官員們治理政務的能力——非常荒謬,方向早就變了,指標還沒跟上。
在經濟學和管理學的教材裡,還有一個典型案例,叫“蘇聯釘子”。雖然真實性已經無從考證,但它能非常直接地呈現出我們今天說的事情。
這個案例說的是,在蘇聯,有一家造釘子的工廠,如果按“生產釘子的重量”來考核,工廠就會造出超大超重的釘子,完全沒人能用。而如果改為按“生產釘子的數量”考核,就會造出無數根細如針的廢品,也沒人能用。
所以,你看,每一個時代都會有它自己版本的“蘇聯釘子”——那些為了滿足指標而生產出來的、對任何人都沒有用的東西。只不過AI時代的版本,可能就是這些無意義的Token。