Token-Spend: die neue Engineering-KPI für CTOs 2026

· 11 Min. Lesezeit
Bar-Vergleich der vier Subscription-Tiers Pro, Max 5x, Max 20x und API direct mit Token-Spend-Skala

Token-Spend pro Engineer ist 2026 eine Führungs-Metrik. Wer in Deutschland einen Senior für 110.000 Euro einstellt (inkl. Arbeitgeberanteil eher 150.000 Euro) und ihm 20 Euro Tokens pro Monat genehmigt, nutzt das verfügbare Werkzeug nicht. Tunguz nennt Tokens die vierte Compensation-Komponente. Jensen Huang setzt im US-Markt 50 Prozent vom Engineer-Gehalt als Mindestmaß für Token-Spend an. Meta trackt 85.000 Mitarbeiter live im eigenen Dashboard, intern Claudeonomics genannt.

Praktisch heißt das fürs Hiring in DACH: Subscription-Tier ist eine Diagnose-Frage. Wer auf Pro für 20 Euro sitzt, ist 2026 nicht senior in agentic. Ein Senior auf Max 20x oder API-Direkt schlägt drei Junior-Hires.

Dieser Artikel ist die Diagnose-Vertiefung in unserem Cluster zu Agentic Engineering und Hiring 2026. Er bringt die Zahlen, die Tier-Mathematik und was das fürs Hiring konkret heißt. Begriff und Definition stehen in Was ist Agentic Engineering.

Im März 2026 hat Jensen Huang, CEO und Mitgründer von NVIDIA, im All-In Podcast einen Satz gesagt, der in jedem zweiten Engineering-Pitch seither zitiert wird:

“Wenn dieser 500.000-Dollar-Engineer nicht mindestens 250.000 Dollar an Tokens verbraucht, werde ich tief beunruhigt sein.”

50 Prozent des Engineer-Gehalts. Als Mindestmaß, nicht als Obergrenze.

Huangs Vergleich für Engineers, die das nicht tun, war ungewöhnlich scharf für einen CEO, der sonst eher diplomatisch spricht. Es sei, als würde ein Chip-Designer mit Bleistift und Papier arbeiten und CAD-Tools verweigern. Technisch möglich. Geschäftlich absurd.

Eine vertraute Analogie macht das greifbar: Du trackst seit zwanzig Jahren Ad-Spend pro Performance-Marketer. Je mehr Budget jemand effektiv einsetzen kann, desto wertvoller ist er. Niemand würde einem Senior-Marketer 100 Euro Werbebudget geben und sich wundern, warum die Ergebnisse flach sind. 2026 gilt dieselbe Logik für Engineering-Teams. Der einzige Unterschied: Es heißt jetzt Token-Spend.

Diese Zahl ist die Provokation. Aber sie ist nicht die wichtigste Zahl in diesem Artikel.

Tunguz: die vierte Compensation-Komponente

Tomasz Tunguz, General Partner bei Theory Ventures, hat das Konzept Anfang 2026 als erster sauber benannt. In seinem Essay “Will I Be Paid in Tokens?” rechnet er es vor:

“Technologie-Unternehmen ergänzen eine vierte Komponente zur Engineering-Compensation: Salary, Bonus, Optionen und Inference-Kosten.”

Tunguz’ Rechnung kommt aus dem US-Markt: Ein Software-Engineer im 75. Perzentil bekommt 375.000 Dollar Salary. Plus 100.000 Dollar Inference-Kosten ergibt das Personalvollkosten von 475.000 Dollar. Über 20 Prozent sind bereits Tokens, nicht Compensation im klassischen Sinn. Übertragen auf einen DACH-Senior bei 110.000 Euro Salary plus 1.500 bis 3.000 Euro Tokens pro Monat: ähnliche Größenordnung im Verhältnis, andere absolute Zahlen.

Tunguz’ Erwartung an einen Engineer, der 100.000 Dollar im Jahr an Inference verbrennt, ist explizit: “Sie müssen 8x produktiver sein.” Das ist die Ratio, die Tunguz als Benchmark im Kopf hat. Sie zwingt zu einer Frage, die jeder CTO sich stellen sollte: Was ist die produktive Arbeit pro Dollar Inference? Das ist die neue Unit Economics von Engineering-Talent.

Tunguz selbst lebt seine eigene Predigt. Im April 2026 hat er auf X dokumentiert: “Vor zwei Tagen habe ich 250 Millionen Tokens an einem Tag verbrannt. Das ist 20x mehr als vor sechs Wochen.” Er nennt es Tokenmaxxing: die bewusste Praxis, Token-Verbrauch zu maximieren, weil Parallelisierung der Hebel ist. Die Frage, die er seinen LPs stellt, ist nicht “wie sparen wir Compute?”. Sie ist “wie viel Strom können wir in nützliche Arbeit verwandeln?”

Meta hat ein Dashboard, und das ist der Wendepunkt

Im April 2026 ist eine Geschichte durch die VC-Kreise gewandert, die das Konzept aus dem Theoretischen ins Operative kippte. Meta hat ein internes Dashboard gebaut, das den AI-Token-Verbrauch von über 85.000 Mitarbeitern live trackt, intern “Claudeonomics” genannt.

Wenn Meta seine 85.000 Mitarbeiter pro Tag misst, ist Token-Spend keine VC-These mehr. Es ist eine HR-Metrik geworden.

Charles Lamanna, bei Microsoft Corporate Vice President für Business Apps und Platforms, hat im selben Zeitraum berichtet, dass Bewerber in Engineering-Interviews mittlerweile aktiv darüber verhandeln. Kandidaten sagen explizit, sie würden den Job annehmen, “solange ihr Team einen bestimmten Dollar-Betrag an AI-Tokens bekommt.” Nicht das Gehalt. Nicht das Equity-Paket. Compute.

Das ist die Bewegung, die Tunguz und Huang individuell beschrieben haben. Jetzt in der Form, in der sie HR-Abteilungen erreicht.

Was Tokens 2026 wirklich kosten

Die Größenordnung bewegt sich schnell: Anthropic hat im April 2026 seine eigene Schätzung der Token-Kosten pro Engineer stillschweigend verdoppelt. Drei Zahlen geben CTOs trotzdem den Rahmen: Kosten pro Task, Kosten pro Engineer pro Monat, und der Hebel zwischen Subscription und API-Direktabrechnung.

Pro Task: 0,20 bis 4 Dollar

Eine einzelne agentic Task verbraucht typischerweise 50.000 bis 200.000 Input-Tokens und 5.000 bis 20.000 Output-Tokens. Auf Anthropic-Pricing (3 Dollar pro Million Input bei Sonnet 4.6, 5 bei Opus 4.7; Output 15 bzw. 25) ergibt das 0,20 bis 4,00 Dollar pro Task. Multipliziert mit drei bis fünf parallelen Agents im Multi-Step-Workflow landet ein Senior-Praktiker schnell im zwei- bis dreistelligen Dollar-Bereich pro Tag.

Pro Engineer pro Monat: 150 bis 250 Euro im Daily-Workflow

In Enterprise-Deployments berichtet Anthropic im Schnitt 13 Dollar pro Active Day, also 150 bis 250 Euro pro Engineer und Monat. 90 Prozent der Nutzer bleiben unter 30 Dollar pro Active Day. Heavy User auf API-Direkt-Billing erreichen 500 bis 1.500 Euro pro Monat. Boris Cherny, Erfinder und Lead-Engineer von Claude Code bei Anthropic, mergt an Spitzentagen 150 Pull Requests mit 5 bis 10 parallelen Sessions plus cron-getriggerten Nacht-Loops und liegt damit im fünfstelligen Dollar-Bereich pro Monat. Das ist die obere Spitze, kein DACH-Standard, aber sie zeigt die Skala.

Subscription vs. API-Direkt: Faktor 18

Das Subscription-Modell ist der entscheidende Hebel. Über 90 Prozent der Tokens, die Claude Code verarbeitet, sind Cache-Reads zu 10 Prozent des Input-Preises. Konkret: Ein Heavy User auf Max 20x (200 Dollar pro Monat) würde für dieselbe Token-Menge auf API-Direktabrechnung 3.650 Dollar pro Monat zahlen. Ein dokumentierter Fall aus 2026: 10 Milliarden Tokens über 8 Monate für 800 Dollar Max-Subscription statt 15.000 Dollar API-Cost. 93 Prozent Ersparnis.

TierKosten/MonatGeeignet fürDiagnose-Signal
Claude Pro20 USDHobby, Side-Projects, einzelne Tasks pro WocheAnfänger oder Gelegenheitsnutzer, nicht senior in agentic 2026
Claude Max 5x100 USDDaily-Driver, 1–2 parallele AgentsFortgeschrittener Praktiker
Claude Max 20x200 USDHeavy User mit 3–5 parallelen AgentsSenior-Praktiker, Standard für agentic Engineering 2026
API-Direktabrechnung200–1.500+ USDMaximale Flexibilität, Team-Setups mit eigener Tooling-LayerSehr fortgeschritten oder Team-Lead-Setup

Cursor hat im April 2026 dieselbe Tier-Logik etabliert: Pro 20 Dollar, Pro+ 60 Dollar, Ultra 200 Dollar. Die Marktstruktur ist konvergiert.

Gartner: das Geld verschiebt sich von People zu Compute

Was Tunguz, Huang und Meta individuell zeigen, hat Gartner im April 2026 makro-empirisch belegt. Der aktuelle IT-Spending-Forecast bringt drei Zahlen, die in jedem CFO-Meeting 2026 auf dem Tisch liegen sollten:

  • Weltweite IT-Ausgaben: +13,5 Prozent in 2026, auf 6,31 Billionen Dollar
  • Data-Center-Spending: +55,8 Prozent. Das ist der eigentliche Treiber
  • Headcount-Wachstum in Engineering-Organisationen: von 6 Prozent auf 2 Prozent gefallen

Nur 21 Prozent der CFOs planen für 2026 noch Staff-Increases von 4 bis 9 Prozent. Letztes Jahr waren es 31 Prozent. Gartner nennt das einen “strukturellen Pivot von Labor-Expansion zu Optimierung durch Automation und AI, die Produktivitätsgewinne ohne proportionale Headcount-Steigerung liefern”.

Klartext: Das Geld geht nicht mehr in mehr Engineers. Es geht in Compute, das die existierenden Engineers multipliziert.

Die Angebotsseite bestätigt das Bild von der anderen Richtung. Greg Brockman, President von OpenAI, auf die Frage “Habt ihr genug Compute?” (Mai 2026): Nein. Definitiv nicht. Als wir ChatGPT gelauncht haben, hat mein Team gefragt: ‘Wie viel Compute sollen wir kaufen?’ Ich habe gesagt: alles. Die Nachfrage nach Intelligenz ist unbegrenzt, sagt Brockman wörtlich. Wenn der größte Compute-Anbieter der Welt nicht hinterherkommt, ist Token-Knappheit kein temporäres Marktphänomen. Sie ist strukturell. Das ändert nicht die Mathematik im Token-Budget pro Engineer. Aber es erklärt, warum Tunguz’ und Huangs Empfehlungen nicht abkühlen werden.

Compute ohne Judgment ist nur eine größere Rechnung

Bevor das hier nach Token-Maximalismus klingt, der wichtigste Caveat. Tokens bezahlen Ausführung. Sie bezahlen nicht Entscheidung.

Ein schwacher Operator mit 250.000 Dollar Token-Budget produziert 250.000 Dollar an plausibel aussehendem, aber unbrauchbarem Code. Ein starker Operator mit 50.000 Dollar Token-Budget produziert 50.000 Dollar an Code, der das richtige Problem löst. Welcher der beiden ist wertvoller?

Sequoia hat im April 2026 in einem Essay von Julien Bek, Investor bei Sequoia Capital mit Fokus auf AI-Infrastruktur, genau diese Verschiebung formuliert: Intelligence (Code schreiben, Specs übersetzen, debuggen) ist commodity geworden. Judgment (entscheiden, was gebaut werden soll, welche Architekturschuld einzugehen ist, wann zu shippen) bleibt menschlich und wird teurer. Der Kern-Satz daraus, der in jeden CTO-Pitch gehört:

“Jede AI-Verbesserung macht das Werkzeug günstiger und Judgment wertvoller.”

Wer mehr zu dieser Verschiebung lesen will, hat Karpathys Begriffspivot in unserer Definitions-Vertiefung ausgearbeitet. Der Punkt für diesen Artikel: Token-Budget ohne Senior-Judgment im Team ist eine teure Form von Code-Generierung. Kein Hebel.

Vier unabhängige Stimmen sagen Anfang Mai 2026 dasselbe. Karpathy, Mitgründer von OpenAI: “Du kannst Denken auslagern. Verstehen kannst du nicht auslagern.” Brockman: “Menschliche Aufmerksamkeit ist der neue Engpass.” Liu: “Die Agents sind mächtig genug. Die Frage ist, ob du die Zeit investierst, sie zu coachen.” Cherny: “Coden ist gelöst, für mich. Nicht überall.” Vier Positionen (Researcher, Operator, CEO, Builder), die alle dieselbe Diagnose stellen. Token-Spend ist das Werkzeug. Senior-Judgment ist der Hebel. Beide brauchen einander.

Und ein Caveat zum Caveat: Token-Budgets sind keine Equity. TechCrunch hat das im März 2026 sauber formuliert, Token-Budgets “vesten nicht, gewinnen nicht an Wert und tauchen in deiner nächsten Verhandlung nicht so auf wie ein Grundgehalt oder Equity-Paket.” Sie sind Discretionary Spending. Etwas, das verhandelt wird, gemessen wird, kontrolliert wird. Das ist Teil des Hebels. Aber es macht sie nicht zu echtem Compensation-Ersatz.

Wie CTOs Token-Spend operativ tracken sollten

Wenn Token-Spend KPI ist, dann muss er auch gemessen werden. Vier konkrete Schritte, die wir in Discovery-Calls 2026 immer wieder als Standard-Empfehlung formulieren:

1. Monatlich pro Engineer. Nicht aggregiert über das Team. Jeder Senior bekommt einen sichtbaren Token-Spend-Wert pro Monat, wie ein Cloud-Account. Wer am Monatsende unter 50 Euro verbraucht hat, nutzt die Tools nicht. Meta hat dafür ein eigenes Dashboard gebaut. Du brauchst kein eigenes, die Anthropic- und OpenAI-Admin-Konsolen liefern die Daten.

2. Pro Task-Kategorie. Nicht jede Task ist gleich token-intensiv. Refactoring auf Codebase-Ebene verbraucht ein Vielfaches einer einfachen Code-Generation. Die Verteilung zeigt, wo der Workflow agentic ist und wo er nur AI-supported.

3. Im Hiring-Briefing. “Welches Subscription-Tier fährst du auf Claude Code oder Codex?” gehört in jeden Discovery-Call mit Senior-Kandidaten als Standard-Diagnosefrage. Wo du die richtigen Senior-Profile findest und welche vier Verhaltens-Anker statt CV-Phrasen ins Briefing gehören, vertiefen wir in Senior Agentic Engineer finden 2026.

4. In Performance-Reviews. Nicht als Pflicht-Verbrauchsziel, sondern als Diagnose-Indikator. Ein Senior-Engineer, dessen Token-Verbrauch über 12 Monate stagniert oder sinkt, ist mit hoher Wahrscheinlichkeit in einem 2024er-Workflow eingefroren. Cortex und Jellyfish listen Token-Spend mittlerweile als Standard-KPI in ihren Engineering-Dashboards. Healthy ROI auf AI-Coding-Tools liegt bei 2,5- bis 3,5-fach im Schnitt, 4- bis 6-fach im Top-Quartil. Aber nur, wenn die Cost-Side die echten Token-Kosten enthält.

Was das fürs Hiring bedeutet

Drei konkrete Verschiebungen, die 2026 in jedem Hiring-Briefing eines CTO landen sollten:

Subscription-Tier als Standard-Frage im Discovery-Call. Die Antwort verrät mehr als drei Seiten CV. Pro = nicht senior in agentic. Max 5x oder 20x = Senior-Praktiker. API-Direkt = sehr fortgeschritten oder Team-Lead-Setup.

Token-Kosten sind Rundungsfehler im Senior-Budget. Ein Senior-Freelancer mit 120 Euro Stundensatz kostet im Monat rund 19.000 Euro (bei 160 Stunden Auslastung). Die 200 Euro für Max 20x sind etwa ein Prozent davon. Wer beim Tooling spart und dafür einen günstigeren Senior auf Pro-Subscription nimmt, optimiert die falsche Stelle.

Performance-Bewertung mit Compute-Effizienz. Nicht “wieviel haben wir verbraucht”, sondern “wieviel Wert pro verbrauchten Dollar”. Tunguz’ 8x-Ratio als Anhaltspunkt: Wer 100.000 Dollar Inference verbrennt, soll 8x produktiver sein als ohne, sonst stimmt der Hebel nicht.

Die Praxis-Anwendung dieser Punkte steht im Interview-Leitfaden mit 21 Fragen. Phase 1 Frage 2 testet Token-Reife in 10 Sekunden.

Wenn ihr gerade über Token-Budget nachdenkt

Die häufigste Beobachtung in CTO-Calls 2026: Das Unternehmen hat Lizenzen freigegeben. Niemand benutzt sie ernsthaft. Tokens werden auf einem Sockel verbraucht, der im einstelligen Euro-Bereich pro Engineer liegt.

Das ist kein Tooling-Problem. Das ist ein Hiring- und Workflow-Problem. Senior-Engineers, die agentic operieren, bringen den Tool-Verbrauch automatisch dahin, wo Tunguz, Huang und Meta ihn beschreiben. Wer den Verbrauch nicht hat, hat nicht den Hire.

Wir vermitteln Senior-Freelancer, deren Setup vom ersten Tag an in der richtigen Größenordnung läuft. Keine Berater, keine Workshop-Anbieter. Engineer, die mittendrin liefern und nebenbei den internen AI-Champion aufbauen.

Schreib mir kurz auf LinkedIn, wo ihr gerade steht. Oder stell eine konkrete Anfrage an unser Team, wir melden uns innerhalb von 48 Stunden.

FAQs

Wie viel sollte ein Engineer pro Monat an Tokens verbrauchen?

Daily-Developer in agentic Workflows liegen 2026 bei 100 bis 250 Euro pro Monat. Heavy User auf API-Direkt-Billing erreichen 500 bis 1.500 Euro. Tomasz Tunguz schlägt 10 Prozent des Engineer-Gehalts als Untergrenze vor. Jensen Huang setzt im US-Markt 50 Prozent. Meta tracked 85.000 Mitarbeiter in einem internen Dashboard namens Claudeonomics. Die richtige Zahl hängt vom Workflow ab. Aber unter 50 Euro im Monat ist 2026 keine ernsthafte Praxis.

Wie viel kostet Claude Code im Vergleich zur API-Direktabrechnung?

Das Subscription-Modell ist der entscheidende Hebel. Über 90 Prozent der Tokens, die Claude Code verarbeitet, sind Cache-Reads zu 10 Prozent des Input-Preises. Ein Heavy User auf Max 20x (200 Dollar pro Monat) würde für dieselbe Token-Menge auf API-Direktabrechnung etwa 3.650 Dollar pro Monat zahlen. Faktor 18 günstiger über Subscription. Standard für Senior-Praktiker 2026 ist Max 20x oder API-Direkt für Team-Lead-Setups.

Informiert bleiben?

Nie mehr Neuigkeiten verpassen.

> Alle lesen
Ralf Gehrer

Ralf Gehrer

CTO & Co-Founder von ElevateX und dein Ansprechpartner für Agentic Engineering, KI-Hiring und Senior-Freelance-Setups.

> Kostenloses Gespräch buchen
← Zurück zum Blog