Agentic Engineering Hiring-Interview 2026 [+21 Fragen-PDF]

Wir sind überzeugt: Klassische Coding-Interviews sortieren 2026 die falschen Kandidaten aus. Whiteboard-Algorithmen testen Pattern-Matching unter Zeitdruck. Eine Fähigkeit, die LLMs heute besser können als jeder Senior. Was sie nicht prüfen: Spec-Disziplin, Plan-Mode, Diff-Review, Token-Hygiene, Sub-Agent-Orchestrierung. Genau das sind die Skills, die einen 2026er Senior von einem Mid-Level trennen. Und die in 45 Minuten an realer Codebase prüfbar sind.

Praktisch heißt das fürs Hiring: Wer 2026 noch Reverse-a-Linked-List fragt, hired auf einem Skill-Profil von 2019. Andrej Karpathy hat das bei Sequoias AI Ascent 2026 auf den Punkt gebracht: “Most people have still not refactored their hiring process for agentic engineering capability. If you’re giving out puzzles to solve, this is still the old paradigm.”

Dieser Artikel ist die Selection-Vertiefung in unserem Cluster zu Agentic Engineering und Hiring 2026. Er bringt das 4-Phasen-Format, 21 Fragen mit Green-Flag- und Red-Flag-Bewertung und den vollständigen Interview-Leitfaden als PDF-Download. Zusammengetragen aus 8 CTO-Programmen, 50+ laufenden Hiring-Briefings 2026 und vier intensiv ausgewerteten Quellen-Interviews mit Karpathy, Brockman, Liu und Cherny.

→ Zum PDF-Download

Warum Whiteboard-Aufgaben 2026 das falsche Signal geben

Karpathys Pivot vom April 2026 ist in Was ist Agentic Engineering als Begriffsverschiebung beschrieben. Hier interessiert uns die operative Konsequenz: Wenn der Engineer 80 Prozent seiner Zeit mit Orchestrierung verbringt (Specs schreiben, Plan reviewen, Sub-Agents starten, Diffs lesen, Tokens managen), dann muss das Interview genau diese Tätigkeiten testen.

Ein Whiteboard-Interview tut das nicht. Es testet:

Wer in 45 Minuten unter Beobachtung einen mittelgroßen Algorithmus rekonstruieren kann.
Wer Big-O-Notation auswendig kennt.
Wer unter Stress ohne IDE schreiben kann.

Drei Skills, die 2026 niemand mehr im Daily Doing braucht. Übersetzt: Du prüfst auf das, was vor sieben Jahren wichtig war.

Was ein 2026er Senior dagegen jeden Tag tut:

Eine Spec auf 1-2 Tage Arbeit zuschneiden, nicht zu wenig und nicht zu viel.
Plan-Mode nutzen, bevor ein Agent eine einzige Datei berührt.
Drei bis acht parallele Sessions an verschiedenen Branches laufen lassen.
Token-Verbrauch beobachten und Tier-Wahl bewusst treffen.
Diffs lesen, bevor sie akzeptiert werden. Nicht Accept All.
Eigene Skills schreiben, die wiederkehrende Probleme strukturell lösen.
Fehlschläge erkennen, neu starten statt Rabbit-Hole.

Genau das prüft das Format unten. Frage für Frage.

Das 4-Phasen-Interview-Format auf einen Blick

Das Format läuft in 45 Minuten und hat eine bewusste Reihenfolge: weiches Eröffnen mit der Workflow-Erzählung, dann harte Setup-Demo plus Live-Task, danach Fehler-Reflexion und am Schluss Kalibrierung über Persistence und Anti-Patterns.

Phase 1: Workflow-Erzählung (15 Min, Fragen 1-7) Der Kandidat erzählt, wie sein typischer Tag aussieht. Subscription-Tier, Code-Anteil händisch vs. AI, Spec-Workflow, eigene Skills, Secret-Hygiene, Review-Routinen, Standardanweisungen an die AI. Die Phase erkennt in 15 Minuten, ob jemand wirklich agentic operiert oder nur über Tools spricht, die er gelegentlich nutzt.

Phase 2: Setup-Demo plus Live-Task (20-25 Min, Fragen 8-11) Bildschirm teilen. Welche Tools laufen wirklich? Wie sieht die CLAUDE.md aus? Wie viele Worktrees / parallele Sessions? Direkt danach eine Live-Aufgabe an realer Codebase, bewusst nicht Leetcode-Style. Vier Aufgabenvarianten je nach Zielrolle stehen im PDF (Bug-Reproduktion, Refactor mit Spec, Greenfield-Architektur, Build-und-Break-Take-Home).

Phase 3: Fehler-Erzählung (10 Min, Fragen 12-15) “Erzähl mir vom letzten Mal, als ein Agent komplett Mist gebaut hat.” Hier trennt sich Vibe-Coder von Senior. Wer hier glatt durchgeht ohne Selbstreflexion, ist entweder zu wenig praktiziert oder hat Dunning-Kruger. Wer offen über produktives Scheitern sprechen kann, hat den Workflow wirklich gelebt.

Phase 4: Kalibrierung (10 Min, Fragen 16-21) Persistence-vs-Curation, Anti-Patterns, Multiplikator-Skills. Howie Liu hat bei Greg Eisenberg 2026 den häufigsten Praktiker-Fehler benannt: “They oneshot something, it’s not quite as profound as what they hoped for, and they kind of give up. The agents are powerful enough to do almost anything you want. The issue is whether you are able to invest the time and coaching and curation to get it there.” Diese Phase prüft genau das: ob der Kandidat sein Werkzeug kuratieren kann, nicht nur abfeuern.

Build-und-Break-Take-Home (optional, 60 Min) Bewusst keine Standard-Aufgabe. Karpathy hat im Sequoia-Talk seinen Twitter-Clone als Beispiel genommen: “Hiring has to look like — give me a really big project and see someone implement that big project. Like let’s write a Twitter clone for agents and then make it really good, make it really secure. And then I’m going to use 10 codex agents to try to break your website. They should not be able to break it.” Build-und-Break in einem Setup. Die schärfste verfügbare Hiring-Probe für Senior-Architects und Security-relevante Rollen.

Vier Beispiel-Fragen aus dem Interview-Leitfaden

Statt das gesamte 21-Fragen-PDF in den Artikel zu kopieren, hier vier Fragen als Geschmack, mit Begründung warum sie funktionieren. Jede Frage hat im PDF eine ausgearbeitete Green-Flag- und Red-Flag-Liste.

Frage 2: Welches Subscription-Tier fährst du auf deinem Daily-Driver?

Die Antwort verrät in 10 Sekunden mehr als drei CV-Seiten. Wer 2026 noch auf einem Pro-Plan für 20 Dollar arbeitet, ist nicht senior in agentic. Egal was im Lebenslauf steht. Senior-Praktiker fahren Max 5x oder Max 20x bei Anthropic, Pro+ oder Ultra bei Cursor, oder direkten API-Zugang. Sie nennen einen ungefähren Monatsverbrauch (über 100 Dollar). Sie haben schon mal die Quotas gesprengt. Sie begründen die Tier-Wahl mit konkretem Workload.

Das deckt sich mit Tomasz Tunguz’ These zur vierten Compensation-Komponente: Token-Spend ist 2026 eine Engineering-KPI wie Headcount oder Cloud-Spend. Wer keinen Token-Verbrauch hat, hat den Hire nicht.

Frage 4: Welche Skills oder Slash-Commands hast du selbst geschrieben? Hast du ein Pattern dafür?

Die schärfste Frage in Phase 1, weil sie den Unterschied zwischen Tool-Nutzer und Tool-Architekt aufdeckt. Wer Skills nur als Boilerplate-Sammlung versteht, hat das Konzept nicht erfasst. Senior-Antworten zeigen: mindestens 1-2 selbst geschriebene Skills mit klarem Pattern (Rules + Checklist + Guide pro Topic), Wiederverwendung über Projekte hinweg, Verständnis von Skills auch als Onboarding-Werkzeug für neue Team-Mitglieder.

Mid-Level-Antworten klingen wie “bisher nicht gebraucht” oder “ich nutze die Default-Skills”. Der Unterschied ist nicht handwerklich, sondern konzeptionell. Und in zwei Minuten erkennbar.

Frage 14: Wann hast du der AI das letzte Mal Nein gesagt? Was hat sie vorgeschlagen, was du abgelehnt hast?

Die Frage zwingt zu Ehrlichkeit. Wer nie Nein sagt, akzeptiert zu viel. Was den Senior auszeichnet, ist nicht “mir ist nie was passiert”, sondern: “Hier ist, was passiert ist. Hier ist, was ich seitdem anders mache.”

Konkret typisches Senior-Beispiel: Der Agent schlägt eine technisch saubere Lösung vor, die aber das Team-Coding-Standard verletzt oder eine Architektur-Entscheidung umgeht, die im Onboarding-Doc steht. Der Senior sagt Nein und übersetzt das Nein anschließend in eine Skill-Regel oder eine CLAUDE.md-Notiz, damit es nicht wieder auftaucht. Nein-sagen als zentrale Senior-Verantwortung. Nicht als Ausnahme.

Die schärfste Variante: “Erkennst du überschießende Proaktivität als typisches Agent-EQ-Failure?” Wer eigene Heuristiken dagegen hat (“keine Eskalationen ohne explizite Freigabe”, “keine externen Kommunikations-Aktionen im Auto-Approve”), zeigt operative Reife.

Frage 19: Erzähl mir von einem Workflow, den du nach mehreren Anläufen zum Funktionieren gebracht hast. Was war dein Stehvermögen?

Liu nennt das Aufgeben nach dem ersten Versuch den häufigsten Fehler von Praktikern. Wer hier nicht überzeugend antwortet, hat den agentic-Workflow nicht wirklich integriert.

Senior-Antworten haben eine Struktur: Workflow X hat beim ersten Versuch nicht funktioniert. Beim zweiten besser. Beim dritten gut. Der Kandidat kann beschreiben, welche Iterationen nötig waren. Skill verfeinert, Spec angepasst, Tool gewechselt, eigene Heuristik dafür entwickelt, wann er ein Pattern weiterverfolgt und wann er es aufgibt.

Mid-Level-Antworten verwechseln Persistence mit Sturheit (“ich versuche es so lange, bis es klappt”). Ohne Reflexion, was genau angepasst wird. Oder schlimmer: “Wenn es beim ersten Versuch nicht klappt, ist das Tool nicht reif.” Genau die Haltung, die Liu als Praktiker-Hauptfehler benannt hat.

Live-Task statt Algorithmus: was die Praxis aussagt

Phase 2 ist der härteste Teil. Und der, an dem die meisten Hiring-Manager 2026 scheitern. Klassische Coding-Challenges sind so designt, dass sie isoliert lösbar sind. Eine Funktion, ein klares Input-Output-Mapping, eine richtige Antwort. Das hat 2019 funktioniert, weil Engineers ihren Tag mit isolierten Funktionen verbrachten.

2026 sieht der Tag anders aus. Die Aufgabe ist mehrdeutig. Der Kontext ist unvollständig. Die Lösung erfordert Architektur-Entscheidungen, bevor die erste Zeile Code geschrieben wird. Live-Tasks im Interview müssen genau das simulieren.

Konkretes Beispiel aus dem PDF, Aufgabe A (Bug-Reproduktion mit Fix): “Ich gebe dir eine kleine API mit zwei Endpoints. User berichten: beim dritten Page-Aufruf der Pagination kommen manchmal die gleichen Items zurück. Reproduziere den Bug, finde die Ursache, schreib einen Fix mit passendem Test. 10 Minuten.”

Was du dabei beobachtest, ist nicht ob der Bug gefunden wird. Sondern wie:

Schreibt er zuerst einen Reproduktions-Test, der den Bug fängt? Oder springt er direkt in den Code?
Wie nutzt er den Agent: als Reproduktions-Helfer (gut) oder direkt als Fix-Generator (Red Flag)?
Hat er Plan-Mode genutzt, bevor er etwas geändert hat?
Liest er den Test-Output gründlich oder akzeptiert er das erste grüne Signal?

Drei der vier Aufgaben im PDF folgen diesem Muster. Aufgabe D, der Build-und-Break-Take-Home, geht noch eine Stufe weiter: 60 Minuten Build, dann Agents, die das System brechen. Karpathys Original-Vorlage, ohne Verzierung.

Was du nach diesem Format weißt: was vorher unsichtbar war

Klassische Interviews enden mit einem unbefriedigten Bauchgefühl: “War der gut?” Hiring-Manager rationalisieren danach mit Stichpunkten zu Coding-Geschwindigkeit, Sympathie und CV-Pattern. Die meisten Fehlhires entstehen genau in diesem Vakuum.

Das 4-Phasen-Format gibt dir nach 45 Minuten konkrete Antworten auf sechs Fragen, die in klassischen Interviews offen bleiben:

Token-Reife: fährt der Kandidat ein Setup, das 2026er Workload trägt? (Phase 1, Frage 2)
Spec-Disziplin: kann er Specs schneiden, statt in Wasserfall zu kippen? (Phase 1, Frage 3)
Skill-Architektur: schreibt er eigene Skills mit Pattern? (Phase 1, Frage 4)
Setup-Hygiene: hat er eine echte CLAUDE.md, Worktrees, parallele Sessions? (Phase 2, Fragen 8-10)
Fehler-Reflexion: kann er offen über produktives Scheitern reden? (Phase 3, alle Fragen)
Multiplikator-Fähigkeit: würde er einen mittelmäßigen Engineer ans Tool heranführen? (Phase 4, Frage 21)

Die Bewertungs-Heuristik im PDF: Mindestens 15 von 21 Fragen im Green-Flag-Bereich für einen Senior-Hire 2026. Mehr als 5 Red Flags sind ein Stopp-Signal, unabhängig vom Rest. Frage 17 (AI vs. menschlicher Reviewer) ist der schärfste Senioritäts-Test im ganzen Format. Wer hier schwarz-weiß antwortet, ist nicht senior.

Das Format ist nicht neu erfunden. Es ist die Anpassung des klassischen Behavioral-Interviews an die Realität, dass Tool-Setup heute mehr über einen Engineer aussagt als Algorithmus-Wissen.

Was im Interview-Leitfaden-PDF drin ist

Der vollständige Interview Guide enthält:

Alle 21 Fragen mit konkreten Green-Flag- und Red-Flag-Antworten pro Frage.
Vier Live-Task-Varianten (A-D) für unterschiedliche Zielrollen: Bug-Reproduktion (Backend-Senior-Default), Refactor mit Spec (Frontend/Mobile), Greenfield-Architektur (Tech-Lead), Build-und-Break-Take-Home (Senior-Architect, Security). Jeweils mit Bewertungskriterien.
Build-und-Break-Take-Home-Vorlage mit Karpathys Twitter-Clone-Format als Original-Bezugspunkt und konkreter Aufgabenstellung für 60-Minuten-Build-und-Break-Setup.
Bewertungs-Heuristik: die 15-von-21-Schwelle, die schärfsten Senioritäts-Tests, die typischen Phase-1-Schwächen-als-Frühindikator.

Sequenziell aufgebaut. Direkt einsetzbar im nächsten Hiring-Call. Print-formatiert.

→ Zum PDF-Download

Wenn ihr gerade hired

Die typische Beobachtung in CTO-Calls 2026: Das Hiring-Format ist seit drei Jahren unverändert. Coding-Challenge, System-Design, Cultural-Fit. Niemand fragt nach CLAUDE.md. Niemand prüft Token-Verbrauch. Niemand fragt, wann der Kandidat der AI zuletzt Nein gesagt hat.

Resultat: Einstellungen, die im Interview gut aussahen und im Daily-Doing enttäuschen. Wir vermitteln Senior-Freelancer, deren Workflow vom ersten Tag an in der richtigen Größenordnung läuft. Und wir helfen Engineering-Teams, ihr eigenes Hiring-Format auf den 2026er Stand zu heben.

Schreib mir kurz auf LinkedIn, wo ihr gerade steht. Oder stell eine konkrete Anfrage an unser Team. Wir melden uns innerhalb von 48 Stunden.

FAQs

Warum funktionieren klassische Coding-Interviews 2026 nicht mehr?

Ein Whiteboard-Algorithmus testet Pattern-Matching unter Zeitdruck. 2019 ein guter Proxy für Engineer-Qualität, 2026 nur noch ein Test darauf, ob jemand vor sieben Jahren ein guter Engineer gewesen wäre. Was er nicht testet: Spec-Disziplin, Plan-Mode, Diff-Review, Token-Hygiene, Sub-Agent-Orchestrierung. Genau das sind die Skills, die einen 2026er Senior von einem Mid-Level trennen.

Was sollte ein modernes Interview-Format stattdessen prüfen?

Drei Dinge. Erstens, Workflow-Reife: wie der Kandidat seinen Tag strukturiert, welche Subscription er fährt, wie er Specs schreibt, wann er Plan-Mode nutzt. Zweitens, Setup-Hygiene live: was steht in seiner CLAUDE.md, wie viele parallele Sessions laufen, wie geht er mit Secrets um. Drittens, Fehler-Reflexion: wo er produktiv gescheitert ist und was er daraus geändert hat. Howie Liu hat es so formuliert: 'The agents are powerful enough to do almost anything you want. The issue is whether you are able to invest the time and coaching and curation to get it there.' Genau das prüft ein gutes Format.

Wie lang sollte ein Agentic-Engineering-Interview sein?

45 Minuten in vier Phasen plus optionale Take-Home-Aufgabe. Phase 1 (15 Min) Workflow-Erzählung mit 7 Fragen, Phase 2 (20-25 Min) Setup-Demo plus Live-Task an realer Codebase mit 4 Fragen, Phase 3 (10 Min) Fehler-Erzählung mit 4 Fragen, Phase 4 (10 Min) Kalibrierung mit 6 Fragen. Die Take-Home als Build-und-Break-Format: bewusst keine Standard-Aufgabe, sondern eine Aufgabenstellung, bei der der Kandidat selbst entscheiden muss, wo Spec endet und Code beginnt.

Informiert bleiben?

Nie mehr Neuigkeiten verpassen.

Folge mir auf LinkedIn.

> Alle lesen

Ralf Gehrer

CTO & Co-Founder von ElevateX und dein Ansprechpartner für Agentic Engineering, KI-Hiring und Senior-Freelance-Setups.

> Kostenloses Gespräch buchen

← Zurück zum Blog