Die letzten Wochen habe ich intensiv mit Copilot Pro gearbeitet und dabei Sonnet 4 und GPT-4 zum Coden genutzt. Ich hatte dazu die 30-Tage-Testversion bei GitHub gebucht und war anfangs so begeistert, dass ich mich direkt entschied, ins bezahlte Abo zu wechseln. Alles schien großartig: schnelle Unterstützung beim Coden, sofort umsetzbare Vorschläge, das Gefühl, richtig produktiv zu sein. Endlich konnte ich meine Ideen direkt umsetzen, die seit einiger Zeit in meinem Kopf herumschwirrten (u. a. der Urlaubsplanner UrlaubIstPlanbar.de).
Aber nach und nach kam die Ernüchterung. Kleine Fehler häuften sich, die KI fing an, sich zu verrennen, Halluzinationen tauchten auf – und der anfängliche Spaß wich nach und nach Frust. Direkt vorneweg: GPT-4 war im Vergleich aus irgendeinem Grund eine Katastrophe. Ich hatte bei einer Session vergessen, auf Sonnet 4 umzustellen, und wunderte mich, warum plötzlich so viel Quatsch produziert wurde, bis ich dann gesehen hatte, dass der Agent mit GPT-4 lief.
Sonnet 4 dagegen hatte von Anfang an starke Momente, die richtig Spaß gemacht haben. Mensch blieb das Brain: Ideen, Lösungsansätze, Tests, Korrekturen – all das kam von mir. Die KI war der schnelle Coder, der alles blitzschnell in Code gegossen hat und sich auch mit exotischen Datenformaten auskannte. Gerade beim schnellen Prototyping oder bei Unterstützung im leichten Reverse-Engineering konnte Sonnet 4 echt nützlich sein, lieferte gute Tipps zu anderen Tools und sagte auch, wie man vorgehen sollte, um die Informationen zu extrahieren. Auch Frontend-Aufgaben wurden super umgesetzt.
Ich sehe was, was du nicht siehst
Aber irgendwann fing die KI an, massiv zu halluzinieren. Methoden wurden erfunden, die es gar nicht gibt, Funktionen umgebaut, die eigentlich sauber liefen – und das alles ohne Rückfrage. Highlight:
„Die Methode aus der Lib zu verwenden ist zu kompliziert, ich baue den Parser lieber selbst.“
Klingt fast menschlich, oder? Besonders hart wurde es, als ich sie per speziellem Befehl darum gebeten hatte, sich strikt an die Dokumentation einer Python-Bibliothek zu halten, die man ihr gleich mitgegeben hatte, oder eine bestimmte Bluetooth-Spezifikation zu verwenden statt zu raten. Sie zeigte sich dankbar, einsichtig und… halluzinierte noch mehr.
Mit zunehmender Gesprächsdauer häufen sich die Fehler extrem. Die KI versucht, den Kontext über Zusammenfassungen der bisherigen Konversation zu behalten – ich vermute, genau das ist der Knackpunkt, weil hierbei ja verlustbehaftet komprimiert wird und wichtige Informationen damit entfernt werden. Und das entspricht auch ziemlich genau dem aktuellen Forschungsstand (LLMs Get Lost In Multi-Turn Conversation). Entweder sie liefert innerhalb der ersten paar Dialoge etwas Vernünftiges, oder man lässt es lieber, sonst frisst die Fehlersuche jeden Geschwindigkeitsvorteil auf (Measuring the Impact of Early-2025 AI on Experienced Open-Source Developer Productivity). Die beste Lösung für mich war es dann tatsächlich, die Chat-Sitzung zu schließen und eine neue anzufangen. Das LLM geht dann wieder unvorbelastet und „mit freiem Kopf“ an die Arbeit.
Stärken und Fazit
Trotzdem hat die KI auch Stärken. Kurz etwas nachfragen, kurz etwas erklären lassen, Erkenntnisse in eine README.md packen – das klappt erstaunlich gut. Für Dokumentation, kleine Hilfen, Boilerplate-Code oder das schnelle Testen von Ideen kann Sonnet 4 echt nützlich sein. Das Pair-Programming macht wirklich Spaß, nur dass die KI halt gefühlt unter Sekundengedächtnis leidet und sehr schnell vergisst, was vor kurzem noch gemeinsam herausgefunden wurde.
Am Ende bleibt es ein spannender Lernprozess. Ich bleibe dran, teste weiter, schaue, wie sich die Tools entwickeln. Aber aktuell kann ich CEOs nur raten: Behaltet lieber eure Software-Engineers. Kein LLM-Tool ersetzt die Erfahrung, Kreativität, den gesunden Menschenverstand von Devs und ihr deutlich größeres "Kontextfenster" – zumindest noch nicht.
KI-Coding ist aufregend, macht Spaß und kann richtig Zeit sparen. Aber man muss wissen, wann man sie nutzt – und wann man lieber selbst die Kontrolle behält. Und das mit der Premium-Subscription muss ich mir noch mal gründlich überlegen.
