Eine Woche Vibe Coding — Blog

Nach einer Woche Vibe Coding nebenbei (während ich einen Fulltime-Job, Familie und viel zu wenig Schlaf jongliert habe), bin ich fast in ein richtiges Tief gerutscht. Dunkle Gedanken über die Zukunft meines Berufs und der Menschheit im Allgemeinen. Der Schlafmangel hatte wahrscheinlich auch etwas damit zu tun.

Naja, ich habe ein paar Dinge gelernt...

Open-Source-Modelle

Sie sind immer noch nicht auf dem Niveau von Frontier-Modellen wie denen von Anthropic, aber die Fortschritte im letzten Jahr sind beeindruckend. Gemma 4 hat sich als besonders nützlich erwiesen und hat das meiste bewältigt, was ich ihm zugeworfen habe. Qwen 3.6 ist gerade erst erschienen, daher hatte ich noch nicht viel Zeit damit zu spielen. Manchmal ist eine zusätzliche Korrekturschleife im Vergleich zu Sonnet notwendig, aber ehrlich gesagt reicht es meistens aus. Meine größten Kopfschmerzen verursachten Bugs in den Modellen selbst oder in den Inference-Tools, die ich verwendet habe (llama.cpp-basiert, LM Studio).

Claude spielt in einer eigenen Liga

Ich habe Claude Code eine große, über 10 Jahre alte Codebasis hingeschmissen, und es hat nicht einmal gezuckt. In meiner Android-App (dem Versuchskaninchen für dieses Experiment) HandWrite Pro habe ich eine Reihe neuer Funktionen, Stabilitäts-Fixes, UX-Verbesserungen, Modernisierungen und sogar einige architektonische Redesigns erstellt. Das alles als Nebenprojekt hätte normalerweise Monate, vielleicht Jahre gedauert.

Anfangs lief alles reibungslos, es waren kaum Korrekturen nötig.

Später zeigten sich erste Risse. Ein Refactoring führte zu einigen fiesen, schwer zu findenden Bugs. Und nachdem Sonnet und ich sie gemeinsam aufgespürt hatten, wurden dieselben Bugs wieder eingebaut. Und wieder.

Das Schlimmste waren die Unit-Tests für eine Open-Source-PDF-Generierungsbibliothek. PDF-Generierung ist extrem komplex. Claude generierte zufrieden etwa 20 aufwendige PDF-Testdokumente mit allem Drum und Dran, aber jeder einzelne Test prüfte nur eine Sache: Ist die Datei größer als 0 Bytes? Das ist einfach faul. Fast schon Arbeitsverweigerung. Es brauchte viel gutes Zureden, bis Claude tatsächlich aussagekräftige Tests schrieb.

Fazit?

Open-Source-Modelle haben definitiv ihren Platz. Sie haben aufgeholt, sie sind solide und oft gut genug. Wann immer ich mit etwas persönlicheren Daten hantiere, verwende ich ein Open-Source-Modell.

Frontier-Modelle wie Claude Opus oder Sonnet spielen in einer anderen Liga. Der Code, den sie produzieren, ist unglaublich gut. Jeder Entwickler, der sich weigert, mit LLMs zu arbeiten, wird zurückbleiben. Kein Mensch kann mit diesem Tempo mithalten.

Aber sie sind nicht perfekt (das hat ja auch niemand erwartet, oder?). Was mich wahnsinnig machte, war, wie schnell ich an die Token-Limits stieß. Obwohl man auf dieses Problem natürlich Geld schmeißen kann. Das größere Problem ist wie verlockend es ist, das Gehirn einfach auszuschalten. Ich ertappte mich dabei, wie ich vom Sofa aus coden ließ, während ich eine Serie schaute, kaum aufpasste und einfach immer auf "OK" klickte, ohne mir die Shell-Befehle anzuschauen, die da ausgeführt werden sollten.

Und ehrlich gesagt bleibe ich mit einem seltsamen Gefühl zurück, wohin das alles führt. Wie wird ein Informatikstudium in Zukunft überhaupt noch aussehen? Wie sollen wir unsere Kinder vorbereiten? Und wie vermeidet Europa es, ins Hintertreffen zu geraten, wenn alle guten LLMs aus den USA oder China kommen?