Neueste Nachrichten und Artikel

Entwicklung von KI-Agenten: Von besseren Modellen bis hin zu robusten „Harnesses“

08.03.2026

Die Leistungsfähigkeit der neuesten Generation von Large Language Models (LLMs) verbessert sich rapide, doch allein ein intelligenteres Modell reicht nicht aus, um zuverlässige KI-Agenten einzusetzen. Die eigentliche Herausforderung liegt im „Harness Engineering“ – dem Aufbau der Infrastruktur, die es diesen Modellen ermöglicht, über längere Zeiträume unabhängig und effektiv zu arbeiten. Wie Harrison Chase, CEO von LangChain, erklärt, handelt es sich dabei um eine Weiterentwicklung des traditionellen Kontext-Engineerings, bei dem es darum geht, Modelle nicht mehr einzuschränken, sondern sie zu stärken.

Der Wandel von der Kontrolle zur Autonomie

Frühe KI-Systeme waren darauf ausgelegt, Endlosschleifen und den unkontrollierten Einsatz von Werkzeugen zu vermeiden. Der Trend geht nun dahin, LLMs mehr Kontrolle über ihren eigenen Kontext zu geben. Dies ermöglicht langlebige, autonome Assistenten, die komplexe Aufgaben ohne ständiges menschliches Eingreifen planen und ausführen können. Chase verweist als Beispiel auf die Übernahme von OpenClaw durch OpenAI: Bei seinem viralen Erfolg ging es nicht um das Modell selbst, sondern darum, es mit einem Maß an Freiheit betreiben zu können, das nur wenige etablierte Labore zulassen würden.

Es bleibt die Frage, ob OpenAI diesen „Let it rip“-Ansatz mit der für Unternehmensanwendungen erforderlichen Sicherheit und Zuverlässigkeit in Einklang bringen kann. Die Fähigkeit, autonome Agenten sicher einzusetzen, ist der wahre Preis.

Das Problem der vorzeitigen Autonomie

Lange Zeit waren LLMs nicht leistungsfähig genug, um autonome Schleifen zuverlässig zu bewältigen. Projekte wie AutoGPT waren zwar theoretisch vielversprechend, zeigten jedoch Folgendes: Die Architektur war vorhanden, aber die Modelle konnten einfach keine Kohärenz aufrechterhalten oder Pläne effektiv ausführen. Die Lücke zwischen Modellfähigkeit und Agentendesign führte dazu, dass frühe Versuche oft scheiterten.

Mit der Verbesserung der LLMs ändert sich diese Dynamik jedoch. Teams können jetzt Umgebungen erstellen, in denen Modelle in Schleifen laufen, über längere Zeiträume planen und diese „Geschirr“ kontinuierlich verfeinern können, um die Leistung zu verbessern.

Die Deep Agents von LangChain: Eine anpassbare Lösung

Die Antwort von LangChain auf diese Herausforderung ist Deep Agents, ein anpassbares System, das auf LangChain und LangGraph basiert. Es bietet mehrere Hauptfunktionen:

Planungsfunktionen: Ermöglicht es Agenten, komplexe Aufgaben in überschaubare Schritte zu unterteilen.
Virtuelles Dateisystem: Ermöglicht Agenten das Speichern, Abrufen und Verwalten von Informationen.
Kontext- und Token-Management: Verhindert Kontextüberlastung und sorgt für eine effiziente Nutzung von LLM-Ressourcen.
Codeausführung: Gibt Agenten die Möglichkeit, Code zur dynamischen Problemlösung auszuführen.
Fähigkeiten und Gedächtnisfunktionen: Ermöglicht es Agenten, im Laufe der Zeit zu lernen und sich anzupassen.
Subagenten-Delegation: Zerlegt Aufgaben in kleinere Teile, die von spezialisierten Agenten bearbeitet werden und aus Effizienzgründen parallel ausgeführt werden.

Entscheidend ist, dass Deep Agents Subagentenkontexte isolieren, um Unordnung zu vermeiden, und die Ergebnisse für eine effiziente Token-Nutzung komprimieren. Agenten können To-Do-Listen über Hunderte von Schritten hinweg erstellen und verfolgen und dabei praktisch „ihre Gedanken aufschreiben“. Der Schlüssel liegt darin, LLMs in die Lage zu versetzen, zu entscheiden, wann der Kontext für eine optimale Leistung komprimiert werden soll.

Der Kontext ist König

Chase betont, dass es bei der effektiven Agentenentwicklung auf Kontext-Engineering ankommt: Sicherstellen, dass das LLM zur richtigen Zeit über die richtigen Informationen im richtigen Format verfügt. Wenn Agenten ausfallen, liegt das meist an einem Kontextproblem. Wenn sie Erfolg haben, liegt das daran, dass sie über das nötige Wissen verfügen.

Dies bedeutet, über statische Systemaufforderungen hinauszugehen und stattdessen dynamische Fähigkeiten zu nutzen, die Agenten bei Bedarf laden können. „Anstatt alles fest in eine große Systemaufforderung zu programmieren“, erklärte Chase, „könnten Sie eine kleinere Systemaufforderung haben: ‚Das ist die Kerngrundlage, aber wenn ich X machen muss, lass mich den Skill für X machen. Wenn ich Y machen muss, lass mich den Skill für Y lesen.“

Beobachtbarkeit und Traces sind entscheidend für das Debuggen und das Verständnis der Denkweise von Agenten. Durch die Analyse des Agentenverhaltens können Entwickler grundlegende Fragen beantworten: Wie lautet die Systemaufforderung? Wie entsteht es? Über welche Tools verfügt der Agent? Wie wird Feedback präsentiert?

Die Zukunft der Agentenentwicklung

Die nächste Grenze umfasst Code-Sandboxen für die sichere Ausführung, sich weiterentwickelnde Benutzeroberflächen für Agenten mit langer Laufzeit und umfassende Observability-Tools zur Verfolgung der Leistung. Die Branche geht über die reine Verbesserung der Modelle hinaus und entwickelt Systeme, die ihnen einen zuverlässigen Betrieb in der realen Welt ermöglichen.

Der wichtigste Faktor bei der Entwicklung von KI-Agenten ist nicht mehr nur die Modellgröße, sondern auch die Frage, wie effektiv Sie den Kontext verwalten, Autonomie ermöglichen und die Leistung verfolgen können. Das „Geschirr“ ist mittlerweile genauso entscheidend wie das Modell selbst.