Hinter der Magie: Wie autonome Agenten wirklich funktionieren
Es ist kein Zaubertrick. Es ist eine Schleife.
OpenClaw hat über 200.000 GitHub-Stars. Meta hat für Manus AI zwei Milliarden Dollar bezahlt. Die Welt redet von „autonomen Agenten" wie von Magie. Zeit, den Vorhang zu lüften.
Es ist eine Schleife – Der Agent Loop
Was passiert eigentlich, wenn man einem KI-Agenten eine Aufgabe gibt? Die Antwort ist ernüchternd einfach: Er läuft in einer Schleife.
Der sogenannte Agent Loop ist das Herzstück jedes autonomen Agenten – egal ob OpenClaw, Manus AI oder Cursor. Der Ablauf ist immer derselbe:
- Kontext laden: Gesprächsverlauf, Systemanweisungen, verfügbare Tools und gespeicherte Notizen werden zusammengestellt.
- LLM aufrufen: Das Sprachmodell erhält den gesamten Kontext und eine Liste verfügbarer Werkzeuge.
- Antwort auswerten: Das LLM antwortet entweder mit Text (fertig) oder mit einem Tool-Aufruf.
- Tool ausführen: Das System führt das angeforderte Werkzeug aus – z.B. eine Websuche, ein Shell-Kommando oder eine API-Abfrage.
- Ergebnis anhängen: Das Tool-Ergebnis wird zurück in den Kontext geschrieben.
- Wiederholen: Zurück zu Schritt 2 – bis das LLM eine finale Textantwort gibt.
Das ist der gesamte Trick. Keine Magie, kein Bewusstsein, kein Geheimnis. Eine while-Schleife mit Werkzeugaufrufen.
Tool Calling: Die Hände des Agenten
Ein Agent ohne Tools ist ein Chatbot. Erst die Fähigkeit, Werkzeuge aufzurufen, macht ihn autonom.
Tools werden dem System als strukturierte Liste übergeben – mit Name, Beschreibung und Parametern. Das LLM entscheidet selbst, wann welches Tool sinnvoll ist. Die Runtime validiert den Aufruf und führt ihn aus.
Ein typischer Multi-Step-Ablauf sieht so aus:
- Agent ruft Websuche auf → erhält Suchergebnisse
- Agent ruft Seite lesen auf → extrahiert relevante Inhalte
- Agent fasst zusammen → liefert finale Antwort
Drei Schleifen-Iterationen. Drei Tool-Aufrufe. Ein Ergebnis, das sich anfühlt wie Intelligenz – aber Mechanik ist.
Zwei Architekturen, ein Prinzip
OpenClaw und Manus AI lösen das gleiche Problem auf unterschiedliche Weise. Aber unter der Haube läuft derselbe Loop.
OpenClaw
- Läuft lokal als Gateway-Prozess
- Hub-and-Spoke: Ein Gateway, viele Channel-Adapter (WhatsApp, Slack, Telegram)
- Sechs Input-Typen: Nachrichten, Heartbeats, Cron-Jobs, Hooks, Webhooks, Agent-to-Agent
- Tools definiert in
TOOLS.md - Open Source, jetzt unter dem Dach von OpenAI
Manus AI
- Läuft in der Cloud – eigene Sandbox pro Session
- Drei spezialisierte Agenten: Planner, Executor, Verifier
- Drei-Datei-System:
context.md,notes.md,task_plan.md - CodeAct-Paradigma: Generiert ausführbaren Python-Code statt JSON
- Von Meta für ~2 Mrd. $ übernommen (Dez. 2025)
Verschiedene Architekturen, verschiedene Philosophien – aber im Kern die gleiche Schleife: Denken → Handeln → Beobachten → Wiederholen.
Context ist alles (und kostet)
Jede Iteration der Schleife fügt dem Kontext neue Informationen hinzu: Tool-Ergebnisse, Zwischenschritte, Gesprächsverlauf. Je autonomer ein Agent arbeitet, desto mehr Schleifen dreht er – und desto mehr Tokens verbrennt er.
Bei Manus AI liegt das Verhältnis von Input- zu Output-Tokens bei etwa 100:1. Der Agent liest also hundertmal mehr, als er schreibt. OpenClaw serialisiert Sessions und trägt die gesamte Historie mit – jeder neue Schritt wird teurer als der vorherige.
Das erklärt, warum autonome Agenten echte Token-Fresser sind. Es ist keine Ineffizienz – es ist der Preis der Autonomie.
Der Wettlauf: OpenAI vs. Meta
Beide Tech-Giganten haben erkannt, dass Agenten das nächste große Ding sind:
- OpenAI holte OpenClaw-Gründer Peter Steinberger und setzt auf den lokalen, Open-Source-Ansatz.
- Meta kaufte Manus AI für 2 Milliarden Dollar und integriert die Technologie in WhatsApp, Instagram und Facebook.
Der Unterschied liegt nicht im Loop selbst – sondern im Ökosystem: Welche Tools stehen zur Verfügung? Wie gut sind die Guardrails? Und vor allem: Wem vertraut man seine Daten an?
Autonome Agenten sind keine Magie – sie sind eine Schleife mit Werkzeugaufrufen. Wer das versteht, kann diese Systeme rational bewerten, statt sich vom Hype blenden zu lassen. Die echte Differenzierung liegt in Tool-Ökosystemen, Kontextmanagement und Vertrauen.