Voice Agent selbst bauen: Schritt für Schritt mit Pipecat, Gemini & Twilio
Du willst deinen eigenen Voice Agent bauen, der rund um die Uhr Anrufe entgegennimmt und Termine bucht? Kein Problem! Ich habe meinen eigenen Voice Agent mit Pipecat, Gemini 3.1 Flash und Twilio gebaut – er läuft seit März 2026 produktiv. In diesem Guide zeige ich dir meinen echten Stack und wie du es selbst umsetzt.
Jetzt den Voice Agent testen →
Was ist Pipecat – und warum habe ich es gewählt?
Pipecat ist ein Open-Source-Python-Framework von Daily.co für die Entwicklung von Sprach-KI-Anwendungen. Es löst das größte Problem bei Voice Agents: die Echtzeit-Pipeline zwischen Spracheingabe, LLM-Verarbeitung und Sprachausgabe.
Ohne Framework müsstest du selbst lösen: Audiodaten puffern, VAD (wann hört der Mensch auf zu sprechen?), Spracherkennung, LLM-Request, Sprachausgabe – alles in unter 500 Millisekunden damit es sich natürlich anfühlt. Pipecat übernimmt diese Pipeline-Logik komplett.
Tipp: Pipecat ist Open Source und kostenlos. Du zahlst nur für die externen Services die du anbindest – bei unserem Stack sind das Gemini und Twilio.
Mein Stack – das steckt hinter dem Voice Agent
- Pipecat – Python-Framework, übernimmt die gesamte Echtzeit-Pipeline
- Google Gemini 3.1 Flash – LLM für die Konversationsverarbeitung
- Twilio – stellt die Telefonnummer, routet eingehende Anrufe per Webhook
- Cal.com – Terminbuchung direkt im Gespräch
- Hetzner – Hosting, Docker, läuft 24/7
Hinweis: Ich habe bewusst auf Managed-Plattformen wie Vapi oder Bland verzichtet. Mit eigenem Stack hast du volle Kontrolle, kein Vendor Lock-in und keine Per-Minuten-Aufschläge der Plattform.
Warum Gemini 3.1 Flash statt Claude oder GPT für Voice?
Bei Voice Agents ist Latenz entscheidend. Gemini 3.1 Flash hat von allen getesteten Modellen die niedrigste Response-Zeit und übernimmt Spracherkennung und Sprachausgabe direkt – ohne separate STT- oder TTS-Services. Claude ist mein bevorzugtes Modell für komplexe Aufgaben – aber bei Voice zählt jede Millisekunde. Für unter 500ms Gesamtlatenz ist Gemini 3.1 Flash die bessere Wahl.
Schritt für Schritt: So baust du deinen ersten Voice Agent
Schritt 1: Pipecat installieren
Starte mit einem frischen Python-Projekt und installiere Pipecat mit den benötigten Extras:
pip install pipecat-ai[google,twilio]
Schritt 2: Services konfigurieren
Du brauchst API-Keys von: Google AI Studio (Gemini 3.1 Flash) und Twilio (Telefonnummer + Webhook). Lege sie als Umgebungsvariablen in einer .env-Datei ab.
Schritt 3: Pipeline aufbauen
In Pipecat definierst du die Pipeline: Transport (Twilio) → Gemini 3.1 Flash (übernimmt Sprache rein und raus) → Transport. Gemini verarbeitet Sprache direkt – keine separaten STT- oder TTS-Services nötig.
Schritt 4: System-Prompt schreiben
Der System-Prompt ist der wichtigste Teil. Er legt fest wie sich der Agent verhält, was er fragen soll und wie er auf verschiedene Situationen reagiert. Meiner fragt nach Anliegen und Unternehmensgröße, qualifiziert ob ein KI-Check sinnvoll ist und bietet einen Termin über Cal.com an.
Tipp: Fang mit einem engen Use Case an. Mein erster Prompt hatte nur 200 Wörter. Nach 2 Wochen Testing war er bei 600 Wörtern. Lieber zu einfach starten und erweitern als zu komplex starten und debuggen.
Schritt 5: Deployen und testen
Ich deploye auf Hetzner mit Docker. Der Twilio-Webhook zeigt auf meine Server-IP. Für Tests nutze ich die Twilio-Testnummer – so kann ich anrufen ohne echte Telefongebühren.
Was der Agent kann – und was nicht
Kann: Anrufe 24/7 entgegennehmen, nach Anliegen fragen, qualifizieren, Termine über Cal.com anbieten, häufige Fragen zu KI-Agenten beantworten.
Kann nicht: Komplexe Verhandlungen führen, auf externe Systeme zugreifen, Dokumente entgegennehmen. Das sind bewusste Grenzen die ich im System-Prompt gesetzt habe.
Was kostet mein Voice Agent im Betrieb?
Für mein Volumen (unter 100 Anrufe/Monat): ca. 15–25 Euro monatlich. Aufgeteilt auf Twilio (Nummer + Minuten), Google Gemini API und Hetzner Server. Für ein KMU mit 200–500 Anrufen monatlich: ca. 50–100 Euro.
Hinweis: Ein Anruf dauert bei mir im Schnitt 2–4 Minuten. Rechne dein Volumen durch und prüfe ob sich der Aufwand lohnt – in den meisten Fällen amortisiert sich der Agent nach 2–3 Monaten.
Verwandte Artikel auf jhs-tech.de
- Was ist GEO? Generative Engine Optimization einfach erklaert
- Deinen eigenen KI-Agenten erstellen: So einfach verknuepfst du Sprachmodell und Google
- Lokales KI-Modell einrichten: Schritt fuer Schritt Tutorial
FAQ: Häufige Fragen zum Voice Agent
Brauche ich Python-Kenntnisse für Pipecat?
Ja, grundlegende Python-Kenntnisse sind nötig. Du musst async/await verstehen und pip-Packages installieren können. Pipecat übernimmt die komplexe Pipeline-Logik – du definierst den Gesprächsfluss.
Warum Pipecat statt Vapi oder Bland?
Pipecat gibt vollständige Kontrolle: eigenes LLM, kein Vendor Lock-in, keine Per-Minuten-Aufschläge. Vapi und Bland sind schneller einzurichten aber teurer bei Scale.
Kann der Agent mehrere Sprachen?
Ja. Gemini 3.1 Flash unterstützt Deutsch und Englisch zuverlässig. Du konfigurierst die Sprache im System-Prompt und Pipecat-Setup.
Wie lange hat der Aufbau gedauert?
Erster funktionierender Prototyp: etwa 2 Tage. Produktionsreife Version mit Twilio-Integration und ausgereiftem Gesprächsleitfaden: etwa 2 Wochen.
Fazit: Dein eigener Voice Agent ist machbar
Wie du siehst, ist ein eigener Voice Agent kein Riesenprojekt. Mit Pipecat, Gemini 3.1 Flash und Twilio hast du einen schlanken Stack der funktioniert, skalierbar ist und dir vollständige Kontrolle gibt. Fang klein an – einen Use Case, einen Gesprächsfluss, eine Telefonnummer.
Hast du noch Fragen zum Aufbau? Buche dir ein kostenloses Erstgespräch und wir schauen gemeinsam was in deinem Fall Sinn macht.
Jetzt den Voice Agent testen →
Viel Spaß beim Bauen!