Kursbeschreibung
Zielgruppe
- Softwareentwicklerinnen und Softwareentwickler, die Voice-Features integrieren
- Machine-Learning- und Data-Engineering-Rollen mit Schnittstelle zu Audio
- Product Ownerinnen und Product Owner für Conversational Interfaces
- IT-Architektinnen und IT-Architekten mit Verantwortung für Betrieb und Datenschutz
- Für alle, die STT & TTS in Anwendungen produktiv nutzbar machen wollen
Voraussetzung für die Schulung
- Grundverständnis von Web- oder Backend-Architekturen und APIs.
- Hilfreich sind erste Berührungspunkte mit Audio oder ML, aber nicht erforderlich.
Kursinhalte
- Architektur für Sprach-Interfaces
- End-to-End-Flows: Audio rein, Text raus, Antwort zurück
- Client, Backend, Streaming: typische Bausteine
- Latenz-Budget und Qualitätsziele definieren
- Fehlerbilder: Abbrüche, Hall, Overlap, Stille
- Speech-to-Text (STT) in der Praxis
- Streaming vs. Batch-Transkription
- Voice Activity Detection und Segmentierung
- Spracherkennung für Fachvokabular: Phrasen, Wörterbücher
- Messgrößen: WER, Real-Time-Factor, Confidence
- Text-to-Speech (TTS) mit natürlicher Ausgabe
- Stimmenauswahl, Stil und Prosodie
- SSML-Grundlagen für Betonung und Pausen
- Audio-Formate, Sampling, Lautheit, Normalisierung
- Streaming-Audio und Unterbrechbarkeit
- Dialoglogik und Orchestrierung
- Turn-Taking: wann zuhören, wann sprechen
- Bararge-in: Nutzer unterbricht die Ausgabe
- Fallbacks, Rückfragen, Bestätigungen
- Kontextverwaltung und Prompting-Schnittstellen
- Qualität, Tests und Monitoring
- Testsets für Akzente, Umgebungsgeräusche, Domänenbegriffe
- Automatisierte Regression: Transkription und Audio
- Observability: Latenzen, Ausfallraten, Qualitätsdrift
- Human-in-the-loop für Iterationen
- Datenschutz, Sicherheit und Betrieb
- PII-Handling, Logging-Strategien, Retention
- On-Prem, Private Cloud, Managed APIs: Trade-offs
- Schlüsselmanagement, Zugriff, Audit
- Kostensteuerung: Token, Minuten, Caching





















