Kursbeschreibung
Die wichtigsten Themen im Überblick
- Vector-DB-Architekturen für stabile RAG-Systeme planen
- Embeddings, Chunking und Ähnlichkeitsmaße sicher bewerten
- ANN-Indizes für Latenz, Recall und Kosten optimieren
- Hybrid Search, Filter und Re-Ranking gezielt einsetzen
- RAG-Ingestion mit Upserts und Re-Embedding robust aufbauen
- Retrieval mit Recall@k, MRR und Golden Sets messen
- Latenz, Token-Kosten und Index-Gesundheit überwachen
- KI-Datenflüsse mit Audit-Logs und Zugriffskontrollen schützen
Zielgruppe
- Machine-Learning Engineers und Data Scientists mit Produktverantwortung
- Software Engineers und Architektinnen, die RAG-Systeme bauen
- Plattform- und DevOps-Teams, die Vector-DBs betreiben
- IT-Security und Compliance, die KI-Datenflüsse bewerten
- Alle, die Retrieval für KI-Anwendungen zuverlässig und überprüfbar machen wollen
Voraussetzung für die Schulung
- Grundkenntnisse in KI/LLM-Konzepten und APIs, z. B. Embeddings und Prompting.
- Erfahrung mit Datenpipelines oder Backend-Entwicklung ist hilfreich.
Kursinhalte
- Vektor-Suche, Embeddings, Retrieval
- Embedding-Modelle, Dimensionen, Normalisierung
- Ähnlichkeitsmaße: Cosine, Dot, L2, MIPS
- Chunking-Strategien, Overlap, Struktur aus Dokumenten
- Qualitätsmetriken: Recall@k, MRR, NDCG
- Index-Design und Performance
- ANN-Grundlagen: HNSW, IVF, PQ und Trade-offs
- Index-Parameter, Build-Zeit vs. Query-Latenz
- Filtering: Metadata, Hybrid Search, Sparse + Dense
- Re-Ranking und Two-Stage Retrieval
- Architekturentscheidungen für Vector Databases
- Eigenbetrieb vs. Managed, Kosten- und Betriebsmodell
- Sharding, Replikation, Konsistenz und Verfügbarkeit
- Cold/Hot Storage, Caching, Speicherkosten
- Multi-Tenancy, Namespaces, Isolation
- Implementierung einer RAG-Pipeline
- Ingestion: Parser, Cleaning, Dedup, Versionierung
- Upserts, Deletes, Re-Embedding und Backfills
- Prompt- und Kontextaufbau, Zitierfähigkeit
- Fehlerbilder: Halluzinationen, Drift, Datenlücken
- Observability, Evaluation, Betrieb
- Tracing: Retrieval-Latenz, Token-Kosten, Cache-Hits
- Offline- und Online-Evaluation, Golden Sets
- Monitoring von Index-Gesundheit und Datenqualität
- Rollback-Strategien und sichere Releases
- Sicherheit, Compliance, Governance
- PII-Handling, Zugriffskontrollen, Mandantenfähigkeit
- Verschlüsselung, Schlüsselmanagement, Audit-Logs
- Data Residency, Löschkonzepte, Retention
- Prompt-Injection und Retrieval-Manipulation





















