Kursbeschreibung
Zielgruppe
- IT-Administratoren und Platform Engineers, die On-Prem-Services betreiben
- ML Engineers und MLOps Engineers mit Inferenz-Verantwortung
- DevOps Engineers, die Container und Kubernetes betreuen
- Security Engineers, die Datenabfluss und Zugriff absichern
- Für alle, die LLMs ohne externe API-Abhängigkeit produktiv nutzen wollen
Voraussetzung für die Schulung
- Grundkenntnisse in Linux und Container-Konzepten (Docker-Grundbegriffe)
- Hilfreich: Basiswissen zu GPUs und Netzwerken, aber nicht zwingend
Kursinhalte
- Architektur & Entscheidungsgrundlagen
- Use Cases, Datenklassen, Compliance-Treiber
- Inferenz-Stack: Runtime, Model-Format, Serving
- GPU vs. CPU, VRAM-Budget, Throughput-Latenz
- Make-or-buy: Cloud, Hybrid, On-Prem
- Hardware sizing ohne Rätselraten
- VRAM-Kalkulation: Parameter, Quantisierung, KV-Cache
- Batching, Kontextlänge, Parallelität
- Storage, RAM, PCIe, Netzwerk, Kühlung
- Messgrößen: Tokens/s, P95-Latenz, Auslastung
- Modelle & Formate für Self-Hosting
- GGUF, safetensors, Container-Images
- Quantisierung (z.B. 4-bit/8-bit) und Qualitätschecks
- Prompt-Templates, System Prompts, Tool-Use
- Modellwahl nach Sprache, Kontext, Lizenz
- Serving & Deployment
- vLLM, llama.cpp, Text Generation Inference (TGI)
- Docker/Compose und Kubernetes-Grundmuster
- Rolling Updates, Canary, Versionierung
- API-Design: OpenAI-kompatible Endpoints
- Sicherheit, Zugriff & Datenkontrolle
- Netzwerksegmentierung, Zero-Trust-Bausteine
- AuthN/AuthZ, Secrets, TLS, Audit Logs
- Prompt Injection: Risiken und Gegenmaßnahmen
- Data Residency, Protokollierung, Aufbewahrung
- Beobachtbarkeit & Betrieb
- Monitoring: GPU/CPU, VRAM, Queue, Errors
- Tracing für Latenz und Bottlenecks
- Kapazitätsplanung und Kosten pro 1.000 Tokens
- Runbooks: Incident, Rollback, Notfallplan
- RAG als produktionsnahes Add-on
- Chunking, Embeddings, Vektordatenbank-Optionen
- Retrieval-Qualität messen (Recall, Faithfulness)
- Guardrails: Quellenpflicht, Zitieren, Policies
- Offline-Indexing und Update-Strategien





















