Kursbeschreibung
Zielgruppe
- Softwareentwickler und Machine-Learning-Engineers, die Open-Source LLMs anpassen
- AI Engineers im Produktteam mit Verantwortung für Qualität und Betrieb
- Data Scientists, die SFT und Preference Tuning umsetzen wollen
- Plattform- und MLOps-Teams, die Serving, Monitoring und Releases absichern
- Alle, die Fine-Tuning reproduzierbar planen, evaluieren und betreiben wollen
Voraussetzung für die Schulung
- Solide Python-Grundlagen und Erfahrung mit CLI/Git.
- Grundverständnis von Transformer/Tokenisierung und ML-Training (Begriffe wie Loss, Epoch, Overfitting).
Kursinhalte
- Modell- und Trainingsstrategie festlegen
- Use-Case-Scoping: Chat, RAG, Tool-Use, Klassifikation
- Base Model Auswahl: Llama, Mistral, Qwen und Lizenzfallen
- Compute-Kalkulation: VRAM, Throughput, Kosten, Zeit
- PEFT vs. Full Fine-Tuning: wann sich was lohnt
- Daten, die wirklich wirken
- Instruction-Datasets: Struktur, Prompt-Formate, Systemregeln
- Qualitätssicherung: Dedup, Leakage, Toxicity, PII
- Labeling-Workflows: Guidelines, Inter-Annotator-Checks
- Data Mixing: Domain, General, Safety, Hard Negatives
- Supervised Fine-Tuning (SFT) mit PEFT
- LoRA/QLoRA: Rank, Alpha, Target Modules
- Tokenisierung, Packing, Sequence Length, Loss Masking
- Training mit Hugging Face Transformers + TRL
- Stabilität: LR-Schedules, Grad-Accumulation, Checkpoints
- Preference Tuning: DPO statt Bauchgefühl
- Pairwise Preferences: Datenschema und Sampling
- DPO-Grundidee, Beta, Overfitting auf Präferenzen
- Alternativen: ORPO, IPO, Best-of-N Sampling
- Guardrails: Ablehnungen, Policy-Style, Safety-Prompts
- Evaluation, die dich vor Überraschungen schützt
- Offline-Eval: Task-Suites, Regression Tests, Golden Sets
- LLM-as-a-Judge: Bias, Kalibrierung, Gegenchecks
- Halluzinationsmessung in RAG-Setups
- Monitoring-Metriken: Drift, Cost per Answer, Latency
- Deployment & Betrieb
- Export: Adapter-Merge, Quantisierung (GPTQ/AWQ)
- Serving: vLLM/TGI, Batching, KV-Cache, Streaming
- Security: Prompt Injection, Data Exfiltration, Secrets
- Release-Prozess: Modellkarten, Versionierung, Rollback





















