Kursbeschreibung
Zielgruppe
- Machine-Learning-Engineers und Data Scientists
- Softwareentwicklerinnen und Softwareentwickler mit ML-Bezug
- Forschungs- und Innovations-Teams in Produktentwicklung
- MLOps- und Plattform-Teams, die RL-Prototypen betreuen
- Für alle, die Agenten bauen wollen, die durch Belohnung lernen und Entscheidungen in Simulationen nachvollziehbar verbessern.
Voraussetzung für die Schulung
- Solide Python-Grundlagen und Erfahrung mit Jupyter-Workflows
- Grundverständnis von Machine Learning und neuronalen Netzen ist hilfreich
Kursinhalte
- RL-Grundlagen, Begriffe, Denkmodelle
- MDP, Zustände, Aktionen, Rewards, Episoden
- Policy, Value Function, Return, Discounting
- Exploration vs. Exploitation und typische Fallstricke
- Value-based Methoden: Von Tabular bis Deep
- Dynamic Programming, Monte Carlo, Temporal Difference
- Q-Learning, SARSA, Eligibility Traces
- Deep Q-Networks (DQN): Stabilität, Replay, Target Networks
- Policy Gradients und Actor-Critic
- REINFORCE, Baselines und Varianzreduktion
- Advantage, GAE und Actor-Critic-Intuition
- PPO: warum es in der Praxis oft gewinnt
- Reward Design und sichere Lernumgebungen
- Reward Shaping ohne „Reward Hacking“
- Constraints, Penalties, Safety Checks
- Offline vs. Online RL: Datenqualität und Risiken
- Experiment-Setup, Debugging, Evaluation
- Trainingskurven richtig lesen: Instabilität, Collapse, Overfitting
- Seed-Management, Reproduzierbarkeit, Ablations
- Metrics: Sample Efficiency, Regret, Robustheit
- Praxisprojekte: Von der Idee zum lauffähigen Agenten
- Gymnasium-Umgebungen und eigene Environments
- Hyperparameter, Normalisierung, Logging
- Deployment-Denken: Grenzen, Monitoring, Drift





















