Linux Administration für KI-Workloads mit GPUs Kurs

Treiber, CUDA-Stack, Performance und stabile Deployments für Training und Inference

Linux Administration für KI-Workloads mit GPUs Kurs
Linux Administration für KI-Workloads mit GPUs Kurs

Kursbeschreibung

  • Kurs-ID:KKC_0240
  • Kursdauer:3 Tage
Du betreibst Linux-Systeme, auf denen Data Science, Training oder Inference laufen sollen, und willst weniger „mysteriöse“ GPU-Probleme und mehr reproduzierbare Ergebnisse? Dieses Seminar führt Dich durch die entscheidenden Bausteine eines stabilen KI-Stacks auf Linux. Du beginnst bei den NVIDIA-Treibern und lernst, wie Kernel, Module, DKMS und Secure Boot zusammenspielen. Du übst, wie Du Treiber-Updates und Kernel-Updates so orchestrierst, dass Du Rollbacks beherrschst und Ausfälle vermeidest. Darauf aufbauend setzt Du CUDA, cuDNN und NCCL so ein, dass die Kompatibilität nachvollziehbar bleibt. Du lernst, welche Checks wirklich aussagekräftig sind, wie Du Persistenced einordnest und wie Du mit kurzen Tests die GPU-Funktion und grundlegende Performance verifizierst. Multi-GPU-Aspekte wie PCIe-Topologie, NVLink und NUMA werden so erklärt, dass Du sie in Troubleshooting und Kapazitätsplanung einsetzen kannst. Ein zentraler Teil ist der Container-Betrieb: Docker mit NVIDIA Container Toolkit, GPU-Durchreichung, Berechtigungen und typische Ursachen für fehlschlagende Jobs trotz „grünem“ Container-Start. Ergänzend behandelst Du Ressourcensteuerung mit cgroups v2, ulimits und Shared Memory sowie Performance-Tuning bei Storage und Netzwerk. Abschließend baust Du ein Betriebsset aus Monitoring-Pfaden, Incident-Playbooks und einer Go-Live-Checkliste, damit KI-Workloads nicht nur starten, sondern dauerhaft zuverlässig laufen.

Zielgruppe

  • Linux-Administratorinnen und Linux-Administratoren mit Betriebsverantwortung für GPU-Server
  • DevOps- und Platform-Engineers, die KI-Workloads containerisiert ausrollen
  • ML-Engineers und MLOps-Verantwortliche mit Bedarf an stabilem Infrastruktur-Setup
  • IT-Betrieb und SRE-Teams, die Training und Inference absichern
  • Für alle, die GPU-Workloads unter Linux reproduzierbar, performant und wartbar betreiben wollen

Voraussetzung für die Schulung

  • Sichere Linux-Kenntnisse (Shell, Systemdienste, Paketmanagement, Logs)
  • Grundverständnis von Docker ist hilfreich, aber nicht zwingend

Kursinhalte

  • GPU-Stack unter Linux stabil aufsetzen
    • NVIDIA-Treiber: Versionierung, DKMS, Secure Boot, Kernel-Updates
    • CUDA, cuDNN, NCCL: Kompatibilität und typische Fallstricke
    • Multi-GPU-Grundlagen: Topologie, PCIe, NVLink, NUMA
    • Validierung: nvidia-smi, Persistenced, Smoke-Tests
  • Container für KI: Docker, NVIDIA Container Toolkit
    • GPU in Containern: Runtime, Device-Plugin-Logik, Berechtigungen
    • Images reproduzierbar bauen: Base-Images, Pinning, SBOM-Idee
    • Fehlerbilder: „CUDA driver too old“, fehlende Libs, Mount-Probleme
    • Best Practices für Training vs. Inference
  • Ressourcen, Scheduling und Isolation
    • cgroups v2: CPU, RAM, IO und GPU-Device-Zugriff
    • MIG und GPU-Slicing (Überblick): sinnvolle Einsatzmuster
    • Ulimits, Shared Memory, Hugepages: typische KI-Engpässe
    • Mehrbenutzerbetrieb: Rechte, Gruppen, Policy-Ansätze
  • Performance-Tuning für Training und Inference
    • Storage-Pfade: NVMe, RAID, Filesystem-Optionen, Dataset-Caching
    • Netzwerk: MTU/Jumbo Frames, RDMA-Grundlagen, Latenz-Checks
    • CPU-Pinning, NUMA-Affinität, IRQ-Balancing
    • Monitoring: GPU-Utilization, Thermals, Power-Limits
  • Observability, Troubleshooting und Betrieb
    • Logs und Metriken: journald, dmesg, DCGM-Ansatz, Exporter-Idee
    • Kernel- und Treiber-Debugging: Module, Signaturen, tainted Kernel
    • Incident-Playbooks: Rollback, Canary, Wartungsfenster
    • Hardening: Updates, Repo-Strategie, minimaler Angriffsvektor
  • Praxis: Referenz-Setup und Abnahmecheck
    • Golden Path: von Bare Metal bis Container-Workload
    • Kompatibilitätsmatrix als Betriebsdokument
    • Checkliste für Go-Live: Tests, Limits, Monitoring, Backup
    • Übergabe an Betrieb: Runbooks und Verantwortlichkeiten

Termin finden

Linux Administration für KI-Workloads mit GPUs Kurs
17.08. - 19.08.2026 Online
1.490 € netto
Linux Administration für KI-Workloads mit GPUs Kurs
16.11. - 18.11.2026 Online
1.490 € netto
Plätze frei Wenige Plätze frei Nicht buchbar

Firmenschulung anfragen

  • Unternehmensinterne Trainings für mehrere Mitarbeitende
  • Direkt vor Ort oder online – Zeit und Reisekosten sparen
  • Kostenvorteil ab dem 3. Teilnehmer

ekomi Bewertungen

Qualität ist bei Kebel kein Versprechen, sondern belegbar. Deshalb setzen wir auf das unabhängige Bewertungsportal eKomi. Nach jeder Schulung – online oder in Präsenz – erhalten unsere Teilnehmer:innen die Möglichkeit, uns anonym und freiwillig zu bewerten.

Mit über 1.000 Bewertungen in den letzten 12 Monaten zählen wir zu den bestbewerteten Anbietern für IT-Weiterbildungen.  Alle Bewertungen, ob positiv oder kritisch, fließen transparent in unsere offizielle Bewertungsstatistik ein und bilden die Grundlage unserer eKomi Trust-Zertifikate.

Für dich als Personalverantwortliche, IT-Fachkraft oder Entscheider:in bedeutet das: verifizierte Teilnehmerstimmen, geprüfte Qualität und maximale Transparenz bei der Auswahl Ihres Weiterbildungspartners.

Zum Bewertungsportal

Seminarberatung zum Linux Administration für KI-Workloads mit GPUs Kurs

Unser Kebel Team berät dich gerne kostenlos und unverbindlich für dein Linux Administration für KI-Workloads mit GPUs Kurs. Wir unterstützen dich gerne dabei, den passenden Kurs und das optimale Lernformat für deine Weiterbildung zu finden

Über 1200 Kurse

Entdecke jetzt unser vielseitiges Kursportfolio und finde die passende Schulung für dein Team.

FAQ

Ja, nach erfolgreicher Teilnahme am Linux Administration für KI-Workloads mit GPUs Kurs erhältst Du ein Teilnahmezertifikat. Dieses bestätigt Deine erweiterten Kenntnisse im professionellen Einsatz von Linux Administration für KI-Workloads mit GPUs Kurs .

Ja, wir garantieren die Durchführung aller von uns bestätigten Termine. Der Linux Administration für KI-Workloads mit GPUs Kurs findet auch bereits ab einem Teilnehmer statt, sodass Du Deine Weiterbildung sicher und zuverlässig planen kannst.

Ja, wir bieten den Linux Administration für KI-Workloads mit GPUs Kurs als Inhouse Training oder Firmenschulung an. Zusätzlich kann die Schulung auch als Online-Firmenschulung durchgeführt werden. Inhalte, Prozesse und Schwerpunkte passen wir individuell an die Anforderungen Deines Unternehmens an.