Linux Administration für KI-Workloads mit GPUs Kurs

Treiber, CUDA-Stack, Performance und stabile Deployments für Training und Inference

Linux Administration für KI-Workloads mit GPUs Kurs
Linux Administration für KI-Workloads mit GPUs Kurs

Kursbeschreibung

  • Kurs-ID:KKC_0240
  • Kursdauer:3 Tage
Du betreibst Linux-Systeme, auf denen Data Science, Training oder Inference laufen sollen, und willst weniger „mysteriöse“ GPU-Probleme und mehr reproduzierbare Ergebnisse? Dieses Seminar führt Dich durch die entscheidenden Bausteine eines stabilen KI-Stacks auf Linux. Du beginnst bei den NVIDIA-Treibern und lernst, wie Kernel, Module, DKMS und Secure Boot zusammenspielen. Du übst, wie Du Treiber-Updates und Kernel-Updates so orchestrierst, dass Du Rollbacks beherrschst und Ausfälle vermeidest. Darauf aufbauend setzt Du CUDA, cuDNN und NCCL so ein, dass die Kompatibilität nachvollziehbar bleibt. Du lernst, welche Checks wirklich aussagekräftig sind, wie Du Persistenced einordnest und wie Du mit kurzen Tests die GPU-Funktion und grundlegende Performance verifizierst. Multi-GPU-Aspekte wie PCIe-Topologie, NVLink und NUMA werden so erklärt, dass Du sie in Troubleshooting und Kapazitätsplanung einsetzen kannst. Ein zentraler Teil ist der Container-Betrieb: Docker mit NVIDIA Container Toolkit, GPU-Durchreichung, Berechtigungen und typische Ursachen für fehlschlagende Jobs trotz „grünem“ Container-Start. Ergänzend behandelst Du Ressourcensteuerung mit cgroups v2, ulimits und Shared Memory sowie Performance-Tuning bei Storage und Netzwerk. Abschließend baust Du ein Betriebsset aus Monitoring-Pfaden, Incident-Playbooks und einer Go-Live-Checkliste, damit KI-Workloads nicht nur starten, sondern dauerhaft zuverlässig laufen.

Die wichtigsten Themen im Überblick

  • GPU-Stack unter Linux stabil aufsetzen
  • NVIDIA-Treiber, CUDA, cuDNN und NCCL sicher abstimmen
  • KI-Container mit Docker reproduzierbar bauen
  • GPU-Ressourcen mit cgroups v2 und MIG gezielt isolieren
  • Training und Inference mit NUMA und Storage optimieren
  • GPU-Monitoring für Auslastung und Thermals einrichten
  • Treiber- und Kernel-Probleme systematisch beheben
  • Go-Lives mit Checks, Runbooks und Rollback absichern

Zielgruppe

  • Linux-Administratorinnen und Linux-Administratoren mit Betriebsverantwortung für GPU-Server
  • DevOps- und Platform-Engineers, die KI-Workloads containerisiert ausrollen
  • ML-Engineers und MLOps-Verantwortliche mit Bedarf an stabilem Infrastruktur-Setup
  • IT-Betrieb und SRE-Teams, die Training und Inference absichern
  • Für alle, die GPU-Workloads unter Linux reproduzierbar, performant und wartbar betreiben wollen

Voraussetzung für die Schulung

  • Sichere Linux-Kenntnisse (Shell, Systemdienste, Paketmanagement, Logs)
  • Grundverständnis von Docker ist hilfreich, aber nicht zwingend

Kursinhalte

  • GPU-Stack unter Linux stabil aufsetzen
    • NVIDIA-Treiber: Versionierung, DKMS, Secure Boot, Kernel-Updates
    • CUDA, cuDNN, NCCL: Kompatibilität und typische Fallstricke
    • Multi-GPU-Grundlagen: Topologie, PCIe, NVLink, NUMA
    • Validierung: nvidia-smi, Persistenced, Smoke-Tests
  • Container für KI: Docker, NVIDIA Container Toolkit
    • GPU in Containern: Runtime, Device-Plugin-Logik, Berechtigungen
    • Images reproduzierbar bauen: Base-Images, Pinning, SBOM-Idee
    • Fehlerbilder: „CUDA driver too old“, fehlende Libs, Mount-Probleme
    • Best Practices für Training vs. Inference
  • Ressourcen, Scheduling und Isolation
    • cgroups v2: CPU, RAM, IO und GPU-Device-Zugriff
    • MIG und GPU-Slicing (Überblick): sinnvolle Einsatzmuster
    • Ulimits, Shared Memory, Hugepages: typische KI-Engpässe
    • Mehrbenutzerbetrieb: Rechte, Gruppen, Policy-Ansätze
  • Performance-Tuning für Training und Inference
    • Storage-Pfade: NVMe, RAID, Filesystem-Optionen, Dataset-Caching
    • Netzwerk: MTU/Jumbo Frames, RDMA-Grundlagen, Latenz-Checks
    • CPU-Pinning, NUMA-Affinität, IRQ-Balancing
    • Monitoring: GPU-Utilization, Thermals, Power-Limits
  • Observability, Troubleshooting und Betrieb
    • Logs und Metriken: journald, dmesg, DCGM-Ansatz, Exporter-Idee
    • Kernel- und Treiber-Debugging: Module, Signaturen, tainted Kernel
    • Incident-Playbooks: Rollback, Canary, Wartungsfenster
    • Hardening: Updates, Repo-Strategie, minimaler Angriffsvektor
  • Praxis: Referenz-Setup und Abnahmecheck
    • Golden Path: von Bare Metal bis Container-Workload
    • Kompatibilitätsmatrix als Betriebsdokument
    • Checkliste für Go-Live: Tests, Limits, Monitoring, Backup
    • Übergabe an Betrieb: Runbooks und Verantwortlichkeiten

Termin finden

Linux Administration für KI-Workloads mit GPUs Kurs
17.08. - 19.08.2026 Online Garantiekurs Rabatt
1.490 € netto
Linux Administration für KI-Workloads mit GPUs Kurs
16.11. - 18.11.2026 Online Garantiekurs Rabatt
1.490 € netto
Plätze frei Wenige Plätze frei Nicht buchbar
21 Schulungszentren

21 Standorte erwarten dich

Als bundesweit tätiger und renommierter Seminaranbieter bietet dir die Kebel Training GmbH ein umfangreiches Angebot an IT-Schulungen und Soft-Skills Trainings an. Unser Linux Administration für KI-Workloads mit GPUs Kurs findet als Präsenzseminar in Berlin, Bremen, Dortmund, Dresden, Düsseldorf, Erfurt, Essen, Frankfurt, Hamburg, Hannover, Koblenz, Köln, Krefeld, Leipzig, München, Münster, Nürnberg, Regensburg, Saarbrücken, Siegen und Stuttgart statt.

Alternativ kann deine Fortbildung als Inhouse-Schulung bei dir vor Ort, Workshop und als Live Online Training organisiert werden.

Zur Standortübersicht

eKomi Seminarbewertungen für www.kebel.de

eKomi Bewertungen

Qualität ist bei Kebel kein Versprechen, sondern belegbar. Deshalb setzen wir auf das unabhängige Bewertungsportal eKomi. Nach jeder Schulung – online oder in Präsenz – erhalten unsere Teilnehmer:innen die Möglichkeit, uns anonym und freiwillig zu bewerten.

Mit über 1.600 Bewertungen in den letzten 12 Monaten zählen wir zu den bestbewerteten Anbietern für IT-Weiterbildungen.  Alle Bewertungen, ob positiv oder kritisch, fließen transparent in unsere offizielle Bewertungsstatistik ein und bilden die Grundlage unserer eKomi Trust-Zertifikate.

Für dich als Personalverantwortliche, IT-Fachkraft oder Entscheider:in bedeutet das: verifizierte Teilnehmerstimmen, geprüfte Qualität und maximale Transparenz bei der Auswahl deines Weiterbildungspartners.

Zum Bewertungsportal

Kebel Training – Das spricht dafür…

  • Über 1.200 Kurse im Portfolio

    Wähle deinen passenden Kurs zu einem festen Termin und erhalte dein Zertifikat. Lerne Live Online oder in Präsenz. Unser Kebel Team berät dich  kostenlos und unverbindlich.

    Seminarprogramm entdecken

  • Durchführungs- und Qualitätsgarantie

    Dein Seminar findet garantiert statt, wenn es von uns bestätigt wurde – schon ab dem ersten Teilnehmenden. Und falls du nicht zufrieden warst, kannst du es kostenlos wiederholen.

  • Firmenschulungen nach Maß – In Präsenz, Live Online oder hybrid

    Wir richten unsere Trainings individuell nach euren Anforderungen und Zielen aus. Auf Wunsch kann eure Schulung vor Ort als Inhouse- Schulung organisiert werden.

  • Mehr als 30 Jahre Schulungserfahrung

    Seit 1995 planen wir erfolgreich und zuverlässig Weiterbildungen im IT- und Soft-Skills Bereich.

  • 21 Standorte in deiner Nähe

    Deutschlandweit stehen dir unsere modernen Schulungszentren für deine berufliche Fortbildung zur Verfügung.

    21 Schulungszentren

  • Familienunternehmen in zweiter Generation

    Als Familienunternehmen in zweiter Generation verbinden wir Tradition mit Zukunft.

FAQ

Ja, nach erfolgreicher Teilnahme am Linux Administration für KI-Workloads mit GPUs Kurs erhältst Du ein Teilnahmezertifikat. Dieses bestätigt Deine erweiterten Kenntnisse im professionellen Einsatz von Linux Administration für KI-Workloads mit GPUs Kurs .

Ja, wir garantieren die Durchführung aller von uns bestätigten Termine. Der Linux Administration für KI-Workloads mit GPUs Kurs findet auch bereits ab einem Teilnehmer statt, sodass Du Deine Weiterbildung sicher und zuverlässig planen kannst.

Ja, wir bieten den Linux Administration für KI-Workloads mit GPUs Kurs als Inhouse Training oder Firmenschulung an. Zusätzlich kann die Schulung auch als Online-Firmenschulung durchgeführt werden. Inhalte, Prozesse und Schwerpunkte passen wir individuell an die Anforderungen Deines Unternehmens an.

Name