Zum Hauptinhalt springen

Konzepte

Unsere Managed-Kubernetes-Angebote

Cloud Temple bietet zwei verschiedene Angebote an, um Ihren Anforderungen an die Container-Orchestrierung gerecht zu werden:

  • Managed Core Kubernetes : Ein minimalistisches Produkt, das Ihnen eine robuste und sichere Kubernetes-Basis bereitstellt, die auf modernsten Open-Source-Komponenten basiert. Es ist ideal für erfahrene Teams, die ihre eigene maßgeschneiderte Plattform aufbauen möchten.
  • Managed Kubernetes : Eine vollständige und sofort einsatzbereite Lösung, die einen umfassenden Toolstack für Netzwerk, Sicherheit, Speicher, Continuous Deployment, Observability, Backup und Kostenmanagement umfasst.

Vergleichstabelle der Angebote

KomponenteManaged Core KubernetesManaged Kubernetes
BetriebssystemTalosTalos
CNICiliumCilium
CNI-BeobachtungHubble
Load BalancerMetalLBMetalLB
IngressIngress Nginx
SpeicherRook-CephRook-Ceph
Kontinuierliche Bereitstellung (GitOps)ArgoCD
ObservabilityPrometheus, Grafana, Loki
Sicherung und MigrationVeeam Kasten
Kostenmanagement (FinOps)OpenCost
Governance und SicherheitKyverno, Capsule
Container RegistryHarbor
ZertifikatsverwaltungCert-Manager
SSO-AuthentifizierungOIDC-Anbindung

Vorstellung des Managed Kubernetes-Produkts (vollständig)

Das Managed Kubernetes-Angebot (auch „Kub Managé“ oder „KM“ genannt) ist eine von Cloud-Temple verwaltete Kubernetes-Containerisierungslösung, die als Virtuelle Maschinen auf den Cloud-Temple OpenIaaS IaaS-Infrastrukturen bereitgestellt wird.

Managed Kubernetes basiert auf Talos Linux (https://www.talos.dev/), einem Kubernetes-spezifischen Betriebssystem, das leichtgewichtig und sicher ist. Es ist immutable, verfügt über keine Shell und keinen SSH-Zugriff und wird ausschließlich deklarativ über die gRPC-API konfiguriert.

Die standardisierte Installation umfasst eine Reihe von Komponenten, die größtenteils Open Source sind und vom CNCF validiert wurden:

  • CNI Cilium mit Observability-Schnittstelle (Hubble): Cilium ist eine Container-Netzwerk-Lösung für Kubernetes (Container Network Interface). Es verwaltet Sicherheit, Load Balancing, Service Mesh, Observability, Verschlüsselung usw. Es handelt sich um eine grundlegende Netzwerkkomponente, die in den meisten Kubernetes-Distributionen (OpenShift, AKS, GKE, EKS, ...) zu finden ist. Wir haben die grafische Oberfläche Hubble integriert, um Cilium-Flüsse zu visualisieren.

  • MetalLB und nginx: Zur Bereitstellung von Webanwendungen sind standardmäßig drei Ingress-Class-Konfigurationen für nginx integriert:

    • nginx-external-secured: Bereitstellung über eine öffentliche IP, gefiltert über die Firewall, um nur bekannten IPs den Zugriff zu erlauben (wird für die grafischen Oberflächen der verschiedenen Produkte und die Kubernetes-API verwendet)

    • nginx-external: Bereitstellung über eine zweite, nicht gefilterte öffentliche IP (oder kundenspezifische Filterung)

    • nginx-internal: Bereitstellung ausschließlich über eine interne IP

      Für „nicht-Web“-Dienste ermöglicht ein MetalLB-Load-Balancer die Bereitstellung von Diensten intern oder über öffentliche IPs. (Dies ermöglicht die Bereitstellung weiterer Ingresses, wie beispielsweise eines WAF)

  • Verteilter Speicher Rook-Ceph: Für die Speicherung persistenter Volumes (PV) ist eine Open-Source-Ceph-Speicherlösung in die Plattform integriert. Sie ermöglicht die Nutzung der Storage Classes ceph-block, ceph-bucket und ceph-filesystem. Es wird ein Speicher mit 7500 IOPS eingesetzt, der hohe Leistung ermöglicht. Bei Produktionsbereitstellungen (über 3 AZ) sind die Speicherknoten dediziert (1 Knoten pro AZ); bei Nicht-Produktionsbereitstellungen (1 AZ) wird der Speicher mit den Worker Nodes geteilt.

  • Cert-Manager: Der Open-Source-Zertifikatsmanager Cert-Manager ist nativ in die Plattform integriert.

  • ArgoCD steht Ihnen für Ihre automatisierten Bereitstellungen über eine CI/CD-Pipeline zur Verfügung.

  • Prometheus-Stack (Prometheus, Grafana, Loki): Managed-Kubernetes-Cluster werden standardmäßig mit einem vollständigen Open-Source-Prometheus-Stack für die Observability ausgeliefert, einschließlich:

    • Prometheus

    • Grafana mit zahlreichen Dashboards

    • Loki: Die Plattform-Logs werden in den Cloud-Temple S3-Speicher exportiert (und in Grafana integriert).

  • Harbor ist eine Container Registry, mit der Sie Container-Images oder Helm Charts direkt im Cluster speichern können. Sie führt Vulnerability Scans für Ihre Images durch und kann diese digital signieren. Harbor ermöglicht zudem Synchronisierungen mit anderen Registries. (https://goharbor.io/)

  • OpenCost (https://github.com/opencost/opencost) ist ein Kostenmanagement-Tool (FinOps) für Kubernetes. Es ermöglicht Ihnen, den Ressourcenverbrauch von Kubernetes genau zu verfolgen und eine detaillierte Kostenabrechnung (Chargeback/Showback) pro Projekt/Namespace durchzuführen.

  • Erweiterte Sicherheitsstrategien mit Kyverno und Capsule:

    • Kyverno (https://kyverno.io/) ist ein Admission Controller für Kubernetes, der die Durchsetzung von Richtlinien ermöglicht. Es ist ein essentielles Tool für Governance und Sicherheit in Kubernetes.
    • Capsule (https://projectcapsule.dev/) ist ein Berechtigungsverwaltungstool, das das Rechte-Management in Kubernetes erleichtert. Es führt den Begriff des Tenants ein, der die Zentralisierung und Delegation von Berechtigungen über mehrere Namespaces hinweg ermöglicht. Über Capsule verfügen die Nutzer der Managed-Kubernetes-Plattform daher über auf ihre jeweiligen Namespaces beschränkte Rechte.
  • Veeam Kasten (auch „k10“) ist eine Lösung zum Backup von Kubernetes-Workloads.

    Es ermöglicht das Backup einer vollständigen Bereitstellung: Manifests, Volumes usw. in den Cloud-Temple S3-Objektspeicher. Kasten nutzt Kanister, um konsistente Anwendungsbackups zu ermöglichen, beispielsweise für Datenbanken (https://docs.kasten.io/latest/usage/blueprints/).

    Kasten ist ein plattformübergreifendes Tool, das mit anderen Kubernetes-Clustern (OpenShift, Hyperscaler, ...) arbeiten kann. Es kann daher für Szenarien zur Reversibilität oder Migration eingesetzt werden (K10 verwaltet eventuelle Anpassungen über Transformationen, z. B. einen Wechsel der Ingress-Class), sowie für „Refresh“-Szenarien (Beispiel: geplante Wiederherstellung einer Produktionsumgebung in einer Pre-Production-Umgebung).

  • SSO-Authentifizierung über einen externen OIDC-Identity-Provider (Microsoft Entra, FranceConnect, Okta, AWS IAM, Google, Salesforce, ...)

SLA & Supportinformationen

  • Garantierte Verfügbarkeit (production 3 AZ) : 99.90 %
  • Support : N1/N2/N3 inclus pour le périmètre socle (infrastructure et opérateurs standards).
  • Zusage zur Wiederherstellungszeit (ETR) : gemäß Rahmenvertrag Cloud Temple.
  • Wartung (MCO) : regelmäßiges Patchen von Talos / Kubernetes / opérateurs standards par MSP, sans interruption de service (rolling upgrade).

Die Reaktions- und Wiederherstellungszeiten hängen von der Schwere des Vorfalls ab, gemäß der Support-Matrix (P1 à P4).

Versionsrichtlinie & Lebenszyklus

  • Unterstütztes Kubernetes: N-2 (3 Major-Releases pro Jahr, ca. alle 4 Monate). Jedes Release wird offiziell 12 Monate unterstützt, was ein Support-Fenster von maximal ~16 Monaten pro Version für Cloud Temple gewährleistet.
  • Talos OS: ausgerichtet auf die stabilen Kubernetes-Versionen.
    • Jede Branch wird ca. 12 Monate gewartet (inkl. Sicherheits-Patches).
    • Empfohlener Upgrade-Rhythmus: 3 Mal pro Jahr, konsistent mit den Kubernetes-Upgrades.
    • Kritische Patches (CVE, Kernel) werden im Rolling-Upgrade angewendet, ohne Dienstunterbrechung.
  • Standard-Operatoren: werden innerhalb von 90 Tagen nach stabilem Release aktualisiert.
  • Updates:
    • Major (Kubernetes N+1, Talos X+1): geplant 3 Mal/Jahr, im Rolling-Update.
    • Minor: automatisch innerhalb von 30 bis 60 Tagen angewendet.
  • Deprecation: Version N-3 → Supportende innerhalb von 90 Tagen nach Veröffentlichung von N.

Kubernetes-Knoten

Produktion (multi-zonal)

Für eine „Produktions“-Bereitstellung (multi-zonal) werden die folgenden Maschinen verwendet:

AZInstanzvCoresRAMLokaler Speicher
AZ07Git Runner48 GoOS: 64 Go
AZ05Control Plane 1812 GoOS: 64 Go
AZ06Control Plane 2812 GoOS: 64 Go
AZ07Control Plane 3812 GoOS: 64 Go
AZ05Storage Node 11224 GoOS: 64 Go + Ceph 500 Go minimum (*)
AZ06Storage Node 21224 GoOS: 64 Go + Ceph 500 Go minimum (*)
AZ07Storage Node 31224 GoOS: 64 Go + Ceph 500 Go minimum (*)
AZ05Worker Node 1 (**)1224 GoOS: 64 Go
AZ06Worker Node 2 (**)1224 GoOS: 64 Go
AZ07Worker Node 3 (**)1224 GoOS: 64 Go

(*) : Jeder Storage-Knoten wird mit mindestens 500 GB Festplattenspeicher ausgeliefert, um einen nutzbaren verteilten Ceph-Speicher von 500 GB zu gewährleisten (die Daten werden in jeder AZ repliziert, also x3). Der für den Kunden verfügbare freie Speicherplatz beträgt ca. 350 GB. Diese initiale Größe kann bei der Erstellung oder später je nach Bedarf erweitert werden. Auf Ceph werden Quotas angewendet, mit einer Aufteilung in Block/File.

(**) : Größe und Anzahl der Worker Nodes können an den Rechenkapazitätsbedarf des Kunden angepasst werden. Die Mindestanzahl an Worker Nodes beträgt 3 (1 pro AZ). Wir empfehlen, die Anzahl in Schritten von 3 zu erhöhen, um eine konsistente multi-zonale Verteilung beizubehalten. Die Größe der Worker Nodes kann angepasst werden, wobei ein Minimum von 12 Cores und 24 GB RAM gilt; die Obergrenze pro Worker Node wird durch die Größe der verwendeten Hypervisor-Blades festgelegt (also potenziell 112 Cores/1536 GB RAM mit Performance 3-Blades). Die Anzahl der Worker Nodes ist auf 100 begrenzt. Das CNCF empfiehlt Worker Nodes mit identischer Größe. Die Obergrenze für die Anzahl der Pods pro Worker Node beträgt 110.

Dev/Test

Für eine "Dev/Test"-Version werden die folgenden Maschinen bereitgestellt:

AZMaschinevCoresRAMLokaler Speicher
AZ0nGit Runner48 GoOS: 30 Go
AZ0nControl Plane812 GoOS: 64 Go
AZ0nWorker Node 1 (**)1224 GoOS: 64 Go + Ceph 300 Go minimum (*)
AZ0nWorker Node 2 (**)1224 GoOS: 64 Go + Ceph 300 Go minimum (*)
AZ0nWorker Node 3 (**)1224 GoOS: 64 Go + Ceph 300 Go minimum (*)

(*) : 3 Worker Nodes werden als Storage Nodes verwendet und mit mindestens 300 GB Speicherplatz bereitgestellt, was einem nutzbaren verteilten Speicher von 300 GB entspricht (die Daten werden dreifach repliziert). Der für den Kunden verfügbare freie Speicher beträgt ca. 150 GB. Diese initiale Größe kann bei der Bereitstellung oder später je nach Bedarf erweitert werden.

(**) : Die Größe und Anzahl der Worker Nodes kann an den Rechenkapazitätsbedarf des Kunden angepasst werden. Die Mindestanzahl an Worker Nodes beträgt 3 (aufgrund der Speicherreplikation). Die Größe der Worker Nodes kann angepasst werden, mit einem Minimum von 12 Cores und 24 GB RAM; die Obergrenze pro Worker Node wird durch die Größe der verwendeten Hypervisor-Hosts festgelegt (also potenziell 112 Cores/1536 GB RAM mit Performance 3 Blades). Die Anzahl der Worker Nodes ist auf 250 begrenzt. Das CNCF empfiehlt, Worker Nodes mit identischer Größe zu verwenden. Die Obergrenze für die Anzahl der Pods pro Worker Node beträgt 110.

RACI

Architektur & Infrastruktur

AufgabeClientCloud Temple
Globale Architektur des Kubernetes-Dienstes definierenCRA
Kubernetes-Dienst dimensionieren (Anzahl der Knoten, Ressourcen)CRA
Kubernetes-Dienst mit Standardkonfiguration installierenIRA
Konfiguration des Kubernetes-DienstesCRA
Basisnetzwerk des Kubernetes-Dienstes konfigurierenIRA
Bereitstellung der initialen Konfiguration für Identitäten und ZugriffeCRA
Strategie für Skalierung und Hochverfügbarkeit definierenCRA

Projekt- und Geschäftsanwendungsverwaltung

AktivitätClientCloud Temple
Kubernetes-Projekte erstellen und verwaltenRAI*
Anwendungen in Kubernetes bereitstellen und verwaltenRAI*
CI/CD-Pipelines konfigurierenRAI*
Container-Images und -Registries verwaltenRAI*

*kann je nach Wartungsvertrag auf "C" wechseln

Monitoring und Performance

AktivitätKundeCloud Temple
Performance des Kubernetes-Dienstes überwachenIRA*
Performance der Anwendungen überwachenRA
Alerts des Kubernetes-Dienstes verwaltenIRA*
Alerts der Anwendungen verwaltenRA

(*) : Nur Produktionscluster. Im Dev/Test-Bereich ist der Kunde vollständig eigenverantwortlich.

Wartung und Updates der Infrastrukturen

AktivitätClientCloud Temple
Kubernetes/OS-Dienst aktualisierenCRA
Sicherheitspatches für Kubernetes anwendenCRA
Bereitgestellte Anwendungen aktualisieren (Operatoren*)CRA

*Operator-Paket auf Managed Kube enthalten - siehe Kapitel: Verwaltete Helm-Pakete

Sicherheit

AktivitätClientCloud Temple
Sicherheit des Kubernetes-Dienstes verwaltenRARA*
Pod-Sicherheitsrichtlinien konfigurieren und verwaltenRAI
SSL/TLS-Zertifikate für den Kubernetes-Dienst verwaltenCRA*
SSL/TLS-Zertifikate für Anwendungen verwaltenRAI
Implementieren und Verwalten der grundlegenden rollenbasierten Zugriffskontrolle (RBAC)CR*
Implementieren und Verwalten der kundenseitigen rollenbasierten Zugriffskontrolle (RBAC)RAI

(*) : Nur im Produktionscluster. In Dev/Test-Umgebungen ist der Client vollständig eigenverantwortlich.

Sicherung und Disaster Recovery

AktivitätClientCloud Temple
Sicherungstrategie für den Kubernetes-Dienst festlegenIRA
Sicherungen des Kubernetes-Dienstes implementieren und verwaltenIRA
Sicherungstrategie für Anwendungen festlegenRA*I*
Sicherungen von Anwendungen implementieren und verwaltenRA*I*
Disaster-Recovery-Verfahren für den Kubernetes-Dienst testenCIRA
Disaster-Recovery-Verfahren für Anwendungen testenRA*CI*

*kann je nach Managed-Services-Vertrag auf "CI | RA" geändert werden

Support und Problembehebung

AktivitätKundeCloud Temple
Level-1-Support für die Infrastruktur bereitstellenIRA
Level-2- und Level-3-Support für die Infrastruktur bereitstellenIRA
Probleme mit dem Kubernetes-Dienst behebenCRA
Probleme mit den Anwendungen behebenRAI

Kapazitätsmanagement und -skalierung

Nur im Produktions-Cluster. In Dev/Test ist der Kunde vollständig eigenverantwortlich und autonom tätig.

AktivitätKundeCloud Temple
Überwachung der Kubernetes-RessourcennutzungCRA
Planung der Kapazitätserweiterung des DienstesRAC
Durchführung von KapazitätsanpassungenIRA
Verwaltung der Anwendungsentwicklung und ihrer RessourcenRAI

Dokumentation und Konformität

AktivitätKundeCloud Temple
Dokumentation des Kubernetes-Produkts pflegenIRA
Dokumentation der Anwendungen pflegenRAI
Konformität des Kubernetes-Dienstes gewährleistenIRA
Konformität der Anwendungen gewährleistenRAI
Audits des Kubernetes-Dienstes durchführenIRA
Audits der Anwendungen durchführenRAI

Verwaltung von Kubernetes-Operatoren/CRD (im Produkt enthalten)

AktivitätKundeCloud Temple
Bereitstellung des Standard-Operator-KatalogsCIRA
Aktualisierung der OperatorenCIRA
Überwachung des Operator-StatusCIRA
Behebung von Operator-ProblemenCIRA
Verwaltung der Operator-BerechtigungenCIRA
Verwaltung der Operator-Ressourcen (Hinzufügen/Entfernen)CIRA
Sicherung der Daten der Operator-RessourcenCIRA
Überwachung der Operator-RessourcenCIRA
Wiederherstellung der Daten der Operator-RessourcenCIRA
Sicherheitsaudit der OperatorenCIRA
Support für OperatorenCIRA
Verwaltung der Operator-LizenzenCIRA
Verwaltung spezifischer Supportpläne für OperatorenCIRA

*Operator-Paket in Managed Kube enthalten - siehe Kapitel: Verwaltete Helm-Pakete

Verwaltung von Kubernetes-Anwendungen/Operatoren/CRDs (seitens des Kunden)

Nur im Produktions-Cluster. In Dev/Test ist der Kunde vollständig eigenverantwortlich.

TätigkeitKundeCloud Temple
Bereitstellung von CRDsI*RA*
Aktualisierung der OperatorenRAI
Überwachung des Status der OperatorenRAI
Behebung von Problemen mit OperatorenRAI
Verwaltung der Berechtigungen der OperatorenRAI
Verwaltung der Ressourcen der Operatoren (Hinzufügen/Entfernen)RAI
Sicherung der Daten der Operator-RessourcenRAI
Überwachung der Operator-RessourcenRAI
Wiederherstellung der Daten der Operator-RessourcenRAI
Sicherheitsaudit der OperatorenRAI
Support für OperatorenRAI
Verwaltung der Lizenzen für OperatorenRAI
Verwaltung spezifischer Supportverträge für OperatorenRAI

Einige Operator-Dienste können je nach Managed-Services-Vertrag übernommen werden.

*kann je nach Managed-Services-Vertrag auf "A | RC" wechseln

Anwendungsunterstützung

LeistungKundeCloud Temple
Anwendungsunterstützung (externe Leistung)RAI

Eine Anwendungsunterstützung kann als Zusatzleistung erbracht werden.

RACI (kompakt)

  • Cloud Temple : verantwortlich und ausführend (RA) für die Kubernetes-Plattform, Cluster-Sicherheit, Infrastruktur-Backups, Monitoring, CRD.
  • Client : verantwortlich und ausführend (RA) für die Anwendungsprojekte, fachliche Operatoren, CI/CD-Pipelines, Anwendungs-Backups.
  • Grauzone : Anpassungen und Erweiterungen (IAM, spezifische Operatoren, Härtung der Cluster-Compliance/-Sicherheit) – abgerechnet im Projektmodus.