Zum Hauptinhalt springen

Konzepte

Unsere Managed Kubernetes-Angebote

Cloud Temple bietet zwei separate Angebote an, um Ihre Anforderungen an die Container-Orchestrierung zu erfüllen:

  • Managed Core Kubernetes : Ein minimalistisches Produkt, das Ihnen eine robuste und sichere Kubernetes-Basis bietet, die auf modernsten Open-Source-Komponenten basiert. Es ist ideal für erfahrene Teams, die ihre eigene maßgeschneiderte Plattform aufbauen möchten.
  • Managed Kubernetes : Eine vollständige, sofort einsatzbereite Lösung, die einen umfassenden Tool-Stack für Netzwerk, Sicherheit, Speicher, Continuous Deployment, Observability, Backup und Kostenmanagement beinhaltet.

Vergleichstabelle der Angebote

KomponenteManaged Core KubernetesManaged Kubernetes
BetriebssystemTalosTalos
CNICiliumCilium
CNI-BeobachtbarkeitHubble
Load BalancerMetalLBMetalLB
IngressIngress Nginx
SpeicherRook-CephRook-Ceph
Kontinuierliche Bereitstellung (GitOps)ArgoCD
BeobachtbarkeitPrometheus, Grafana, Loki
Sicherung und MigrationVeeam Kasten
Kostenmanagement (FinOps)OpenCost
Governance und SicherheitKyverno, Capsule
Container-RegistryHarbor
ZertifikatsverwaltungCert-Manager
SSO-AuthentifizierungOIDC-Integration

Vorstellung des Produkts Managed Kubernetes (vollständig)

Das Angebot Managed Kubernetes (auch "Kub Managé" oder "KM" genannt) ist eine von Cloud-Temple verwaltete Kubernetes-Containerisierungslösung, die als virtuelle Maschinen auf den Cloud-Temple OpenIaaS IaaS-Infrastrukturen bereitgestellt wird.

Managed Kubernetes basiert auf Talos Linux (https://www.talos.dev/), einem für Kubernetes entwickelten Betriebssystem, das leichtgewichtig und sicher ist. Es ist unveränderlich, verfügt über keine Shell und keinen SSH-Zugriff und wird ausschließlich deklarativ über die gRPC-API konfiguriert.

Die standardisierte Installation umfasst eine Reihe von Komponenten, die größtenteils Open Source sind und vom CNCF zertifiziert wurden:

  • CNI Cilium, mit Observability-Schnittstelle (Hubble): Cilium ist eine Netzwerklösung für Kubernetes-Container (Container Network Interface). Es übernimmt Sicherheit, Load Balancing, Service Mesh, Observability, Verschlüsselung usw. Es ist eine grundlegende Netzwerkkomponente, die in den meisten Kubernetes-Varianten (OpenShift, AKS, GKE, EKS usw.) zu finden ist. Wir haben die grafische Oberfläche Hubble zur Visualisierung der Cilium-Flüsse integriert.

  • MetalLB und nginx: Für die Bereitstellung von Webanwendungen sind standardmäßig 3 ingress-class nginx integriert:

    • nginx-external-secured: Bereitstellung über eine öffentliche IP, die im Firewall gefiltert wird, um nur bekannte IPs zuzulassen (wird für die grafischen Oberflächen der verschiedenen Produkte und die Kubernetes-API verwendet)

    • nginx-external: Bereitstellung über eine zweite, nicht gefilterte öffentliche IP (oder kundenspezifische Filterung)

    • nginx-internal: Bereitstellung ausschließlich über eine interne IP

      Für "nicht-Web"-Dienste ermöglicht ein MetalLB-Load-Balancer die Bereitstellung von Diensten intern oder über öffentliche IPs. (Dies ermöglicht den Einsatz weiterer Ingresses, wie z. B. eines WAF)

  • Verteiltes Rook-Ceph-Speicher: Für die Speicherung von persistenten Volumes (PV) ist ein verteiltes Open-Source-Ceph-Speichersystem in der Plattform integriert. Es ermöglicht die Nutzung der storage-classes ceph-block, ceph-bucket und ceph-filesystem. Es wird ein Speicher mit 7500 IOPS verwendet, der hohe Leistung bietet. In Produktionsbereitstellungen (über 3 AZs) sind die Speicherknoten dediziert (1 Knoten pro AZ); in Nicht-Produktionsbereitstellungen (1 AZ) wird der Speicher mit den Worker-Knoten geteilt.

  • Cert-Manager: Der Open-Source-Zertifikatsmanager Cert-Manager ist nativ in der Plattform integriert.

  • ArgoCD steht Ihnen für Ihre automatisierten Bereitstellungen über eine CI/CD-Pipeline zur Verfügung.

  • Prometheus-Stack (Prometheus, Grafana, Loki): Die Managed Kubernetes-Cluster werden standardmäßig mit einem vollständigen Open-Source-Prometheus-Stack für Observability geliefert, der Folgendes umfasst:

    • Prometheus

    • Grafana mit zahlreichen Dashboards

    • Loki: Die Plattformprotokolle werden in den Cloud-Temple S3-Speicher exportiert (und in Grafana integriert).

  • Harbor ist ein Container-Registry, mit dem Sie Ihre Container-Images oder Helm-Charts direkt im Cluster speichern können. Es führt Schwachstellen-Scans für Ihre Images durch und kann diese digital signieren. Harbor ermöglicht auch Synchronisationen mit anderen Registries. (https://goharbor.io/)

  • OpenCost (https://github.com/opencost/opencost) ist ein Kostenmanagement-Tool (FinOps) für Kubernetes. Es ermöglicht eine detaillierte Verfolgung des Kubernetes-Ressourcenverbrauchs und die Weiterabrechnung nach Projekt/Namespace.

  • Erweiterte Sicherheitsstrategien mit Kyverno und Capsule:

    • Kyverno (https://kyverno.io/) ist ein Admission-Controller für Kubernetes, der das Durchsetzen von Richtlinien ermöglicht. Es ist ein essentielles Tool für Governance und Sicherheit in Kubernetes.
    • Capsule (https://projectcapsule.dev/) ist ein Berechtigungsmanagement-Tool, das die Rechteverwaltung in Kubernetes erleichtert. Es führt das Konzept des Tenants ein, das die Zentralisierung und Delegation von Berechtigungen über mehrere Namespaces hinweg ermöglicht. Über Capsule sind die Berechtigungen der Nutzer der Managed Kubernetes-Plattform somit auf ihre eigenen Namespaces beschränkt.
  • Veeam Kasten (auch 'k10' genannt) ist eine Lösung zur Sicherung von Kubernetes-Workloads.

    Es ermöglicht die Sicherung einer vollständigen Bereitstellung: Manifeste, Volumes usw. in den Cloud-Temple S3-Objektspeicher. Kasten nutzt Kanister, um konsistente anwendungsspezifische Sicherungen zu ermöglichen, beispielsweise für Datenbanken (https://docs.kasten.io/latest/usage/blueprints/).

    Kasten ist ein plattformübergreifendes Tool, das auch mit anderen Kubernetes-Clustern (OpenShift, Hyperscaler usw.) funktioniert. Es kann daher für Reversibilitäts- oder Migrationsszenarien verwendet werden (K10 verwaltet eventuelle Anpassungen über Transformations, z. B. einen Wechsel der ingress-class), aber auch für "Refresh"-Szenarien (Beispiel: geplante Wiederherstellung einer Produktionsumgebung in der Pre-Production).

  • SSO-Authentifizierung mit einem externen OIDC-Identity-Provider (Microsoft Entra, FranceConnect, Okta, AWS IAM, Google, Salesforce, ...)

SLA & Supportinformationen

  • Garantierte Verfügbarkeit (Produktion 3 AZ) : 99.95 %
  • Support : N1/N2/N3 im Basisumfang enthalten (Infrastruktur und Standard-Operatoren).
  • Zusicherung zur Wiederherstellungszeit (ETR) : gemäß Cloud Temple Rahmenvertrag.
  • Wartung (MCO) : regelmäßiges Patching von Talos / Kubernetes / Standard-Operatoren durch MSP, ohne Dienstunterbrechung (Rolling Upgrade).

Die Reaktions- und Wiederherstellungszeiten hängen von der Schwere des Vorfalls ab, entsprechend der Supportmatrix (P1 bis P4).

Versionsrichtlinie & Lebenszyklus

  • Unterstütztes Kubernetes : N-2 (3 Major-Releases pro Jahr, etwa alle 4 Monate). Jedes Release wird offiziell 12 Monate unterstützt, was ein Cloud Temple Supportfenster von maximal ~16 Monaten pro Version gewährleistet.
  • Talos OS : an die stabilen Kubernetes-Versionen angepasst.
    • Jeder Zweig wird etwa 12 Monate gewartet (einschließlich Sicherheitspatches).
    • Empfohlener Upgrade-Rhythmus : 3-mal jährlich, im Einklang mit den Kubernetes-Upgrades.
    • Kritische Patches (CVE, Kernel) werden als Rolling Upgrade angewendet, ohne Dienstunterbrechung.
  • Standard-Operatoren : innerhalb von 90 Tagen nach dem stabilen Release aktualisiert.
  • Updates :
    • Major (Kubernetes N+1, Talos X+1) : 3-mal jährlich geplant, als Rolling Update.
    • Minor : automatisch innerhalb von 30 bis 60 Tagen angewendet.
  • Deprecation : Version N-3 → Supportende innerhalb von 90 Tagen nach Veröffentlichung von N.

Kubernetes-Knoten

Produktion (Multi-Zonen)

Für eine "Produktions"-Bereitstellung (Multi-Zonen) werden folgende Maschinen verwendet:

AZMaschinevCoresRAMLokaler Speicher
AZ07Git Runner48 GBOS: 256 GB
AZ05Control Plane 1812 GBOS: 128 GB
AZ06Control Plane 2812 GBOS: 128 GB
AZ07Control Plane 3812 GBOS: 128 GB
AZ05Storage Node 11224 GBOS: 128 GB + Ceph 500 GB Minimum (*)
AZ06Storage Node 21224 GBOS: 128 GB + Ceph 500 GB Minimum (*)
AZ07Storage Node 31224 GBOS: 128 GB + Ceph 500 GB Minimum (*)
AZ05Worker Node 1 (**)1224 GBOS: 128 GB
AZ06Worker Node 2 (**)1224 GBOS: 128 GB
AZ07Worker Node 3 (**)1224 GBOS: 128 GB

(*) : Jeder Storage Node wird mit mindestens 500 GB Festplattenspeicher geliefert, was einem nutzbaren, verteilten Ceph-Speicher von 500 GB entspricht (die Daten werden auf jede AZ repliziert, also x3). Der für den Kunden verfügbare freie Speicher beträgt etwa 350 GB. Diese anfängliche Größe kann bei der Bereitstellung oder später je nach Bedarf erhöht werden. Auf Ceph werden Quotas angewendet, mit einer Block-/Datei-Aufteilung.

(**) : Größe und Anzahl der Worker Nodes können je nach Rechenkapazitätsbedarf des Kunden angepasst werden. Die Mindestanzahl an Worker Nodes beträgt 3 (1 pro AZ), und wir empfehlen, ihre Anzahl in Schritten von 3 zu erhöhen, um eine konsistente Multi-Zonen-Verteilung beizubehalten. Die Größe der Worker Nodes kann angepasst werden, mit einem Minimum von 12 Kernen und 24 GB RAM; die Obergrenze pro Worker Node wird durch die Größe der verwendeten Hypervisoren festgelegt (potenziell also 112 Kerne/1536 GB RAM mit Performance 3 Blades). Die Anzahl der Worker Nodes ist auf 100 begrenzt. Das CNCF empfiehlt, Worker Nodes gleicher Größe zu verwenden. Die Begrenzung der Pods pro Worker Node liegt bei 110.

Dev/Test

Für eine "Dev/Test"-Version werden folgende Maschinen bereitgestellt:

AZMaschinevCoresRAMLokaler Speicher
AZ0nGit Runner48 GBOS: 30 GB
AZ0nControl Plane812 GBOS: 128 GB
AZ0nWorker Node 1 (**)1224 GBOS: 128 GB + Ceph mindestens 300 GB (*)
AZ0nWorker Node 2 (**)1224 GBOS: 128 GB + Ceph mindestens 300 GB (*)
AZ0nWorker Node 3 (**)1224 GBOS: 128 GB + Ceph mindestens 300 GB (*)

(*) : 3 Worker Nodes werden als Storage Nodes verwendet und werden mit mindestens 300 GB Festplattenspeicher geliefert, was einer nutzbaren verteilten Speicherkapazität von 300 GB entspricht (die Daten werden dreifach repliziert). Der für den Kunden verfügbare freie Speicher beträgt etwa 150 GB. Diese anfängliche Größe kann bei der Provisionierung oder später je nach Bedarf erhöht werden.

(**) : Größe und Anzahl der Worker Nodes können an den Rechenleistungsbedarf des Kunden angepasst werden. Die Mindestanzahl an Worker Nodes beträgt 3 (aufgrund der Speicherreplikation). Die Größe der Worker Nodes kann angepasst werden, mit einem Minimum von 12 Kernen und 24 GB RAM; die Obergrenze pro Worker Node wird durch die Größe der verwendeten Hypervisoren festgelegt (potenziell also 112 Kerne/1536 GB RAM mit Performance-3-Blades). Die Anzahl der Worker Nodes ist auf 250 begrenzt. Der CNCF empfiehlt, Worker Nodes gleicher Größe zu verwenden. Die maximale Anzahl von Pods pro Worker Node beträgt 110.

RACI

Architektur & Infrastruktur

AktivitätKundeCloud Temple
Globale Architektur des Kubernetes-Services definierenCRA
Kubernetes-Service dimensionieren (Anzahl der Knoten, Ressourcen)CRA
Kubernetes-Service mit Standardkonfiguration installierenIRA
Konfiguration des Kubernetes-ServicesCRA
Basisnetzwerk des Kubernetes-Services konfigurierenIRA
Bereitstellung der initialen Identitäts- und ZugriffskonfigurationCRA
Skalierungs- und Hochverfügbarkeitsstrategie definierenCRA

Projekt- und Geschäftsanwendungsmanagement

TätigkeitKundeCloud Temple
Erstellen und Verwalten von Kubernetes-ProjektenRAI*
Bereitstellen und Verwalten von Anwendungen in KubernetesRAI*
Konfigurieren von CI/CD-PipelinesRAI*
Verwalten von Container-Images und RegistriesRAI*

*kann je nach Managed-Service-Vertrag auf "C" wechseln

Überwachung und Leistung

AktivitätKundeCloud Temple
Überwachung der Leistung des Kubernetes-DienstesIRA*
Überwachung der AnwendungsleistungRA
Verwaltung der Alarme für den Kubernetes-DienstIRA*
Verwaltung der Alarme für die AnwendungenRA

(*) : Nur für Produktionscluster. In Dev/Test ist der Kunde vollständig autonom und verantwortlich.

Wartung und Updates der Infrastrukturen

AktivitätKundeCloud Temple
Kubernetes/OS-Dienst aktualisierenCRA
Sicherheitspatches für Kubernetes anwendenCRA
Bereitgestellte Anwendungen aktualisieren (Operatoren*)CRA

*Operator-Paket in Managed Kube enthalten – siehe Kapitel: Verwaltete Helm-Pakete

Sicherheit

AufgabeKundeCloud Temple
Sicherheit des Kubernetes-Dienstes verwaltenRARA*
Sicherheitsrichtlinien für Pods konfigurieren und verwaltenRAI
SSL/TLS-Zertifikate für den Kubernetes-Dienst verwaltenCRA*
SSL/TLS-Zertifikate für die Anwendungen verwaltenRAI
Rollenbasierte Zugriffskontrolle (RBAC) implementieren und verwaltenCR*
Rollenbasierte Zugriffskontrolle für Clients (RBAC) implementieren und verwaltenRAI

(*) : Nur für Produktionscluster. In Dev/Test ist der Kunde vollständig autonom und trägt die volle Verantwortung.

Sicherung und Disaster Recovery

AufgabeKundeCloud Temple
Strategie für die Sicherung des Kubernetes-Dienstes definierenIRA
Sicherungen des Kubernetes-Dienstes implementieren und verwaltenIRA
Strategie für die Sicherung der Anwendungen definierenRA*I*
Sicherungen der Anwendungen implementieren und verwaltenRA*I*
Disaster-Recovery-Verfahren für den Kubernetes-Dienst testenCIRA
Disaster-Recovery-Verfahren für die Anwendungen testenRA*CI*

*kann je nach Managed-Service-Vertrag auf "CI | RA" geändert werden

Support und Fehlerbehebung

AktivitätKundeCloud Temple
Bereitstellung von Level-1-Support für die InfrastrukturIRA
Bereitstellung von Level-2- und Level-3-Support für die InfrastrukturIRA
Behebung von Problemen im Zusammenhang mit dem Kubernetes-DienstCRA
Behebung von Problemen im Zusammenhang mit AnwendungenRAI

Kapazitätsmanagement und Weiterentwicklung

Nur Produktionscluster. In Dev/Test ist der Kunde vollständig autonom und trägt die volle Verantwortung.

AktivitätKundeCloud Temple
Überwachung der Kubernetes-RessourcennutzungCRA
Planung der Kapazitätsentwicklung des DienstesRAC
Implementierung von KapazitätsänderungenIRA
Verwaltung der Weiterentwicklung von Anwendungen und deren RessourcenRAI

Dokumentation und Compliance

AktivitätKundeCloud Temple
Dokumentation des Kubernetes-Produkts pflegenIRA
Dokumentation der Anwendungen pflegenRAI
Compliance des Kubernetes-Dienstes gewährleistenIRA
Compliance der Anwendungen gewährleistenRAI
Audits des Kubernetes-Dienstes durchführenIRA
Audits der Anwendungen durchführenRAI

Verwaltung von Kubernetes-Operatoren/CRDs (im Produkt enthalten)

AktivitätKundeCloud Temple
Bereitstellung des Standard-Operator-KatalogsCIRA
Aktualisierung der OperatorenCIRA
Überwachung des Operator-StatusCIRA
Behebung von Operator-bezogenen ProblemenCIRA
Verwaltung der Operator-BerechtigungenCIRA
Verwaltung der Operator-Ressourcen (Hinzufügen/Entfernen)CIRA
Sicherung der Operator-RessourcendatenCIRA
Überwachung der Operator-RessourcenCIRA
Wiederherstellung der Operator-RessourcendatenCIRA
Sicherheitsaudit der OperatorenCIRA
Support der OperatorenCIRA
Verwaltung der Operator-LizenzenCIRA
Verwaltung spezifischer Supportpläne für OperatorenCIRA

*Operator-Paket enthalten in Managed Kube - siehe Kapitel: Verwaltete Helm-Pakete

Verwaltung von Anwendungen/Operatoren/Kubernetes-CRDs (des Kunden)

Nur für Produktionscluster. In Dev/Test ist der Kunde vollständig autonom und trägt die volle Verantwortung.

TätigkeitKundeCloud Temple
Bereitstellung der CRDsI*RA*
Aktualisierung der OperatorenRAI
Überwachung des Operator-StatusRAI
Fehlerbehebung bei OperatorenRAI
Verwaltung der Operator-BerechtigungenRAI
Verwaltung der Operator-Ressourcen (Hinzufügen/Entfernen)RAI
Sicherung der Operator-RessourcendatenRAI
Überwachung der Operator-RessourcenRAI
Wiederherstellung der Operator-RessourcendatenRAI
Sicherheitsaudit der OperatorenRAI
Operator-SupportRAI
Lizenzverwaltung für OperatorenRAI
Verwaltung spezifischer Supportpläne für OperatorenRAI

Bestimmte Operator-Dienstleistungen können je nach Managed-Services-Vertrag übernommen werden.

*kann je nach Managed-Services-Vertrag zu "A | RC" wechseln

Anwendungssupport

AktivitätKundeCloud Temple
Anwendungssupport (externe Leistung)RAI

Ein Anwendungssupport kann über eine Zusatzleistung bereitgestellt werden.

RACI (zusammenfassend)

  • Cloud Temple: Verantwortlich und ausführend (RA) für die Kubernetes-Basis, Clustersicherheit, Infrastruktursicherung, Monitoring, CRD.
  • Kunde: Verantwortlich und ausführend (RA) für die Anwendungsprojekte, Business-Operatoren, CI/CD-Pipelines, Anwendungssicherungen.
  • Grauzone: Anpassungen und Erweiterungen (IAM, spezifische Operatoren, Compliance- und Sicherheits-Härtung des Clusters) – projektbasiert abgerechnet.