Zum Hauptinhalt springen

LLM als Dienstleistung (LLMaaS)

Zugriff auf die API

Die API ist über die Cloud Temple-Konsole zugänglich. Sie können Ihre API-Schlüssel verwalten, Ihren Verbrauch überwachen und Ihre Drittanbieter in den Kontoeinstellungen konfigurieren. Die Konsole ermöglicht zudem die Anzeige der Nutzung Ihrer Modelle.

Authentifizierung

Alle Anfragen an die LLMaaS-API müssen einen Authorization-Header mit Ihrem API-Schlüssel im Bearer-Token-Format enthalten. Wenn Sie die Client-SDKs verwenden, wird der Schlüssel automatisch in jede Anfrage eingebunden. Bei einer direkten Integration mit der API müssen Sie diesen Header selbst senden.

Inhaltstypen

Die LLMaaS-API akzeptiert stets JSON im Anfragetext und gibt JSON im Antworttext zurück. Sie müssen den Header content-type: application/json in Ihren Anfragen senden. Bei Verwendung der Client-SDKs wird dies automatisch verwaltet.

Antwort-Header

Die LLMaaS-API enthält die folgenden Header in jeder Antwort:

  • id : Eine global eindeutige ID für die Anfrage
  • backend : Informationen zur verwendeten Infrastruktur (engine_type, machine_name)

Beispiele

cURL-Anfrage

curl -X POST "https://api.ai.cloud-temple.com/v1/chat/completions" \
-H "Content-Type: application/json" \
-H "Authorization: Bearer YOUR_API_KEY" \
-d '{
"model": "gpt-oss:120b",
"messages": [
{
"role": "user",
"content": "Salut ! Peux-tu te présenter en français ?"
}
],
"max_tokens": 200,
"temperature": 0.7
}'

Antwort

{
"backend": {
"engine_type": "engo",
"machine_name": "ma02"
},
"choices": [
{
"finish_reason": "stop",
"index": 0,
"message": {
"content": "Bonjour ! Je suis un modèle de langage virtuel...",
"role": "assistant"
}
}
],
"created": 1749110753,
"id": "chatcmpl-ollama-14b812ef-b21f-430c-b93c-d0d1bf653806",
"model": "gpt-oss:120b",
"object": "chat.completion",
"usage": {
"completion_tokens": 200,
"prompt_tokens": 70,
"reasoning_tokens": 0,
"total_tokens": 270
}
}

Verfügbare Parameter

ParameterTypBeschreibung
modelstringDas zu verwendende Modell (siehe Modellkatalog)
messagesarrayListe der Nachrichten der Konversation
max_tokensintegerMaximale Anzahl der zu generierenden Tokens
temperaturefloatSteuert die Kreativität (0.0-2.0)
top_pfloatSteuert die Vielfalt der Antworten
streambooleanAktiviert das Streaming der Antwort
userstringEindeutige ID des Endbenutzers

Basis-URL

Die Basis-URL für alle API-Anfragen lautet:

https://api.ai.cloud-temple.com/v1/

Verfügbare Endpunkte

  • /chat/completions : Generierung von Chat-Antworten
  • /completions : Einfache Textvervollständigung
  • /embeddings : Vektorisierung für semantische Suche und RAG
  • /rerank und /v2/rerank : Neuanordnung von Ergebnissen (kompatibel mit Cohere SDK)
  • /audio/transcriptions : Batch-Audio-Transkription (Whisper)
  • /audio/speech : Sprachsynthese (TTS)
  • /images/generations : Bildgenerierung
  • /models : Liste der verfügbaren Modelle

Beispiel: Modellliste

curl -X GET "https://api.ai.cloud-temple.com/v1/models" \
-H "Authorization: Bearer YOUR_API_KEY"

Antwort :

{
"object": "list",
"data": [
{
"id": "gpt-oss:120b",
"object": "model",
"created": 1749110897,
"owned_by": "CloudTemple",
"root": "gpt-oss:120b",
"aliases": ["gpt-oss:120b"],
"parent": null,
"max_model_len": 60000,
"permission": [
{
"id": "modelperm-granite3.3:8b-1749110897",
"object": "model_permission",
"created": 1749110897,
"allow_create_engine": false,
"allow_sampling": true,
"allow_logprobs": true,
"allow_search_indices": false,
"allow_view": true,
"allow_fine_tuning": false,
"organization": "*",
"group": null,
"is_blocking": false
}
]
}
]
}

Die Antwort enthält alle verfügbaren Modelle mit ihren Spezifikationen und Berechtigungen.