CoCreate AI

Infrastruktur für KI-Agenten

Der Stack, den Agenten brauchen.
Produktionsreif.

n8n, LangFuse, LiteLLM, Qdrant, Vault – wir bauen die Infrastruktur, die KI-Agenten in mittleren und großen Unternehmen produktionsreif macht. Self-hosted, observabel, DSGVO-konform.

Open SourceKein Vendor Lock-in
Self-hostedIhre Infrastruktur
DSGVOKonform
agent-stack.yaml
healthy
🔀
Orchestrierungn8n
🧠
LLM GatewayLiteLLM
📊
ObservabilityLangFuse
📐
Vector DBQdrant
🔐
SecretsVault
ComputeKubernetes
6 layers active
self-hosted · eu-central-1

// Das Problem

Agenten bauen ist einfach. Agenten betreiben ist es nicht.

Einen KI-Agenten als Prototyp zu bauen dauert Stunden. Ihn in einem Unternehmen mit 500+ Mitarbeitern produktionsreif zu betreiben – mit Observability, Security, Skalierung und Compliance – erfordert eine durchdachte Infrastruktur.

Wir bauen genau diese Infrastruktur: Open-Source-basiert, self-hosted, DSGVO-konform. Kein SaaS-Lock-in, volle Kontrolle über Ihre Daten und Ihre Agenten.

// Orchestrierung

n8n: Die Schaltzentrale für Ihre Agenten

n8n ist Open-Source, self-hosted und verbindet alles: LLMs, Datenbanken, APIs, Webhooks. Visueller Workflow-Editor für Non-Devs, Code-Nodes für Entwickler.

📄

Dokument-Agent orchestrieren

Webhook empfängt Dokument → n8n triggert OCR → LLM klassifiziert → Daten werden extrahiert → Ergebnis an ERP/DMS.

WebhookOCR ServiceLLM (LiteLLM)RouterSAP/DMS
✉️

E-Mail-Triage automatisieren

IMAP-Trigger → LLM analysiert Intent & Priorität → n8n routet an Team → Ticket wird erstellt → Auto-Reply gesendet.

IMAP TriggerLLM ClassifyJira/ZendeskSMTP Reply
🤖

Multi-Agent Coordination

n8n als Orchestrator: Research-Agent sammelt Daten → Analyse-Agent bewertet → Report-Agent erstellt Zusammenfassung.

SchedulerResearch AgentAnalysis AgentReport Agent
📐

RAG Pipeline betreiben

Neue Dokumente in S3 → n8n triggert Chunking → Embeddings via OpenAI → Upsert in Qdrant → Slack-Notification.

S3 TriggerUnstructuredEmbedding APIQdrantSlack

400+ Integrationen

SAP, Salesforce, Jira, Slack, Teams, Confluence, DATEV, SharePoint – n8n hat fertige Nodes für alle Enterprise-Systeme.

Visual + Code

Business-User bauen Workflows visuell, Entwickler nutzen Code-Nodes für komplexe Logik. Hybrid-Ansatz.

Self-hosted & Fair-Code

n8n läuft in Ihrem K8s-Cluster. Ihre Daten bleiben bei Ihnen. Fair-Code-Lizenz erlaubt unlimitierte Nutzung.

// Enterprise-Anforderungen

Was mittelgroße und große Firmen wirklich brauchen

Agent-Infrastruktur für Mittelstand und Enterprise muss mehr können als ein PoC. Diese Anforderungen begegnen uns in jedem Projekt.

📊

Observability

  • Token-Kosten pro Agent, Team und Use Case aufschlüsseln
  • Latenz-Budgets einhalten (P95, P99)
  • Prompt-Qualität über Zeit messen (Evals)
  • Fehlerhafte Agent-Runs automatisch erkennen
  • End-to-End-Traces über Multi-Agent-Workflows

Unsere Lösung

LangFuse + Grafana + OpenTelemetry

🔐

Sicherheit

  • API-Keys rotieren ohne Downtime
  • PII-Daten vor LLM-Calls redactieren
  • Prompt Injection erkennen und blockieren
  • DSGVO: Daten in EU halten, Löschfristen einhalten
  • Audit-Trail für alle Agent-Aktionen

Unsere Lösung

Vault + Guardrails + RBAC + EU-Hosting

📈

Skalierung

  • Lastspitzen abfangen (10x Traffic in Minuten)
  • GPU-Kosten kontrollieren (Scale-to-Zero)
  • Multi-Tenancy: Teams isolieren, Budgets setzen
  • Queue-basierte Verarbeitung für Batch-Workloads
  • Graceful Degradation bei Provider-Ausfällen

Unsere Lösung

Kubernetes + HPA + LiteLLM-Fallback

⚙️

Betrieb

  • Agent-Updates ohne Downtime (Rolling Deployments)
  • Prompt-Versioning: Rollback zu früheren Versionen
  • A/B-Testing: neue Prompts gegen bestehende testen
  • Alerting bei Qualitäts-Regression
  • Self-Healing: fehlerhafte Agents automatisch neu starten

Unsere Lösung

GitOps + LangFuse Experiments + K8s

// Vergleich

Ohne vs. mit Agent-Infrastruktur

Aspekt
Ohne Infrastruktur
Mit Agent-Stack
LLM-Kosten-Transparenz
Monatliche Überraschung
Cost Attribution pro Agent & Team
Prompt-Qualität
Trial & Error in Prod
Evaluations + A/B-Tests
Ausfallsicherheit
Single-Provider-Abhängigkeit
Multi-Provider-Fallback
Sicherheit
API-Keys in .env
Vault + Auto-Rotation
Skalierung
Manuelles Eingreifen
Auto-Scaling + Scale-to-Zero
Debugging
Log-Suche in 10 Services
Distributed Traces (1 Klick)

// Technologie-Stack

Der komplette Agent-Infrastruktur-Stack

Open-Source-first. Self-hosted. Jeder Baustein austauschbar. Kein Vendor Lock-in.

Orchestrierung & Workflows

Die zentrale Steuerung: Hier werden Agenten-Workflows definiert, getriggert und überwacht.

n8n

n8n

Empfohlen

Open-Source Workflow-Automation mit 400+ Integrationen. Self-hosted, visueller Editor, Webhook-Trigger, Branching-Logik. Die zentrale Drehscheibe für Agent-Orchestrierung.

LG

LangGraph

Framework für komplexe, statebasierte Agent-Graphen mit Zyklen, Bedingungen und Human-in-the-Loop.

⏱️

Temporal

Durable Execution Engine für langlebige, fehlertolerante Workflows. Ideal für Multi-Step-Agenten mit Retries.

LLM Gateway & Routing

Eine einheitliche API für alle LLM-Provider – mit Fallback, Load Balancing und Cost Tracking.

LL

LiteLLM

Empfohlen

Unified API für 100+ LLM-Provider (OpenAI, Anthropic, Mistral, lokale Modelle). Automatisches Fallback, Rate Limiting und Cost Tracking.

vL

vLLM

High-Throughput LLM Serving mit PagedAttention. Für Self-Hosted-Modelle wie Llama, Mistral oder Mixtral.

🦙

Ollama

Lokales LLM-Serving für Development und Edge-Deployments. Einfaches Setup, GPU-Unterstützung.

Observability & Monitoring

Ohne Observability kein produktiver Betrieb. Jeder LLM-Call, jede Agent-Aktion, jeder Token muss nachvollziehbar sein.

LF

LangFuse

Empfohlen

Open-Source LLM-Observability: Traces, Token-Kosten, Latenz, Prompt-Versioning, Evaluations und User-Feedback – alles in einem Dashboard.

Gr

Grafana + Prometheus

Infrastructure Monitoring: CPU, Memory, GPU-Auslastung, Queue-Depth, Error Rates und Custom-Metriken für Agent-Services.

OT

OpenTelemetry

Distributed Tracing über alle Agent-Interaktionen hinweg. End-to-End-Sichtbarkeit vom User-Request bis zum LLM-Response.

Vektor-Datenbanken & RAG

Agenten brauchen Zugriff auf Unternehmenswissen. Vektor-Datenbanken und RAG-Pipelines machen das möglich.

Qd

Qdrant

Empfohlen

High-Performance Vektor-Datenbank in Rust. Filterable Search, Multi-Tenancy, Snapshots. Self-hosted oder Cloud.

pg

pgvector

PostgreSQL-Erweiterung für Vektor-Similarity-Search. Ideal wenn bereits PostgreSQL im Einsatz ist.

📄

Unstructured

Document Processing Pipeline: PDFs, Word, PowerPoint, E-Mails automatisch in Chunks für die Vector DB aufbereiten.

Security & Governance

Enterprise-Anforderungen: Wer darf was? Wo landen Daten? Wie wird auditiert?

🔐

HashiCorp Vault

Empfohlen

Secrets Management für API-Keys, Tokens und Credentials. Dynamic Secrets, Auto-Rotation, Audit-Log.

🛡️

Guardrails & PII-Filter

Prompt Injection Detection, PII Redaction, Content Filtering. Schutz vor Missbrauch und Datenlecks in LLM-Interaktionen.

👤

RBAC & Audit

Role-Based Access Control für Agent-Aktionen. Jede Aktion wird geloggt – wer hat wann welchen Agent mit welchem Ergebnis genutzt.

Compute, State & Messaging

Die Basis-Infrastruktur: Container-Orchestrierung, State Management und Event-Streaming.

K8s

Kubernetes

Empfohlen

Container-Orchestrierung für alle Agent-Services. Auto-Scaling, Health Checks, Rolling Updates. GPU-Node-Pools für Inference.

Re

Redis

Agent-State, Semantic Cache für LLM-Responses, Session Management. Reduziert LLM-Kosten durch Cache-Hits um bis zu 40%.

📨

Apache Kafka / NATS

Event-Streaming für Agent-zu-Agent-Kommunikation, asynchrone Task-Verarbeitung und Event-Sourcing.

// Architektur-Stufen

Vom PoC zur Enterprise-Plattform

Wir skalieren die Infrastruktur mit Ihren Anforderungen. Starten Sie klein, wachsen Sie organisch.

🌱Starter

PoC & erste Agent-Use-Cases

Für erste Agent-Projekte: Ein LLM-Provider, Basic-Orchestrierung, einfaches Monitoring.

  • n8n (Self-hosted)
  • LiteLLM (1 Provider)
  • LangFuse (Basic)
  • pgvector
  • Docker Compose
🏢Professional

Produktiver Betrieb (10+ Agents)

Für produktive Workloads: Multi-Provider, volle Observability, Kubernetes, Security-Layer.

  • n8n + Temporal
  • LiteLLM (Multi-Provider + Fallback)
  • LangFuse + Grafana + OTel
  • Qdrant Cluster
  • Kubernetes + Vault
  • Guardrails + PII-Filter
🏗️Enterprise

Enterprise (50+ Agents, Multi-Team)

Für große Organisationen: Multi-Tenancy, GPU-Cluster, Self-Hosted-LLMs, Full Compliance.

  • n8n + Temporal + LangGraph
  • LiteLLM + vLLM (Self-Hosted LLMs)
  • Full Observability Stack
  • Qdrant Cluster (Multi-Tenant)
  • K8s + GPU-Nodes + HPA
  • Vault + SSO + RBAC + Audit
  • Private Endpoints + VPC-Isolation

// Unser Vorgehen

Von der Analyse zum produktiven Agent-Stack

Wir begleiten Sie von der ersten Bestandsaufnahme bis zum laufenden Betrieb.

01

Bestandsaufnahme

Welche Systeme sind im Einsatz? Welche Agent-Use-Cases haben Priorität? Wo liegen Daten? Wie sieht die Cloud-Landschaft aus?

02

Stack-Design

Wir designen den Agent-Stack passend zu Ihren Anforderungen: Orchestrierung, LLM-Gateway, Observability, Security.

03

Deployment

Infrastructure as Code: Terraform/Pulumi Modules, Helm Charts, CI/CD-Pipelines. Alles versioniert und reproduzierbar.

04

Betrieb & Tuning

Monitoring-Dashboards, Alerting, Cost-Optimierung, Prompt-Tuning. Wir bleiben dran, bis die Agenten performen.

// Offene Standards

Kein Vendor Lock-in. Volle Kontrolle.

Jeder Baustein basiert auf offenen Standards und Open-Source-Software. Sie können alles selbst betreiben, ersetzen oder erweitern.

MCPoffen

Model Context Protocol

Offenes Protokoll für die Anbindung von KI-Agenten an Ihre Tools, IDEs und Datenquellen – ohne proprietäre SDKs.

A2Aoffen

Agent-to-Agent Protocol

Standardisierte Kommunikation zwischen KI-Agenten verschiedener Hersteller – Ihre Agenten arbeiten zusammen, egal woher sie kommen.

Skillsoffen

Skills-basierte Architektur

Modulare KI-Fähigkeiten, die sich kombinieren und wiederverwenden lassen – wie Microservices, aber für Agenten.

Multi-LLMoffen

Kein Anbieter-Lock-in

OpenAI, Anthropic, Mistral, Llama oder Self-Hosted – wir integrieren den besten Provider für Ihren Use Case. Jederzeit wechselbar.

Self-Hostedoffen

Volle Datenkontrolle

Betreiben Sie KI-Agenten in Ihrer eigenen Infrastruktur. Ihre Daten verlassen nie Ihr Netzwerk – DSGVO-konform und auditierbar.

Open Sourceoffen

Transparenz & Auditierbarkeit

Wir bevorzugen Open-Source-Werkzeuge und offene Formate. Kein Black-Box-Vendor, volle Transparenz über die eingesetzten Komponenten.

Agent-Infrastruktur für Ihr Unternehmen

In einem kostenlosen Erstgespräch analysieren wir Ihre Anforderungen und designen den passenden Agent-Stack – von n8n bis LangFuse.