Wann lohnt sich ein On-Prem LLM für den Mittelstand?

Drei Konstellationen sprechen klar für On-Prem: (1) regulierte Branche (Gesundheit, Verteidigung, kritische Infrastruktur), bei der Drittland-Transfer nicht akzeptabel ist, (2) sehr sensible Daten (Patente, Verfahrensgeheimnisse, NDA-Inhalte), bei denen auch EU-Cloud-Tenant zu riskant erscheint, (3) hohe konstante Last (viele Nutzer, viele Anfragen pro Tag), bei der die Cloud-API-Kosten die Hardware-Investition übersteigen. Für gelegentliche Nutzung oder kleines Volumen ist EU-Cloud meist günstiger.

Welche Hardware brauche ich für ein On-Prem LLM?

Die GPU bestimmt alles. Realistische Klassen für 2026: Eine NVIDIA RTX 4090 oder 5090 (24–32 GB VRAM) reicht für quantisierte 8–13B-Modelle und kleine Teams. RTX A6000 (48 GB) oder mehrere 4090 für mittlere 30–70B-Modelle und gleichzeitige Nutzer. H100 / H200 (80 GB+) für große Modelle, viele Nutzer, hohen Durchsatz. CPU/RAM/Storage sind sekundär — eine ordentliche Workstation oder ein 2U-Server mit GPU-fähigem Netzteil reicht baseline. Wir empfehlen pro Use-Case keine Pauschalrechnung.

Welche Open-Source-Modelle empfehlen Sie 2026?

Aktuell: Llama 3.3 (70B / 8B) für allgemeine Aufgaben und Coding, Qwen 2.5 (72B / 14B / 7B) für mehrsprachig und Reasoning, Mistral und Mixtral für effiziente Inferenz, gemma-2 für sehr kleine Hardware. Lizenz immer prüfen — die meisten Modelle sind kommerziell nutzbar mit Bedingungen, einige haben Nutzer-Grenzen oder Brand-Klauseln. Wir aktualisieren die Empfehlung pro Quartal — das Open-Source-Modell-Feld bewegt sich schnell.

Mit welchem Software-Stack setzen Sie On-Prem LLMs auf?

Inferenz-Server: Ollama für einfache Setups (Single-User, Single-Node), vLLM für Produktion (Multi-User, Batching, hohe Durchsatz), llama.cpp für besonders kleine Hardware. Frontend: Open WebUI oder Anything LLM für Chat-Oberfläche, FastAPI-Service für Integration in eigene Anwendungen. Vektor-DB für RAG: Qdrant, Weaviate oder pgvector. Monitoring: Prometheus + Grafana.

Rechnen sich Cloud-API-Kosten oder Hardware-Investition?

Hängt am Volumen. Eine GPU-Workstation für 6.000–12.000 € amortisiert sich gegenüber Cloud-API-Kosten typisch ab 200–500 € Cloud-Verbrauch pro Monat — bei intensiver Team-Nutzung also nach 1–3 Jahren. Dazu kommt Strom und Wartung (intern oder bei uns). Wir rechnen den Break-Even für Ihren konkreten Lastfall durch — bevor Sie Hardware kaufen.

Wie unterstützen Sie den Betrieb nach dem Aufbau?

Drei Stufen wählbar: (1) Aufbau + Übergabe an Ihre IT mit Dokumentation und Schulung, (2) Managed-Betrieb durch uns (Patching, Updates, Monitoring, Modell-Updates), (3) reine Hardware-Wartung, Software bleibt bei Ihnen. Im Wartungsvertrag sind LLM-Update-Zyklen, Logrotation und Backup mit definiert.

KI-Integration · On-Premise LLM AI integration · On-premises LLM

On-Prem LLM für regulierte Branchen und sensible Daten. On-prem LLM for regulated industries and sensitive data.

Wenn auch der EU-Cloud-Tenant zu viel ist — Patente, Verfahrensgeheimnisse, regulierte Daten — bauen wir das Sprachmodell lokal: Ollama oder vLLM, Llama 3.3 oder Qwen 2.5, GPU-Server bei Ihnen vor Ort oder im deutschen Rechenzentrum. DSGVO ohne Drittland-Transfer, ohne Cloud-API-Kosten pro Token. When even the EU cloud tenant is too much — patents, trade secrets, regulated data — we build the language model locally: Ollama or vLLM, Llama 3.3 or Qwen 2.5, GPU server on your premises or in a German data center. GDPR without third-country transfer, without per-token cloud costs.

On-Prem-Audit anfragenRequest on-prem audit +49 7157 5298749

Wann sich On-Prem rechnetWhen on-prem pays off

Drei klare Konstellationen. Three clear scenarios.

Regulierte Branche

Regulated industry

Gesundheit, Verteidigung, kritische Infrastruktur, Energie. Drittland-Transfer ist faktisch ausgeschlossen, auch EU-Cloud-Tenant ist erklärungsbedürftig.

Healthcare, defense, critical infrastructure, energy. Third-country transfer is effectively off-limits; even EU cloud tenants need justification.

Geheimnisschutz

Trade secrets

Patente in Vorbereitung, Verfahrensgeheimnisse, NDA-Inhalte. Daten dürfen das Haus nicht verlassen — auch nicht in einen Microsoft- oder AWS-Tenant.

Patents in preparation, process secrets, NDA content. Data must not leave the building — not even to a Microsoft or AWS tenant.

Hohe Last

High load

Viele Nutzer, viele Anfragen pro Tag, RAG-Pipelines mit hohem Token-Durchsatz. Cloud-API-Kosten übersteigen die Hardware-Investition.

Many users, many queries per day, RAG pipelines with high token throughput. Cloud API costs exceed hardware investment.

Wann nicht

When not to

Gelegentliche Nutzung, Pilotprojekt, kleines Team unter 10 Personen. EU-Cloud-Modelle (Azure OpenAI EU) sind dann meistens günstiger und schneller eingerichtet.

Occasional use, pilots, teams under 10. EU cloud models (Azure OpenAI EU) are usually cheaper and faster to set up.

Hardware-RealitätHardware reality

Die GPU bestimmt alles. Drei Klassen. The GPU decides everything. Three classes.

VRAM ist der harte Flaschenhals — er bestimmt, welche Modellgrößen Sie laden können und wie viele gleichzeitige Nutzer Sie bedienen. CPU, RAM und Storage sind sekundär. Stromversorgung und Kühlung nicht unterschätzen. VRAM is the hard bottleneck — it determines which model sizes you can load and how many concurrent users you serve. CPU, RAM, storage are secondary. Don't underestimate power and cooling.

Klasse	Class	Typische GPU	Typical GPU	VRAM
WorkstationWorkstation	RTX 4090 / 5090	24–32 GB	Kleine Teams (≤10), quantisierte 8–13B-Modelle, Pilotprojekte	Small teams (≤10), quantized 8–13B models, pilots
Mittlere GPUMid GPU	RTX A6000 / 2× RTX 4090	48 GB / 2×24 GB	Mittlere Teams (10–50), 30–70B-Modelle, gleichzeitige Nutzer, RAG-Pipelines	Mid teams (10–50), 30–70B models, concurrent users, RAG pipelines
RechenzentrumData center	H100 / H200 / L40S	80 GB+	Große Unternehmen, hoher Durchsatz, Multi-Modell-Hosting, eigene Fine-Tunings	Large enterprises, high throughput, multi-model hosting, custom fine-tunes

Software-StackSoftware stack

Open Source, produktionsreif. Open source, production-grade.

Inferenz-Server:

Ollama — einfaches Setup für Single-Node, kleine Teams, Pilot-Projekte. Niedrigste Einstiegshürde.
Ollama — simple setup for single-node, small teams, pilots. Lowest entry barrier.
vLLM — produktive Workloads: Batching, hoher Durchsatz, Multi-User, OpenAI-API-kompatibel. Unser Standard für Produktion.
vLLM — production workloads: batching, high throughput, multi-user, OpenAI-API compatible. Our production default.
llama.cpp — besonders ressourcenarme Setups, GGUF-Quantisierung, auch CPU-only möglich.
llama.cpp — particularly low-resource setups, GGUF quantization, even CPU-only possible.

Frontend & Integration: Open WebUI oder Anything LLM als Chat-Oberfläche, FastAPI-Microservice für eigene Anwendungen, n8n für Workflow-Integration.

Frontend & integration: Open WebUI or Anything LLM as chat UI, FastAPI microservice for custom apps, n8n for workflow integration.

RAG-Komponenten: Qdrant, Weaviate oder pgvector als Vektor-DB. Siehe RAG-Wissensdatenbank RAG knowledge base.

RAG components: Qdrant, Weaviate, or pgvector as vector DB.

Modelle (Stand 2026): Llama 3.3 (70B/8B), Qwen 2.5 (72B/14B/7B), Mistral/Mixtral, gemma-2. Lizenzen prüfen — die meisten Modelle sind kommerziell nutzbar mit Bedingungen.

Models (2026): Llama 3.3 (70B/8B), Qwen 2.5 (72B/14B/7B), Mistral/Mixtral, gemma-2. License review needed — most models are commercially usable with conditions.

Kosten & Break-EvenCost & break-even

Wann amortisiert sich Hardware gegen Cloud-API? When does hardware beat the cloud API?

Grobe Daumenregel: Eine GPU-Workstation für 6.000–12.000 € amortisiert sich gegenüber Cloud-API-Kosten typisch ab 200–500 € Cloud-Verbrauch pro Monat — also nach 1–3 Jahren bei intensiver Team-Nutzung. Dazu kommt: Strom (eine 4090 zieht unter Last 350–450 W), Wartung (intern oder bei uns als Managed-Service), und ggf. Hardware-Refresh nach 3–4 Jahren.

Rule of thumb: A €6,000–12,000 GPU workstation amortizes vs. cloud API costs from €200–500/month cloud spend — i.e. after 1–3 years of heavy team use. Plus: electricity (an RTX 4090 draws 350–450 W under load), maintenance (in-house or via our managed service), and likely hardware refresh after 3–4 years.

Wir rechnen den Break-Even für Ihren konkreten Lastfall durch — anhand Ihres erwarteten Token-Verbrauchs, der Nutzerzahl und der Modellgrößen, die Sie wirklich brauchen. Vor dem Hardware-Kauf, nicht danach.

We compute the break-even for your actual load — using expected token volume, user count, and the model sizes you really need. Before the hardware purchase, not after.

FAQFAQ

Häufige Fragen zu On-Prem LLM. Frequent questions about on-prem LLM.

Wann lohnt sich ein On-Prem LLM?When does on-prem LLM pay off?

Regulierte Branche, Geheimnisschutz, oder hohe konstante Last (Cloud-API-Kosten > Hardware-Amortisation). Gelegentliche Nutzung: EU-Cloud meist günstiger.

Regulated industry, trade secrets, or high constant load (cloud API costs > hardware amortization). Occasional use: EU cloud usually cheaper.

Welche Hardware brauche ich?What hardware do I need?

Hängt am VRAM: RTX 4090/5090 (24–32 GB) für kleine Teams + 8–13B-Modelle, A6000 oder 2×4090 für mittlere Last + 30–70B, H100/H200 (80 GB+) für Rechenzentrum.

Depends on VRAM: RTX 4090/5090 (24–32 GB) for small teams + 8–13B models, A6000 or 2×4090 for mid load + 30–70B, H100/H200 (80 GB+) for data center.

Welche Open-Source-Modelle empfehlen Sie?Which open-source models do you recommend?

Llama 3.3, Qwen 2.5, Mistral/Mixtral, gemma-2. Lizenzbedingungen immer prüfen — kommerzielle Nutzung meist möglich, aber mit Klauseln.

Llama 3.3, Qwen 2.5, Mistral/Mixtral, gemma-2. Always review license terms — commercial use mostly OK but with clauses.

Mit welchem Software-Stack arbeiten Sie?What software stack do you use?

Ollama (einfach), vLLM (Produktion), llama.cpp (ressourcenarm). Open WebUI/Anything LLM als Frontend. Qdrant/pgvector für RAG. Prometheus + Grafana fürs Monitoring.

Ollama (simple), vLLM (production), llama.cpp (low-resource). Open WebUI/Anything LLM as frontend. Qdrant/pgvector for RAG. Prometheus + Grafana for monitoring.

Rechnen sich Cloud-API oder Hardware?Cloud API vs. hardware — which wins?

Faustregel: GPU-Workstation 6.000–12.000 € amortisiert ab 200–500 € Cloud-Verbrauch/Monat, also 1–3 Jahre bei intensiver Nutzung. Plus Strom + Wartung.

Rule: €6,000–12,000 GPU workstation amortizes from €200–500/mo cloud spend → 1–3 years at heavy use. Plus electricity + maintenance.

Wie sieht der Betrieb nach Aufbau aus?What about operation after setup?

Wahlweise: Übergabe an Ihre IT, Managed-Betrieb durch uns (Patching, Modell-Updates, Monitoring), oder reine Hardware-Wartung.

Three options: handover to your IT, managed operation by us (patching, model updates, monitoring), or hardware-only maintenance.

Erst die Lastrechnung. Dann die Hardware.Load math first. Hardware second.

Wir rechnen den Break-Even durch und liefern eine schriftliche Hardware-Empfehlung — bevor Sie eine GPU kaufen. We compute the break-even and deliver a written hardware recommendation — before you buy a GPU.

On-Prem-Audit anfragenRequest on-prem audit

+49 7157 5298749 Mo–Fr 08:00–18:00 Uhr Mon–Fri 08:00–18:00

WeiterführendRelated

RAG-Wissensdatenbank DSGVOGDPR RAG knowledge baseIhre eigenen Inhalte als KI-Suche.Your own content as AI search. M365 Copilot einführenIntroducing M365 CopilotWenn Cloud doch in Frage kommt.When cloud is acceptable. Proxmox & OPNsenseProxmox & OPNsenseVirtualisierung & Netzwerk-Fundament.Virtualization & network foundation. Managed IT Region StuttgartManaged IT Stuttgart regionWartung & Betrieb auch fürs LLM.Maintenance & operations for the LLM too.