On-Prem LLM für regulierte Branchen und sensible Daten.On-prem LLM for regulated industries and sensitive data.
Wenn auch der EU-Cloud-Tenant zu viel ist — Patente, Verfahrensgeheimnisse, regulierte Daten — bauen wir das Sprachmodell lokal: Ollama oder vLLM, Llama 3.3 oder Qwen 2.5, GPU-Server bei Ihnen vor Ort oder im deutschen Rechenzentrum. DSGVO ohne Drittland-Transfer, ohne Cloud-API-Kosten pro Token.When even the EU cloud tenant is too much — patents, trade secrets, regulated data — we build the language model locally: Ollama or vLLM, Llama 3.3 or Qwen 2.5, GPU server on your premises or in a German data center. GDPR without third-country transfer, without per-token cloud costs.
Gesundheit, Verteidigung, kritische Infrastruktur, Energie. Drittland-Transfer ist faktisch ausgeschlossen, auch EU-Cloud-Tenant ist erklärungsbedürftig.
Healthcare, defense, critical infrastructure, energy. Third-country transfer is effectively off-limits; even EU cloud tenants need justification.
Geheimnisschutz
Trade secrets
Patente in Vorbereitung, Verfahrensgeheimnisse, NDA-Inhalte. Daten dürfen das Haus nicht verlassen — auch nicht in einen Microsoft- oder AWS-Tenant.
Patents in preparation, process secrets, NDA content. Data must not leave the building — not even to a Microsoft or AWS tenant.
Hohe Last
High load
Viele Nutzer, viele Anfragen pro Tag, RAG-Pipelines mit hohem Token-Durchsatz. Cloud-API-Kosten übersteigen die Hardware-Investition.
Many users, many queries per day, RAG pipelines with high token throughput. Cloud API costs exceed hardware investment.
Wann nicht
When not to
Gelegentliche Nutzung, Pilotprojekt, kleines Team unter 10 Personen. EU-Cloud-Modelle (Azure OpenAI EU) sind dann meistens günstiger und schneller eingerichtet.
Occasional use, pilots, teams under 10. EU cloud models (Azure OpenAI EU) are usually cheaper and faster to set up.
Hardware-RealitätHardware reality
Die GPU bestimmt alles. Drei Klassen.The GPU decides everything. Three classes.
VRAM ist der harte Flaschenhals — er bestimmt, welche Modellgrößen Sie laden können und wie viele gleichzeitige Nutzer Sie bedienen. CPU, RAM und Storage sind sekundär. Stromversorgung und Kühlung nicht unterschätzen.VRAM is the hard bottleneck — it determines which model sizes you can load and how many concurrent users you serve. CPU, RAM, storage are secondary. Don't underestimate power and cooling.
Klasse
Class
Typische GPU
Typical GPU
VRAM
VRAM
Geeignet für
Suitable for
WorkstationWorkstation
RTX 4090 / 5090
24–32 GB
Kleine Teams (≤10), quantisierte 8–13B-Modelle, Pilotprojekte
Small teams (≤10), quantized 8–13B models, pilots
Mittlere GPUMid GPU
RTX A6000 / 2× RTX 4090
48 GB / 2×24 GB
Mittlere Teams (10–50), 30–70B-Modelle, gleichzeitige Nutzer, RAG-Pipelines
Mid teams (10–50), 30–70B models, concurrent users, RAG pipelines
RechenzentrumData center
H100 / H200 / L40S
80 GB+
Große Unternehmen, hoher Durchsatz, Multi-Modell-Hosting, eigene Fine-Tunings
Large enterprises, high throughput, multi-model hosting, custom fine-tunes
Software-StackSoftware stack
Open Source, produktionsreif.Open source, production-grade.
Inferenz-Server:
Ollama — einfaches Setup für Single-Node, kleine Teams, Pilot-Projekte. Niedrigste Einstiegshürde.
Ollama — simple setup for single-node, small teams, pilots. Lowest entry barrier.
vLLM — produktive Workloads: Batching, hoher Durchsatz, Multi-User, OpenAI-API-kompatibel. Unser Standard für Produktion.
vLLM — production workloads: batching, high throughput, multi-user, OpenAI-API compatible. Our production default.
llama.cpp — besonders ressourcenarme Setups, GGUF-Quantisierung, auch CPU-only möglich.
llama.cpp — particularly low-resource setups, GGUF quantization, even CPU-only possible.
Frontend & Integration: Open WebUI oder Anything LLM als Chat-Oberfläche, FastAPI-Microservice für eigene Anwendungen, n8n für Workflow-Integration.
Frontend & integration: Open WebUI or Anything LLM as chat UI, FastAPI microservice for custom apps, n8n for workflow integration.
RAG components: Qdrant, Weaviate, or pgvector as vector DB.
Modelle (Stand 2026): Llama 3.3 (70B/8B), Qwen 2.5 (72B/14B/7B), Mistral/Mixtral, gemma-2. Lizenzen prüfen — die meisten Modelle sind kommerziell nutzbar mit Bedingungen.
Models (2026): Llama 3.3 (70B/8B), Qwen 2.5 (72B/14B/7B), Mistral/Mixtral, gemma-2. License review needed — most models are commercially usable with conditions.
Kosten & Break-EvenCost & break-even
Wann amortisiert sich Hardware gegen Cloud-API?When does hardware beat the cloud API?
Grobe Daumenregel: Eine GPU-Workstation für 6.000–12.000 € amortisiert sich gegenüber Cloud-API-Kosten typisch ab 200–500 € Cloud-Verbrauch pro Monat — also nach 1–3 Jahren bei intensiver Team-Nutzung. Dazu kommt: Strom (eine 4090 zieht unter Last 350–450 W), Wartung (intern oder bei uns als Managed-Service), und ggf. Hardware-Refresh nach 3–4 Jahren.
Rule of thumb: A €6,000–12,000 GPU workstation amortizes vs. cloud API costs from €200–500/month cloud spend — i.e. after 1–3 years of heavy team use. Plus: electricity (an RTX 4090 draws 350–450 W under load), maintenance (in-house or via our managed service), and likely hardware refresh after 3–4 years.
Wir rechnen den Break-Even für Ihren konkreten Lastfall durch — anhand Ihres erwarteten Token-Verbrauchs, der Nutzerzahl und der Modellgrößen, die Sie wirklich brauchen. Vor dem Hardware-Kauf, nicht danach.
We compute the break-even for your actual load — using expected token volume, user count, and the model sizes you really need. Before the hardware purchase, not after.
FAQFAQ
Häufige Fragen zu On-Prem LLM.Frequent questions about on-prem LLM.
Wann lohnt sich ein On-Prem LLM?When does on-prem LLM pay off?
Regulierte Branche, Geheimnisschutz, oder hohe konstante Last (Cloud-API-Kosten > Hardware-Amortisation). Gelegentliche Nutzung: EU-Cloud meist günstiger.
Regulated industry, trade secrets, or high constant load (cloud API costs > hardware amortization). Occasional use: EU cloud usually cheaper.
Welche Hardware brauche ich?What hardware do I need?
Hängt am VRAM: RTX 4090/5090 (24–32 GB) für kleine Teams + 8–13B-Modelle, A6000 oder 2×4090 für mittlere Last + 30–70B, H100/H200 (80 GB+) für Rechenzentrum.
Depends on VRAM: RTX 4090/5090 (24–32 GB) for small teams + 8–13B models, A6000 or 2×4090 for mid load + 30–70B, H100/H200 (80 GB+) for data center.
Welche Open-Source-Modelle empfehlen Sie?Which open-source models do you recommend?
Llama 3.3, Qwen 2.5, Mistral/Mixtral, gemma-2. Lizenzbedingungen immer prüfen — kommerzielle Nutzung meist möglich, aber mit Klauseln.
Llama 3.3, Qwen 2.5, Mistral/Mixtral, gemma-2. Always review license terms — commercial use mostly OK but with clauses.
Mit welchem Software-Stack arbeiten Sie?What software stack do you use?
Ollama (einfach), vLLM (Produktion), llama.cpp (ressourcenarm). Open WebUI/Anything LLM als Frontend. Qdrant/pgvector für RAG. Prometheus + Grafana fürs Monitoring.
Ollama (simple), vLLM (production), llama.cpp (low-resource). Open WebUI/Anything LLM as frontend. Qdrant/pgvector for RAG. Prometheus + Grafana for monitoring.
Rechnen sich Cloud-API oder Hardware?Cloud API vs. hardware — which wins?
Faustregel: GPU-Workstation 6.000–12.000 € amortisiert ab 200–500 € Cloud-Verbrauch/Monat, also 1–3 Jahre bei intensiver Nutzung. Plus Strom + Wartung.
Rule: €6,000–12,000 GPU workstation amortizes from €200–500/mo cloud spend → 1–3 years at heavy use. Plus electricity + maintenance.
Wie sieht der Betrieb nach Aufbau aus?What about operation after setup?
Wahlweise: Übergabe an Ihre IT, Managed-Betrieb durch uns (Patching, Modell-Updates, Monitoring), oder reine Hardware-Wartung.
Three options: handover to your IT, managed operation by us (patching, model updates, monitoring), or hardware-only maintenance.
Erst die Lastrechnung. Dann die Hardware.Load math first. Hardware second.
Wir rechnen den Break-Even durch und liefern eine schriftliche Hardware-Empfehlung — bevor Sie eine GPU kaufen.We compute the break-even and deliver a written hardware recommendation — before you buy a GPU.