LLMs im Test: 25 Modelle im Produktiveinsatz für Versicherer

25 LLMs, echte Versicherungsdaten, knallhartes Benchmarking: Im zweiten Quartal 2025 zeigt Insiders Technologies, welche Modelle im Ernstfall überzeugen – und welche im Betrieb teuer, langsam oder unsicher sind. Die Studie „INSIDERS LLM BENCHMARKING – MAI 2025“ (Download).

Die Grafik präsentiert die Testergebnisse von 25 LLMs, bewertet nach ihrer Performance. Die Modelle sind nach Punktzahlen geordnet, wobei Claude 3.7 Sonnet mit 90.17 die höchste Bewertung erzielt. — ITFM/Datenquelle Insiders Technologies

Für die aktuelle Q2-Ausgabe des Benchmarks von Insiders Technologies (Website) wurden 25 Modelle getestet, darunter neue, leistungsstarke LLM wie Claude 3.7 Sonnet, Gemini 2 Flash, Llama 3.3 70b und DeepSeek.

Die Tabelle präsentiert die Ergebnisse von 25 LLM-Modellen hinsichtlich Geschwindigkeit, Datenschutz und Performance. Die Modelle sind nach ihrer Leistung und Hosting-Standort kategorisiert, wobei Unterschiede in den Datenschutzlevels und den erzielten Performance-Werten deutlich werden. — Insiders Technologies

Lag der Fokus beim ersten LLM Benchmarking im ersten Quartal primär noch auf der reinen Performance in den Bereichen Informationsklassifikation und -extraktion, wurden nun zusätzlich Geschwindigkeit, Datenschutz und relative Kostenstruktur berücksichtigt – entscheidende Kriterien für den produktiven Einsatz im IDP-Umfeld.

In der aktuellen Analyse von Insiders Technologies haben insbesondere Gemini 2 Flash durch außerordentlich hohe Effizienz in der Ausgabe und Verarbeitungsgeschwindigkeit überzeugt. Damit bietet das LLM einen entscheidenden Vorteil für die schnelle Bearbeitung großer Datenmengen in zeitkritischen Verfahren.

Nach wie vor liegen die globalen Modelle im aktuellen Vergleich vorn. Den ersten Platz im Gesamtranking sicherte sich das Modell Claude 3.7 Sonnet von Anthropic mit einem Score von 90,17, dicht gefolgt vom Sieger des Januar-Rankings Claude Sonnet 3.5 mit 89,61 Punkten. Auf dem dritten Platz landete eines der bekanntesten Modelle: GPT-4o von Open AI mit einem Score von 86,33.

Auch das auf Datenschutz und Compliance optimierte Insiders Private LLM findet sich im Vergleich. Das vollständig in der nach ISO 27001 zertifizierten Insiders-Cloud betriebene Modell mit höchstem Datenschutzlevel ist ein bewusstes Tradeoff speziell für sensible Dokumententypen wie SEPA-Mandate oder medizinische Daten. Hoher Datenschutz, volle Kontrolle, lokale Verarbeitung und höchste Transparenz zeichnen das Modell aus. Damit eignet es sich besonders für informationssensible Branchen wie die Versicherungs- und Finanzbranche.

Gerade in hochregulierten Branchen wie der Versicherungswirtschaft kommt es nicht nur auf die reine Leistung eines LLM an, sondern auch auf Aspekte wie Datenschutz, Kostenkontrolle und Verarbeitungsgeschwindigkeit. Unser Benchmark zeigt, dass es kein Modell für alle Fälle gibt.“

Dr. Alexander Lück, Verantwortlicher für das LLM Benchmarking und PO bei Insiders Technologies

Die Studie „INSIDERS LLM BENCHMARKING – MAI 2025“ kann hier kostenlos als PDF heruntergeladen werden.Insiders Technologies/aj

Insiders Technologies

Mit seinem Brest-of-Breed-Ansatz identifiziere Insiders Technologies die leistungsfähigsten LLMs auf dem Markt, die sie dann in Ihre „OvAItion Engine“ in die eigenen Produkte integriere. Damit hätten die Kunden die Möglichkeit, das für ihren jeweiligen Anwendungsfall optimale Setup auszuwählen. Dies ermögliche ein maßgeschneidertes Setup aus führenden LLMs und Private-Modell, um die optimale Balance aus Effizienz und Sicherheit zu finden.