Korrekt trotz Vereinfachung? KI-Tools können den Inhalt prüfen

Einführung

Wir nutzen KI-Tools bereits, um Texte auf Verständlichkeit zu prüfen. Gerade haben wir dafür den KlarCheck-Index vorgestellt. Diese Tools können feststellen, ob ein vereinfachter Text verständlicher als der Ausgangstext ist. Sie erkennen aber nicht, ob der Inhalt des Ausgangstextes korrekt übertragen wurde: Stimmen die vereinfachten Aussagen mit den ursprünglichen Aussagen inhaltlich überein? Sind etwa Informationen verloren gegangen oder neue hinzugekommen? Oder haben sich inhaltliche Fehler eingeschlichen?

Um diese Fragen zu beantworten, brauchen wir Tools, die die inhaltliche Übereinstimmung von Texten analysieren und messen können. Dazu dienen KI-Sprachmodelle, die entweder selbst Texte prüfen oder bereits vorhandene Messverfahren anwenden. Außerdem gibt es KI-gestützte Qualitätsprüfungen innerhalb von Sprachanalyse-Programmen. In diesem Beitrag nutzen wir den Begriff ‚Tools‘ für alle genannten Prüfmodelle.

Wir wollen erkunden, worauf die inhaltliche Prüfung der Texte zielt und was die jeweiligen Tools leisten können. Nachfolgend stellen wir drei Arten der Prüfung vor:

(1) Prüfung von Übersetzungen auf inhaltliche Qualität

Es ist sinnvoll, die Prüfung auf inhaltliche Qualität direkt in die Textanalyse einzubeziehen. Wir haben das erstmals bei capito.ai gefunden: die Qualitätsbewertung.

Dieses Tool ermittelt, welche Stellen im Ausgangstext nicht richtig oder unvollständig übersetzt wurden. Es ist auch hilfreich, um eventuell zu stark vereinfachte Aussagen aufzuspüren. Die Qualitätsbewertung meldet sich mit Stichworten wie „Verlorene Details“, „Weggelassen“ oder „Falsch bewertet“. Sie zitiert die betreffenden Stellen und erläutert die Mängel.

Qualitätsbewertung bei capito.ai
Beispiel: „Verlorene Details“

AusgangstextÜbersetzung in
Einfache Sprache
Qualitätsbewertung
„Dabei sollten Sie jedoch bedenken, dass E-Mails auf dem Übertragungsweg quer durchs Internet wie Postkarten für jeden Hacker lesbar sind und grundsätzlich auch verändert oder gelöscht werden können.„Achtung: E-Mails sind unsicher. Sie können von Dritten gelesen oder verändert werden.“Verlorene Details:

Die Warnung [„dass E-Mails …“] wurde stark vereinfacht.

Quelle:
Textanalyse auf capito.ai (Beitrag von SM zum capito Webinar 17.6.2025)

Einen ähnlichen Qualitätscheck bietet unser KI-Tool Bürgernah (buergernah.org) an. Das Tool kann die Übersetzung wie folgt prüfen:

  • Gibt es in der Übersetzung komplizierte Wörter oder Fachausdrücke?
  • Sind wichtige Aussagen des Originals unklar oder falsch übersetzt?
  • Welche Informationen wurden weggelassen oder verändert?

Als Antwort zeigt das Tool die betreffenden Stellen im Text, erklärt und bewertet sie und schlägt Verbesserungen vor.

Qualitätscheck bei KI-Tool Bürgernah
Ausschnitt: Fehlende oder veränderte Informationen

Check-ErgebnisVerbesserungsvorschlag
Weggelassen:

Die Definition „bestandskräftig angeordnet“ in §2 Absatz 4 wurde nicht erklärt.
Du könntest sagen:

„Bestandskräftig“ heißt: Die Entscheidung ist rechtsgültig und kann nicht mehr geändert werden.
Verändert:

Der Begriff „Innenverdichtung“ wurde nicht genannt, sondern allgemein mit „die Stadt wächst“ umschrieben.
Du könntest ergänzen:

„Innenverdichtung“ bedeutet: In der Stadt wird dichter gebaut, zum Beispiel mehr Wohnungen auf kleinerer Fläche.

Quelle:
Test zu Bürgernah für Blogbeitrag „Erste Hilfe bei Amtstexten“ 21.7.2025

Diese inhaltliche Kontrolle ist besonders nützlich, um eine Übersetzung detailliert zu bewerten und gründlich zu bearbeiten. Sie funktioniert allerdings nur für die eigenen Übersetzungen des jeweiligen Sprachprogramms (capito.ai oder Bürgernah).
Alternativ könnte man ein Chat-Modell mit geeignetem Prompt nutzen, um Übersetzungen inhaltlich zu kontrollieren. Für lange Texte ist diese Methode jedoch aufwendig. Man kann damit auch nicht beurteilen, wie inhaltstreu die Übersetzung gegenüber einer anderen ist. Dafür benötigen wir Verfahren, mit denen wir den Grad der Übereinstimmung von Texten messen können.

(2) Verfahren zum Messen der inhaltlichen Übereinstimmung

In der Informationstechnologie (IT) gibt es mehrere Verfahren, um die inhaltliche Übereinstimmung von Texten zu messen. Wir wählen diejenigen aus, die für Übersetzungen in Einfache Sprache geeignet und für IT-Laien anwendbar sind.

Wir haben die Messverfahren mit dem Colab Notebook auf Google Drive ausprobiert, assistiert von Geminy. Nachfolgend beschreiben wir die wichtigsten Verfahren und deren Vor- und Nachteile für die Einfache Sprache. Dabei stützen wir uns auf Recherchen mit ChatGPT, Google und der Wikipedia sowie auf Erläuterungen des Assistenten Geminy.

Häufig wird SARI als Metrik verwendet, um Textvereinfachungen inhaltlich zu überprüfen. SARI bietet Einblicke in die spezifischen Vorgänge (hinzufügen, löschen, beibehalten), die zur Vereinfachung beitragen. Viele Fachleute, z.B. für Leichte Sprache, finden diese Aufschlüsselung nützlich.

Für die Einfache Sprache ist SARI jedoch weniger geeignet, da es die Texte Satz für Satz vergleicht. Es bewertet die Übereinstimmung von Token (Wörtern), die innerhalb eines Satzkontexts hinzugefügt, gelöscht oder beibehalten werden. Bei der Einfachen Sprache können aber größere Textteile in eine andere Satzstruktur verwandelt werden. Das kann SARI nicht entsprechend berücksichtigen. Die Messungen ergeben bei Einfacher Sprache extrem niedrige Werte oder liefern gar kein nutzbares Ergebnis.

Für die inhaltliche Übereinstimmung zwischen Ausgangstext und vereinfachtem Text eignen sich daher Metriken, die Semantik statt nur Wortüberlappung messen. Dazu gehören BERTScore und ROUGE: Sie betrachten die semantische Ähnlichkeit oder die Überschneidung von Wörtern/Phrasen nicht satzweise, sondern jeweils im gesamten Abschnitt oder Dokument. Sie können daher besser bewerten, ob der Inhalt erfolgreich übertragen wurde, auch wenn die Anzahl der Sätze oder die genaue Formulierung variiert.

  • ROUGE misst die Überlappung von kleinen Texteinheiten: wie viele gemeinsame Zeichen- oder Wortfolgen zwei Texte haben. Es dient dazu, die Ähnlichkeit von Texten zu bestimmen, etwa bei der Plagiatssuche, Rechtschreibkorrektur oder der Rückgewinnung von Informationen. Es ist aber bei vereinfachten Texten oft irreführend, weil es Synonyme und Umschreibungen schlecht erfasst.
  • Besser geeignet ist BERTScore, weil es Texte auf semantische Ähnlichkeit und nicht auf übereinstimmende Wörter prüft. Es nutzt die Einbettungen in Kontexte (contextual embeddings) aus vortrainierten BERT-Modellen, um Synonyme und Umschreibungen zu erkennen. Für den Grad der inhaltlichen Übereinstimmung ist also BERTScore eine brauchbare Standardmetrik.

Wie misst BERTScore die inhaltliche Übereinstimmung von Ausgangstext und Übersetzung?
Die Metrik berechnet:

  • die „Präzision“ (wie viele Wörter der Übersetzung sind im Ausgangstext?),
  • den „Rückruf“ (wie viele Wörter des Ausgangstextes wurden in der Übersetzung abgedeckt?) und
  • das „harmonische Mittel“, das oft als Gesamtmaß verwendet wird.

Die Messergebnisse liegen zwischen -1 und +1, wobei höhere Werte eine bessere Übereinstimmung anzeigen:

  • Werte nahe 1,0 deuten auf eine sehr hohe Übereinstimmung hin;
  • Werte näher an 0 oder negativ zeigen eine niedrige oder sehr geringe Übereinstimmung an.


Messwerte von BERTScore für semantische Übereinstimmung:
Ausgangstext und Übersetzung in Einfache Sprache

Messverfahren (BERTScore)Messwert (BERTScore)Bewertung (Geminy)
Präzision0.7185Der meiste Inhalt des vereinfachten Textes ist vom Ausgangstext abgeleitet.
Rückruf0.7023Ein signifikanter Teil der Information des Ausgangstextes ist in Vereinfachung enthalten.
Harmonisches Mittel0.71Starke semantische Übereinstimmung

Quelle:
Testtexte von KI-Tool Bürgernah (siehe „Erste Hilfe bei Amtstexten“ 21.7.2025);
Messwerte ermittelt mit BERTScore auf Colab Notebook

Genau betrachtet, misst der BERTScore die semantische Ähnlichkeit zwischen Ausgangstext und jeweiliger Übersetzung. Er sagt jedoch nichts darüber aus, ob die Inhalte der Übersetzung den Sinn des Ausgangstextes korrekt wiedergeben. Dafür sind andere Messverfahren erforderlich.

(3) Verfahren zum Messen der inhaltlichen Korrektheit

Wie können Prüfverfahren ermitteln, ob eine Übersetzung in Einfache Sprache inhaltlich korrekt ist? Sie prüfen den vereinfachten Text auf logische Konsistenz. Dafür werden meist zwei Ansätze genutzt:

(a) Prüfung auf logische Folgerung (Entailment recognition)

Dieses Verfahren prüft die Beziehung zwischen Ausgangstext und vereinfachtem Text. Es ermittelt, ob der vereinfachte Text

  • aus dem Ausgangstext folgt (ohne Halluzinationen bzw. Erfindungen) und
  • umgekehrt dem Ausgangstext entspricht (nichts Wesentliches verloren ist).

Daraus ergeben sich drei mögliche Bewertungen:
> Logische Folge
> Widerspruch
> Neutral (nicht ableitbar/ unklar)

Beispiel für Prüfung auf logische Folgerung

AusgangstextVereinfachter Text AVereinfachter Text B
„Der Vulkan brach 1980 aus und zerstörte große Teile der Stadt.“„1980 zerstörte ein Vulkan große Teile der Stadt.“
Logische Folge
„Der Vulkan zerstörte die Stadt 1990.“
Widerspruch

Quelle:
Recherche auf ChatGPT zu Entailment-/Factuality-Prüfung (NLI/QA-basiert)

(b) Frage-Antwort-Prüfung auf Faktentreue (QA-based factuality evaluation)

Dieses Verfahren erzeugt Fragen aus dem Ausgangstext und prüft, ob sie im vereinfachten Text beantwortet werden.
Es wird häufig genutzt, wenn “gleiche Fakten” zentral sind.

Beispiel für Frage-Antwort-Prüfung

Ausgangstext„Marie Curie entdeckte 1898 das Element Radium in Paris.“
Automatisch erzeugte FragenWer entdeckte Radium?
Wann wurde Radium entdeckt?
Wo wurde es entdeckt?
Vereinfachter Text„Marie Curie entdeckte Radium.“
Prüfergebnis→ Die Fragen zu Wann und Wo sind nicht mehr beantwortbar
→ Informationsverlust messbar

Quelle:
Recherche auf ChatGPT zu Entailment-/Factuality-Prüfung (NLI/QA-basiert)

Ausblick

Wie diese Übersicht zeigt, ist die inhaltliche Qualität von Übersetzungen keine Blackbox. KI-Tools und Prüfverfahren können uns helfen, ungenaue, nicht korrekte oder fehlende Inhalte aufzufinden und Texte entsprechend zu verbessern.

  • Am einfachsten geht das innerhalb von Sprachanalyse-Programmen (capito.ai) und Übersetzungs-Tools (Bürgernah). Diese Qualitätsbewertung funktioniert aber nur für den intern übersetzten Text.
  • Anspruchsvoller sind Messverfahren (Metriken) für die Übereinstimmung von Texten. Für IT-Experten mit entsprechender Software sind sie leicht anzuwenden. Für Laien hingegen empfehlen wir, das Colab Notebook auf Google Drive zu nutzen.
  • Besonders geeignet ist BERTScore, um zu prüfen, inwieweit Übersetzungen in Einfache Sprache inhaltlich mit dem Ausgangstext übereinstimmen. Zusätzlich können spezielle Tools Halluzinationen oder falsche Inhalte ermitteln.

Wir wollen mit unserer ersten Übersicht alle Sprachprofis ermuntern, die vorgestellten Prüfverfahren auszuprobieren. Wir bitten auch IT-Experten, ihre Erfahrungen mit diesen und anderen Tools zur inhaltlichen Prüfung von Einfacher Sprache einzubringen. Feedback ist willkommen!

Sabine Manning

Hinweis: Dieser Beitrag unterliegt der Creative Commons Lizenz. Das bedeutet, dass ihn Interessierte für nicht kommerzielle Zwecke weiterverwenden dürfen. Sie müssen dazu die Autorin und den Blog Multisprech (https://multisprech.org/) nennen und den Link angeben.

Bild: VintageSnipsAndClips auf Pixabay

Hinterlasse einen Kommentar