Vorwort zur Reihe „KI-Tools für Einfache Sprache“
Was kann künstliche Intelligenz (KI) für die Einfache Sprache leisten? Wir haben bereits das Programm ChatGPT (siehe Blogs [1] [2] [3]) untersucht. Nun verfolgen wir, wie KI praktisch eingesetzt wird, um Texte leicht verständlich zu machen. Dazu testen wir neue KI-Tools, die öffentlich zugänglich sind. Besonders analysieren wir die sprachliche Qualität dieser Tools. Hierfür dienen uns die Merkmale der Einfache Sprache (vgl. ABC der Einfachen Sprache) und die Leistungen von ChatGPT als Messlatte. Wir wollen mit diesen Tests zur Diskussion anregen: Was sind die Stärken und die Schwächen dieser Tools? Für welche Zielgruppen und Zwecke sind sie geeignet? Wie kann man die Qualität der erzeugten Texte verbessern?
Unsere Reihe begann mit dem KI-Tool vom Fußballclub St. Pauli. In unserem neuen Beitrag vergleichen wir zwei Modelle der Textanalyse, die KI zum Vereinfachen der Sprache einsetzen: capito digital und Wortliga.
Wie setzen capito digital und Wortliga ihr KI-Tool für die Einfache Sprache ein?
Wortliga und capito digital sind bekannte Modelle der Textanalyse. Ihr gemeinsames Anliegen ist es, Profis beim Schreiben verständlicher Texte zu unterstützen. Dabei verwenden die Modelle unterschiedliche Sprachkonzepte. Wortliga strebt „einfache Sprache“ nach dem Hamburger Verständlichkeitskonzept an. Hingegen zielt capito digital auf „leichtes Lesen“ in drei Sprachstufen: A1, A2 und B1 (siehe Lesen auf leichtem Level).
Beide Modelle beziehen seit diesem Jahr ein KI-Tool in die Textanalyse ein. Bei Wortliga basiert das Tool auf GPT-4. Capito digital verwendet ein eigenständiges KI-Programm, das auf führenden Large Language Models und dem Kriterienkatalog von capito beruht.
Beide Modelle setzen KI für Varianten der Einfachen Sprache ein. Wortliga strebt insgesamt eine „einfache Sprache“ an. Bei capito digital ist die Sprachstufe B1 als „einfache Sprache“ ausgewiesen, während die Sprachstufe A2 der „leichten Sprache“ (siehe Leichte Sprache) zugeordnet wird. Wir werden aber auch die Stufe A2 in unsere Analyse einbeziehen, da Einfache Sprache gewöhnlich bei A2 beginnt (vgl. Roth).
In beiden Modellen sind die KI-Tools in eine umfangreiche Sprachanalyse einbezogen. Die KI-Tools sollen eingegebene Texte vereinfachen. Sie sollen die Analyse unterstützen und keine eigenständigen Texte liefern. Sie funktionieren also innerhalb der Arbeitsumgebung für Sprachprofis. Die Abbildungen der Modelle zeigen das deutlich (siehe roten Pfeil):
capito digital -> Automatisch vereinfachen
Wortliga -> KI-Werkzeuge: zur Auswahl gehört „Vereinfachen“
Wir wollen jetzt die KI-Tools von capito digital und Wortliga auf Einfache Sprache testen und ihre Leistungen miteinander vergleichen. Wir werden dabei an unsere Analysen zu ChatGPT anknüpfen und ähnlich wie in unserem Test des KI-Tools von St. Pauli vorgehen. Wir behalten auch den Begriff „übersetzen“ bei, obwohl die beiden Modelle die Bezeichnung „vereinfachen“ verwenden.
Ziele unseres vergleichenden Tests
Wir haben mehrere Texte mit den KI-Tools von capito digital und Wortliga übersetzt. Die erzeugten KI-Texte haben wir unter drei Aspekten getestet:
- Wie verständlich sind die KI-Texte?
- Wie kann man die KI-Texte nachbessern?
- Wie korrekt sind die KI-Texte?
Für diese Tests haben wir 5 Ausgangstexte zu verschiedenen Themen und auf unterschiedlichem Niveau verwendet:
- Käuferschutz bei PayPal (Auszug aus den Nutzungsbedingungen)
- Koloniale Raubkunst im Humboldt Forum (Auszug aus einem Artikel)
- Robert-Koch-Institut (RKI) (Auszug aus der Internetseite des RKI)
- Special Olympics 2023 (Rückblick des Organisationskomitees)
- Volksentscheid Berlin 2030 klimaneutral (Auszug aus dem Aufruf)
Die gleichen Texte hatten wir schon mit ChatGPT in Einfache Sprache übersetzt (vgl. Blog 3). Die besten Ergebnisse erzielten wir mit der Version GPT-4, und zwar mit folgender Aufforderung (Prompt) an das Programm: „Schreibe diesen Text in Einfacher Sprache. Verwende dabei nur kurze Wörter, kurze Sätze und aktive Sprache.“ Wie unsere Analyse zeigte, entsprachen die erzeugten Texte weitgehend den Merkmalen der Einfachen Sprache. An diesem Textniveau haben wir die Übersetzungen der KI-Tools von capito digital und Wortliga gemessen.
Hier sind die hauptsächlichen Ergebnisse unserer Tests:
1. Wie verständlich sind die KI-Texte?
Wir wollen messen, wie verständlich die KI-Texte sind, und die sprachlichen Faktoren dafür untersuchen.
# Index der Verständlichkeit
Zuerst haben wir geprüft, wie verständlich die Übersetzungen der KI-Tools von capito digital und Wortliga sind. Für den Vergleich der beiden Modelle eignet sich die Software TextLab von H&H Communication Lab GmbH. Diese Software verwendet den Hohenheimer Verständlichkeitsindex (HIX). Dieser Index berücksichtigt vor allem die Länge von Wörtern, Sätzen und Satzteilen. Er misst die Verständlichkeit von Texten auf der Skala von 0 bis 20. Je höher der erreichte Wert, desto leichter verständlich ist der Text. Ab HIX-Wert 10 ist ein Text verständlich; etwa ab HIX-Wert 16 beginnt die Einfache Sprache.
Sehen wir uns die Testergebnisse in der folgenden Grafik an. Hier sind die 5 Ausgangstexte und die KI-Übersetzungen jeweils insgesamt erfasst: mit ihren durchschnittlichen HIX-Werten.
Wie sich zeigt, sind die KI-Übersetzungen der beiden Tools durchgängig gut verständlich. Bei Wortliga und capito digital A2 liegen sie im Bereich der Einfachen Sprache. Den höchsten HIX-Wert erreichen die Übersetzungen mit GPT-4.
# Verständliche Sprache
Maßgeblich für höhere HIX-Werte sind kurze Wörter und kurze, einfach strukturierte Sätze. Die Übersetzungen von Wortliga und GPT-4 haben weniger lange Wörter als capito digital. Von allen hat GPT-4 die wenigsten langen Sätze. Letzteres mag der oben zitierte Prompt bewirken, der kurze Sätze fordert.
Zur Verständlichkeit trägt aber auch eine aktive Sprache bei: möglichst ohne Passivsätze, ohne abstrakte Substantive und ohne Nominalstil. Folgende Beispiele zeigen, wie die Modelle den Ausgangstext aktivieren:
Ausgangstext
1903 wurde das „Luf-Boot“ von einem deutschen Kaufmann […] nach bisheriger Lesart „erworben“ und an das Berliner Museum für Völkerkunde verkauft.
capito digital B1
1903 hat ein deutscher Kaufmann das „Luf-Boot“ […] gekauft. Danach hat er es an das Berliner Museum für Völkerkunde verkauft.
Ausgangstext
Die Chancen für nachhaltige Veränderungen stehen gut.
Wortliga
Es besteht eine gute Chance, dass wir das schaffen und Dinge langfristig verändern können.
# Index der Modelle
Neben dem HIX von TextLab sind auch die internen Indexangaben der Modelle aufschlussreich. Sie messen auf unterschiedliche Weise, wie verständlich die Texte sind:
- Der Index von capito digital weist aus, wieweit ein Text die Vorgaben des internen Kriterienkatalogs erfüllt. Dafür zeigt das Menü für jede angestrebte Sprachstufe einen Wert in Prozent an.
- Hingegen nutzt Wortliga einen Index der Lesbarkeit in Prozent. Er berücksichtigt vor allem die Länge von Wörtern und Sätzen und die Anzahl von Fehlermeldungen aus der Checkliste.
Die Indexangaben der beiden Modelle sind also weder untereinander noch mit dem HIX direkt vergleichbar. Das können wir in der folgenden Grafik sehen. Wir haben hier die Indexangaben für die Ausgangstexte und für die KI-Übersetzungen gegenübergestellt. Zu diesem Zweck sind die HIX-Werte (0-20) in Prozent (0-100) umgerechnet.
Schon bei den Ausgangstexten ist erkennbar, dass der Indexwert von capito höher als der HIX-Wert ist, während der Indexwert von Wortliga unter dem HIX-Wert liegt. Diese Unterschiede zum HIX-Wert zeigen sich auch bei den Übersetzungen:
- Bei capito digital erreichen die KI-Übersetzungen einen hohen Wert – im Gegensatz zum HIX-Werten. Das könnte damit zusammenhängen, dass die Kriterien der Wortlänge, Satzlänge und Satzstruktur im capito-Index und auch in den Vorschlägen zur Vereinfachung geringer gewichtet sind.
- Wortliga wiederum zeigt an, dass die KI-Übersetzungen gerade die Marke „gut lesbar“ erreichen, während sie bei HIX höher eingestuft werden. Das deutet darauf hin, dass die Checkliste von Wortliga noch weitere Mängel im Text erkennt, die sich im Lesbarkeitsindex niederschlagen.
# Sprachniveaus
Eng verknüpft mit dem jeweiligen Index ist das ausgewiesene Sprachniveau. In beiden Modellen beziehen sich die Niveaus auf den Gemeinsamen Europäischen Referenzrahmen (GER). Sie werden jedoch unterschiedlich definiert und verwendet.
- Bei capito digital wählt man ein Sprachniveau VOR der Vereinfachung aus. Von diesem angestrebten Niveau hängt ab, wie der Ausgangstext bewertet wird und nach welchen Kriterien der Text vereinfacht werden soll. Der Indexwert der fertigen Vereinfachung zeigt an, wieweit das angestrebte Sprachniveau erreicht worden ist.
- Bei Wortliga hingegen wird ein Sprachniveau NACH der Analyse eines Textes angezeigt. Dieses erreichte Niveau basiert auf internen Sprachkriterien und ergänzt den Lesbarkeitsindex. Die Leitfrage hierfür ist: „Passt das Sprachniveau Deines Textes zu Deinen Lesern?“ Die Niveauangabe kann helfen, die schrittweise Verbesserung des Textes zu kontrollieren.
2. Wie kann man die KI-Texte nachbessern?
Wenn man in capito digital einen automatisch vereinfachten Text übernimmt, werden Vorschläge für die manuelle Verbesserung eingeblendet. Diese Vorschläge sind wie die KI auf die internen Kriterien der jeweiligen Sprachstufe bezogen und dienen der gezielten Kontrolle. In Wortliga hingegen zeigt die umfassende Sprachanalyse des Menüs an, welche Mängel ein vereinfachter Text noch enthält.
In beiden Modellen kann man die erzeugten Übersetzungen aber auch automatisch nachbessern. Man kann den Ausgangstext erneut übersetzen, man kann eine Übersetzung nochmals vereinfachen oder Teile der Übersetzung nachbearbeiten. Was leisten diese Angebote?
# Ausgangstext erneut übersetzen
Beide KI-Tools bieten an, eine Übersetzung zu wiederholen: in capito digital mit dem Befehl „Erneut versuchen“, in Wortliga mit „Alternative anzeigen“. Ob die wiederholte Übersetzung besser ist, bleibt offen. Nützlich ist dieser Versuch, wenn einem die erste Übersetzung nicht gefällt oder wenn man an mehreren stilistischen Varianten interessiert ist. Hier ist ein Beispiel für Varianten von Wortliga:
Ausgangstext
Jetzt gilt es, den Schwung der Weltspiele in den Alltag zu tragen. Die Chancen für nachhaltige Veränderungen stehen gut.
Variante 1
Es ist jetzt wichtig, die Energie von den weltweiten Spielen in den normalen Alltag zu übertragen. Es gibt gute Möglichkeiten für dauerhafte Veränderungen.
Variante 2
Jetzt müssen wir die Energie der Weltspiele in unser tägliches Leben einbringen. Die Möglichkeit, dass langfristige Veränderungen passieren, ist groß.
Ein Vergleich der KI-Tools zeigt, dass Wortliga sehr unterschiedliche Alternativen hervorbringen kann, während die erneuten Versuche bei capito digital weniger variieren. Das hängt mit der zugrundeliegenden Software zusammen. Bei Wortliga erzeugt GPT-4 jedes Mal eine neue Übersetzung. Bei capito digital hingegen sind die KI-Übersetzungen maßgeblich von den internen Sprachkriterien bestimmt.
# Übersetzung nochmals vereinfachen
Man kann eine KI-Übersetzung verbessern, indem man sie nochmals vereinfacht. Das ist sinnvoll, wenn der Text weitgehend erhalten bleibt und nur punktuell vereinfacht wird. Hierfür eignet sich die automatische Vereinfachung von capito digital, da sie von internen Sprachkriterien geleitet wird.
Die folgende Grafik zeigt, wie Übersetzungen mit capito digital mehrmals nacheinander vereinfacht und verbessert werden. Dabei wir jede Übersetzung erst vereinfacht, dann übernommen und danach nochmals vereinfacht.
Aufschlussreich ist der Vergleich zwischen den Sprachstufen: Auf beiden Stufen hat die KI die erste Übersetzung am meisten vereinfacht. Das ist jeweils am deutlich höheren Index-Wert der zweiten Übersetzung erkennbar. Bei A2 steigt der Index noch geringfügig nach zwei weiteren Vereinfachungen. Bei B1 bleibt hingegen der Index-Wert bereits nach der ersten Vereinfachung unverändert. Das heißt, die betreffende Übersetzung ändert sich danach nicht mehr.
Der jeweils erreichte Höchstwert einer Sprachstufe bedeutet allerdings nicht, dass die Übersetzung bereits perfekt ist. Das Menü von capito digital zeigt noch weitere Vorschläge für die Textbearbeitung an.
Auch der HIX weist auf weiteren Bedarf hin: Mit den nochmaligen Vereinfachungen stieg bei A2 der Wert (19) geringfügig, bei B1 nach der ersten Vereinfachung deutlich (von 13 auf 16). Das Textlab ermittelte jedoch beim Höchstwert von B1 unter anderem noch zu lange Wörter, Sätze und Satzteile.
# Teile der Übersetzung nachbearbeiten
Wortliga bietet KI-Tools für Teile des Textes an. Um Übersetzungen nachzubessern, ist die Aktion „Sätze aufteilen“ nützlich. Hier ist ein Beispiel:
Komplexer Satz
Die Hauptaufgaben bestehen darin, Krankheiten zu untersuchen, zu analysieren und zu bewerten, die sehr gefährlich sind, viele Menschen betreffen oder für die öffentliche Gesundheit wichtig sind.
Aufgeteilter Satz
Die Hauptaufgaben bestehen darin, Krankheiten zu untersuchen. Diese werden analysiert und bewertet. Es handelt sich hierbei um Krankheiten, die sehr gefährlich sind. Sie betreffen viele Menschen. Sie sind auch wichtig für die öffentliche Gesundheit.
Auch bei der Aktion „Sätze aufteilen“ kann man Alternativen anzeigen. Sie können verständlicher oder stilistisch besser sein und auf jeden Fall zu eigenen Lösungen anregen.
3. Wie korrekt sind die KI-Texte?
Nach der KI-Vereinfachung sollte man kritisch prüfen, ob der Ausgangstext inhaltlich und sprachlich korrekt und stilistisch angemessen übersetzt wurde. Die entscheidende Frage ist, wieweit die Vereinfachung den Sinn des Originaltextes wiedergibt. Hat ein kürzeres Wort oder ein schlankerer Satz dazu geführt, dass sich Inhalte verändern oder verloren gehen? Konnte die KI den Text so vereinfachen, dass der Sinn erhalten bleibt oder noch klarer wird? Zu prüfen ist auch, ob der vereinfachte Text übersichtlich strukturiert und damit besser lesbar ist.
Wir stellen nachfolgend verschiedene Lösungen vor, mit denen die Modelle schwierige Textstellen vereinfachen.
# Lange und zusammengesetzte Wörter sind häufige Hürden. Wortliga und GPT-4 lösen viele solcher „Bandwürmer“ am besten verbal auf oder verkürzen sie. Bei capito digital bleiben diese Wörter teilweise erhalten, aber das Menü empfiehlt, Komposita zu vereinfachen. Hier ist ein Beispiel mit unterschiedlichen Lösungen:
Ausgangstext
Das RKI ist die zentrale Einrichtung der Bundesregierung auf dem Gebiet der Krankheitsüberwachung und -prävention.
capito digital A2/ B1
Es ist die wichtigste Einrichtung für die Überwachung und Vorbeugung von Krankheiten in Deutschland.
Wortliga
Es überwacht Krankheiten und versucht, sie zu verhindern.
GPT-4
Es hilft dabei, Krankheiten zu überwachen und zu verhindern.
# Eine weitere Hürde sind schwierige Wörter, vor allem bildhafte Ausdrücke. Hierzu ein Beispiel:
Ausgangstext
Der Widerstand der Bevölkerung war groß, also unternahmen die Deutschen sogenannte „Strafexpeditionen“, es gab viele Tote.
capito digital A2
Die Deutschen unternahmen sogenannte „Strafexpeditionen“, weil es Widerstand der Bevölkerung gab. Viele Menschen sind dabei gestorben.
capito digital B1
Die Bevölkerung war dagegen […]. Die Deutschen unternahmen daraufhin sogenannte „Strafexpeditionen“, bei denen viele Menschen starben.
Wortliga
Die Menschen auf der Insel waren gegen die Deutschen und es gab viele Kämpfe und Tote.
GPT-4
Die Menschen dort haben sich gewehrt. Die Deutschen haben daraufhin hart zugeschlagen. Viele Menschen sind dabei gestorben.
In diesem Beispiel übernimmt capito digital den Begriff „Strafexpeditionen“ und formuliert nur den Kontext einfacher. Wortliga spart den Begriff aus, und GPT-4 umschreibt ihn.
# Es gelingt nicht immer, lange und komplizierte Sätze verständlich aufzulösen. Hier ist ein Beispiel zum PayPal-Käuferschutz:
Ausgangstext
Die Entscheidung ergeht auf Grundlage der Zulässigkeitsvoraussetzungen, der im Verfahren bereitgestellten Informationen und Unterlagen sowie aller sonstigen Informationen, die PayPal im jeweiligen Einzelfall für sachdienlich erachtet.
capito digital A2
PayPal entscheidet, ob etwas erlaubt ist.
Dafür schaut PayPal:
– Auf die Bedingungen.
– Auf die Informationen und Unterlagen im Verfahren.
PayPal findet andere Informationen wichtig.
capito digital B1
Die Entscheidung basiert auf:
– Zulässigkeitsvoraussetzungen.
– Informationen und Unterlagen im Verfahren.
– Sonstigen Informationen, die PayPal für wichtig hält.
Wortliga
Für die Entscheidung schaut sich PayPal alle Infos und Unterlagen an, die es gibt.
Bei capito digital wird der Satz durch Anstriche gegliedert: auf Stufe B1 am verständlichsten, auf A2 mit einem unverbundenen Nachsatz. Wortliga hingegen fasst den Inhalt einfach zusammen.
# Bei komplizierten Sachverhalten fallen die vereinfachten Texte sehr unterschiedlich aus. Das zeigt ein Beispiel zum Abstimmungsverfahren:
Ausgangstext
Durch das Scannen des QR-Codes mit einer geeigneten App wird der Abstimmungsscheinantrag im Internet aufgerufen und die verschlüsselten personenbezogenen Daten werden automatisch eingetragen.
capito digital A2
Wenn Sie die Abstimmungsbenachrichtigung bekommen haben, können Sie den QR-Code auf der Rückseite scannen. Die Maschine füllt den Antrag automatisch aus.
capito digital B1
Wenn man die Abstimmungsbenachrichtigung abwartet, kann man den Antrag auch über den QR-Code auf der Rückseite der Benachrichtigung stellen. Dazu muss man den Code mit einer geeigneten App scannen und die verschlüsselten personenbezogenen Daten werden automatisch eingetragen.
Wortliga
Man kann die Benachrichtigung mit dem Code scannen, der auf der Rückseite gedruckt ist. Man braucht dafür eine passende App. Dann wird der Antrag für den Abstimmungsschein im Internet gefunden und die persönlichen Daten, die verschlüsselt sind, werden automatisch eingetragen.
GPT-4
Wer den Brief für die Abstimmung hat, kann einen QR-Code scannen. Das geht mit einer App. Dadurch werden die Daten für den Abstimmungsschein ausgefüllt.
Wortliga und capito digital B1 vereinfachen den Ausgangstext, indem sie den digitalen Vorgang genau beschreiben. GPT-4 formuliert dagegen kurz und einfach. Und capito A2 übersetzt frei mit dem bildhaften Ausdruck „Maschine“.
—
Fazit unseres vergleichenden Tests
In beiden Programmen dient die KI dazu, die Profis bei der Textbearbeitung zu unterstützen. Das heißt, die KI soll keine eigenständige Übersetzung liefern. Wie Gidon Wagner von Wortliga in einem Interview sagte: Die KI soll den Blick auf den Text schärfen, aber sie ersetzt keinen Lektor oder Profi, sondern gibt Hilfe und Anregung. Ähnlich erläuterte Paul Mayer für capito digital, dass die KI-Assistenz helfen soll, möglichst nahe an die Definitionen der Sprachstufen heranzukommen und das Nachbearbeiten so angenehm wie möglich zu gestalten.
In beiden Programmen eignet sich die KI dazu, Teilschritte zu übernehmen, beispielsweise Übersetzung zu entwerfen oder weiter zu vereinfachen. Dabei hat die KI in jedem Programm ihre eigenen Vor- und Nachteile: Die KI von capito digital gibt den Ausgangstext meist genauer, aber weniger leicht verständlich wieder, während die KI bei Wortliga oft freier und leichter verständlich übersetzt, aber nicht alle Einzelheiten einbezieht.
In beiden Programmen hängt viel davon ab, wie geschickt die Profis das jeweilige KI-Tool nutzen, um die Übersetzung schrittweise zu verbessern. Mit der KI von capito digital ist es beispielsweise möglich, eine Übersetzung mehrmals nacheinander zu vereinfachen und damit verständlicher zu machen, allerdings nur im Rahmen der internen Sprachkriterien. Die KI von Wortliga hingegen kann einzelne komplexe Sätze auflösen und somit die Übersetzung besser lesbar machen. Beide Modelle können einen Text auch in mehreren Varianten vereinfachen. Besonders vielfältig sind diese Varianten bei Wortliga.
Beide Programme befinden sich noch in der Entwicklungsphase. Laufend kommen neue Versionen heraus, mit denen die Modelle noch besser analysieren und vereinfachen können und nutzerfreundlicher werden. Mit dem Feedback aus unseren Tests wollen wir zu weiteren Verbesserungen anregen. Darüber hinaus möchten wir die Profis der Einfachen Sprache ermuntern, ihre persönlichen Fähigkeiten im Umgang mit der KI und alternativ zur KI zu erhöhen!
Sabine Manning
PS. Hilfreich für diesen Blog waren detaillierte Informationen von Paul Mayer zu capito digital und von Gidon Wagner zu Wortliga. Für Anregungen zum Test danke ich Stephan Manning, Bettina Mikhail und Uwe Roth.
Bild von VintageSnipsAndClips auf Pixabay
Hinweis: Dieser Beitrag unterliegt der Creative Commons Lizenz. Das bedeutet, dass ihn Interessierte für nicht kommerzielle Zwecke weiterverwenden dürfen. Sie müssen dazu den Autor und den Blog Multisprech (https://multisprech.org/) nennen und dürfen den Text nicht bearbeiten.
Pingback: Plain: Der KI-Übersetzer für einfache Sprache – Web2-Unterricht