KI-Tools für Einfache Sprache: (2) capito digital und Wortliga im Vergleich

Vorwort zur Reihe „KI-Tools für Einfache Sprache“

Was kann künstliche Intelligenz (KI) für die Einfache Sprache leisten? Wir haben bereits das Programm ChatGPT (siehe Blogs [1] [2] [3]) untersucht. Nun verfolgen wir, wie KI praktisch eingesetzt wird, um Texte leicht verständlich zu machen. Dazu testen wir neue KI-Tools, die öffentlich zugänglich sind. Besonders analysieren wir die sprachliche Qualität dieser Tools. Hierfür dienen uns die Merkmale der Einfache Sprache (vgl. ABC der Einfachen Sprache) und die Leistungen von ChatGPT als Messlatte. Wir wollen mit diesen Tests zur Diskussion anregen: Was sind die Stärken und die Schwächen dieser Tools? Für welche Zielgruppen und Zwecke sind sie geeignet? Wie kann man die Qualität der erzeugten Texte verbessern?
Unsere Reihe begann mit dem KI-Tool vom Fußballclub St. Pauli.
In unserem neuen Beitrag vergleichen wir zwei Modelle der Textanalyse, die KI zum Vereinfachen der Sprache einsetzen: capito digital und Wortliga.

Wie setzen capito digital und Wortliga ihr KI-Tool für die Einfache Sprache ein?

Wortliga und capito digital sind bekannte Modelle der Textanalyse. Ihr gemeinsames Anliegen ist es, Profis beim Schreiben verständlicher Texte zu unterstützen. Dabei verwenden die Modelle unterschiedliche Sprachkonzepte. Wortliga strebt „einfache Sprache“ nach dem Hamburger Verständlichkeitskonzept an. Hingegen zielt capito digital auf „leichtes Lesen“ in drei Sprachstufen: A1, A2 und B1 (siehe Lesen auf leichtem Level).
Beide Modelle beziehen seit diesem Jahr ein KI-Tool in die Textanalyse ein. Bei Wortliga basiert das Tool auf GPT-4. Capito digital verwendet ein eigenständiges KI-Programm, das auf führenden Large Language Models und dem Kriterienkatalog von capito beruht.
Beide Modelle setzen KI für Varianten der Einfachen Sprache ein. Wortliga strebt insgesamt eine „einfache Sprache“ an. Bei capito digital ist die Sprachstufe B1 als „einfache Sprache“ ausgewiesen, während die Sprachstufe A2 der „leichten Sprache“ (siehe Leichte Sprache) zugeordnet wird. Wir werden aber auch die Stufe A2 in unsere Analyse einbeziehen, da Einfache Sprache gewöhnlich bei A2 beginnt (vgl. Roth).

In beiden Modellen sind die KI-Tools in eine umfangreiche Sprachanalyse einbezogen. Die KI-Tools sollen eingegebene Texte vereinfachen. Sie sollen die Analyse unterstützen und keine eigenständigen Texte liefern. Sie funktionieren also innerhalb der Arbeitsumgebung für Sprachprofis. Die Abbildungen der Modelle zeigen das deutlich (siehe roten Pfeil):

capito digital -> Automatisch vereinfachen

Wortliga -> KI-Werkzeuge: zur Auswahl gehört „Vereinfachen“


Wir wollen jetzt die KI-Tools von capito digital und Wortliga auf Einfache Sprache testen und ihre Leistungen miteinander vergleichen. Wir werden dabei an unsere Analysen zu ChatGPT anknüpfen und ähnlich wie in unserem Test des KI-Tools von St. Pauli vorgehen. Wir behalten auch den Begriff „übersetzen“ bei, obwohl die beiden Modelle die Bezeichnung „vereinfachen“ verwenden.

Ziele unseres vergleichenden Tests
Wir haben mehrere Texte mit den KI-Tools von capito digital und Wortliga übersetzt. Die erzeugten KI-Texte haben wir unter drei Aspekten getestet:

  1. Wie verständlich sind die KI-Texte?
  2. Wie kann man die KI-Texte nachbessern?
  3. Wie korrekt sind die KI-Texte?

Für diese Tests haben wir 5 Ausgangstexte zu verschiedenen Themen und auf unterschiedlichem Niveau verwendet:

Die gleichen Texte hatten wir schon mit ChatGPT in Einfache Sprache übersetzt (vgl. Blog 3). Die besten Ergebnisse erzielten wir mit der Version GPT-4, und zwar mit folgender Aufforderung (Prompt) an das Programm: „Schreibe diesen Text in Einfacher Sprache. Verwende dabei nur kurze Wörter, kurze Sätze und aktive Sprache.“ Wie unsere Analyse zeigte, entsprachen die erzeugten Texte weitgehend den Merkmalen der Einfachen Sprache. An diesem Textniveau haben wir die Übersetzungen der KI-Tools von capito digital und Wortliga gemessen.

Hier sind die hauptsächlichen Ergebnisse unserer Tests:

1. Wie verständlich sind die KI-Texte?

Wir wollen messen, wie verständlich die KI-Texte sind, und die sprachlichen Faktoren dafür untersuchen.

# Index der Verständlichkeit

Zuerst haben wir geprüft, wie verständlich die Übersetzungen der KI-Tools von capito digital und Wortliga sind. Für den Vergleich der beiden Modelle eignet sich die Software TextLab von H&H Communication Lab GmbH. Diese Software verwendet den Hohenheimer Verständlichkeitsindex (HIX). Dieser Index berücksichtigt vor allem die Länge von Wörtern, Sätzen und Satzteilen. Er misst die Verständlichkeit von Texten auf der Skala von 0 bis 20. Je höher der erreichte Wert, desto leichter verständlich ist der Text. Ab HIX-Wert 10 ist ein Text verständlich; etwa ab HIX-Wert 16 beginnt die Einfache Sprache.

Sehen wir uns die Testergebnisse in der folgenden Grafik an. Hier sind die 5 Ausgangstexte und die KI-Übersetzungen jeweils insgesamt erfasst: mit ihren durchschnittlichen HIX-Werten.

Wie sich zeigt, sind die KI-Übersetzungen der beiden Tools durchgängig gut verständlich. Bei Wortliga und capito digital A2 liegen sie im Bereich der Einfachen Sprache. Den höchsten HIX-Wert erreichen die Übersetzungen mit GPT-4.

# Verständliche Sprache

Maßgeblich für höhere HIX-Werte sind kurze Wörter und kurze, einfach strukturierte Sätze. Die Übersetzungen von Wortliga und GPT-4 haben weniger lange Wörter als capito digital. Von allen hat GPT-4 die wenigsten langen Sätze. Letzteres mag der oben zitierte Prompt bewirken, der kurze Sätze fordert.

Zur Verständlichkeit trägt aber auch eine aktive Sprache bei: möglichst ohne Passivsätze, ohne abstrakte Substantive und ohne Nominalstil. Folgende Beispiele zeigen, wie die Modelle den Ausgangstext aktivieren:

# Index der Modelle

Neben dem HIX von TextLab sind auch die internen Indexangaben der Modelle aufschlussreich. Sie messen auf unterschiedliche Weise, wie verständlich die Texte sind:

  • Der Index von capito digital weist aus, wieweit ein Text die Vorgaben des internen Kriterienkatalogs erfüllt. Dafür zeigt das Menü für jede angestrebte Sprachstufe einen Wert in Prozent an.
  • Hingegen nutzt Wortliga einen Index der Lesbarkeit in Prozent. Er berücksichtigt vor allem die Länge von Wörtern und Sätzen und die Anzahl von Fehlermeldungen aus der Checkliste.

Die Indexangaben der beiden Modelle sind also weder untereinander noch mit dem HIX direkt vergleichbar. Das können wir in der folgenden Grafik sehen. Wir haben hier die Indexangaben für die Ausgangstexte und für die KI-Übersetzungen gegenübergestellt. Zu diesem Zweck sind die HIX-Werte (0-20) in Prozent (0-100) umgerechnet.

Schon bei den Ausgangstexten ist erkennbar, dass der Indexwert von capito höher als der HIX-Wert ist, während der Indexwert von Wortliga unter dem HIX-Wert liegt. Diese Unterschiede zum HIX-Wert zeigen sich auch bei den Übersetzungen:

  • Bei capito digital erreichen die KI-Übersetzungen einen hohen Wert – im Gegensatz zum HIX-Werten. Das könnte damit zusammenhängen, dass die Kriterien der Wortlänge, Satzlänge und Satzstruktur im capito-Index und auch in den Vorschlägen zur Vereinfachung geringer gewichtet sind.
  • Wortliga wiederum zeigt an, dass die KI-Übersetzungen gerade die Marke „gut lesbar“ erreichen, während sie bei HIX höher eingestuft werden. Das deutet darauf hin, dass die Checkliste von Wortliga noch weitere Mängel im Text erkennt, die sich im Lesbarkeitsindex niederschlagen.

# Sprachniveaus
Eng verknüpft mit dem jeweiligen Index ist das ausgewiesene Sprachniveau. In beiden Modellen beziehen sich die Niveaus auf den Gemeinsamen Europäischen Referenzrahmen (GER). Sie werden jedoch unterschiedlich definiert und verwendet.

  • Bei capito digital wählt man ein Sprachniveau VOR der Vereinfachung aus. Von diesem angestrebten Niveau hängt ab, wie der Ausgangstext bewertet wird und nach welchen Kriterien der Text vereinfacht werden soll. Der Indexwert der fertigen Vereinfachung zeigt an, wieweit das angestrebte Sprachniveau erreicht worden ist.
  • Bei Wortliga hingegen wird ein Sprachniveau NACH der Analyse eines Textes angezeigt. Dieses erreichte Niveau basiert auf internen Sprachkriterien und ergänzt den Lesbarkeitsindex. Die Leitfrage hierfür ist: „Passt das Sprachniveau Deines Textes zu Deinen Lesern?“ Die Niveauangabe kann helfen, die schrittweise Verbesserung des Textes zu kontrollieren.

2. Wie kann man die KI-Texte nachbessern?

Wenn man in capito digital einen automatisch vereinfachten Text übernimmt, werden Vorschläge für die manuelle Verbesserung eingeblendet. Diese Vorschläge sind wie die KI auf die internen Kriterien der jeweiligen Sprachstufe bezogen und dienen der gezielten Kontrolle. In Wortliga hingegen zeigt die umfassende Sprachanalyse des Menüs an, welche Mängel ein vereinfachter Text noch enthält.

In beiden Modellen kann man die erzeugten Übersetzungen aber auch automatisch nachbessern. Man kann den Ausgangstext erneut übersetzen, man kann eine Übersetzung nochmals vereinfachen oder Teile der Übersetzung nachbearbeiten. Was leisten diese Angebote?

# Ausgangstext erneut übersetzen

Beide KI-Tools bieten an, eine Übersetzung zu wiederholen: in capito digital mit dem Befehl „Erneut versuchen“, in Wortliga mit „Alternative anzeigen“. Ob die wiederholte Übersetzung besser ist, bleibt offen. Nützlich ist dieser Versuch, wenn einem die erste Übersetzung nicht gefällt oder wenn man an mehreren stilistischen Varianten interessiert ist. Hier ist ein Beispiel für Varianten von Wortliga:

Ein Vergleich der KI-Tools zeigt, dass Wortliga sehr unterschiedliche Alternativen hervorbringen kann, während die erneuten Versuche bei capito digital weniger variieren. Das hängt mit der zugrundeliegenden Software zusammen. Bei Wortliga erzeugt GPT-4 jedes Mal eine neue Übersetzung. Bei capito digital hingegen sind die KI-Übersetzungen maßgeblich von den internen Sprachkriterien bestimmt.

# Übersetzung nochmals vereinfachen

Man kann eine KI-Übersetzung verbessern, indem man sie nochmals vereinfacht. Das ist sinnvoll, wenn der Text weitgehend erhalten bleibt und nur punktuell vereinfacht wird. Hierfür eignet sich die automatische Vereinfachung von capito digital, da sie von internen Sprachkriterien geleitet wird.
Die folgende Grafik zeigt, wie Übersetzungen mit capito digital mehrmals nacheinander vereinfacht und verbessert werden. Dabei wir jede Übersetzung erst vereinfacht, dann übernommen und danach nochmals vereinfacht.

Aufschlussreich ist der Vergleich zwischen den Sprachstufen: Auf beiden Stufen hat die KI die erste Übersetzung am meisten vereinfacht. Das ist jeweils am deutlich höheren Index-Wert der zweiten Übersetzung erkennbar. Bei A2 steigt der Index noch geringfügig nach zwei weiteren Vereinfachungen. Bei B1 bleibt hingegen der Index-Wert bereits nach der ersten Vereinfachung unverändert. Das heißt, die betreffende Übersetzung ändert sich danach nicht mehr.
Der jeweils erreichte Höchstwert einer Sprachstufe bedeutet allerdings nicht, dass die Übersetzung bereits perfekt ist. Das Menü von capito digital zeigt noch weitere Vorschläge für die Textbearbeitung an.
Auch der HIX weist auf weiteren Bedarf hin: Mit den nochmaligen Vereinfachungen stieg bei A2 der Wert (19) geringfügig, bei B1 nach der ersten Vereinfachung deutlich (von 13 auf 16). Das Textlab ermittelte jedoch beim Höchstwert von B1 unter anderem noch zu lange Wörter, Sätze und Satzteile.

# Teile der Übersetzung nachbearbeiten

Wortliga bietet KI-Tools für Teile des Textes an. Um Übersetzungen nachzubessern, ist die Aktion „Sätze aufteilen“ nützlich. Hier ist ein Beispiel:

Auch bei der Aktion „Sätze aufteilen“ kann man Alternativen anzeigen. Sie können verständlicher oder stilistisch besser sein und auf jeden Fall zu eigenen Lösungen anregen.

3. Wie korrekt sind die KI-Texte?

Nach der KI-Vereinfachung sollte man kritisch prüfen, ob der Ausgangstext inhaltlich und sprachlich korrekt und stilistisch angemessen übersetzt wurde. Die entscheidende Frage ist, wieweit die Vereinfachung den Sinn des Originaltextes wiedergibt. Hat ein kürzeres Wort oder ein schlankerer Satz dazu geführt, dass sich Inhalte verändern oder verloren gehen? Konnte die KI den Text so vereinfachen, dass der Sinn erhalten bleibt oder noch klarer wird? Zu prüfen ist auch, ob der vereinfachte Text übersichtlich strukturiert und damit besser lesbar ist.
Wir stellen nachfolgend verschiedene Lösungen vor, mit denen die Modelle schwierige Textstellen vereinfachen.

# Lange und zusammengesetzte Wörter sind häufige Hürden. Wortliga und GPT-4 lösen viele solcher „Bandwürmer“ am besten verbal auf oder verkürzen sie. Bei capito digital bleiben diese Wörter teilweise erhalten, aber das Menü empfiehlt, Komposita zu vereinfachen. Hier ist ein Beispiel mit unterschiedlichen Lösungen:

# Eine weitere Hürde sind schwierige Wörter, vor allem bildhafte Ausdrücke. Hierzu ein Beispiel:

In diesem Beispiel übernimmt capito digital den Begriff „Strafexpeditionen“ und formuliert nur den Kontext einfacher. Wortliga spart den Begriff aus, und GPT-4 umschreibt ihn.

# Es gelingt nicht immer, lange und komplizierte Sätze verständlich aufzulösen. Hier ist ein Beispiel zum PayPal-Käuferschutz:

Bei capito digital wird der Satz durch Anstriche gegliedert: auf Stufe B1 am verständlichsten, auf A2 mit einem unverbundenen Nachsatz. Wortliga hingegen fasst den Inhalt einfach zusammen.

# Bei komplizierten Sachverhalten fallen die vereinfachten Texte sehr unterschiedlich aus. Das zeigt ein Beispiel zum Abstimmungsverfahren:

Fazit unseres vergleichenden Tests

In beiden Programmen dient die KI dazu, die Profis bei der Textbearbeitung zu unterstützen. Das heißt, die KI soll keine eigenständige Übersetzung liefern. Wie Gidon Wagner von Wortliga in einem Interview sagte: Die KI soll den Blick auf den Text schärfen, aber sie ersetzt keinen Lektor oder Profi, sondern gibt Hilfe und Anregung. Ähnlich erläuterte Paul Mayer für capito digital, dass die KI-Assistenz helfen soll, möglichst nahe an die Definitionen der Sprachstufen heranzukommen und das Nachbearbeiten so angenehm wie möglich zu gestalten.

In beiden Programmen eignet sich die KI dazu, Teilschritte zu übernehmen, beispielsweise Übersetzung zu entwerfen oder weiter zu vereinfachen. Dabei hat die KI in jedem Programm ihre eigenen Vor- und Nachteile: Die KI von capito digital gibt den Ausgangstext meist genauer, aber weniger leicht verständlich wieder, während die KI bei Wortliga oft freier und leichter verständlich übersetzt, aber nicht alle Einzelheiten einbezieht.

In beiden Programmen hängt viel davon ab, wie geschickt die Profis das jeweilige KI-Tool nutzen, um die Übersetzung schrittweise zu verbessern. Mit der KI von capito digital ist es beispielsweise möglich, eine Übersetzung mehrmals nacheinander zu vereinfachen und damit verständlicher zu machen, allerdings nur im Rahmen der internen Sprachkriterien. Die KI von Wortliga hingegen kann einzelne komplexe Sätze auflösen und somit die Übersetzung besser lesbar machen. Beide Modelle können einen Text auch in mehreren Varianten vereinfachen. Besonders vielfältig sind diese Varianten bei Wortliga.

Beide Programme befinden sich noch in der Entwicklungsphase. Laufend kommen neue Versionen heraus, mit denen die Modelle noch besser analysieren und vereinfachen können und nutzerfreundlicher werden. Mit dem Feedback aus unseren Tests wollen wir zu weiteren Verbesserungen anregen. Darüber hinaus möchten wir die Profis der Einfachen Sprache ermuntern, ihre persönlichen Fähigkeiten im Umgang mit der KI und alternativ zur KI zu erhöhen!

Sabine Manning

PS. Hilfreich für diesen Blog waren detaillierte Informationen von Paul Mayer zu capito digital und von Gidon Wagner zu Wortliga. Für Anregungen zum Test danke ich Stephan Manning, Bettina Mikhail und Uwe Roth.

Bild von VintageSnipsAndClips auf Pixabay

Hinweis: Dieser Beitrag unterliegt der Creative Commons Lizenz. Das bedeutet, dass ihn Interessierte für nicht kommerzielle Zwecke weiterverwenden dürfen. Sie müssen dazu den Autor und den Blog Multisprech (https://multisprech.org/) nennen und dürfen den Text nicht bearbeiten.

Ein Gedanke zu “KI-Tools für Einfache Sprache: (2) capito digital und Wortliga im Vergleich

  1. Pingback: Plain: Der KI-Übersetzer für einfache Sprache – Web2-Unterricht

Hinterlasse einen Kommentar