KI-Tools für Einfache Sprache: Leistungen von 10 Tools auf einen Blick

Vorwort

Was kann künstliche Intelligenz (KI) für die Einfache Sprache leisten? In dieser Reihe haben wir die wichtigsten Tools getestet, die öffentlich zugänglich sind. Besonders hat uns die sprachliche Qualität dieser Tools interessiert: Was sind die Stärken und die Schwächen dieser Tools? Für welche Zielgruppen und Zwecke sind sie geeignet? Wie kann man die Qualität der erzeugten Texte bewerten?
Maßgeblich für unsere Analyse sind die neuen Normen für Einfache Sprache: sowohl die internationalen Grundsätze (DIN ISO Norm) als auch die Anwendungen für den deutschen Sprachraum (DIN Norm).
Im vorliegenden Beitrag fassen wir die Ergebnisse unserer vergleichenden Analyse zusammen. Die Leistungen von zehn Tools haben wir nach Kriterien aufgeschlüsselt und in drei Stufen bewertet. So lässt sich auf einen Blick erkennen, wie gut die einzelnen Tools Texte vereinfachen können.

Überblick der Leistungen von zehn KI-Tools für Einfache Sprache

Unser Beitrag soll drei Fragen beantworten:

  • Welche Typen von KI-Tools gibt es für die Einfache Sprache?
  • Wie verständlich sind die KI-Übersetzungen in Einfache Sprache?
  • Was leisten die KI-Tools für Einfache Sprache?

A. Welche Typen von KI-Tools gibt es für die Einfache Sprache?

Wir haben unterschiedliche KI-Tools für Übersetzungen in Einfache Sprache getestet. Was sie leisten können, hängt zunächst vom jeweiligen Typ des Tools ab. Entscheidend ist aber, wie die einzelnen Tools trainiert und genutzt werden. Hier sind die drei gängigen Typen von KI-Tools:

Was kennzeichnet diese Typen von Tools, und wofür eignen sie sich?

1. Allzweck-KI-Tools: für das vielseitige Erzeugen von Texten

Die bekanntesten Allzweck-KI-Tools sind ChatGPT von OpenAI, Gemini (zuvor Bard) von Google und Copilot von Microsoft. Das sind Große Sprachmodelle (Large Language Models), die vieles leisten können. Sie brauchen daher Aufforderungen (Prompts), um Texte in Einfacher Sprache zu erzeugen. Wie diese Prompts funktionieren, haben wir in den Beiträgen zu ChatGPT erklärt. Die Qualität der Texte hängt sowohl vom Prompt als auch vom Modell ab.

Für den Test der Allzweck-KI-Tools haben wir jeweils den gleichen Prompt verwendet: Schreibe diesen Text in Einfacher Sprache. Verwende dabei nur kurze Wörter, kurze Sätze und aktive Sprache.

Für kostenloses Experimentieren eignen sich die Sprachmodelle ChatGPT (GPT-3.5), Gemini und Copilot. Texte von Gemini und Copilot (jeweils in der Testversion) sind besonders gut strukturiert und variantenreich, aber weniger verständlich und zuverlässig als ChatGPT. Die drei Modelle haben keinen Datenschutz nach europäischem Recht.

Leistungsfähiger, auch für die Einfache Sprache, ist das ChatGPT Pro (mit GPT-4). Es ist aber kostenpflichtig und hat ebenfalls keinen Datenschutz. Eine Alternative ist die Plattform You.com: Hier kann man GPT-4 und andere Modelle mit hohem Datenschutz (private mode) nutzen.

2. Analyse-KI-Tools: für das Bearbeiten von Texten

Für die Bearbeitung von Texten gibt es bereits Sprachanalyse-Tools. Sie sind in letzter Zeit mit KI ausgestattet worden. Dazu gehören vor allem capito.ai, TextLab und Wortliga. Sie nutzen Große Sprachmodelle, um Texte insgesamt zu vereinfachen. Dabei nähern sich die Texte der Einfachen Sprache an. Das geschieht im Prozess der Textbearbeitung, teilweise in mehreren Schritten. Bei capito.ai kann man zudem verschiedene Niveaustufen einstellen. Für die Einfache Sprache sind die Stufen A2 und B1 relevant. TextLab nutzt außerdem Kleine Sprachmodelle für spezielle Funktionen (z.B. um lange Sätze zu teilen oder Passiv in Aktiv zu verwandeln).

Die jeweiligen Sprachmodelle müssen trainiert werden. Das Training mit eigenen Datensätzen (bei capito.ai und Wortliga) ist sehr aufwendig. Es ist aber wirksamer als die Verwendung von Prompts (derzeit bei TextLab für die Übersetzung ganzer Texte).
Die Qualität der erzeugten Texte hängt auch davon ab, wie die Nutzer die KI-Übersetzung in die gesamte Textbearbeitung integrieren. Die Tools bieten hierfür geeignete Funktionen und Menüs an. Insofern haben Sprachanalyse-Tools ein größeres Potential als die anderen Typen von KI-Tools.

3. Spezial-KI-Tools: für das schnelle Vereinfachen von Texten

Zunehmend entstehen spezielle KI-Tools, die Texte direkt in Einfache Sprache übertragen. Hierzu gehören folgende Tools:

  • SUMM AI: Das Tool bietet Übersetzungen in Leichte Sprache und Einfache Sprache an. Zu den weiteren Funktionen gehören ein Glossar mit Worterklärungen, der Zugriff auf Synonyme und die Zusammenfassung in Einfacher Sprache. Die Nutzeroberfläche ist eingängig gestaltet. SUMM AI bezieht die Nutzer in die Vervollkommnung des Tools ein. Es hat Datenschutz und ist kostenpflichtig.
    .
  • das KI-Tool Plain von Wortliga: Es basiert auf GPT-4, hat aber Datenschutz durch Vereinbarungen mit Open AI. Es ist nach Ablauf der Testphase jetzt kostenpflichtig. Plain ist vor allem für die Kommunikation innerhalb von Unternehmen und Fachkreisen vorgesehen. Die Übersetzungen bleiben daher relativ dicht am Original und reichen von verständlicher Fachsprache bis zu Einfacher Sprache. Das Tool ist auf elementare Funtionen begrenzt und leicht bedienbar.
    .
  • GPT-Bots (auch GPTs genannt): Man kann sie im Shop der Plattform ChatGPT finden oder auf ChatGPT Pro selber bauen (als Laie, mithilfe eines KI-Assistenten). Zu den GPT-Bots für Einfache Sprache gehört „Klar und verständlich (K&V)“ von Multisprech. GPT-Bots lassen sich beliebig für spezielle Zwecke und Zielgruppen entwickeln. Sie sind aber an die Plattform von ChatGPT gebunden und haben keinen gesonderten Datenschutz.
    .
  • Das KI-Tool von St. Pauli: Es basiert auf GPT-4 und erzeugt leicht verständliche Texte (dicht an der Leichten Sprache). Das Tool wurde speziell für Informationen des Fussballclubs St. Pauli entwickelt. Es kann aber auch für öffentliche Zwecke und unentgeltlich genutzt werden. Es ist leicht zu bedienen und für Laien geeignet..

B. Wie verständlich sind die KI-Übersetzungen in Einfache Sprache?

Wir haben gesehen, wie vielfältig die verfügbaren KI-Tools sind. Wie können wir ihre Qualität vergleichen? Ein wesentliches Kriterium ist die Verständlichkeit der erzeugten Übersetzungen. Für unsere Tests haben wir fünf Ausgangstexte zu verschiedenen Themen und auf unterschiedlichem Niveau ausgewählt:

Um die Verständlichkeit der KI-Übersetzungen zu ermitteln, haben wir den Hohenheimer Verständlichkeitsindex (HIX) im TextLab verwendet. Dieser Index berücksichtigt vor allem die Länge von Wörtern, Sätzen und Satzteilen. Er misst die Verständlichkeit von Texten auf der Skala von 0 bis 20. Je höher der erreichte Wert, desto leichter verständlich ist der Text. Ab HIX-Wert 10 ist ein Text verständlich; etwa ab HIX-Wert 16 beginnt die Einfache Sprache.

Die folgende Grafik zeigt, welche Indexwerte die KI-Tools in ihren Übersetzungen erzielen. ChatGPT erscheint in den Versionen GPT-3.5 und GPT-4. Bei capito.ai sind die Sprachstufen A2 und B1 gesondert aufgeführt. Die KI-Tools sind farblich nach ihrem Typ gekennzeichnet.

Was sagt uns diese Skala von HIX-Werten über die Verständlichkeit der KI-Tools?

  • Aus der Grafik geht hervor, dass alle KI-Tools verständliche Übersetzungen erzeugen (ab HIX 10). Dabei erreicht etwa die Hälfte der Tools das Niveau der Einfachen Sprache (ab HIX 16).
    .
  • Die Verständlichkeit der Texte scheint nicht vom Typ des KI-Tools abzuhängen. Vor allem kann man mit jedem Typ Indexwerte der Einfachen Sprache erzielen.
    .
  • Allerdings heben sich die Spezial-Tools deutlich ab. Drei dieser Tools erreichen sehr hohe Werte. Nur Plain liegt etwas darunter, weil es für die fachliche Kommunikation dichter am Original bleibt.
    .
  • Auffällig sind die unterschiedlichen Indexwerte innerhalb von KI-Tools:
    – für die Versionen ChatGPT-3.5 und ChatGPT-4 sowie
    – für die Sprachstufen capito-A2 und capito-B1.
    Wahrscheinlich kann man bei allen KI-Tools die Verständlichkeit erzeugter Texte steigern oder differenzieren. Vor allem dürfte das für die Großen Modelle Copilot und Gemini zutreffen. In unserem Test haben wir nur deren kostenlose Versionen berücksichtigt.

C. Was leisten die KI-Tools für Einfache Sprache?

Ein wichtiges Kriterium für die Leistung von KI-Tools haben wir bereits ermittelt: die Verständlichkeit der erzeugten Texte, gemessen am HIX-Wert.
Es gibt aber weitere Kriterien, die für die Qualität der KI-Texte maßgeblich sind. Hierzu ziehen wir die Normen für die Einfache Sprache heran: sowohl die internationalen Grundsätze (DIN ISO Norm) als auch die Anwendungen für den deutschen Sprachraum (DIN Norm). In diesen Normen stehen die Leser im Mittelpunkt. Auf sie ist die Einfache Sprache ausgerichtet.

Hier ist eine Übersicht der Kriterien, nach denen wir die Leistungen der KI-Tools bewerten. Wesentlich sind die sprachlichen Merkmale der Texte. Wir beziehen aber auch den Datenschutz der KI-Tools ein.

  1. Verständlichkeit der Texte
    Wir haben bereits die HIX-Werte der KI-Texte ermittelt (vgl. Abschnitt 2). Sie zeigen an, wie verständlich die Sätze strukturiert sind. Zusätzlich berücksichtigen wir das Sprachniveau der Texte, das auch die Grammatik und den Anteil gebräuchlicher Wörter einschließt. Wir nutzen dafür die Niveaustufen, die in der Sprachanalyse von Wortliga angezeigt werden.
    .
  2. Relevanz der Texte
    Wir haben geprüft, wieweit die relevanten Aussagen der ursprünglichen Texte übersetzt worden sind. Außerdem haben wir nicht korrekt wiedergegebene oder unzutreffende Aussagen ermittelt. Anhand dieser Ergebnisse konnten wir die Relevanz der Texte bewerten.
    .
  3. Vollständigkeit der Texte
    Übersetzungen in Einfache Sprache sollen den wesentlichen Inhalt der ursprünglichen Texte wiedergeben. Als Indikator hierfür nutzen wir – außer der Relevanz – die Textlänge. Eine vollständige Übersetzung kann kürzer als der Ausgangstext sein. Mehrere Tools neigen auch dazu, Texte zusammenzufassen. Hat eine Übersetzung allerdings nur noch die Hälfte der ursprünglichen Wortzahl, ist sie wahrscheinlich unvollständig.
    .
  4. Leserbezug der Texte
    Wie gut eine Übersetzung auf die Leser bezogen ist, lässt sich an folgenden Merkmalen erkennen:
    – Wesentliche Inhalte sind leicht auffindbar.
    – Die Leser werden, wenn möglich, direkt angesprochen.
    – Anwendbare Informationen sind hervorgehoben.
    Diese Merkmale haben wir bei allen Übersetzungen erfasst und eingestuft.
    .
  5. Datenschutz der KI-Tools
    Entscheidend ist, auf welchen Servern die KI-Texte bearbeitet werden. Server von US-Unternehmen bieten nur geringen Datenschutz, während die eigenen Server von Unternehmen im deutschsprachigen Raum einen hohen Schutz ermöglichen. Nähere Angaben zu einzelnen Tools sind in Abschnitt 1 vermerkt.

Anhand dieser Kriterien haben wir die Leistungen der KI-Tools in einer Tabelle zusammengefasst. Die Kriterien sind in einer Rangfolge angeordnet (von sehr relevant bis wenig relevant). Die Leistungen werden für jedes Kriterium in drei Stufen bewertet. Auf diese Weise ergibt sich eine Rangfolge der KI-Tools insgesamt.
Zusätzlich geben wir an, ob die Nutzung der KI-Tools kostenpflichtig ist (vgl. Angaben in Abschnitt 1).

In dieser Tabelle kann man auf einen Blick erkennen, wie sich die KI-Tools in ihren Leistungen unterscheiden und welche die besten Übersetzungen erzeugen. Allerdings kann diese Bewertung nur kurzzeitig gelten, denn die KI-Tools werden ständig weiterentwickelt. Und selbst die besten KI-Texte brauchen immer menschliche Vor-, Mit- und Nacharbeit: Gute Texte sind nicht per Knopfdruck zu haben! Zudem bietet uns die Tabelle nur Anhaltspunkte. Für eine genauere Bewertung können wir auf die vergleichenden Tests der KI-Tools für Einfache Sprache zurückgreifen. Hier sind die betreffenden Beiträge auf Multisprech, jeweils mit kurzen Fazits am Schluss: ChatGPT (3.5 und 4), St. Pauli, capito.ai und Wortliga, Gemini (Bard) und GPT-4, SUMM AI, Chatbot und PLain.

Nachtrag: Seit Ende Mai 2024 sind die GPT-Bots (GPTs) auf der Plattform ChatGPT kostenlos nutzbar.

Ausblick

Die Bewertung der KI-Tools für Einfache Sprache stützt sich bisher auf unsere vergleichenden Analysen. Im nächsten (und letzten) Beitrag unserer Reihe werden wir Erfahrungen und Tipps von Sprachprofis diskutieren: Welche Tools werden am meisten genutzt? Wie eignen sie sich für unterschiedliche Einsatzfelder? Was ist bei der Arbeit mit den Tools zu beachten? Wer zu diesem Gedankenaustausch beitragen möchte, ist herzlich willkommen!

Sabine Manning

PS. Für Anregungen zu diesem Beitrag danke ich insbesondere Stephan Manning, Bettina Mikhail und Uwe Roth.

Bild von VintageSnipsAndClips auf Pixabay

Hinweis: Dieser Beitrag unterliegt der Creative Commons Lizenz. Das bedeutet, dass ihn Interessierte für nicht kommerzielle Zwecke weiterverwenden dürfen. Sie müssen dazu den Autor und den Blog Multisprech (https://multisprech.org/) nennen und dürfen den Text nicht bearbeiten.

Hinterlasse einen Kommentar