Regionalsprachen blinde Flecken in Spracherkennung: Wie die KI Dialekte lernen kann

26.02.2026 (wm/red) Schon mal in der telefonischen Warteschleife mit der KI Schwäbisch gesprochen? Oder Bairisch? Die Aussicht auf Erfolg scheint gering, konstatieren rund 35 Wissenschaftler aus sieben Ländern unter Federführung des Forschungszentrums Deutscher Sprachatlas (DSA) an der Uni Marburg in einem Positionspapier zur „Zukunft der Regionalsprachenforschung“.

Regionalsprachen sind im digitalen Raum weitgehend unsichtbar

Denn Sprachmodelle werden nur mit Texten und Aufnahmen in Standardsprache trainiert. Die Folge: Dialekte und Regionalsprachen sind im digitalen Raum weitgehend unsichtbar. Um das zu ändern haben die Autoren aus den Forschungsbereichen Regionalsprachenforschung, Computerlinguistik und KI-Forschung das „Netzwerk Regionale Sprache und Künstliche Intelligenz“ gegründet. Sie wollen die Potenziale von KI nutzen, die kulturelle Vielfalt abbilden und die digitale Transformation gestalten.

„Dialekte sind kein Randphänomen – sie sind Träger kultureller Identität und Ausdruck regionaler Zugehörigkeit für Millionen von Menschen. Wenn KI-Systeme diese sprachliche Vielfalt nicht erkennen, nicht analysieren und nicht authentisch abbilden können, dann bleibt ein zentraler Teil unseres kulturellen Erbes im digitalen Raum schlicht unsichtbar,“ sagt Prof. Dr. Alfred Lameli, Direktor des Sprachatlas.

Wir haben als Regionalsprachenforschung die Expertise das zu ändern, so Lameli weiter, aber wir brauchen dafür bessere Daten, mehr Kooperation mit der KI-Forschung und Förderstrukturen, die langfristig angelegt sind“,

Verantwortung für Repräsentation regionaler Sprachen im digitalen Raum

Für die Regionalsprachenforschung ergebe sich durch die rapide Entwicklung der KI-Technologie der letzten Jahre ein großes Innovationspotenzial. Zugleich komme dem Fach hinsichtlich der Repräsentation regionaler Sprache im digitalen Raum eine besondere Verantwortung zu.

Denn Ziel sei, dass alle Menschen von digitalen Diensten und Dialogsystemen gleichbehandelt werden. Momentan werden ältere Menschen, die im Alltag Dialekt sprechen, oder Bewohner ländlicher Regionen schlechter bedient als Menschen, die Hochsprache sprechen. „Das ist mehr als eine Unannehmlichkeit – es ist eine Frage gesellschaftlicher Teilhabe und kultureller Identität“, betont Lameli.

Damit Sprachmodelle Dialekte und Regionalsprachen gut verarbeiten können, müssen die Daten standardisiert und digitalisiert vorliegen. Und da liegt nach Auffassung der Autoren das größte Problem: Zwar gibt es sehr viele Daten auch in internationalen Kontexten. Es fehlt aber an ausreichend großen Mengen an Daten, die rechtssicher zugänglich und nutzbar sind und in hoher Qualität aufbereitet wurden.

Systematische Sammlung gesprochener Alltagssprachen

Notwendig ist eine einheitliche Digitalisierung nach den so genannten FAIR-Prinzipien: Findable (auffindbar), Accessible (zugänglich), Interoperable (interoperabel) und Reusable (wiederverwendbar). Dazu gehören eine systematische Sammlung gesprochener Alltagssprache, umfassende Erschließung der Metadaten, offene Lizenzierung und auch die Aufbereitung historischer Bestände.

Ein Ziel könnte ein Übersetzungstool für Dialekte sein, erklärt Prof. Dr. Hanna Fischer. „Damit könnte es möglich werden, Dialekte in Sprachinseln zu erhalten und neu sichtbar werden zu lassen. Für das Training eines solchen Modells könnte der Datenbestand des Deutschen Sprachatlas eine entscheidende Grundlage bilden. Doch dafür müssen die vorhandenen Daten erst fit für die KI gemacht werden“, erläutert die stellvertretende DSA-Direktorin.

Netzwerk Regionale Sprache und Künstliche Intelligenz

Das Forschungszentrum Deutscher Sprachatlas an der Philipps-Universität Marburg, das in diesem Jahr sein 150-jähriges Bestehen feiert, fungiert als Kontakt- und Koordinationsstelle des neu gegründeten Netzwerks. Mit einem der weltweit größten Bestände an regionalen Sprachdaten des Deutschen nimmt Marburg eine Schlüsselrolle dabei ein, wie diese einzigartigen Ressourcen für das KI-Zeitalter erschlossen werden können. Das Netzwerk wurde bei einem interdisziplinären Scoping-Workshop gegründet, der von der VolkswagenStiftung unterstützt wurde.

Geleitet wurde der Workshop vom Deutschen Sprachatlas unter der Federführung von Prof. Dr. Hanna Fischer und Prof. Dr. Alfred Lameli. Aus Marburg war zudem der KI-Forscher Prof. Dr. Daniel Braun beteiligt.

Originalveröffentlichung im Open Access: Netzwerk für Regionale Sprache und Künstliche Intelligenz: „Regionale Sprache und Künstliche Intelligenz im Zeitalter der digitalen Transformation“.