das Marburger. Modernes Erschließungs-Tool für alte Texte

Kasseler Klimaschutzpreis 2024 verliehen

22.04.2024 (pm/red) Die Gewinnerinnen und Gewinner des zweiten Kasseler Klimaschutzpreises stehen fest. Am 21. April wurden die Preise auf dem Tag der Erde überreicht. Die Ausgezeichneten sind: Scientist for Future Kassel in der Kategorie „Personengruppe“ …

Lesen Sie den gesamten Beitrag »

Kultur

Hessische Geschichten

Kassel

Hessen Kassel Heritage

Kunst

Home » Forschung, Kultur, Very Interesting

Modernes Erschließungs-Tool für alte Texte

Seite aus einer französischen Version des „Narrenschiffs“. Solche alten Schriften lassen sich mit OCR4all zuverlässig in computerlesbaren Text umwandeln.Reproduktion: Staats- und Universitätsbibliothek Dresden, CC BY-SA 4.0

Marburg 24.04.2019 (pm/red) Historische Druckschriften in computerlesbaren Text umwandeln: Dafür sorgt das Werkzeug OCR4all, das sehr zuverlässig arbeitet, leicht zu bedienen und frei verfügbar ist. Wissenschaftler der Uni Würzburg haben es entwickelt, wie die Universität mitteilt.
Historiker, Germanisten und andere Geisteswissenschaftler haben es oft mit schwierigen Forschungsobjekten zu tun: mit jahrhundertealten Druckwerken, die sich nicht leicht entziffern lassen und die oft schlecht erhalten sind. Viele dieser Dokumente sind inzwischen digitalisiert – in der Regel abfotografiert oder eingescannt – und stehen weltweit online zur Verfügung. Für die Forschung ist das schon einmal ein Fortschritt.

Es gibt aber immer noch eine Herausforderung zu meistern: die digitalisierten alten Schriften mit Texterkennungs-Software in eine moderne Form zu bringen, die auch für Nicht-Fachleute und für Computer lesbar ist. Auf diesem Gebiet haben Wissenschaftler vom Zentrum für Philologie und Digitalität der Julius-Maximilians-Universität Würzburg (JMU) für eine deutliche Weiterentwicklung gesorgt.

Mit OCR4all stellt das JMU-Forschungsteam der Fachwelt ein neues Werkzeug zur Verfügung. Es setzt digitalisierte historische Drucke mit einer Fehlerquote von weniger als einem Prozent in computerlesbaren Text um. Und es bietet eine grafische Benutzeroberfläche, für deren Bedienung kein Informatik-Fachwissen nötig ist. Bei bisherigen Tools dieser Art war die Nutzerfreundlichkeit nicht sonderlich ausgeprägt, meist musste mit Programmierbefehlen hantiert werden.

Entwickelt in Kooperation mit Geisteswissenschaften
Das neue Werkzeug OCR4all wurde unter der Leitung von Christian Reul mit seinen Informatik-Fachkollegen Professor Frank Puppe (Lehrstuhl für Künstliche Intelligenz und angewandte Informatik) und Christoph Wick sowie mit Uwe Springmann, Fachmann für Digital Humanities, und zahlreichen Studierenden und Hilfskräften entwickelt.

Seine Wurzeln hat OCR4all im Kallimachos-Verbundprojekt der JMU, das vom Bundesministerium für Bildung und Forschung gefördert wird. Diese Kooperation zwischen Geisteswissenschaften und Informatik wird im neu gegründeten Zentrum für Philologie und Digitalität (ZPD) weitergeführt und institutionalisiert.

Bei der Entwicklung von OCR4all haben die Informatiker eng mit geisteswissenschaftlichen Disziplinen der JMU zusammengearbeitet – unter anderem mit der Germanistik und der Romanistik im Projekt „Narragonien digital“. Dort ging es darum, das „Narrenschiff“ digital aufzubereiten – eine Moralsatire von Sebastian Brant, ein Bestseller des 15. Jahrhunderts, der in viele Sprachen übersetzt wurde. Auch im Kolleg „Mittelalter und frühe Neuzeit“ der JMU wurde und wird OCR4all angewendet.

OCR4all steht der Öffentlichkeit auf der Plattform GitHub (mit Anleitungen und Anschauungsbeispielen) frei zur Verfügung.

Jede Druckerei hatte ihre eigene Schrift
Christian Reul erklärt, worin eine Herausforderung bei der Entwicklung von OCR4all lag: Die automatische Texterkennung (OCR = Optical Character Recognition = optische Zeichenerkennung) funktioniere für moderne Schrifttypen seit längerer Zeit sehr gut. Für historische Schriften habe das bislang aber noch nicht gegolten.

„Eines der größten Probleme war die Typographie“, sagt Reul. Das liege unter anderem daran, dass die ersten Druckereien des 15. Jahrhundert keine einheitlichen Schriften verwendeten. „Ihre Druckstempel waren alle selbst geschnitzt, jede Druckerei hatte praktisch ihre jeweils eigenen Buchstaben und Zeichen.“

Fehlerrate unter ein Prozent gedrückt
Ob e oder c, ob v oder r – das ist in alten Drucken oft nicht einfach zu unterscheiden. Eine Software kann aber lernen, solche Feinheiten zu erkennen. Doch dafür muss sie zuerst an Beispielmaterial trainiert werden. In seiner Arbeit hat Reul Methoden entwickelt, um dieses Training effizienter zu machen. In einer Fallstudie mit sechs historischen Drucken aus den Jahren von 1476 bis 1572 konnte dadurch die Fehlerquote bei der automatischen Texterkennung im Schnitt von 3,9 auf 1,7 Prozent gesenkt werden.

Aber nicht nur die Methodik wurde verbessert. JMU-Informatiker Christoph Wick hat durch die Entwicklung des ebenfalls frei verfügbaren OCR-Tools Calamari, das mittlerweile vollständig in OCR4all integriert wurde, auch die technische Komponente entscheidend weiterentwickelt. Alles in allem ergaben sich daraus noch bessere Ergebnisse: Mittlerweile können selbst für die ältesten gedruckten Werke meistens Fehlerraten von weniger als einem Prozent erreicht werden.

Lexikalische Projekte
Reul hat auch uni-externe Partner von der Qualität der Würzburger OCR-Forschung überzeugt. Gemeinsam mit dem „Zentrum für digitale Lexikographie der deutschen Sprache“ (Berlin) wurde Daniel Sanders‘ „Wörterbuch der deutschen Sprache“ digital erschlossen; eine Publikation hierzu ist auf dem Weg. Dieses Werk enthält pro Textzeile oft verschiedene Schrifttypen, die für jeweils andere semantische Informationen stehen. Hier wurde der bestehende Ansatz zur Zeichenerkennung so erweitert, dass sich neben dem Text auch die Typographie und damit die komplexe inhaltliche Struktur des Lexikons sehr exakt abbilden lassen.

Seine Doktorarbeit wird der Würzburger Informatiker demnächst abschließen, aber mit OCR will er auch künftig arbeiten: „Die Informatik, die dahinter steht, ist extrem spannend“, sagt er. Ein mögliches Projekt der näheren Zukunft: Die Macher des „Idiotikon“, eines Wörterbuchs der schweizerdeutschen Sprache, haben ihm signalisiert, dass sie das Würzburger Fachwissen gut brauchen könnten.

Zentrum für Philologie und Digitalität
Das Zentrum für Philologie und Digitalität der Universität Würzburg ist das Ergebnis einer Initiative, die von den Professoren Dag Nikolaus Hasse, Fotis Jannidis und Ulrich Konrad ausging. Es schlägt einen Bogen zwischen Geisteswissenschaften, Informatik und Digital Humanities. Es stellt den ersten Baustein für ein neues Geisteswissenschaftliches Zentrum auf dem Campus Nord dar.

Dort soll ein Neubau für das ZPD entstehen, nahe bei der Mensateria und dem Gebäude der Graduate School. Voraussichtlich ab dem Jahr 2022 sollen im ZPD-Neubau rund 100 Personen auf insgesamt 2.700 Quadratmetern arbeiten. In der Planung sind für das Gebäude Gesamtkosten von 15 Millionen Euro angesetzt. Im Erdgeschoss des ZPD sind ein Digital Lab, Forschungsräume und Vortragssäle geplant. In den oberen Geschossen sollen vor allem Büros und Kommunikationsräume entstehen.

Diesen Artikel drucken

Suchen

Wie es einmal gewesen ist mit den Malern

das Marburger. im Relaunch – Es wird gearbeitet

Es wird noch dauern, bis der Relaunch abgeschlossen werden kann. Ob die gewünschten Funktionalitäten, die mehr als 10 Jahre mit dem verwendeten Template zur Verfügung gestanden haben, weiter genutzt werden können, ist derzeit offen. Der technische Fortschritt nagt an vielem. Leider gibt es kein Upgrade oder weiterentwickeltes Template. 03-02-2024

Neueste Beiträge in das Marburger.

Kultur unterm Kronleuchter im Ballhaus 26. April 2024
Erstes Wohnungsmarktbarometer für Kassel 26. April 2024
Barista-Kunst: Die Geheimnisse hinter perfektem Milchschaum und Espresso 25. April 2024
Infomarkt zu MoVe 35 ab 3. Mai im Erwin-Piscator-Haus 25. April 2024
Mit dem neuen Duo-Programm „Lieder meines Lebens“ gastiert Konstantin Wecker am 2. Mai erstmalig in Marburg 25. April 2024
Ehrenamtliche Gesundheitslotsinnen und Gesundheitslotsen erhalten Zertifikate 25. April 2024
Künstlerische Rauminstallation von Martin Schmidl im Landgrafenschloss 24. April 2024

Artikel in Kultur Willingshausen

Ausstellungen im Kunstjahr Willingshausen vorgestellt 26. März 2024
26.03.2024 Eine Übersicht zu den Ausstellungen des Jahres 2024 in der Kunsthalle Willingshausen wurde als „Kaleidoskop aus Farben, Formen und Ideen, das die Vielfalt und Tiefe der künstlerischen Auseinandersetzung mit der ländlichen Idylle der Schwalm und der zeitgenössischen Kunst zum Ausdruck“ bringen soll, kürzlich vorgestellt. Von traditionellen Malereien bis hin zur modernen Kunst werde die […]

Willingshausen anders

Der neue "Schwälmer Tanz" in Willingshausen

Test on the fly

Angesagt »

Einblicke in die Kunst der Moderne per Exkursion ins Städel Museum

01.04.2024 (pm/red) Einen Ausflug ins Frankfurter Städel Museum bietet die Volkshochschule (vhs) Marburg-Biedenkopf am Samstag, 20. April. Besichtigt wird ein Teil der aktuellen Dauerausstellung. Treffpunkt zur Abfahrt um 9:15 Uhr am Marburger Hauptbahnhof.
Die Dauerausstellung des …

Mehr Artikel »

Bildung »

Projekt „Ameise, Biene und Co.“ für Grundschulen

10.04.2024 (pm/red) In einer Klasse der Tausendfüßler-Schule in Schröck ging es zwei Schulstunden lang nur um eines: Insekten. Eine Unterrichtseinheit, in der es um Krabbeltierchen geht, könnte dem Namen nach wohl kaum passender für die …

Mehr Artikel »

Empfehlung der Redaktion »

Aufruf zum Ostermarsch 2024 in Kassel

23.03.2024 (red) Am Ostersamstag gibt es in Kassel den Ostermarsch mit Startpunkt 10.45 am Bebelplatz und aus der Nordstadt um 11 Uhr am Halitplatz. Bei der Abschlußkundgebung vor dem Rathaus ab 12 Uhr wird der …

Mehr Artikel »

Gastbeitrag »

Wir leben fürwahr in finsteren Zeiten! – Johannes M. Becker beim Ostermarsch in Kassel

30.03.2024 Gastbeitrag | Liebe Freundinnen und Freude des Friedens, ich freue mich, wieder einmal in der Stadt des Friedensratschlages, des Kasseler Friedensforums, der documenta, meiner engen Freunde Peter Strutynski, Werner Ruf und all´ der anderen, …

Mehr Artikel »

Kassel »

Karlsaue in Kassel: Durchfahrt mit Fahrrad möglich

18.04.2024 (pm/red) Zwischen Menzelstraße und dem Auedamm in der Kasseler Karlsruhe ist nunmehr die Durchfahrt mit dem Fahrrad gestattet und damit eine von vielen erwünschte Passage für Zweiräder geschaffen worden. Hessen Kassel Heritage und die …

Mehr Artikel »

Verkehr »

Infomarkt zu MoVe 35 ab 3. Mai im Erwin-Piscator-Haus

25.04.2024 (pm/red) Das Mobilitäts- und Verkehrsentwicklungskonzept MoVe 35 befasst sich damit, wie sich die Mobilität in Marburg bis 2035 entwickeln soll. Es geht darum, Schulwege sicherer zu machen, die Stadt lebenswerter zu gestalten, die Erreichbarkeit …

Mehr Artikel »

Zum Wiederlesen »

Marburger Bausystem in herausragendem Architekturbuch gewürdigt – Offenheit als Prinzip

Rezension von Hartwig Bambey
Marburg 16.02.2016 „Die Universitätsgebäude in Marburg, die mit dem Marburger Bausystem errichtet wurden, sind akut in ihrem Bestand bedroht. Obwohl sie unter Denkmalschutz stehen, plant die Universität den Abriss des größten von …

Mehr Artikel »

Artikel per RSS

Impressum

Modernes Erschließungs-Tool für alte Texte

Suchen

Wie es einmal gewesen ist mit den Malern

das Marburger. im Relaunch – Es wird gearbeitet

Neueste Beiträge in das Marburger.

Artikel in Kultur Willingshausen

Willingshausen anders

Test on the fly

Angesagt »

Einblicke in die Kunst der Moderne per Exkursion ins Städel Museum

Bildung »

Projekt „Ameise, Biene und Co.“ für Grundschulen

Empfehlung der Redaktion »

Aufruf zum Ostermarsch 2024 in Kassel

Gastbeitrag »

Wir leben fürwahr in finsteren Zeiten! – Johannes M. Becker beim Ostermarsch in Kassel

Kassel »

Karlsaue in Kassel: Durchfahrt mit Fahrrad möglich

Verkehr »

Infomarkt zu MoVe 35 ab 3. Mai im Erwin-Piscator-Haus

Zum Wiederlesen »

Marburger Bausystem in herausragendem Architekturbuch gewürdigt – Offenheit als Prinzip

Kategorien der Beiträge in das Marburger. Online-Magazin

Contact Us