Technologieangebot UGOE-19-01

TRACER: Software zur Erkennung wiederverwendeter Texte in großen Datenbeständen

Kurz und bündig

Die Software TRACER erkennt sowohl wörtliche Zitate als auch Paraphrasen und Allusionen, die in Texten wiederverwendet werden. Die Software ist sprachenunabhängig. Moderne Anwendungen von Text Reuse umfassen Plagiarismus- und Dubletten-Erkennung aber auch Single-Source-Anwendungen.

Fragestellung

Textstücke, die z. B. über lange Zeiträume übermittelt wurden und so Sprachwandlungen enthalten oder z. B. als Paraphrase übermittelt wurden, sind mit aktueller Plagiatssoftware nicht auffindbar. Aktuelle Plagiatssoftware findet im direkten Textabgleich nur wortwörtliche Zitate. Daher ist derartige Software nur eingeschränkt nutzbar, um wiederverwendete Textstellen zu finden. Über sehr lange Zeiträume, bis zu einigen Jahrhunderten ändern sich z. B. Redewendungen und Satzbau. Bis dahin mündlich Überliefertes wird schriftlich festgehalten. Weitere typische Änderungen umfassen Wortartwechsel wie z. B. Substantivierung von Eigenschaftswörtern oder Austausch von einzelnen Begriffen, die denselben Oberbegriff haben. Diese Änderungen kommen unerwartet häufig vor. In einem Projekt an der Universität Göttingen sollte die Herkunft von Zitaten Platons in historischen Texten über Jahrhunderte, bzw. die Nachwirkungen der Antike auf spätere Texte evaluiert werden. Dafür wird daher eine Software benötigt, die Teile der ursprünglichen Texte wiederfindet – und dies in allen Abwandlungen und Facetten erkennen kann. Diese Art der Suche nach Textwiederverwendung ist bei Plagiatssoftware bisher nicht vorhanden.
Schlagworte:
Allusionen, Data Science, Digitale und Kreativwirtschaft, maschinelles Lernen, Paraphrasen, Plagiate, Semantik, Sprachforschung, Text Reuse, Zitate
Entwicklungsstand
Marktfähige Software, die ihre Leistungsfähigkeit an realen Beispielen erfolgreich nachgewiesen hat
Technologie Readiness Level:
123456789
Forschungseinrichtung:
Universität Göttingen
Institut für Informatik
Kontakt:
Annemone Radleff-Schlimme
0551 39-217 - 34 / 38
Innovationsscouts@snic.de

Lösung

Das auf diese Fragestellung hin entwickelte Softwarepaket TRACER ermöglicht die Nachbildung der Sprachdiversität und –variabilität. Es werden dadurch sowohl wörtliche Zitate als auch umschreibende, anspielende und veränderte Textverwendungen wiedergefunden. Die Software ist sprachenunabhängig, benötigt allerdings linguistische Vorarbeiten zur Verwendung des Programmpakets. Die Entwicklung erfolgte ursprünglich für die Verwendung von Texten in historischen Sprachen, z. B. Latein, Altgriechisch und Koptisch. Das Softwarepaket ist aber auch auf moderne Sprachen anwendbar. Die Variabilität in der Verwendung von Textstellen wird durch Algorithmen gefunden. Mehrere hundert Algorithmen stehen zur Verfügung. Diese können zu über einer Million Möglichkeiten miteinander kombiniert werden. Durch Schulung im Umgang mit den Algorithmen wird der Nutzer in die Lage versetzt, seine Suche zu verfeinern. Basis ist ein 6stufiger Suchprozess, wobei die Ergebnisse jeder Stufe gespeichert und für die nächste Stufe oder spätere Analysen genutzt werden können. 80 % der manuellen Bearbeitungszeit wird für die Vorbereitung des Suchprozesses zur ersten Stufe (Pre-Processing) benötigt. Hierbei erfolgt ein Finetuning zielgerichtet auf die Fragestellung, die man hat. Typisch für die Anwendung der Software sind folgende drei Szenarien: 1. für eine große Menge Texte lässt man die Wiederverwendung von Textstellen über alle Werke ermitteln, 2. ein einzelnes Werk wird mit einem großen Textkorpus abgeglichen oder 3. den Vergleich zweier Editionen eines Textes, die dann vollständig abgeglichen werden.

Vorteile

  • TRACER erkennt nicht nur die reine Wiederverwendung von Textstellen (Zitate), sondern auch sämtliche Veränderungen und Abwandlungen
  • Das Softwarepaket ist sprachenunabhängig und in mehr als zehn Sprachen bereits im Einsatz
  • Die Software wird auch zur Plagiatserkennung und dem Single Sourcing von unternehmensweiten Dokumenten eingesetzt

Weitere Anwendungsmöglichkeiten

  • Vergleich öffentlicher Patentschriften mit Patentanmeldungen
  • Überprüfung von Produkt- und Prozessdokumenten, z.B. Handbücher oder Arbeitsanweisungen
  • Controlling von Beschaffungsvorgängen, z.B. Single Sourcing
  • Überprüfung von Manuskripten auf Plagiate im Verlagswesen
  • Finden von juristischen Präzedenzfällen zu einer Liste von bereits getroffenen Urteilen
    TRACER wurde im Rahmen der vom Bundesministerium für Bildung und Forschung geförderten Digital Humanities Nachwuchsgruppe eTRAP (FKZ: 01UG1509) entwickelt.