DiÖ – Cluster E – Beitrag – Blog und Beitrag
15. Juni 2020

Der Linguist im Back-End, oder: wie ich lernte, die Datenbank zu lieben.

Das sicherste Zeichen für mich, dass jemand nicht viel mit Computern arbeitet, ist, dass die Person davon schwärmt, wie intelligent Computer sind und was diese nicht schon alles können würden. Seit ich mich im Rahmen unseres SFBs näher mit Computern, Datenbanken, Back-Ends, Front-Ends, Programmiersprachen, Parsing, Token usw. beschäftige, wurde mir die Angst vor dem kommenden Aufstand der Roboter komplett genommen. Mittlerweile weiß ich: ein herumstreunendes Leerzeichen zu viel und das war’s mit der Robo-Revolte.

Die natürlich erste, und sehr berechtigte, Frage die man sich nach einem so pessimistischen Intro stellen kann, ist selbstverständlich: warum? Wenn Computer gar nicht so gescheit sind, was haben sie dann eigentlich in einem Forschungsprojekt verloren? Wenn ein unabsichtliches Ankommen an der Leertaste eine digitale Datenbank in einen größeren Stress versetzt, als mich zur Zeit ein herzhaftes Niesen in der vollen U-Bahn (im schlimmsten Fall noch in die Handfläche, statt in die Ellenbeuge), hat das dann überhaupt einen Sinn? Wenig überraschend ist die Antwort ja. Denn jetzt ist die Zeit gekommen, zu relativieren: Computer sind eigentlich nicht dumm, sie sind hervorragende Rechenmaschinen (und das ist nun mal, was ein Computer schlussendlich tut: rechnen!), und selbst wenn unser SFB komplett auf digitale Mitteln verzichten würde, und im Wenker-Style massive Zetterlwirtschaft produzieren würde (ganz retro sozusagen), würden wir doch, eigentlich unabsichtlich, eine Datenbank produzieren – nur halt eine analoge. Aber eins nach dem anderen.

Talk digits to me: mit Computern reden

Zunächst die Ehrenrettung des Computers – ich möchte ja nicht, dass mir das nächste Mal, wenn ich Stress habe, ein lebenswichtiges Windows-Update dazwischen kommt (Computer sind prinzipiell nachtragend). Computer sind natürlich sehr smart, und können unglaublich gut rechnen. Beinahe alle Fehler, die mit der Arbeit mit einem Computer entstehen, liegen eher an der Anwender*innenseite als am Computer selbst. Wenig charmant sprechen Informatiker*innen und Programmierer*innen dabei vom DAU, vom „dümmsten anzunehmenden User“. Der (seltener: die) DAU ist dabei oft nur eine sehr geschickte Ausrede, um Dinge nicht so programmieren zu müssen, dass ihre Funktionen und Anwendungsmöglichkeiten allen klar sind. Denn die User*innen haben eigentlich nur selten Schuld – sie klicken fleißig die Buttons, die ihnen die Programmierer*innen zur Verfügung stellen. Dieses Klicken ist dabei eigentlich eine Abkürzung, denn mit Klicken selbst kann ein Computer wenig anfangen. Ein Klicken auf einen Button entspricht dem Ausführen eines vorgefertigten Befehls, der von den Programmierer*innen in einer hermetischen Sprache geschrieben wurde – Programmiersprachen, wie Python oder SQL. Diese Sprachen – die wenig mit der Art von Sprache gemein haben, die Linguist*innen normalerweise untersuchen – ermöglichen es uns, mit Computern zu kommunizieren, und ihre tollen Rechenkräfte für unsere Zwecke zu nutzen.

Und hier ist die Zeit gekommen, die Intelligenz eines Computers erneut in Frage zu stellen – dieses Mal allerdings berechtigterweise. Denn viele Dinge, die menschliche Sprachen ausmachen – wie Mehrdeutigkeit oder Wortspiele – sind für Computer schlichtweg unverständlich. Der Computer ist fast ein i-tüpferlreitender Anwalt, der nichts anderes als vollste Eindeutigkeit zulässt, und einen im Zweifelsfall so gut missversteht, wie es eben möglich ist. Deswegen schauen Programmiersprachen auch so aus, wie sie ausschauen – in kleinen Schritten wird dem Computer genau gesagt, was er in welcher Reihenfolge machen soll. Ein Leerzeichen zu viel, eine Klammer zu wenig, das macht für einen Computer einen riesigen Unterschied. 

Datenbanken, überall.

Wir, als linguistisches Forschungsprojekt, wollen natürlich dass unsere Computer beeindruckende Dinge mit Sprache machen. Herz- und Kernstück dabei ist unsere Datenbank. Die Datenbank ist dabei ein unausweichliches Faktum eines jedes Forschungsbetriebs: überall dort, wo Informationen, also Daten – wie auch immer diese aussehen mögen – systematisch gesammelt und strukturiert gespeichert werden, ist eine Datenbank. Wenn die ka Datenbank haben, dann geh ich wieda ham. Auch altertümliche Kateikartenkataloge können eine Datenbank sein, nur halt eben eine unpraktische, analoge. Auch das Grimmsche Wörterbuch ist eigentlich eine Datenbank – eine organisierte Sammlung von Informationen (Wörterbucheinträge), die auf etwas anderes verweisen (das Ding in der echten Welt).

Unsere Datenbank ist ein bisschen komplizierter als solche vermeintlich einfachen Beispiele: während Gästelisten oft nur wenige, einfache Relationen abbilden (häufig gar keine Relation zu anderen Entitäten, sondern z. B. nur Namen von Personen, ggf. noch deren Begleiter*innen), haben die Objekte in unserer Datenbank dagegen viele, komplexe Relationen. Einem Informanten oder einer Informantin sind ein – oder mehrere – Orte zugeordnet, aus denen sie stammen, in denen sie wohnen oder in denen sie mal gelebt haben - vice versa wohnen natürlich mehrere Personen an einem Ort (n:m-Relation). Ihnen sind Erhebungen zugeordnet, an denen sie teilgenommen haben (1:n-Relation), die vielen Wörter, die sie für uns gesagt haben, sind ihnen ebenfalls zugeordnet, und schlussendlich steht hinter jeder Person, die in unserer Datenbank steht, auch ein echter Mensch, der in freier Wildbahn herumläuft, und (wahrscheinlich hinter in einem Mund-Nasen-Schutz) linguistische Daten produziert – auch wenn niemand von uns dabei ist, um diese festzuhalten. In der Datenbank erfassen wir natürlich nur die Informationen, die linguistisch relevant bzw. für unser Vorhaben relevant zu sein scheinen (die Schuhgröße bspw. fällt aus dem Fokus der Betrachtung).

Ziemlich beste Freunde: die Datenbank und ich

Um mit den Daten in unserer Datenbank zu arbeiten, gibt es dabei zwei Möglichkeiten: Die erste ist über Programme, die diese Daten schön graphisch darstellen, und bearbeitbar machen. Diese Programme sind das sogenannte Front-End – also das, was die meisten User*innen zu Gesicht bekommen. Hier werden die linguistischen Daten z. B. als Transkripte dargestellt. Sprachliche Phänomene, die im Rahmen des Projekts untersucht werden, lassen sich so leicht auffinden und annotieren – dabei werden selbstverständlich neue Daten produziert, die ebenfalls Teil der Datenbank werden, die Daten werden also angereichert. Unsere Forscher*innen benutzen dabei die digitalen Werkzeuge, die programmiert wurden, um die Sprachdaten zu analysieren. Sie annotieren Tokens - die kleinsten Bestandteile unserer Sprachdaten, meistens einzelne Wörter - mit Tags, die das vorkommende linguistische Phänomen, wie etwa einen Relativsatz oder ein Pluralwort, eindeutig klassifizieren und wieder auffindbar machen. Tags sind sozusagen eine technische Abbildung des linguistischen Klassifizierungsprozesses, und während sie für den Menschen möglichst sprechend bezeichnet sind, sind sie für Computer wieder nur eine Nummer - was gut ist, weil diese eindeutig ist und somit für den Computer verständlich.

Für’s Grobe gibt es eine andere Art der Datenbearbeitung - das Back-End. Hier sind die Daten daheim und man kann mehr oder minder direkt auf sie zugreifen. Wer auf das Back-End zugreift, sieht die Daten ungeschminkt, im Schlafanzug - home-office-look: was im Front-End als geordnetes, strahlendes Transkript aufscheint, ist im Back-End eine Reihe von Tabellen und IDs. Hier kann man beinahe ohne vorprogrammierte Abkürzungen auf die Daten zugreifen, und diese manipulieren (eine Datenbankmanagmentsoftware und Abfragesprache wie z.B. SQL braucht es schon). Die Möglichkeiten, Daten zu verändern, sind hier weitaus größer. Gröbere Fehler oder andere Dinge, die im Front-End viel Arbeit erfordern würden, lassen sich im Back-End - mit den entsprechenden, für den pedantischen Computer verständlichen Befehlen - leicht automatisiert erledigen. Damit geht allerdings auch ein Risiko einher: hier lässt sich dementsprechend viel kaputt machen. 

Zwischen Front-End und Back-End liegen damit beinahe Welten. Nicht nur in dem, was man mit den Daten machen kann, sondern auch, wie man Daten prinzipiell versteht. Wer hinter das Front-End blicken möchte, muss bereit sein, sich den Informationen als Daten zu nähern - und nicht als das, was sie repräsentieren (wie etwa Sprache, Orte oder Menschen). Keine leichte Aufgabe. Man muss selbst ein kleines bisschen Computer werden, oder zumindest so ein wenig mehr wie ein Computer denken (Stichwort: computational thinking). Das heißt auch, sich auf die Eigenheiten des Computers einzulassen, und mit diesen so zu sprechen, wie es für sie notwendig ist. Das hochkomplexe System der menschlichen Sprache trifft den insgesamt doch eher einfach gestrickten Computer. Diese beiden Systeme zu verbinden, dem einen das andere beizubringen, und damit als Mensch in eine neue, exakte Sprache einzutauchen - und somit auch die etwas andere Welt der Computer kennenzulernen - macht das Arbeiten mit Datenbanken für mich als Sprachwissenschaftler so spannend. 

Zitation
Pluschkovits, Markus (2021): Der Linguist im Back-End, oder: wie ich lernte, die Datenbank zu lieben.
In: DiÖ-Online.
URL: https://www.dioe.at/artikel/2467
[Zugriff: 29.03.2024]