Die Sprachstatistik, auch quantitative Linguistik genannt, beschäftigt sich mit der Häufigkeit und Wahrscheinlichkeit sprachlicher Einheiten. Dabei können Einheiten verschiedener Ebenen und Art untersucht werden, wie beispielsweise lautliche, grammatische und lexikalische Einheiten. In diesem Artikel möchten wir die Grundbegriffe der Sprachstatistik genauer beleuchten und erklären, wie sie in der Analyse von Texten verwendet werden.
Absolute und relative Häufigkeit
Die absolute Häufigkeit einer sprachlichen Einheit in einem Text beschreibt die Anzahl ihrer Vorkommen. Zum Beispiel könnte das Wort “Bienen” in einem 2000 Wörter umfassenden Text insgesamt 6 Mal vorkommen. Die relative Häufigkeit hingegen gibt das Verhältnis der absoluten Häufigkeit zur Gesamtzahl der Einheiten auf derselben Ebene an. Im genannten Beispiel würde die relative Häufigkeit von “Bienen” 0,003 betragen.
Typfrequenz und Tokenfrequenz
Es gibt einen wichtigen Unterschied zwischen der Tokenfrequenz einer sprachlichen Einheit, die sich auf ein Textkorpus bezieht, und der Typfrequenz, die sich auf das Inventar des Sprachsystems bezieht. Die Tokenfrequenz gibt an, wie häufig eine Einheit in einem Text vorkommt, während die Typfrequenz angibt, wie viele verschiedene Einheiten des gleichen Typs im gesamten Sprachsystem vorhanden sind. Typfrequenz und Tokenfrequenz spielen eine entscheidende Rolle in der Sprachstatistik.
Bedingte Wahrscheinlichkeit
Die Wahrscheinlichkeit einer sprachlichen Einheit hängt vom Kontext ab, in dem sie auftritt. Die bedingte Wahrscheinlichkeit beschreibt das Auftreten einer Einheit in Abhängigkeit von den zuvor aufgetretenen Einheiten in einer Sequenz. Diese bedingte Wahrscheinlichkeit steht in Verbindung mit den grammatischen Konstruktionen, in denen die Einheiten auftreten. In der Sprachinformatik spielen bedingte Wahrscheinlichkeiten eine große Rolle.
Informationsmenge
Die Informationsmenge einer sprachlichen Einheit gibt Auskunft darüber, wie überraschend oder unerwartet das Auftreten dieser Einheit ist. Je niedriger die Wahrscheinlichkeit einer Einheit, desto größer ist ihre Informationsmenge. Die Informationsmenge wird in Bits gemessen und korreliert mit der Wahrscheinlichkeit der Einheit. In einem Frequenzwörterbuch können wir einen Einblick in die Informationsmenge von Wörtern erhalten und feststellen, dass sie zwischen 4 und 25 Bits liegen kann.
Anwendungen der Sprachstatistik
Die Sprachstatistik findet Anwendung in verschiedenen Bereichen der Sprachwissenschaft. In der quantitativen Phonologie wird beispielsweise die Wahrscheinlichkeit phonologischer Einheiten untersucht. Die quantitative Morphologie beschäftigt sich mit der Wahrscheinlichkeit morphologischer Einheiten in Texten und syntaktischen Einheiten. Die quantitative Sprachtypologie befasst sich mit der Messung der Unterschiede im Sprachbau. Ein weiterer wichtiger Anwendungsbereich der Sprachstatistik sind Frequenzwörterbücher, die die Häufigkeit und Wahrscheinlichkeit von Wortformen in einer Sprache erfassen.
Fazit
Die Sprachstatistik ermöglicht es uns, verschiedene Aspekte sprachlicher Einheiten zu untersuchen und ihre Häufigkeit sowie Wahrscheinlichkeit zu analysieren. Die Grundbegriffe der Sprachstatistik, wie absolute und relative Häufigkeit, Typfrequenz, Tokenfrequenz, bedingte Wahrscheinlichkeit und Informationsmenge, spielen dabei eine zentrale Rolle. Durch die Anwendung der Sprachstatistik können wir ein besseres Verständnis von Sprache und ihren verschiedensten Ebenen gewinnen.