Index

Hans-Joachim Mascheck

Die passende Mathematik

Für die Lösung eines Problems ist dreierlei erforderlich:

  1. das Problem
  2. geeignete Mittel für dessen Lösung
  3. eine Person oder eine Gemeinschaft, die sowohl das Problem als auch die Mittel für dessen Lösung kennt.

Die durch die ständige Zunahme des Wissens veranlasste Aufspaltung der Wissenschaften hat zur Folge, dass die geeigneten Mittel für die Lösung eines Problems der einen Spezialdisziplin häufig in einer anderen Spezialdisziplin zu finden sind. So kennen die einen nur das Problem und nicht die Mittel, die anderen aber nur die Mittel und nicht das fremde Problem, für dessen Lösung diese Mittel auch geeignet wären. Über einen solchen Fall wird im folgenden berichtet.

1. Das Problem

Es gibt eine grundlegende wissenschaftstheoretische Frage, die von Philosophen und Naturwissenschaftlern kontrovers diskutiert wird: Inwieweit sind die in den Naturwissenschaften formulierten Gesetze tatsächlich durch die Beobachtungen, d. h. letztlich durch die Sinneseindrücke, bestimmt? Die Philosophen halten es mehrheitlich für eine einwandfrei begründete und von allen veralteten Ansichten und Vorurteilen freie Aussage, dass die formulierten Gesetze weitestgehend freie Schöpfungen des Menschen sind; die Naturwissenschaftler hingegen bestreiten das auf Grund aller ihrer Erfahrungen, ohne indes ihren Standpunkt rational begründen zu können. Aus einer allgemeineren Sicht ist daher das innerhalb der Philosophie als so gut wie entschieden angesehene Problem durchaus noch offen.

Im ersten Absatz des ersten Kapitels von Unterwegs zur Wahrheit (1995) formulierte W. V. O. Quine (1908-2000) das Problem so:

"Zu unserer systematischen Theorie über die Außenwelt brachten wir es, indem wir uns über Generationen hinweg mit kollektiver und kumulativer Kreativität nach den Affektionen der reizempfindlichen Oberflächen unseres Körpers gerichtet haben. Unser System erweist sich als erfolgreich: Es erlaubt uns, künftige Sinnesreizungen vorauszusagen. Wie konnte uns dies gelingen?"

Mit den Sinnesempfindungen haben sich Hermann von Helmholtz (1821-1894) in zahreichen Vorträgen und Veröffentlichungen zwischen 1852 und 1894 (abgedruckt in Abhandlungen zur Philosophie und Geometrie, Junghans Verl. 1987) und Ernst Mach (1838-1916) in Beiträge zur Analyse der Empfindungen (1885) ausführlich befasst, wobei sie in einer naturwissenschaftlichen Betrachtungsweise zu vielen wichtigen Erkenntnissen bezüglich des Zusammenhangs zwischen den elementaren Empfindungen und ihrer Deutung bis hin zur Bildung von Begriffen gelangten, die bedauerlicherweise in Vergessenheit gerieten. Anknüpfend an Whitehead und Frege suchten später Bertrand A. W. Russell (1872-1970) und Rudolf Carnap (1891-1970) das Problem des Zusammenhangs in verschiedener Weise mathematisch zu lösen. Das ist zweifellos notwendig. Sie schlugen dabei jedoch den falschen Weg ein, weil die Mathematik für den richtigen noch fehlte, was sie nicht wissen konnten. Carnap nahm an, bereits im Besitz des besten mathematischen Hilfsmittels zu sein. In seinem sehr aufschlussreichen Vorwort zur 1961 erschienenen zweiten Auflage von Der logische Aufbau der Welt (1928) schreibt er:

"Diese" - von Frege, Whitehead und Russell entwickelte - "Logik enthält eine umfassende Theorie der Beziehungen und ihrer strukturellen Eigenschaften; ferner machte sie, durch die Definition der Zahlen und der Zahlfunktionen auf der Basis von rein logischen Begriffen, das ganze Begriffsgebäude der Mathematik als Teil der Logik verfügbar."

Mit Hilfe der Logik kann man ein Begriffssystem konstituieren, d. h. durch die Kombination geeigneter Basisbegriffe (die sich z. B. auf Sinnesdaten oder Elementarerlebnisse beziehen) von niederen zu höheren Begriffen aufsteigen. Dieses gedankliche Modell scheint plausibel; doch womit man auch immer beginnen mag: die Durchführung bereitet sehr bald erhebliche Schwierigkeiten, weil sich viele Begriffe einfach nicht einordnen lassen. Das Verfahren der Konstituierung aus Basisbegriffen widerspricht auch den Erkenntnissen von Helmholtz, Mach und zahlreichen anderen (z. B. später Helmut Seiffert), wonach die Bildung von Begriffen durch die Häufigkeit der Wahrnehmung der entsprechenden Erscheinungen ausgelöst wird, völlig unabhängig davon, ob und in welcher Weise diese aus anderen Begriffen hergeleitet werden könnten.

2. Die passende Mathematik

Selbst dann, wenn - wie Carnap meinte - die Logik das ganze Begriffsgebäude der Mathematik tatsächlich verfügbar machte, wäre es im allgemeinen wenig sinnvoll, alle mathematischen Aufgaben auf die Logik zurückzuführen, denn dann wäre man gezwungen, die für die Lösung der jeweiligen Sachprobleme geeigneten, von den Mathematikern in Jahren oder Jahrzehnten mühevoller Arbeit bewiesenen Sätze erneut herzuleiten. Jede spezielle Aufgabe benötigt zu ihrer Lösung die passende Mathematik. Ist eine solche noch nicht vorhanden, so muss man sie schaffen, wie es beispielsweise bei der newtonschen Mechanik und der Nachrichtenübertragung der Fall war, die die Ausarbeitung der Differentialrechnung bzw. der Informationstheorie erforderten. In der Regel hält aber die Mathematik in ihrem reichen und ständig erweiterten Fundus das Benötigte schon bereit; man muss es nur finden, die Brauchbarkeit erkennen und es ggf. ein wenig anpassen.

Ob man - um auf die Frage der Begriffsbildung zurückzukommen - das beobachtete Auftreten einer Erscheinung als häufig oder selten bezeichnet, scheint zunächst Ansichtssache zu sein, über die man nur ein subjektives Urteil abgeben könnte. Mit der Wahrscheinlichkeitsrechnung stellt jedoch die Mathematik ein Mittel zur Objektivierung dieses Urteils zur Verfügung. Die Grundlage ist ein reines Abzählen (eine wichtige Grundoperation, die in der Logik erst nach der Weiterentwicklung zur Beweistheorie eine Rolle spielt). Man stellt fest, wie oft ein bestimmtes Ereignis eintritt, und vergleicht das mit der ebenfalls auf Abzählungen beruhenden Wahrscheinlichkeit des rein zufälligen Auftretens. Dieser theoretisch ermittelte Wert gründet sich auf die zunächst willkürlich erscheinende Annahme von Elementarwahrscheinlichkeiten. Die Informationstheorie, eine neueres Spezialgebiet der Wahrscheinlichkeitsrechnung, ersetzt (oder begründet) diese Annahme durch die maximale Entropie.

Darüber hinaus liefert diese Theorie sogar die Grundlagen für die Beantwortung der oben angeführten Frage Quines, denn die "über Generationen hinweg mit kollektiver und kumulativer Kreativität" verarbeiteten "Affektionen der reizempfindlichen Oberflächen unseres Körpers" oder kurz "Sinnesreizungen" bilden in ihrer Gesamtheit eine unendliche, d. h. jederzeit beliebig zu verlängernde Folge von Signalen - also genau das, was Shannon (1948) untersuchte - und diese Signalfolgen haben - ebenfalls im Einklang mit den shannonschen Voraussetzungen - weder eine Syntax noch eine Semantik. Warum blieb die Eignung dieser Theorie für die Beantwortung der Frage so lange unbemerkt?

In den vergangenen Jahrzehnten haben sich sehr viele Philosophen mit der Information befasst und in diesem Zusammenhang auch einen Blick auf die mathematische Informationstheorie geworfen. Da sich jedoch im Laufe der Zeit die Ansicht gebildet und immer mehr gefestigt hatte, dass diese Theorie nichts zur Lösung der eigenen Probleme beitragen könne, hielt man offenbar jede weitere Beschäftigung mit ihren grundlegenden Sätzen und ihren durchaus interessanten und aufschlussreichen Anwendungen z. B. für die Lösung der Kodierungsprobleme der Multimediatechnik oder die Strukturanalyse großer Datenmengen für Zeitverschwendung und widmete sich lieber der Suche nach einem allgemeinen Informationsbegriff und dem Entwurf neuer, vermeintlich besserer Informationstheorien. Das zeigt, wie schwierig es ist, überhaupt erst einmal zu erkennen, welche Hilfsmittel aus einem fremden Fachgebiet für die Lösung der eigenen Probleme genutzt werden können.

Für die Beantwortung der Frage Quines sind verständlicherweise in erster Linie die mathematischen Aussagen der Informationstheorie von Bedeutung, während alles das außer Betracht bleiben kann, was die spezielle Anwendung auf die Nachrichtenübertragung betrifft. Dazu gehören das Schema der Übertragung von der Quelle über den Kanal zum Empfänger, die Besonderheiten der Berücksichtigung der Störung, die Bezeichnung der Entropie als eigentliche Information, die Geringschätzung der Redundanz als im Prinzip überflüssig und nur für die Fehlererkennung bedeutsam und nicht zuletzt auch die Wahl des Bit als Maßeinheit - gerade das, worauf sich kurze Einführungen leider zu beschränken pflegen.

Gegenstand der Informationstheorie sind unendlich lange (d. h. praktisch beliebig zu verlängernde) Folgen, in denen eine vorgegebene Anzahl unterschiedlicher Zeichen vorkommt. Diese Anzahl sei k genannt. Hierzu wird folgendes ausgesagt:

  1. Eine Folge ist rein zufällig, wenn darin jedes einzelne der k verschiedenen Zeichen mit der Wahrscheinlichkeit 1/k , jedes der k 2 verschiedenen Zeichenpaare mit der Wahrscheinlichkeit k-2 und ganz allgemein für n ®  ¥ jede der k n unterschiedlichen Zeichenketten der Länge n mit der Wahrscheinlichkeit k -n vorkommen. Das gilt nicht nur für n unmittelbar aufeinander folgende Zeichen, sondern für jede gleichstrukturierte Auswahl aus der Originalfolge (gleiche relative Lage der ausgewählten Zeichen zueinander). Für eine rein zufällige Folge ist die Entropie je Zeichen maximal: Hmax = - log k , wobei die Basis des Logarithmus durch die gewählte, hier nicht interessierende Maßeinheit bestimmt wird. Unbedingt zu beachten ist, dass die Entropie nach Theorem 5 der Originalarbeit Shannons als Grenzwert einer monoton fallenden Folge bestimmt werden muss. Die üblicherweise angegebene erste Näherung liefert nur eine obere Schranke, die in der Regel nicht einmal als grober Anhaltspunkt für die tatsächliche Entropie dienen kann.
  2. Jede beliebige statistische oder direkte Abhängigkeit zwischen verschiedenen Elementen einer gleichstrukturierten Auswahl, d. h. jede Gesetzmäßigkeit, Regel, Struktur, Syntax oder was es auch immer sei und wie man es auch nennen mag, bewirkt eine Abweichung von der Gleichwahrscheinlichkeit gleichstrukturierter Auswahlen, d. h. eine Abweichung von der maximalen Ungeordnetheit, und damit nach Theorem 5 der Originalarbeit Shannons eine Herabsetzung der Entropie H und eine Erhöhung der Redundanz R = 1 - H/Hmax. Die Redundanz ist ein Maß für die Summe aller in der Folge enthaltenen Gesetzmäßigkeiten beliebiger Art. Ihr Wert liegt in vielen Fällen weit über dem mit der üblicherweise angegebenen verkürzten Entropieformel berechneten. Ein extremes Beispiel sind die so genannten Zufallszahlen-Generatoren. Sie liefern gleichverteilte Werte, Wertepaare, Wertetripel usw. Nicht nur die vereinfachte Formel, sondern auch die ersten Glieder der vollständigen Definition nach Theorem 5 ergeben danach R = 0. Erst wenn sich die Länge der betrachteten Teilfolgen der Größenordnung der Periodenlänge des Generators von beispielsweise 232 = 4294967296 nähert, nimmt die berechnete Redundanz zu und wird bei der Berücksichtigung noch längerer Teilfolgen zu R = 1. Die Folge der generierten "Zufallszahlen" ist mithin voll redundant und ihre Entropie gleich Null. Das Beispiel zeigt zugleich, dass die Redundanz zwar eine statistisch eindeutig definierte Größe ist, dass aber ihre Berechnung mit Hilfe der Definitionsformel praktisch unmöglich ist. Man kann sich Ihrem Wert nur nach und nach durch die Aufdeckung von Gesetzmäßigkeiten nähern, die die Entropie, d. h. die Streuung, herabsetzen.
  3. Eine fortlaufende Zeichenfolge enthält danach im allgemeinen zweierlei Informationen: allgemeine Gesetzmäßigkeiten und aktuelle Besonderheiten. Die Maße für diese beiden Anteile sind die Redundanz und die relative Entropie. Die Aufdeckung der Gesetzmäßigkeiten erfordert die Analyse der gesamten Zeichenfolge. Sie gelingt erst nach und nach, d. h. die Redundanz lässt sich nur nach und nach aufdecken - man erhält damit immer nur eine untere Schranke für ihren wahren Wert (die obere Schranke ist definitionsgemäß gleich 1). Daher wird anfänglich vieles zu den aktuellen Besonderheiten, der Entropie, gerechnet, was sich bei weitergehender Einsicht durch die Einbeziehung weiterer Teile der Zeichenfolge als gesetzmäßig bestimmt herausstellt.
  4. Bei einer fortlaufend empfangenen Folge sind Voraussagen über die zu erwartende Fortsetzung, die nicht nur rein zufällig einmal zutreffen, nur auf der Grundlage der tatsächlich in der Folge enthaltenen und wenigstens näherungsweise oder teilweise erkannten Gesetzmäßigkeiten möglich. Anzunehmen, ein menschlicher oder anderer Geist könne Gesetzmäßigkeiten erfinden, die eine Vorausschau ermöglichen ohne schon in der empfangenen Zeichenfolge enthalten zu sein, ist ein schwerer Irrtum. Wer glaubt, irgendeine Art von Selbstorganisation könne das bewirken, vergisst oder hat möglicherweise nie etwas davon gehört, dass jede Selbstorganisation eine niedrige Entropie der Umgebung voraussetzt, d. h., dass auch sie auf die Nutzung vorhandener Regelmäßigkeiten oder Gesetzmäßigkeiten angewiesen ist.
  5. Die Redundanz der Originalfolge ermöglicht es, diese so auf eine verkürzte Folge abzubilden, dass mit Hilfe dieser verkürzten Folge die Originalfolge rekonstruiert werden kann. Die Grundlage dieser auch als Kompression und Expansion bezeicheten Operationen sind die in der Originalfolge enthaltenen Gesetzmäßigkeiten, die die Redundanz erzeugen. Jede sprachliche Beschreibung eines Sachverhalts ist eine solche verkürzte Abbildung (in dem schon in Wittgensteins Tractatus verwendeten allgemeinen Sinne), mit deren Hilfe eine wenn auch nicht vollständige, so doch alles Wesentliche enthaltende materielle oder gedankliche Rekonstruktion des Sachverhalts möglich ist, beispielsweise der Aufbau eines Gerätes oder einer Versuchseinrichtung auf Grund einer Beschreibung, die Verfilmung eines Romans usw. Voraussetzung und Grundlage ist die Redundanz, d. h. das Vorhandensein von Gesetzmäßigkeiten, häufig auftretenden Komplexen und Strukturen, die in Begriffe gefasst und durch Wörter bezeichnet werden.

Schlussbemerkung

Im Vorangehenden wurde in sehr groben Zügen dargelegt, dass die Beziehung zwischen den Theorien und den Beobachtungen - das Grundproblem des Empirismus - mit Hilfe von mathematischen Sätzen, die die Informationstheorie bereit stellt, geklärt werden kann. Diese mathematischen Sätze enthalten nichts Empirisches (außer dem, was der Mathematik insgesamt zu Grunde liegt, nämlich den "empirisch" gegebenen Möglichkeiten zu zählen, zu vergleichen, zu unterscheiden, zu verbinden und zu ersetzen). Es handelt sich daher um eine rein apriorische Begründung der Bedingungen für die Möglichkeit von Sprache, Erfahrung und Erfahrungswissenschaft, an der keiner mehr vorbei gehen kann, wenn er sie erst einmal zur Kenntnis genommen hat.