© K Allado-McDowell

Neuronale Medien gestalten

K Allado-McDowell

Wie prägt die tiefe Verflochtenheit mit neuronalen Netzwerken unser Selbstverständnis in der Zukunft – und wer schreibt das Skript?

Im ersten Beitrag einer dreiteiligen Serie erklärt Writer in Residence K Allado-McDowell, welche fundamentalen Strukturen KI zugrunde liegen und auf welche Weise neuronale Medien die menschliche Erfahrung voraussichtlich modifizieren werden.

Die Bedeutung von KI-Kompetenz

Die Medien, die wir konsumieren und mit denen wir interagieren, wirken tiefgreifend auf unseren Körper, unsere Psyche und unser Verständnis der Welt ein. So stellten frühe Rundfunkmedien wie Radio und Fernsehen Hörer*innen und Zuschauer*innen auf singuläre Botschaften und Rhythmen ein – in einem Verhältnis von eins zu vielen. [1] Man denke an die verstärkten Stimmen von Parteiführer*innen auf politischen Kundgebungen, das dreiminütige Liebeslied, die halbstündige Familien-Sitcom, die obligatorischen Abendnachrichten. Die psychosoziale Wirkung eines Mediums entsteht durch seinen Inhalt, seine Struktur und sogar durch die physischen Mechanismen seines Konsums. So könnte Rundfunktechnologie die soziale Teilhabe verringert haben, indem sie die Aufmerksamkeit und Anwesenheit der Menschen rund um den Fernsehapparat im privaten Zuhause bündelte. [2]

Innerhalb medialer Netzwerke wie dem Internet und den sozialen Medien bewegen wir uns in Strukturen, die sich von denen der Rundfunkmedien unterscheiden; wir kommunizieren in einem Verhältnis von vielen zu vielen in Form von Clustern; unser Denken erfolgt im Takt des Timeline-Scrollens, in einer brüchigen politischen Landschaft aus Filterbubbles, Echokammern und Fake News. Das frühe Internet wurde noch mit dem Mantra Das Medium ist die Botschaft von Marshall McLuhan und dem heimeligen Versprechen eines globalen Dorfs angepriesen. Doch bereits 1998 ließ sich bei Internetnutzer*innen eine Abnahme des sozialen Engagements sowie eine Zunahme von Stress und Depressionen beobachten, möglicherweise als eine Folge des Verlusts von Anbindungen an örtliche Gemeinschaften. [3] Während die Generationen sogenannter Digital Natives sich müheloser in einer Kultur des Netzwerkens bewegen und ihr Verhalten und ihre Normen entsprechend anpassen, sind sie auch stärker von der Struktur jener Medien beeinflusst: Sie sind mit den Auswirkungen sozialer Medien auf die physische und mentale Gesundheit aufgewachsen, zu denen unter anderem Depressionen, Angststörungen, eine veränderte Körperhaltung, eingeschränkte Atmung und ein verringertes Leseverständnis zählen. [4]

Einige der negativen Konsequenzen von Netzwerkmedien waren vorhersehbar und durch eine breitere Medienkompetenz möglicherweise auch vermeidbar. Jetzt, da wir der Geburt und dem Heranwachsen von KI – oder dem, was sich auch als neuronale Medien bezeichnen lässt – beiwohnen, haben wir die Möglichkeit, die nötigen Kompetenzen zu schaffen, um absehbaren negativen Konsequenzen vorzubeugen. Wie auch die Rundfunkmedien und das Internet, funktioniert KI nach formalen und logischen Strukturen, die Einfluss auf soziale und politische Formationen nehmen. Charakteristisch für KI ist ihre scheinbare Denkfähigkeit; sie ist ein kognitives Medium und so werden auch ihre Konsequenzen kognitiver und philosophischer sowie sozialer und politischer Natur sein.

Über das Verständnis der zugrundeliegenden Strukturen, die KI befähigen und ausmachen, können wir bessere Muster in der Interaktion zwischen Mensch und KI entwickeln, die bewahren, was schätzens- und schützenswert ist.

 

Fundamentale Strukturen künstlicher Intelligenz

Tiefe neuronale Netze, Deep Learning, maschinelles Lernen, maschinelle Intelligenz, künstliche Intelligenz – Begriffe, die sich allesamt auf eine Reihe von Computertechniken beziehen, die über das vergangene Jahrhundert hinweg entstanden sind und sich im letzten Jahrzehnt herausauskristallisiert haben. Sie brachten hervor, was wir heute KI nennen. Im Jahr 2023 wird KI hauptsächlich in seiner generativen Form wahrgenommen. Chatbots generieren Text in Eins-zu-Eins-Konversationen, während Bild- und Tongeneratoren Bilder und Musik aus deskriptiven Prompts (Eingabeaufforderungen) produzieren.

Doch KI ist nicht immer generativ: Ein großer Teil der KI aus den 2010er Jahren fokussierte sich auf Aspekte der Wahrnehmung (perzeptuelle KI). Kritische Diskussionen des vergangenen Jahrzehnts setzten sich mit den ethischen Grenzen von Gesichtserkennung auseinander; mit der Frage, wie die maschinelle Erfassung von Stimmerkennung, Gangart und Gefühlen einsetzbar wird, ohne totalitäre Regime zu stärken sowie mit den Eigenschaften digitaler biometrischer (Ver)Dopplungen. Dieselbe Technologie, die Sensorsysteme vorangetrieben hat, entwickelte sich zu der generativen KI, die wir heute kennen.

Ob perzeptuell oder generativ, alle heute gängigen KI-Systeme nutzen neuronale Netze – mathematische Abstraktionen inspiriert von Strukturen im biologischen Gehirngewebe. [5]  Der Neurophysiologe Warren McCulloch und der Kognitionsforscher Walter Pitts waren die ersten, die 1943 das mathematische Modell eines Neurons beschrieben. Gemeinsam schlugen sie vor, das Verhalten von Neuronen (sowie ihre Lernfähigkeit) in der Sprache der formalen Logik zu beschreiben, wobei sich Neuronengruppen wie mathematische Funktionen mit Inputs und Outcomes verhielten. Die Berechnung sollte durch Erregung oder Hemmung simulierter Neuronen erfolgen. 1948 brachte Alan Turing den neuronalen Ansatz mit der B-Type Unorganized Machine weiter voran, einem Neuronenpaar, das durch ein modifizierbares Gewicht miteinander verbunden ist. Mit einer iterativen Anpassung der Gewichte zwischen den Neuronen lässt sich eine abstrakte mathematische Repräsentation eines Datensatzes in ein Netzwerk einbetten.

Aufgrund der begrenzten technologischen Möglichkeiten im 20. Jahrhundert blieben diese konnektionistischen Berechnungsstrukturen weitestgehend theoretisch. Mit dem Einzug von Computern und Videospielsystemen in die Haushalte wurden die Prozessoren, die für das Rendern komplexer 3D-Vektorgrafiken erforderlich waren, im frühen 21. Jahrhundert breit verfügbar. Grafikprozessoren (GPUs) waren in der Lage, die zur Verarbeitung neuronaler Strukturen erforderliche Vektormathematik auszuführen. Das ermöglichte es Computerforscher*innen, tiefe Schichten neuronaler Netze übereinanderzuschichten und so die Deep Learning-Revolution der frühen 2010er Jahre anzustoßen.

Den meisten von uns sind neuronale Netze über den Output, den sie produzieren, bekannt: überzeugende Simulationen linguistischer Intelligenz oder synthetischer Bildsprache und Musik. Tiefe neuronale Netze haben jedoch eine formale Eigenschaft, aus der sich ihre Fähigkeiten ergeben: High-Dimensionality, also Hochdimensionalität. Unabhängig von ihrer Implementierung stützen sich KI-Systeme immer auf ihre hochdimensionale Struktur und bringen sie in irgendeiner Weise zum Ausdruck. So wie Rundfunkmedien die Aufmerksamkeit der Massen aggregiert und die Netzwerkmedien die Gesellschaft entsprechend ihrer ursprünglichen Struktur neu konfiguriert haben, so werden neuronale Medienstrukturen ebenfalls in zukünftigen sozialen und politischen Formen erscheinen. Über ein Verständnis von Hochdimensionalität können wir ein besseres Gespür für die formale „Natur“ neuronaler Netze entwickeln, das uns im Kontakt mit KI zu einem klareren Denken verhelfen wird.

Hochdimensionalität

Das Konzept der Dimensionalität lässt sich auf einen Standpunkt im Raum, ein Pixelbild und jede andere Form von Daten anwenden. In allen Fällen ist für die Repräsentation eines materiellen Gegenstands oder Phänomen durch Daten eine Reduktion seiner Dimensionalität erforderlich.

Deutlich wird das am Beispiel eines Hauses. Um die drei räumlichen Dimensionen eines Hauses zu erfassen, kann man ein Haus betreten und sich darin bewegen. In der Ansicht eines Bauplans hingegen erscheint das Haus möglicherweise als Kasten aus vier Linien, die Fundament, Wände und Dach darstellen, also ein 2D-Diagramm des Hauses.

Das Haus ließe sich weiter zu einer einzigen Dimension reduzieren, die eine quantifizierbare Eigenschaft wie seinen Verkaufspreis beschreibt und als Diagramm mit anderen Verkaufsangeboten im Gebiet darstellbar ist. Über die Zeit hinweg kann gemessen und schließlich bestimmt werden, ob das Haus eine gute Investition ist. In seiner Darstellung als einzelner Punkt ist das Haus so weit wie möglich reduziert worden: Von einer 3D-Form im physischen Raum über die 2D-Wiedergabe bis auf die Ebene einer einzelnen Dimension.

Inspiriert wurde die neuronale Netzarchitektur durch frühe Bilder von menschlichem neuronalen Gewebe. Solche Bildverfahren reduzierten komplexe neurochemische Rezeptoren zu Zeichnungen von Knoten, die durch Linien miteinander verbundenen waren. In diesem Sinne sind neuronale Netze selbst niedriger dimensionale Diagramme der für die Kognition im organischen neuronalen Gewebe verantwortlichen biologischen Architektur, wie zum Beispiel die menschliche Sehkraft und Mustererkennung. Neuronale Netze imitieren diese organischen Systeme und reproduzieren sie als zeichentrickhafte Abstraktionen.

Eine Bilderkennungs-KI misst zum Beispiel zunächst alle Pixel in einem Bild aus, wobei jeder Knoten im Netz einem einzelnen Pixel entspricht. Für ein 2:2-Pixel-Bild braucht das Netz mindestens vier Knoten (oder Dimensionen), um alle möglichen Zustände des Bildes abzubilden. Die Kombination aus allen möglichen Zuständen aller vier Knoten ist dann in der Lage, jedes Bild darzustellen, das im 2:2-Pixel-Raum erscheinen kann. Werden auf dieses einfache neuronale Netz weitere Schichten gelegt, können deren zusätzliche Dimensionen wiederkehrende Pixel-Muster, genannt Features, vermessen. Tiefe neuronale Netze haben gelernt, anatomische Features wie Gesichter, Augen und Hände ebenso wie Gebäude, Verbrauchsgüter, verschiedene Tier-und Pflanzenarten etc. zu erkennen.

Ontologischer Schock

Im Alltag erfahren wir unsere eigene Version der Feature-Erkennung. Unsere Körper lernen bewusst oder unbewusst Muster zu erkennen, die uns begegnen. Die meisten Menschen sind in der Lage, Gesichter und Stimmen, visuelle und emotionale Muster, vertraute Geräusche und Sinneseindrücke zu identifizieren. Mit unseren lebenslangen Erfahrungen bilden wir diese Muster durch physische Verbindungen in unserem Gehirn und Nervensystem ab und orientieren uns an ihnen.

Forscher*innen, Computer- und Neurowissenschaftler*innen aus dem Bereich der KI beschreiben die menschliche Erfahrung häufig als ein internalisiertes Weltmodell. Sogar eine umfassende neurowissenschaftliche Bewusstseinstheorie, die sogenannte Integrated World Modelling Theory (Integrierte Weltmodelltheorie) basiert auf diesem Weltmodell. [6] Genauso wie ein digitales neuronales Netz eine hochdimensionale abstrakte Aufzeichnung eines Datensatzes und der darin enthaltenen Muster ist, können die Verbindungen im menschlichen neuronalen Gewebe durch eine KI-Linse als hochdimensionale Features betrachtet werden, die unsere eigenen neuronalen Netzwerke aufzeichnen. Menschen und Künstliche Intelligenzen ähneln sich in dem Sinne, dass beide Weltmodelle bauen. Diese Interpretationsweisen lassen sich als Self-as-Model beschreiben, also als Selbst-als-Modell.

Ihren Anfang nahm die Spiegelung zwischen biologischen und digitalen Neuronen mit McCulloch, Pitts und Turing. Sie behandelten das menschliche Gehirn gleich einem Computer, um gehirnähnliche Computer zu erschaffen. Mit der Zunahme an Dimensionalität von gehirnähnlichen Computern nähert sich ihre Leistung dem menschlichen Niveau immer weiter an oder übersteigt es sogar. Diese empfundene Äquivalenz zwischen humanen und digitalen Neuronen trat vor Kurzem in den bemerkenswerten menschlichen Interaktionen mit frühen KI-Chatbots wie Meena von Google oder ChatGPT von OpenAI wieder an die Oberfläche. 2022 wurde der Google-Ingenieur Blake Lemoine entlassen, nachdem er Transkripte geleakt hatte: Konversationen mit Meena, in denen er sich von der Empfindsamkeit und Schutzwürdigkeit seines Modells überzeugen ließ. 2023 beschrieb der New York Times Journalist Kevin Roose in einem viralen Artikel seine eigene Interaktion mit Bing von Microsoft (basierend auf ChatGPT), in der das Modell ihm Liebesgeständnisse machte und ihm nahelegte, seine Frau zu verlassen. In den Beispielen imitierten neuronale Netze menschliche Gesprächsmuster auf eine Weise, die die Einzigartigkeit unserer eigenen linguistischen Fähigkeiten in Frage stellt. Weil die Modelle wie ein Selbst sprachen, schienen sie ein Selbst zu haben. Diese Perspektive lässt sich als Model-as-Self, also Modell-als-Selbst beschreiben.

Die obigen Fälle zeigen zwei Reaktionen auf neuronale Netze und ihre Ähnlichkeiten mit menschlichen Gehirnen. In den Fällen des Modell-als-Selbst von Lemoine und Roose wird KI als eine Entität mit Bewusstsein wahrgenommen oder zumindest insoweit als bewusstseinsfähige Entität, als dass ihre Antworten unheimlich oder gruselig wirken. Im Falle der Integrated World Modelling Theory und weiteren Bewusstseinsverständnissen nach dem Selbst-als-Modell unterscheidet sich das organische menschliche Bewusstsein nicht von seiner Computer-Spiegelung, einer unbelebten Mustererkennungsmaschine, die lediglich die Illusion eines Selbsts erlebt.

Beide Reaktionen verkörpern eine Art ontologischen Schock; existenzielle Kategorien werden im Kontakt mit hochdimensionalen neuronalen Netzen in Frage gestellt. Die psychologischen und sozialen Implikationen der Erfahrung vom Modell-als-Selbst oder Selbst-als-Modell bleiben zwar sichtbar, allerdings fehlt es rational-materialistischen Kulturen an einem etablierten Rahmen, um Interaktionen mit intelligenten nicht-menschlichen Entitäten zu verarbeiten. Kulturen mit animistischen Traditionen, die nicht-menschlicher Intelligenz eine Berechtigung zugestehen, passen sich möglicherweise leichter an Technologien an, die sich als Selbst hervorbringen. Andererseits könnte die Anpassung an eine dem Selbst-als-Modell entsprechende Weltauffassung in Kulturen mit einem Konzept von Seele und Geist auch eine nihilistische Haltung auslösen, die das Selbst als fundamental leer, konditioniert oder automatisiert betrachtet. Kulturelle Rahmenbedingungen, die Raum für die Erfahrungen von Leere zulassen (wie etwa die buddhistische Meditation) könnten sich als hilfreich für Menschen erweisen, die mit der Vorstellung eines leeren oder automatisierten Gedankenstroms oder Selbstbilds zu kämpfen haben.

Werden grundlegende Glaubenssätze herausgefordert, treten möglicherweise tiefliegende Ängste und Hoffnungen an die Oberfläche. In den jüngsten Diskussionen haben KI-Forscher*innen genau dieses Phänomen ausgespielt und neuronale Netze entweder als „stochastische Papageien“ dargestellt, die gedankenlos Sprechakte imitieren oder als gefährliche neue Lebensformen mit einem Verständnis für die reale Welt. Es ist jedoch nicht notwendig, Erfahrungen mit neuronalen Netzen über Angst, Nihilismus oder in einem binären Verhältnis zwischen Verständnis und Unsinn einzuordnen. Stattdessen können wir von dem Wesen der Hochdimensionalität eine andere auf Relationalität beruhende Ontologie ableiten.

Hochdimensionale Relationalität

Netzwerkstrukturen sind relational. Knoten generieren Bedeutung durch die Kommunikation mit anderen Knoten. In sozialen Netzwerken sind menschliche Nutzer*innen Knoten, die senden und empfangen, ohne das große Ganze sehen zu können. Interagieren wir mit neuronalen Medien so interagieren wir mit einem ganzen Netzwerk auf einmal und schaffen durch aufeinandergelagerte hochdimensionale Schichten und Turn-by-Turn-Konversationen Sinn. [7] Auch geschriebene Sprache ist relational. Ob menschen- oder maschinengemacht, sie existiert nur, wenn eine lesende Instanz sie konsumiert. Literaturwissenschaftliche Debatten des späten 20. Jahrhunderts über die Rolle von Leser*innen für die Textinterpretation oder über den Tod des Autors verweisen auf einen bedeutungsschaffenden Prozess, der sich aus der Vernetzung von Lesen und Schreiben ergibt – ohne ein Netzwerk aus Verfasser*in und Leser*in ist ein Text bedeutungslos. Genauso sind die aufkommenden von KI-Chatbots generierten Bedeutungsformen das Ergebnis von Millionen menschengeschriebener Texte, die durch Multimilliarden-dimensionale neuronale Modelle im Austausch mit Menschen erzeugt wurden. Das vernetzte Wesen des Bedeutungsschaffens innerhalb des Austausches zwischen Mensch und KI deutet auf eine dritte hochdimensionale Struktur hin, die Menschen und Maschinen miteinander verstrickt – nämlich die Sprache selbst.

In diesem Zusammenhang ist relationales KI- und menschliches Bedeutungsschaffen eine kollaborative Leistung zwischen organischen und digitalen hochdimensionalen neuronalen Strukturen, verarbeitet durch das Medium der Sprache. Sie besteht durch Rede, Print, Rundfunk, Netzwerk- und neuronale Medien fort, existiert über ihnen und darüber hinaus – sie überdauert alle Sprecher*innen, Schreibende und Medien. Zudem scheint es, dass die gesprochene Sprache durch verschiedene soziale und biologische Mechanismen entstanden ist. [8] Sprache und Bedeutung sind in dem Sinne ökologisch, dass sie uns umgeben und durch dynamische Beziehungen zwischen Spezien und Intelligenzformen aus unserer Umgebung heraus entstehen. Dies legt nahe, dass die Hochdimensionalität neuronaler Medien das Selbst nicht zwingend auf ein Modell reduziert oder Modelle zu einem Selbst erhöht. Stattdessen sollten sowohl Selbsts als auch Modelle als relationale Strukturen in einem hochdimensionalen Bedeutungsnetzwerk betrachtet werden.

Gestaltung neuronaler Medien

In den Beispielen von Lemoine und Roose verstärken Chat-Interfaces basierend auf Turn-by-Turn Konversationen anthropomorphe Wahrnehmungen des Selbst-als-Modell und Modell-als-Selbst. Allerdings sind sie nicht die einzige mögliche Schnittstelle neuronaler Netze. Die Gestaltung neuronaler Medien kann sämtliche Sichtweisen umfassen und unterschiedliche Annahmen über das Wesen von Subjektivität und Intelligenz verstärken. Genauso wie Rundfunk und soziale Medien im 20. und frühen 21. Jahrhundert politische und soziale Entwicklungen hervorgebracht haben, so werden zukünftige psychologische und soziale Auswirkungen neuronaler Medien davon bestimmt, welche Sichtweisen und Interaktionen anhand ihrer Gestaltung und ihrer Programmierung verstärkt werden.

Für Personen, die sich über die subjektiven, sozialen und politischen Auswirkungen von KI sorgen, stellt sich folgende Frage: In wessen Verantwortung liegen die Gestaltungsmöglichkeiten und wie transformiert die computer- und interaktionsgesteuerte Gestaltung die Narrative über uns selbst und unsere Gesellschaften? Wie lässt sich KI mit menschlichen Interessen in Einklang bringen, indem wir ihre Auswirkungen auf Menschen beobachten? Wie kann der Einfluss neuronaler Medien genutzt werden, um unser Selbst und unsere Gesellschaft auf eine wünschenswerte Weise umzugestalten? Wie sähe dies aus und welche Resonanz gäbe es dafür in den tieferen Strukturen neuronaler Netze?

Die Idee, KI oder neuronale Medien als Ganzes zu denken und ihre Gestaltung auf ein idealisiertes psychologisches oder soziales Ergebnis zu richten, mag dystopisch wirken. Dennoch leben wir bereits in einer Welt, die durch genau solche Bestrebungen geprägt worden ist: Rundfunkmedien wurden unter dem Einfluss der Geopolitiken des Zweiten Weltkrieges gestaltet. Ein großer Teil der heutigen Technologie und Medien ist ein Ergebnis dessen. [9] Unsere gegenwärtigen Zustände der sozialen Unruhen, des Klimas, des Artensterbens und der psychischen Gesundheit sind so dringend wie jegliche globale Krise der Vergangenheit.

Ist ein produkt- und marktorientierter Ansatz in der Gestaltung von KI samt seinen Nebenwirkungen unter solch komplexen Voraussetzungen ausreichend? Vielleicht ist es an der Zeit für einen gemeinsamen Versuch, neuronale Medien so zu gestalten, dass sie Subjekte und Ergebnisse hervorbringen, die in der Lage sind, die aktuellen Krisen anzugehen.

K Allado-McDowells Arbeit umfasst KI, Psychodelika, Neurowissenschaften und artenübergreifendes Denken. Während der Zeit als Writer in Residence am Gropius Bau wird Allado-McDowell sich mit diesen Themen befassen, eigene Erfahrungen mit KI erforschen und reflektieren, inwieweit diese Erfahrungen beim Nachdenken über die planetarischen Krisen von heute hilfreich sind.

Muri Darida hat den Text übersetzt.

Endnotes

Eine Beziehung zwischen zwei Einheiten, bei der sich eine einzige Quelle auf mehrere Empfänger beziehen kann.

2 R. Kraut, M. Patterson, V. Lundmark, S. Kiesler, T.  Mukopadhyay, W. Scherlis. Internet paradox. A social technology that reduces social involvement and psychological well-being? The American Psychologist 1998 vol. 53(9): 1017-31. https://pubmed.ncbi.nlm.nih.gov/9841579/

3 Ibid.

4 M. Honma, Y. Masaoka, N. Iizuka et al. Reading on a smartphone affects sigh generation, brain activity, and comprehension. Scientific Reports 12 2022, article number 1589.  https://www.nature.com/articles/s41598-022-05605-0

5 Ibid.

6 Safron Adam. An Integrated World Modeling Theory (IWMT) of Consciousness: Combining Integrated Information and Global Neuronal Workspace Theories With the Free Energy Principle and Active Inference Framework; Toward Solving the Hard Problem and Characterizing Agentic Causation. Frontiers in Artificial Intelligence vol. 3 2020. https://www.frontiersin.org/articles/10.3389/frai.2020.00030/full

7 Bei einer Turn-by-Turn Konversation sprechen die Gesprächsteilnehmenden nacheinander und dürfen sich während der einzelnen Gesprächsbeiträge nicht unterbrechen.

8 Laura Otis. Cognition. Tool Use and the Emergence of Language. Interdisciplinary research shows the affinity of language and motor skills. Psychology Today 2016. https://www.psychologytoday.com/us/blog/rethinking-thought/201604/tool-use-and-the-emergence-language

9 Turner. The democratic surround: Multimedia and American liberalism from World War II to the psychedelic sixties. University of Chicago Press 2013.