Large language models like ChatGPT can help us to better understand the connection between language and thought. This is an opportunity for a new enlightenment.
/****
A slightly abridged version of this text appeared in the German magazine “Human” 3/24. The issue can be ordered. [German Version]
****/
Since its invention in the course of the Dartmouth Workshop of 1956, the term “artificial intelligence” has been the subject of a battle of interpretation that its users ultimately always lose. Artificial intelligence research is to intelligence what negative theology is to God. It constantly finds out what intelligence is not. We learned early on that mental arithmetic of all things is the simplest problem to solve digitally, that even sorting apparently doesn’t require much intelligence, that not even playing chess or Go is a definitive proof of intelligence, that cats can be distinguished from dogs or even driving a car apparently can be done without a great deal of intelligence.
In the face of the current hype surrounding generative artificial intelligence – image generators like Midjourney or large language models (LLMs) like ChatGPT – the question arises again: is the astonishingly correct use of words and images by machines “intelligent”?
One faction believes to recognize a “spark of general intelligence” in the large frontier models such as GPT-4, Claude 3, Gemini 1.5, the other faction believes that we are only dealing with “stochastic parrots”, a kind of autocorrection on speed. So the dispute is about “cognition” and whether the “intelligence” is in the machine. It seems more sensible to me to first clarify the relationship between language and thought.
Derrida and the Linguistic Turn
In the second half of the 20th century, the “linguistic turn” occurred in the Humanities. Roughly speaking, the assumption that the possibility of thought is linked to the use of language became widespread, a thesis that is still discussed today in cognitive science as the Sapir–Whorf hypothesis. According to this thesis, we have no direct access to the world because our perception is already symbolically mediated. The cultural studies theories that emerged at the time, in particular “structuralism”, thus sought to make the hidden structural influences of language on thought visible.
Jaques Derrida, as a representative of “post-structuralism”, went one step further and showed that even the signs themselves have no direct reference to the world. Language is not a gateway to reality, but a free-floating system of symbolic referentiality. Derrida’s texts are difficult to understand, but to illustrate his point for our purposes, it is enough to pick up a dictionary. If you look up a word, you will only ever be referred to other words, and if you look them up, you will only find more words, etc. According to Derrida’s thinking, signs only ever refer to other signs, rather than to some kind of “reality”.
The mere fact that LLMs can spit out semantically correct sentences based only on linguistic utterances, without any reference to reality, seems to fundamentally confirm this thesis. However, the closer you look at the technology of AI, the more you get the impression that large language models are operationalized post-structuralism.
Meaning in latent space
Large Language Models always output the next word using probabilistic calculations. In contrast to traditional autocorrect, the LLM not only includes the previous word in the probability calculation, but all previous words. And these previous words are not simply included in the calculation as a combination of letters, but as so-called “embeddings”.
Words or parts of words are called “embeddings” if they are put into a relationship to all other words within a „vector space“. This vector space in LLMs is also called “latent space” and can be imagined as a thousand-dimensional network of terms and all their occuring relationships. The latent space is the result of the LLM’s basic training, in which all the different ways in which terms can be related to each other were stored by statistically measuring through millions of texts.
Since all the connections are precisely weighted, the expanses of this highly complex network cloud contain both close and distant relationships of all kinds: functional, syntactical, legal, foreign-language, ethical, political, aesthetic, etymological and, of course, numerous associative constellations. The Latent Space is a rugged, multi-dimensional landscape of our language.
If we zoom into this network, we find, for example, the word “king”, which has a specific location in this network that results from the connections to thousands of other words. One of these vectors, with which “king” is associated, is the vector “man”. If you subtract “man” from the “king” vector and add the “woman” vector, you end up in the latent space with the word “queen”.
On closer inspection, the latent space turns out to be a more complex variant of Derrida’s dictionary. And just as the dictionary promises us orientation in terms, the latent space of the LLM serves as a map of language. And just as the road network maps out all possibilities for getting from A to B, in Latent-Space all existing and possible sentences, paragraphs, essays or books are laid out as latent routes.
For Derrida, meaning is an effect of moving within this network. It manifests itself in reading, speaking, writing, and thinking as a concrete route from one point in the network to another. Reading, speaking, writing, and thinking are thus navigational maneuvers within this bizarre landscape, in which not all paths are equally probable. Those who want to be understood follow the well-trodden paths.
Technically, you can imagine the process like this: when reading the prompt, the model follows the predefined path (the prompt) within the latent space, word for word, enriching what it reads with all kinds of “embedded”, i.e. multi-dimensional contextual semantics. At the end of the prompt, it then turns its position in the network into the starting point for an independent navigation, the aim of which is to extend the given path to its conclusion in a “plausible way”.
To put some distance between LLMs and humans again, it helps to imagine the latent space of LLMs as a limited and reduced dimensional “impression” of human semantics. Just as the footprint does not represent the whole foot, the latent space also lacks a number of dimensions that we humans include in our references when reading, speaking, writing, and thinking. Emotional, social, material, and even cognitive vectors of consciousness are simply not available to the LLM. You could say that machine semantics is broad and flat, while human semantics is deep and narrow.
Semantics all the way down
But what does this tell us about the machine’s ability to think? It means, first of all, that part of what we perceive as intelligent in humans, and more recently in machines, lies outside the brain and the data center. A good deal of human intelligence is encoded in language, in shared semantics. And this is not primarily a technical or cognitive discovery, but rather one that impacts cultural studies.
This becomes clear if, with Niklas Luhmann, we understand “semantics” as the “stock of meaning of a society”. It is not just about language and writing, but about all conceivable forms of meaning. Although image and audiovisual semantics are also made operational by the image, audio and video generators, we have to imagine the human semantic space as much more comprehensive. From “indicating left turn” to history, from the middle finger to the scientific experiment, from dark metal to the spring collection. The way I move my hand is semantics, “zeitgeist” is a very specific set of semantics, a single look can overflow with semantics, every couple develops an intimate private semantics, even grammar is a semantics and what a dog experiences when it walks through the forest, surrounded by millions of exciting smells, is a thicket of semantics that are plausible to him.
When Heidegger speaks of language as “the house of being”, he means our inclusion in this network of semantics. Each of us inhabits only a small part of this overall structure, and this part essentially determines what we are able to think at all. We are born into our semantic section and have been working ever since to expand it, looking for connections, learning words, works and gestures, and some rooms we have not entered for quite some time.
From world model to program
In a sense, the post-structuralist view thus seconds the notion of the stochastic parrot, albeit with the addition that human thought also consists to a large extent of stochastic semantics routing.
The opposing side always points to the “reasoning” abilities of models such as GPT-4 or Claude 3, and indeed it is astonishing how they can not only produce semantically correct sentences like “The ice melts in the sun,” but also perform surprisingly well in exam papers and other benchmarks. LLMs show themselves to be surprisingly empathetic and creative and can apply theories and methods correctly in a wide variety of contexts. The developers of the systems beliefe that the LLMs have developed a “world model” in the course of their training that allows them to use these often imperfect “reasoning” abilities.
We now have a simpler explanation: no one doubts that language is a system of rules at the orthographic and grammatical level, and LLM shows that this also applies to meaning and to all concepts, logics, methods and theories. Whether grammar, algebra, multistakeholder analysis or interpreting poetry: these are all rule-based thought templates, patterns of correct expression or factories of probable sentences.
Francois Chollet, an AI researcher and Google employee, calls these macro-semantic rule complexes “programs”. Of course not in the literal sense of machine-readable code, but rather as macro-semantic paths that have sedimented in the learning process and were generalized for applicability. Just as plausible words are strung together when formulating sentences, statements are arranged along predetermined paths when macro-semantic programs are applied. By applying them, LLMs work their way through the corresponding context and perform their rule-based operations on it, in order to generate an expected output.
We humans have also practiced many of these macro-semantic programs, sometimes consciously, but more often unconsciously. And because they also determine our view of the world, I see an emancipatory mission resulting from the invention of the LLM. This archive is incredibly deep and possibly contains the programs for all our thinking. Extracting, examining and debating these social semantics of ours, offers the possibility of a new enlightenment.
]]>Large Language Models wie ChatGPT können uns helfen, den Zusammenhang zwischen Sprache und Denken besser zu verstehen. Darin liegt die Chance für eine neue Aufklärung.
/******
Eine leicht gekürzte Version dieses Textes erschien im Magazin „Human“ 3/24. Das Heft kann man hier bestellten. [English Version]
******/
Seit seiner Erfindung im Zuge des Dartmouth Workshop von 1956 rankt um den Begriff der „Künstliche Intelligenz“ ein Deutungskampf, der für seine Verwender letztendlich immer verloren geht. Künstliche Intelligenz-Forschung verhält sich zu Intelligenz, wie negative Theologie zu Gott. Sie findet ständig heraus, was Intelligenz nicht ist. Früh lernten wir, dass ausgerechnet Kopfrechnen das einfachste digital zu lösende Problem ist, dass auch Sortieren anscheinend nicht viel Intelligenz benötigt, dass nicht mal Schach- oder Go-Spielen ein endgültiger Ausweis von Intelligenz ist, dass auch Katzen von Hunden zu unterscheiden oder sogar Autofahren offenbar ohne besonders viel Intelligenz zu bewerkstelligen ist.
Angesichts des aktuellen Hypes um generative Künstliche Intelligenz – Bildgeneratoren wie Midjourney oder Large Language Modells (LLMs) wie ChatGPT – ist die Frage wieder in aller Munde: ist die erstaunlich korrekte Verwendung von Wörtern und Bildern durch Maschinen „intelligent“?
Die eine Fraktion glaubt, einen „funken genereller Intelligenz“ in den großen Frontier-Modellen wie GPT-4, Claude 3, Gemini 1.5 zu erkennen, die Gegenseite glaubt, dass wir es nur mit „stochastischen Papageien“ zu tun haben, einer Art Autokorrektur auf Speed. Es wird also um „Kognition“ gestritten und darum, ob die „Intelligenz“ in der Maschine steckt. Mir scheint es sinnvoller, erstmal zu klären, wie Sprache und Denken zusammenhängen.
Derrida und der Linguistic Turn
In der zweiten Hälfte des 20. Jahrhunderts ereignete sich in den Kulturwissenschaften der „Linguistic Turn“. Ganz grob gesprochen verbreitete sich die Annahme, dass die Möglichkeit des Denkens an die Verwendung von Sprache gekoppelt sei, eine These die noch heute in der Kognitionswissenschaft als Sapir–Whorf-Hypothese diskutiert wird. Der These zufolge haben wir keinen direkten Zugriff auf die Welt, weil schon unsere Wahrnehmung symbolisch vermittelt ist. Die damals entstandenen kulturwissenschaftlichen Theorien, insbesondere der „Strukturalismus“, versuchte folglich die verdeckten Struktureinflüsse der Sprache auf das Denken sichtbar zu machen.
Jaques Derrida ging als Vertreter des „Poststrukturalismus“ noch einen Schritt weiter und zeigte, dass auch die Zeichen selbst keinen direkten Bezug auf die Welt haben. Sprache sei kein Gateway zur Realität, sondern ein freiflottierendes System der Referenzialität der Zeichen. Derridas Texte sind schwer verständlich, aber um seinen Punkt für unsere Zwecke zu veranschaulichen, reicht es, ein Wörterbuch zur Hand zu nehmen. Schlägt man darin ein Wort nach, wird man immer nur auf andere Worte verwiesen und schaut man diese nach, stößt man ebenfalls wieder nur auf Worte, usw. Dem Denken Derridas zufolge verweisen Zeichen immer nur auf andere Zeichen, statt auf irgendeine „Realität“.
Allein die Tatsache, dass LLMs, so ganz ohne jeden Realitätsbezug und nur durch die Auswertung sprachlicher Äußerungen semantisch korrekte Sätze ausspucken können, wirkt wie eine grundsätzliche Bestätigung dieser These. Doch je näher man sich mit der Technik der KI beschäftigt, desto mehr verdichtet sich der Eindruck, dass Large Language Models operationalisierter Poststrukturalismus sind.
Bedeutung im Latent-Space
Large Language Models geben immer das jeweils nächste Wort mittels Wahrscheinlichkeitsrechnung aus. In die Berechnung der Wahrscheinlichkeit bezieht die LLM im Gegensatz zur klassischen Autokorrektur nicht nur das vorherige Wort, sondern alle Vorherigen Worte mit ein. Und diese vorherigen Worte wiederum gehen nicht einfach als Buchstabenkombination mit in die Berechnung ein, sondern als sogenannte „Embeddings“.
„Embeddings“ werden Worte oder Wortbestandteile genannt, wenn sie mit allen anderen Worten in einem Vektorraum auf vielfältige Weise in Bezug gesetzt werden. Dieser Vektorraum wird bei LLMs auch „Latent-Space“ genannt und man kann sich ihn als tausenddimensionales Netzwerk von Begriffen und ihren möglichen Beziehungen vorstellen. Der Latent-Space ist das Resultat des Basistrainings der LLM, bei dem durch die statistische Durchmessung von Millionen von Texten all die unterschiedlichen Möglichkeiten abgespeichert wurden, in denen Begriffe zueinander in Beziehung stehen können.
Da alle Verbindungen exakt gewichtet sind, finden sich in den Weiten dieser hochkomplexen Netzwerkwolke Nähen und Fernen, darunter funktionale, syntaktische, rechtliche, fremdsprachige, ethische, politische, ästhetische, etymologische und natürlich etliche assoziative Konstellationen. Der Latent-Space ist eine zerklüftete, vieldimensionale Landschaft der Sprache.
Wenn wir in dieses Netzwerk hineinzoomen, dann finden wir dort z.B. das Wort „König“, das einen konkreten Ort in diesem Netzwerk hat, der sich aus den Verbindungen zu tausenden anderen Worten ergibt. Einer dieser Vektoren, mit dem „König“ im Zusammenhang steht, ist der Vektor „Mann“. Zieht man „Mann“ vom Vektor „König“ ab und addiert den Vektor für „Frau“ hinzu, dann landet man im Latent-Space beim Wort „Königin“.
Bei genauerer Betrachtung haben wir es beim Latent-Space also nur mit einer komplexeren Variante von Derridas Wörterbuch zu tun. Und so wie uns das Wörterbuch Orientierung in den Begriffen verspricht, so dient auch der Latent-Space der LLM als Landkarte der Sprache. So wie das Straßennetz alle Möglichkeiten des von A nach B-kommens vorzeichnet, so sind im Latent-Space alle existierenden und möglichen Sätze, Absätze, Aufsätze oder Bücher als latente Routen angelegt.
Bedeutung ist bei Derrida ein Effekt des sich Bewegens in diesem Netzwerk. Sie manifestiert sich im Lesen, Sprechen, Schreiben, Denken als konkrete Route von einem Punkt im Netzwerk zu einem anderen. Lesen, Sprechen, Schreiben, Denken sind also Navigationsmanöver innerhalb dieser bizarren Landschaft, in der nicht alle Wege gleichwahrscheinlich sind. Wer verstanden werden will, folgt den ausgetretenen Pfaden.
Technisch kann man sich das so vorstellen: Beim Einlesen des Prompts läuft das Modell den von uns vorgezeichneten Pfad im Latent-Space Wort für Wort ab und reichert dabei das Gelesene mit allerlei „embeddeten“, d.h. vieldimensional kontextuellen Semantiken an. Am Ende des Prompts macht es seine Position im Netzwerk dann zum Ausgangspunkt einer selbstständigen Navigation, bei der es darum geht, den vorgegebenen Pfad auf „plausible Art“ zu Ende zu führen.
Um wieder etwas Abstand zwischen LLMs und Menschen zu bringen, hilft es, sich den Latent-Space der LLMs als einen begrenzten und unterdimensionierten „Abdruck“ menschlicher Semantiken vorzustellen. So wie der Fußabdruck nicht den ganzen Fuß abbildet, fehlen auch im Latent-Space etliche Dimensionen, die wir Menschen in unseren Bezugnahmen beim Lesen, Sprechen, Schreiben, Denken einbeziehen. Emotionale, soziale, materielle und auch die kognitiven Vektoren des Bewusstseins stehen der LLM schlicht nicht zur Verfügung. Man könnte sagen, die maschinelle Semantik ist breit und flach, die menschliche dagegen tief und eng.
Semantiken all the Way down
Doch was sagt das jetzt über die Denkfähigkeit der Maschine aus? Es bedeutet erstmal, dass ein Teil dessen, was wir bei Menschen, wie neuerlich bei Maschinen als intelligent wahrnehmen, außerhalb der Gehirne und Rechenzentren liegt. Ein Gutteil der menschlichen Intelligenz ist in der Sprache codiert, in den geteilten Semantiken. Und das ist nicht in erster Linie eine technische oder kognitionswissenschaftliche, sondern eine kulturwissenschaftliche Entdeckung.
Das wird klar, wenn man „Semantik“ mit Niklas Luhmann als den “Bedeutungsvorrat der Gesellschaft“ versteht. Es geht eben nicht nur um Sprache und Schrift, sondern um alle denkbaren Weisen des Bedeutens. Zwar werden mit den Bild-, Audio- und Video-Generatoren parallel auch die bildlichen und audiovisuellen Semantiken operationalisierbar gemacht, doch man muss sich den menschlichen, semantischen Raum noch viel umfassender vorstellen. Vom „Links Blinken“ bis zur Geschichtswissenschaft, vom Stinkefinger zum experimentellen Versuchsaufbau, von Dark Metall bis zur Frühjahrskollektion. Die Art meine Hand zu bewegen ist Semantik, „Zeitgeist“ ist ein ganz bestimmtes Set an Semantiken, ein einziger Blick kann vor Semantik überquellen, jedes Liebespaar entwickelt eine intime Privatsemantik, selbst Grammatik ist eine Semantik und das, was ein Hund erfährt, wenn er durch den Wald läuft, umgeben von Millionen spannenden Gerüchen, ist ein Dickicht aus für ihn plausiblen Semantiken.
Wenn Heidegger von der Sprache als „das Haus des Seins“ spricht, dann meint er unsere Eingeschlossenheit in dieses Netzwerk aus Semantiken. Jeder von uns bewohnt nur einen kleinen Ausschnitt dieses Gesamtgefüges und der bestimmt wesentlich mit, was wir überhaupt in der Lage sind, zu denken. Wir sind in unseren Semantik-Ausschnitt hineingeboren und arbeiten seitdem daran, ihn auszudehnen, suchen Anschlüsse, lernen Worte, Werke und Gesten und manche Zimmer haben wir schon länger nicht mehr betreten.
Vom World Modell zum Programm
In gewisser Weise gibt die poststrukturalistische Betrachtung also dem Bild des Stochastischen Papageien statt, allerdings mit der Ergänzung, dass auch das menschliche Denken zu einem Gutteil aus stochastischer Regelbefolgung besteht.
Die Gegenseite verweist dann immer auf die „Reasoning“-Fähigkeiten von Modellen wie GPT-4 oder Claude 3 und tatsächlich ist es erstaunlich, wie sie nicht nur semantisch korrekte Sätze, wie „Das Eis schmilzt in der Sonne“ produzieren können, sondern auch in Examensklausuren und anderen Benchmarks überraschend gut abschneiden. LLMs zeigen sich erstaunlich empathisch und kreativ und können Theorien und Methoden in unterschiedlichsten Kontexten richtig anwenden. Von den Entwicklern der Systeme heißt es, die LLMs hätten sich im Zuge ihres Trainings ein „World Modell“ erarbeitet, das ihnen diese noch oft unperfekten „Reasoning“-Fähigkeiten erlaubt.
Wir haben jetzt eine einfachere Erklärung: Dass Sprache ein Regelsystem ist, zweifelt auf der orthographischen und grammatikalischen Ebene niemand an und die LLM zeigt eben, dass das auch für Bedeutungen und auch für alle Konzepte, Logiken, Methoden und Theorien gilt. Egal ob Grammatik, Algebra, Multistakeholder-Analyse oder Gedichtinterpretation: Alles das sind regelgeleitete Denkschablonen, Strukturen des Richtigen Sagens oder Fabriken wahrscheinlicher Sätze.
Der KI-Forscher und Google-Mitarbeiter, Francois Chollet nennt diese makrosemantischen Regelkomplexe „Programme“. Natürlich nicht im wortwörtlichen Sinne wie maschinenlesbarer Code, sondern Programme vielmehr als im Lernprozess hängengebliebene und zur Anwendwendbarkeit abstrahiert markosemantische Pfade. So wie beim Formulieren von Sätzen plausible Worte aneinandergereiht werden, werden bei der Anwendung solcher makrosemantischen Programme Aussagen entlang vorgezeichneter Pfade arrangiert. Wenn die LLM sie anwendet, arbeitet sie sich entlang ihrer regelgeleiteten Operationen durch den entsprechenden semantischen Kontext und ist so in der Lage automatisiert einen erwartungsgemäßen Output zu generieren.
Auch wir Menschen haben etliche dieser makrosemantischen Operationen eingeübt, manchmal bewusst, viel öfter unbewusst. Und weil sie auch unseren Blick auf die Welt bestimmen, sehe ich in der Erfindung der LLM einen emanzipatorischen Auftrag. Dieses Archiv ist unglaublich tief und darin sind womöglich alle Programme codiert, die unser Denken leiten. Im Extrahieren, Untersuchen und zur Debatte stellen dieser unserer gesellschaftlichen Semantiken steckt die Möglichkeit einer neuen Aufklärung.
]]>/******
Für den Tagungsband „Materialität des Digitalen“ habe ich meinen Vortrag über Materialität und Austauschbarkeit verschriftlicht. Er bildet – zusammen mit „KI ist ein Coup“ – die Vorstudie eines größeren Projektes zur politischen Ökonomie der Abhängigkeiten, zu dem es hier noch einiges zu lesen geben wird.
******/
Einleitung
In einer 2015 viral gegangenen Vortragsfolie schreibt Tom Goodwin:
(Goodwin via McAfee/Brynjolfsson 2017: 8)
»Uber, the world’s largest taxi company, owns no vehicles. Facebook, the world’s most popular media owner, creates no content. Alibaba, the most valuable retailer, has no inventory. And Airbnb, the world’s largest accommodation provider, owns no real estate« .
In der beschriebenen Welt schweben die Plattformunternehmen über der Welt des Materiellen und dirigieren Autos, Inventar und Immobilien durch algorithmische Suggestion, wie der Zauberlehrling Besen und Eimer. Das Digitale hat den Kapitalismus ohne Frage ordentlich umgestaltet. Und im Zentrum steht dabei eine Abkehr vom Materiellen. Dieser Befund hat jedoch zwei Probleme:
Hier ein Auszug aus dem Bestseller No Logo von Naomi Klein (1999):
»The astronomical growth in the wealth and cultural influence of multinational corporations over the last fifteen years can arguably be traced back to a single, seemingly innocuous idea developed by management theorists in the mid-1980s: that successful corporations must primarily produce brands, as opposed to products«
(Klein 1999: 25)
Klein hatte schon um die Jahrtausendwende die Alarmglocken geläutet, dass sich der Kapitalismus aus der Welt der Dinge – also der Maschinen, der Arbeit, der Produkte – verabschiedet. Klein konzentriert ihre Analyse auf die Rolle des »Brandings«. Sogenannte »Superbrands« wie Nike oder Disney, so Klein, halten sich nicht mehr mit der Produktion von Waren auf, sondern sind praktisch reine Marketingfirmen ihrer selbst geworden, während die tatsächliche Produktion der Güter outgesourced wird.
Ich möchte deswegen die Gelegenheit nutzen, etwas weiter auszuholen und die Frage von Materialität und Immaterialität von der der Bits und Bytes lösen, um einen breiteren Begriff des Immateriellen, oder besser: des Dematerialisierten, zu entfalten. Mit dem Supply-Chain-Kapitalismus hat bereits im letzten Jahrhundert eine tiefgreifende Transformation des Kapitalismus eingesetzt, die dem Immateriellen gegenüber dem Materiellen den Vorzug gibt und das im aktuellen Plattformparadigma lediglich seinen derzeitigen Höhepunkt gefunden hat. Doch was steckt hinter dieser Transformation? Warum verlor das Materielle in den letzten Jahrzehnten an ökonomischer Bedeutung? Und wie verhalten sich die beiden Formen der Dematerialisierung – einerseits der Supplychains, andererseits der Plattformen – zueinander? Gibt es soetwas wie ein Bewegungsgesetz der Dematerialisierung?
Die Schwerelosigkeit der Marke
Naomi Klein erzählt die Geschichte der Dematerialisierung als Konsequenz eines Kapitalismus, der seine Nachfrage übertrumpft hat. Die Massenproduktion von Gütern war bis in die 1970er Jahre der Grundstein des wachsenden Wohlstands in der westlichen Welt. Seit den 1970er Jahren geriet die amerikanische Wirtschaft allerdings in eine Absatzkrise. Es wurde schlicht mehr produziert, als nachgefragt wurde. Um diese Nachfragesättigung zu überwinden, wurden immer mehr Geld und Ressourcen in Werbung und Marketing gesteckt; ein Wirtschaftszweig der dementsprechend einen wachsenden Anteil in der Ökonomie einnahm.
»Ever since mass production created the need for branding in the first place, its role has slowly been expanding in importance until, more than a century and a half after the Industrial Revolution, it occurred to these companies that maybe branding could replace production entirely«
(Klein 1999: 205).
Klein ist dabei sehr bewusst, dass die Immaterialität dieser Art des Wirtschaftens eine vorgetäuschte ist. Sie schreibt:
»Despite the conceptual brilliance of the ›brands, not products‹ strategy, production has a pesky way of never quite being transcended entirely: somebody has to get down and dirty and make the products the global brands will hang their meaning on«
(Klein 1999: 210)
Sie nimmt uns sodann mit auf eine Reise in die Länder des globalen Südens, wo sie die Fabriken der Zulieferbetriebe besichtigt hat, die Nike-Schuhe und Mickey Mouse-Puppen herstellen. Sie hat mit Arbeiter*innen gesprochen, die in sogenannten »Sonderwirtschaftszonen« noch weniger Rechte haben und noch skrupelloser ausgebeutet werden, als es in diesen Ländern sowieso schon üblich ist. Produkte in den Sonderwirtschaftszonen produzieren zu lassen ist natürlich billiger, weil die Arbeitskosten viel niedriger als in westlichen Industrienationen sind. Aber ein weiterer attraktiver Aspekt für diese Firmen ist, dass sich Marken nicht mit den Subunternehmern assoziieren lassen müssen. Klein erzählt die Geschichte des Disney-Unternehmenssprechers Ken Green, der auf die kritische Frage nach den unmenschlichen Arbeitsbedingungen in den Fabriken in Haiti entgegnete »We don’t employ anyone in Haiti« (Klein 1999: 205).
Klein hat durchaus recht, wenn sie sagt, dass die Konzentration auf Marketing und Branding einer der Treiber der Abkehr vom Materiellen ist. Das ist aber nur die halbe Wahrheit. Denn das, was diese Firmen überhaupt befähigt, Zulieferer in anderen Regionen der Welt zu beauftragen, basiert auf einer zweiten großen, wenn nicht viel grundlegenderen Verwandlung des Kapitalismus: die strukturelle Transformation großer Teile der Weltwirtschaft durch die Entstehung transnationaler Lieferketten und damit die Verwandlung des herkömmlichen Kapitalismus in eine neue, globalisierte Spielart: den Supplychain-Kapitalismus.
Der Aufstieg des Supplychain-Kapitalismus
Supplychains halten seit Anfang der 1980er Jahre vermehrt Einzug in die Management-Literatur, und auch wenn man sich heute damit befassen will, wird man vor allem in den Büchern und Aufsätzen der Wirtschaftswissenschaft oder der Managementtheorie fündig. Dort wird die Geschichte als eine Erfolgsgeschichte moderner Managementmethoden in einer sich zunehmend globalisierenden Welt erzählt.
Am Anfang steht die Feststellung, dass die Prozesse zur Herstellung, Distribution und Vermarktung von Produkten vielfältig sind und ganze Ketten von Wertschöpfungsstationen durchlaufen, die der Management-Theoretiker Michael Porter »Value Chains« nennt (Porter 1985).
Mit der Ausbreitung von modernen Kommunikationsmitteln reduzieren sich die Transaktionskosten so sehr, dass es wirtschaftlich wird, die einzelnen Stationen der Wertschöpfung an unterschiedliche Akteure outzusourcen (Sanyal 2012). Dies ermöglicht die Verteilung der Produktion über die ganze Welt, während der Markt dafür Sorge trägt, dass sich alle Stationen entlang des optimalen Preis-/Leistungsverhältnis verteilen.
Schon seit David Ricardo wissen wir, dass Länder, die sich auf bestimmte Produkte spezialisieren, einen »komparativen Vorteil« haben, so dass sich die globale Werkbank entsprechend ausdifferenziert (Christopher/Daco 2012). Zum Beispiel spezialisierte sich Japan bald auf Unterhaltungselektronik, Bangladesch auf Textilien, Deutschland auf Autos und Maschinen und die USA eben auf Software und Marketing. Überdies standardisierte die »Inter national Standards Organization« in den 1960er Jahren den Schiffscontainer und gibt damit der Globalisierung einen Extraschub. Mit dem ISO-Container-Standard können Be- und Entladung von LKWs, Zügen und Schiffen enorm beschleunigt und die weltweite Logistik viel effizienter organisiert werden (Sanyal 2012; Heilweil 2021).
Es sei außerdem auf die internationale Standardisierung des multilateralen Handels durch das GATT-Abkommen und schließlich auf die Gründung der Welthandelsorganisation (WTO) hingewiesen, die für einheitliche Handelsregime und den Abbau von Zöllen und anderen Handelsbarrieren sorgte. Dazu kommen die vielen multilateralen Freihandelsabkommen der letzten Jahrzehnte wie etwa TRIPS, CETA und TTIP, die Handelsregime weltweit harmonisieren und damit die Transaktionskosten des globalen Handels weiter reduzieren (Nicita/Ognivtsev/Shirotori 2013).
Mit der Ausbreitung der Supplychains wurde die Globalisierung erst so richtig angeschoben. Zwar gab es auch vorher internationale Konzerne. Das waren jedoch Unternehmen, die ein internationales Filialnetz unterhielten oder international Handel trieben. Der Supplychain-Kapitalismus sortiert die Länder der ganzen Welt in eine globale Arbeitsteilung. Das führte einerseits zu enormem wirtschaftlichen Wachstum in manchen Regionen. Während noch Ende der 1980er Entwicklungsländer etwa 5% des weltweiten Handels beisteuerten, sind es heute fast 50%, und 80% aller gehandelten Güter durchlaufen globale Supplychains (Vaughan-Whitehead 2022).
Kurz: Supplychains waren einfach eine gute Idee zur rechten Zeit, die sich deswegen entlang von technischen Innovationen und politischen Entscheidungen am Markt durchgesetzt haben und seitdem für günstige Produkte im Westen und für wachsenden Wohlstand im globalen Süden sorgen.
Der Aufstieg des Supplychain-Kapitalismus nach Anna Tsing
Solche und ähnliche Beschreibungen des Supplychain-Kapitalismus sind zwar nicht völlig falsch, aber unvollständig und ahistorisch. Anna Tsing erzählt in ihrem Buch „The Mushroom at the End of the World“ den Aufstieg der Supplychains ganz anders (Tsing 2015: 107ff.), und zwar als eine Geschichte zweier konkurrierender Mächte: Japan und die USA. Als 1853 amerikanische Kanonenboote an der Küste vor Japan die Öffnung der japanischen Volkswirtschaft für den internationalen Handel erzwangen, sorgte das dort für einen politischen Umsturz und führte zu einer rapiden Verwestlichung der japanischen Kultur. Es entwickelte sich schnell eine moderne Ökonomie mit Fabriken, Banken und Handel. Anfang des 20. Jahrhunderts formten sich bereits die ersten Konglomerate, also Firmenstrukturen, die Unternehmen mit unterschiedlichen Funktionen unter einem Konzerndach etablierten. Dabei ging es darum, die Industrieproduktion mit starken Handelsunternehmen zu flankieren und mittels hauseigener Banken zu finanzieren. Nach dem verlorenen Zweiten Weltkrieg formierten sich die Konglomerate neu als »Enterprise Groups« und fingen an, Zulieferer in anderen Ländern zu gründen. Finanziert wurde das durch Kredite der Banken, die die Mischkonzerne an die gegründeten Zulieferer und zusammen mit eigenem Know-how weiterreichten. Die Zulieferer waren damit zwar formell unabhängig, aber wirtschaftlich doch abhängig, so dass sie bequem aus Japan gesteuert werden konnten.
Die Vorteile waren vielfältig: man konnte auf die Ressourcen des jeweiligen Landes zugreifen, ohne politische oder öffentlichkeitsbedingte Risiken einzugehen. Der Zulieferer übernahm formell die Verantwortung für Arbeiter*innen und Umwelt und kapselte die sich daraus ergebenden Risiken und potenziellen Kostenfaktoren vom Leitunternehmen ab (»We don’t employ anyone in Haiti«).
Gleichzeitig konnten die Leitunternehmen die Zulieferer schnell austauschen, etwa wie im von Tsing geschilderten Beispiel, die Holzarbeiter*innen von den Philippinen schnell nach Indonesien übersetzten, wenn dort der Wald knapp wurde (vgl. Tsing 2015: 116). Das bedeutet, dass die Zulieferer in eine kompetitive Situation versetzt wurden, die ihre Verhandlungsmacht mit den Leitunternehmen von vornherein begrenzte (Danielsen 2019).
Ein weiterer Faktor waren Einfuhrbeschränkungen in den USA, die aus Angst vor der immer größer werdenden japanischen Konkurrenz eingerichtet wurden. Südkorea war eines der ersten Länder, das vom frühen Supplychain-Boom durch japanische Unternehmen profitierte und entsprechend eine eigene industrielle Basis ausbauen konnte.
Diese konnte dann wiederum dazu genutzt werden, um die Produkte von dort in die USA zu verschiffen und so die Einfuhrbeschränkungen zu umgehen. Die japanischen Leitunternehmen achteten dabei sehr genau darauf, dass Südkorea immer einen oder zwei technologische Schritte hinter den japanischen Konzernen verblieben. Gleichzeitig begannen die Zulieferer in Korea ihrerseits weniger anspruchsvolle Arbeiten an Zulieferer in anderen Regionen auszulagern. Das Modell begann sich global zu streuen. In Japan wurden diese Supplychain-Verzweigungen mit der Metapher der »Fliegenden Gänse« beschrieben. Die Leitgans fliegt voraus, die anderen sortieren sich dahinter, aber alle fliegen in eine Richtung.
Unter dem Druck des Erfolgs der japanischen Industrie und ihrem Supplychain-Modell begannen in den späten 1980er Jahren auch amerikanische Investor*innen die US-Industrie umzubauen. Unternehmensfusionen, Aufkauf durch Hedgefonds, das Abspalten und Auslagern von unwirtschaftlichen Unternehmensteilen waren bis einschließlich der gesamten 1990er Dauerthema in den USA und mit etwas Zeitverzug auch in Europa.
Und hier sind wir zurück bei Nike. Der Konzern ging ursprünglich aus dem amerikanischen Handelsarm eines japanischen Konzerns hervor, der bereits umfassende Erfahrung mit der Organisation von Supplychains hatte. Die amerikanische Ausgründung konnte dieses Wissen mit dem amerikanischen Know-how zu Marketing und Branding kombinieren, was zu dem sagenhaften Erfolg des Unternehmens führte. Ähnlich wie das amerikanische Kanonenboot, dass im 19. Jahrhundert die Öffnung der japanischen Ökonomie erzwang, haben japanische Lieferketten eine Umorganisation der amerikanischen Wirtschaft erzwungen. Oder wie es die Figur Joseph Yoshinobu Takagi in dem Film Stirb Langsam (Die Hard) ausdrückt: »We’re flexible, Pearl Harbor didn’t work out so we got you with tape decks.«
Supplychains sind historisch betrachtet nicht einfach Managementideen, die sich am Markt durchgesetzt haben, sondern es sind bewusst in die Welt gesetzte hierarchische Strukturen, die zur Minimierung von Verantwortlichkeit bei gleichzeitiger Maximierung von Kontrolle geschaffen wurden. Damit wird auch klar, dass es dabei nicht in erster Linie um wirtschaftliche Zusammenarbeit geht, sondern um Macht.
Abhängigkeit und Austauschbarkeit
Um diese Machtstrukturen genauer zu analysieren, erweist sich der Rückgriff auf den viel zu wenig rezipierten Aufsatz von Richard M. Emerson Power-Dependence Relations aus dem Jahr 1962 als nützlich (Emerson 1962) 1.
Emerson definiert hier die Macht zwischen Akteuren als die wechselseitige Abhängigkeit dieser Akteure. Macht ist bei ihm also immer ein relationales Verhältnis und es ist umgekehrt proportional zur Abhängigkeit in der Relation:
Wenn A abhängig von B und B abhängig von A ist, dann ist die Macht von A über B B’s Abhängigkeit von A und umgekehrt. Dass Abhängigkeit und damit auch Macht immer wechselseitig gedacht wird, widerspricht dabei nicht der Beobachtung, dass es durchaus Machtungleichgewichte gibt. So kann A weit weniger abhängig sein von B als B von A (Emerson 1962).
Stellen wir uns eine ausgeglichene Beziehung vor: A und B sind hier zwei Kinder aus der Nachbarschaft. Die beiden Kinder spielen gern zusammen, denn allein spielen ist langweilig. Sie sind also beide von der wechselseitigen Kooperation abhängig. Würde A sich weigern, mit B zu spielen, könnte B sein Ziel (gemeinsames Spielen) nicht erreichen. Aber A könnte es ebenso wenig.
Nun zieht eine neue Familie in die Nachbarschaft, und A lernt C kennen, das gleichaltrige Kind der neuen Familie. Die beiden freunden sich an. Das verändert auch die Beziehung zwischen A und B, da A jetzt eine alternative Spielpartnerin hat. A hat nun mehr Macht über B, da er weniger abhängig von B ist als B umgekehrt von A. B müsste nun einen Balanceakt vollziehen, um dieses Machtungleichgewicht wieder auszutarieren. Dafür hat sie vier Optionen.
Wenn wir dieses einfache Framework auf die Zulieferketten anwenden, ergibt sich ein klares Bild: Um einen Nike-Schuh herzustellen, sind alle Akteure (das Leitunternehmen sowie alle Zulieferfirmen) wechselseitig voneinander abhängig. Jedoch gibt es Unterschiede: Jeder Einzelne der Zulieferer – egal ob er Stoffe, Plastik oder Kordeln herstellt – ist aus Sicht des Leitunternehmens recht einfach austauschbar (Balanceakt 2). Es gibt viele konkurrierende Unternehmen und selbst wenn es sie nicht gäbe: das Wissen um Stoffe, Plastik und Kordeln herzustellen ist schnell ins Werk gesetzt.
Das Leitunternehmen hingegen, Nike, betreut zwar nur die Marke und andere Rechte, aber diese Rechte sind dank internationaler Abkommen wie TRIPS und durch die WTO global geschützt (Balanceakt 4). Die Leitunternehmen kontrollieren daher monopolistisch den Zugang zur Wertschöpfung. Für die Zulieferer ergibt sich dadurch eine enorme Abhängigkeit, denn ohne den Zugang zu Nikes Verkaufsnetzwerk und seiner »Brand-Recognition« sind die Produktivitätskapazitäten der Zulieferer völlig nutzlos. Dadurch ist Nike der einzige Akteur in diesen wechselseitigen Beziehungen, der weniger von den anderen abhängig ist, als diese von ihm. Die »Fliegenden Gänse« sind also in Wirklichkeit eine Hierarchie der Macht, die von einem durch globale Gesetzgebung geschützten Leitunternehmen angeführt und ausgebeutet werden. Je tiefer man in die Verästelung der Lieferketten hinabsteigt, desto austauschbarer werden die Unternehmen und sind in Ableitung davon, entsprechend weniger fähig, erarbeitete Margen zu kassieren.
Empirisch lässt sich dieses Ungleichgewicht gut am Smartphone-Markt beobachten. Seit der Markt für iPhones gesättigt ist und die Verkaufszahlen stagnieren, sinkt entsprechend der Umsatz bei Foxconn, dem chinesischen Fabrikanten der iPhones, während Apple, das vor allem die Marke und die Patente kontrolliert, seinen iPhone-Umsatz um 20% steigern konnte (Danielsen 2019).
Im Supplychain-Kapitalismus gibt es nicht mehr nur die Ausbeutung von Arbeiter*innen durch Kapitalist*innen, sondern auch die Ausbeutung von Kapitalistinnen untereinander. Es entsteht eine globale Hierarchie der Kapitalist*innen, bei der sich nur die Zulieferer noch mit einfachen Arbeiter*innen herumschlagen müssen. Diese Zuliefer-Kapitalist*innen sitzen meist in eher strukturschwachen Ländern und müssen, um überhaupt am Spiel der globalen Lieferketten mitspielen zu dürfen, ihre Produktivitäts-Margen den Leitunternehmen opfern. Zu diesem Schluss kommt zum Beispiel Dan Danielsen:
»The fierce competition among developing-country suppliers in many business sectors will likely require supplier firms to make these innovations to gain access to or remain competitive in global supply chains with gains likely captured by buyer firms or shared across global chains«
(Danielsen 2019)
Und nun landen wir in einem scheinbaren Paradox: Die Firmen, die sich eigentlich nur noch mit dem Immateriellen beschäftigen – z.B. Nike oder Apple – sind am wenigsten austauschbar. Die Firmen, die die materiellen Komponenten beisteuern – die Fabrik, die Maschinen, die Arbeiter*innen, die physischen Produkte – sind das Austauschbare schlechthin.
Relationale Dematerialisierung
An dieser Stelle sind wir gezwungen, uns zu fragen, was Materialität eigentlich bedeutet. Ist es damit getan, das Materielle als physikalisch beschreib- und messbare (Energie, Masse) Entitäten zu definieren? Was wäre mit einer solchen essentialistischen Definition gewonnen? Natürlich sind solche Verweise auf Materialität wichtig, um über reale Effekte auf Umwelt und Menschen zu verweisen. Lieferketten extrahieren materielle Ressourcen und beuten menschliche Arbeit aus. Doch das Interessante ist doch gerade die Diskrepanz zwischen dem wirklich Materiellen und dem, was wir als tatsächlich harte Grenze des Mach- und Denkbaren empfinden. Nur diese Diskrepanz ermöglicht die Materialitätsvergessenheit, die es nötig macht, die Materialität überhaupt so direkt zu adressieren. Es ist, als gäbe es zwei widerstrebende Materialitäten: die eine, tatsächliche Materialität, die aber durch ihre zunehmende Austauschbarkeit aus dem Fokus der Aufmerksamkeit rutscht; und eine ›gefühlte‹ Materialität, die sich durch ihre tatsächlich empfundene Widerständigkeit unsere Grenzen absteckt, obwohl die ihr zugrunde liegenden Mechanismen rein ausgedachte und von Menschen ins Werk gesetzte sind (Markenrechte, Patente, Lizenzen, Verträge etc.).
Diese andere Materialität definiert sich durch kritische Abhängigkeiten, das heißt am Ende: Nicht-Austauschbarkeiten. Diese andere Materialität lässt sich mit Katharina Hoppe vom Relationalen her denken. Hoppe hat dies unter anderem in ihrem mit Thomas Lemke veröffentlichten Band Neue Materialismen zur Einführung vorgeschlagen (Hoppe/Lemke 2022: 164f.), aber noch einmal deutlicher in einem kürzlich veröffentlichten Interview:
»Wenn man konsequent von der Einsicht in die Relationalität her denkt und die Entstehung der Welt als offenen Prozess versteht, dann kann Materie als aktiv, aber auch als schlapp und passiv vorkommen. Dies wäre dann eben ein Ergebnis der jeweiligen Analyse und nicht ihre Voraussetzung«
(Hoppe via Schätzlein 2023)
Hoppe versucht, das Materielle von der Relationalität her zu denken und Materie an sich erstmal noch keine hervorgehobene Rolle zuzuweisen. Diese Rolle entsteht erst in der Verbindung, das heißt in der Interaktion.
Wie Hoppe denkt auch Anna Tsing in Konzepten von Verbundenheit.2 Tsing spricht nicht direkt von Materialität und Immaterialität, doch sie problematisiert ein verwandtes Konzept: Die Skalierung. Skalierung bedeutet für Tsing ein nicht-transformatives Wachstum. Ein Wachstum also, das zwar neue Verbindungen eingeht, sich von diesen Verbindungen aber nicht verändern lässt.
Eine skalierbare technische Infrastruktur ist zum Beispiel eine, bei der es strukturell kaum einen Unterschied macht, ob sie von 10 oder 10 Millionen Menschen verwendet wird. Die meisten modernen Geschäftsmodelle basieren auf einer solchen Idee von Skalierung bzw. Skalierbarkeit.
Tsing wendet aber ein, dass diese Skalierbarkeit immer einen Preis hat. Das zu Skalierende muss, so Tsing, immer aus einem Gewebe von Verbindungen herausgelöst werden. Verbindungen müssen gekappt werden, um Skalierbarkeit zu gewährleisten. Tsing gibt das Beispiel von Zuckerrohrplantagen in der Kolonialzeit in Südamerika. Die Portugiesen merkten bald, dass eine wesentliche Voraussetzung der Skalierbarkeit die Entwurzelung und damit die Austauschbarkeit der Elemente ist:
»They crafted self-contained, interchangeable project elements, as follows: exterminate local people and plants; prepare now-empty, unclaimed land; and bring in exotic and isolated labor and crops for production. […] The interchangeability of planting stock, undisturbed by reproduction, was a characteristic of European cane. … Under these conditions, workers did, indeed, become self-contained and interchangeable units«
(Tsing 2015)
Die Herstellung von Austauschbarkeit erweist sich als wesentliches Basiselement kapitalistischer Wachstumskonzeptionen. Und diese Austauschbarkeit wird über das Abkapseln von Verbindungen und das Reduzieren von Abhängigkeiten hergestellt. Erst diese »relationale Dematerialisierung« reduziert die Reibung in den Prozessen und macht globale Lieferketten überhaupt möglich. Der Schiffscontainer ist somit nicht nur das logistische Kernstück der Globalisierung. Es ist auch zentrales Sinnbild einer Form von »relationaler Dematerialisierung«, die alle unnötigen Verbindungen abkapselt und jedes physische Gut zu einer austauschbaren Einheit macht. Der ISO-Container ist absolut austauschbar, das ist sein ganzer Sinn. Und dieser Sinn besteht am Ende im Verschwinden des Materiellen als einer widerständigen Realität.3
Plattformen als Infrastruktur der Austauschbarkeit
Der ISO-Container nimmt in dieser Hinsicht die Digitalisierung vorweg. In der Digitalisierung geht es, wie bei den Lieferketten, um Skalierung durch Austauschbarmachung. Die digitale Kopie hat eine neue Qualität von Austauschbarkeit in die Welt gesetzt, die eine bis dahin ungekannte Skalierung erlaubt. Es ist wirtschaftlich egal, ob ein digitaler Song 10 oder 10 Milliarden Mal kopiert und in Sekundenbruchteilen distribuiert wird. Diese Eigenschaft des Digitalen hat unsere Leben in vielen Hinsichten bequemer gemacht, aber auch zu neuen Problemen geführt.
Zum Beispiel: Wie organisiert man Wirtschaft unter der Bedingung der Unknappheit (Staab 2020)? Die Antwort auf dieses Problem sind Plattformen. Plattformen radikalisieren den Prozess der relationalen Dematerialisierung und skalieren auf eine Weise, die man in der physischen Welt noch nicht gesehen hat. Der Begriff »Plattform« kommt ursprünglich aus dem Französischen und ist eine Zusammensetzung aus altfranzösisch plat (flach) und forme (von lateinisch forma). Er wurde in der frühen Neuzeit vor allem in Bezug auf eine militärische Architektur verwendet, eine etwas erhöhte Fläche, die sich gut eignete, Katapulte und später Kanonen darauf zu positionieren. Kanonen sollten einerseits erhöht stehen, um eine optimale Reichweite zu erzielen, andererseits musste gewährleistet sein, dass sie schnell austauschbar waren. Die Austauschbarkeit ist auch hier von Anfang an entscheidend.
Eine sehr einfache Definition von »Plattform« wäre »Infrastruktur des Austausches«. Das ist sie aber auf zweifache Weise. Zum einen sind Plattformen Orte, an denen man sich austauscht: der Ort, wo man in und aus dem Zug steigt (zumindest im Englischen); der Ort, an dem man Geschichten teilt, Handel betreibt, flirtet oder ein Taxi heranruft. Zum anderen sind Plattformen Orte der Austauschbarmachung. Auf Plattformen kann ich nur als austauschbare, in gewisser Weise standardisierte Variante meiner selbst teilnehmen, als Dividuum statt als Individuum (vgl. Seemann 2021: 113f.). Das erlaubt es anderen, mich über standardisierte Suchen zu finden und umgekehrt auch mir, andere zu finden und mich zu verbinden. Die Verbindung über die Plattform verbleibt also immer unter dem Vorbehalt der Austauschbarkeit, was den Austausch für alle vereinfacht und die Menge an potenziellen Verbindungen für jeden Einzelnen erweitert. Diese Skalierung geht aber immer auch mit der eigenen Austauschbarkeit einher, denn die nächste Fahrerin, die nächste Unterkunft, das nächste Date ist nur einen Klick oder Rechts-Swipe entfernt. Das gilt zumindest für die Interaktionen, die exklusiv auf der Plattform verbleiben.
Die Unaustauschbarkeit des Graphen
Dieser generellen Austauschbarkeit der einzelnen Verbindung steht allerdings eine große Nicht-Austauschbarkeit gegenüber: die des Graphen. Ein Graph, oder genauer ein »Netzwerkgraph«, ist erstmal die Beschreibung eines Netzwerkes. Individuell ergibt sich ein je einzigartiges Netzwerk an Verbindungen, die den Nutzenden an die Plattform bindet und ein tatsächliches Abbild seiner sozialen und kulturellen Bindungen ist. Und genau in dem Unterschied zwischen austauschbarer Verbindung und unaustauschbarem Graphen residiert die Macht der Plattformen.
»Graphen sind ebenjene unterliegende Architektur, die eine Plattform nicht selbst herstellen kann. Eine Plattform kann die Voraussetzungen schaffen, um die Verbindungen zu ermöglichen – als erwartete Selektion potentieller Verbindungen. Aber der Graph einer Plattform ist nur zu etwas nütze, wenn er in den konkreten Verbindungen mit einer Realität außerhalb der Plattform korreliert: echte Musikleidenschaften, bedeutende Freundschaften, bedeutende Bedürfnisse, bedeutende Interessen, bedeutende Orte, Wege oder Leidenschaften.«
(Seemann 2021: 154)
Diese Macht wird in der ökonomischen Theorie gerne als »Netzwerkeffekt« oder »Netzwerkexternalität« bezeichnet.4
Sie sorgt dafür, dass Menschen einerseits einen starken Anreiz haben, sich großen Netzwerken anzuschließen (es locken viele potenzielle Verbindungen) und bindet andererseits Menschen langfristig an Plattformen (der sogenannte »Lock-in-Effekt«).
Netzwerkeffekte kann man also auch als aggregierte Abhängigkeiten betrachten. Alle wechselseitigen Abhängigkeiten der Nutzenden einer Plattform übersetzen sich – sofern sie über die Infrastruktur der Plattform ausagiert werden – in eine Abhängigkeit von der Plattform selbst. Und genau hier liegt die Plattformmacht als relative Unaustauschbarkeit. Das gilt sowohl für kleinere Netzwerke – etwa Nachbarschaftsnetzwerke oder Unternehmens-Chats – als auch für größere, wie Dating-Apps, Lieferdienste oder Übernachtungsvermittlungs-Apps. Dabei gilt: Große Plattformunternehmen kontrollieren entsprechend große Graphen. Facebook kontrolliert den »Social Graph«, Google kontrolliert den »Interest Graph«, Amazon kontrolliert den »Consumption Graph« usw. (Valdes 2012).
Strategisch gesehen steht die Inbesitznahme eines Graphen folglich im Zentrum einer jeden erfolgreichen Plattformgeschichte.5 Neue Plattformen haben das Problem, dass auf ihnen noch keine Interaktionen stattfinden, weswegen sie für Nutzende zunächst uninteressant sind. Es ist das typische Henne-Ei-Problem: Erst mit der Interaktion entsteht die Attraktivität, die die Interaktion möglich macht. Historisch wurde dieses Problem dadurch gelöst, dass Plattformen initial einen bereits etablierten Interaktionszusammenhang aufgreifen und versuchen, ihn in die Plattform zu integrieren. Bei Facebook waren es zunächst Elite Campus, die die Grundlage des frühen Facebook-Wachstums bildeten, bei Amazon Buchbegeisterte, bei Paypal Ebay-Nutzende (vgl. Seemann 2021: 145ff.). Während die Leitunternehmen in der Supplychain also ihre Immaterialgüterrechte einsetzen, um sich an die Spitze der Austauschbarkeits-Hierarchie zu setzen, spielen diese Rolle bei den Plattformunternehmen die aggregierten Abhängigkeiten ihrer Nutzenden: der Graph.
Der Plattformmerkantilismus
Die Gemeinsamkeit des Supplychain-Modells mit dem Plattform-Modell ist also, dass sie beide durch geschicktes Herstellen von Austauschbarkeit und Abhängigkeit eine Super-Struktur oberhalb des herkömmlichen Kapitalismus etablieren, die andere kapitalistische Akteure in eine Hierarchie zwingt, in der sie sich selbst unaustauschbar gemacht haben und deswegen alle anderen ausbeuten können. Aber in der Form der Unaustauschbarkeit unterscheiden sie sich grundlegend.
Das Supplychain-Modell folgt noch der klassischen Logik des Kapitalismus. Diese kann man wie folgt zusammenfassen: Das Eigentum an Produktionsmitteln (Kapital) wird staatlich geschützt und etabliert eine hinreichende Nichtaustauschbarkeit (ein mehr oder weniger lokales Monopol), während das Unternehmen die Aufgaben der Arbeiter*innen hinreichend standardisiert – also relational dematerialisiert – um ihre Austauschbarkeit zu gewährleisten. Die Tatsache, dass im Supplychain-Modell die Produktionsmittel der Leitunternehmen immaterielle Werte wie Marken- und Verwertungsrechte sind, statt Gebäude und Maschinen, ist zwar eine historische Neuerung; sie tastet das Grundprinzip des Kapitalismus aber nicht an. Vielmehr radikalisiert es das kapitalistische Modell, weil das immaterielle Kapital (weltweit geschützte Immaterialgüterrechte) in der Praxis noch unaustauschbarer ist, als es das materielle Kapital (Gebäude, Maschinen) je war.
Das Plattformmodell weicht hier entscheidend ab. Indem es als Machtgrundlage die Unaustauschbarkeit des durch ihn kontrollierten Graphen etabliert, macht es sich vom Ordnungsregime des Eigentums – und damit der Durchsetzungsmacht des Staates – ein gutes Stück unabhängig. Plattformen haben kein rechtliches Eigentum an ihrem Graphen. Es gibt keine Möglichkeit Dritten gegenüber einen Rechtsanspruch für einen Graphen zu reklamieren, denn Interaktionszusammenhänge sind rechtlich nicht eigentumsfähig. Das brauchen Plattformen aber auch nicht. Ihre Macht basiert auf der direkt ausgeübten Kontrolle über den Graphen mittels ihrer technischen Infrastruktur (Seemann 2021: 117ff.). Über diese können Plattformen zum Beispiel vorgeben, welche Arten von Interaktionen man auf ihnen durchführen darf (Infrastrukturregime), sie können Nutzende ein- und ausschließen (Zugangsregime) und sie können mittels algorithmischer Kontrolle bestimmte Interaktionen wahrscheinlich oder unwahrscheinlich machen (Query-Regime).
Damit gleicht die Struktur der politischen Ökonomie der Plattformen viel eher der des merkantilistischen Staats als der des kapitalistischen Unternehmens. Im Merkantilismus war es der sich gerade formierende Staat, der seine Kontrollinstrumente – Steuern, Zölle, das Vergeben von Monopolrechten, im Zweifel Gewalt (Shovlin 2014) – direkt dazu einsetzte, die eingehenden und ausgehenden Ressourcen zu kontrollieren und so seine Staatsfinanzen mittels extrahierter Renten aufzubessern (Magnusson 2015: 54ff.). Und ähnlich wie bei Plattformen basierte im Merkantilismus ein Großteil dieser Ressourcen auf der Ausbeutung von eroberten Gefilden – Kolonien im Falle der Staaten, okkupierte Graphen im Falle der Plattformen.
The Means of Connection
Wie schon im Supplychain-Kapitalismus setzt sich auch bei den Plattformen eine Kapital-Kapitalistische Ausbeutung ins Werk. Zwar passiert auch im Plattformmerkantilismus die Ausbeutung oft auf Kosten von Arbeiter/*innen (deren Arbeiterstatus aber oft durch Selbstständigkeit verschleiert wird), aber eben nicht nur. Vielmehr geht die Ausbeutung auch auf Kosten von klassischen Kapitalist/*innen. Diese sind nämlich zunehmend darauf angewiesen, ihre Kundschaft über Plattformen zu erreichen und müssen, um Zugang zu ihnen zu bekommen, ihre Margen an die Plattform abtreten. Die vielen Klagen der Händler*innen über den Amazon Marketplace (Bundeskartellamt 2021), die prekäre Lage der Smartphonehersteller in Googles Handset-Alliance (Amadeo 2018) und die viel kritisierte 30% Abgabe auf Apples App-Store (Roth 2022) sind nur die prominentesten Beispiele dieser Ausbeutung.
Rufen wir uns das Zitat von Tom Godwin in Erinnerung:
»Uber, the world’s largest taxi company, owns no vehicles. Facebook, the world’s most popular media owner, creates no content. Alibaba, the most valuable retailer, has no inventory. And Airbnb, the world’s largest accommodation provider, owns no real estate.«
Wir können nun besser verstehen, wie das tatsächliche materielle Kapital (Immobilien, Autos, Inventar) zur Nebensächlichkeit wird, wenn man als Plattform die Verbindungen und damit Abhängigkeiten kontrolliert. Im Plattformmerkantilismus gilt nicht mehr der als mächtig, der die »Means of Production« besitzt, sondern wer die »Means of Connection« kontrolliert.
Fazit
Plattformen, so scheint es, haben ihren Zenit bereits überschritten. Der »Techlash« ruinierte das Image von Silicon Valley (Kuhn 2018). Große »Unicorns« wie WeWork und Uber sind bankrottgegangen oder mussten ihre Erwartungen enorm reduzieren (Karabell 2019). Rebecca Giblin und Cory Doctorow sprechen von »enshittification« der großen Plattformen und meinen damit die zunehmende Extraktion der Abhängigkeiten im Graphen zur Erhöhung des Profits (Giblin/Doctorow 2022). Plattformen sind toxisch geworden. Seit Elon Musk Twitter kaufte und es zu X umfunktionierte, hält sich die Stimmung, dass es mit Social Media insgesamt zu Ende geht (Bogost 2022).
Darüber hinaus haben sich ganz klassisch kapitalistische Konzerne wie der taiwanesische TSMC durch Forschung und Entwicklung einen sehr konkreten technologischen Vorsprung und damit eine Unaustauschbarkeit erarbeitet, die die Plattformunternehmen auf dem falschen Fuß erwischt hat (Campbell 2021). Sie alle sind nun von den sehr klassisch materiellen Produktionslinien von TSMC abhängig, der heute fast ein Monopol auf die Produktion der leistungsfähigen Chipgenerationen hat. Gleichzeitig ist es gerade die generative KI, die als neue Leittechnologie die Imaginationen und damit die Gelder der Venture-Kapitalgeber*innen auf sich zieht. Generative KI ist eine Technologie, die zwar auch in Plattformen Anwendung findet, aber grundsätzlich erstmal wegführt von der zwischenmenschlichen Interaktion: Eine Technologie, die sogar auf lange Frist das Potential in sich birgt, die Abhängigkeiten der Menschen untereinander allgemein zu reduzieren (Seemann 2023).
Das Plattformparadigma wird genauso wenig sterben, wie es das Supplychain-Paradigma getan hat. Es wird nur aufhören, das meistdiskutierte Phänomen unserer Zeit zu sein. Es werden auch in Zukunft neue Wege gefunden werden, Austauschbarkeitshierarchien zu etablieren und sich an ihre Spitze zu setzen. Und genau darum geht es mir: Das Framework zur Beschreibung von Macht durch wechselseitige Abhängigkeit und Austauschbarkeit scheint mir universell genug zu sein, um es auch auf kommende Ausbeutungsparadigmen anzuwenden. Es bietet Anknüpfungspunkte für Analysen von Abhängigkeitsverhältnissen wirtschaftlicher Akteure, die nicht mehr den Markt ins Zentrum stellen, sondern Macht. Das Framework ist damit grundsätzlich auf den Feudalismus ebenso anwendbar wie auf den Kapitalismus, den realen Sozialismus oder den Merkantilismus. All diese Wirtschaftssysteme sind nur unterschiedliche Ausgestaltungen von Abhängigkeitshierarchien mit den je etablierten Mechanismen ihres Managements. Dieser Essay soll somit ein noch unkonkretes Forschungsprogramm begründen, das viele weitere Anwendungsfälle der Theorie anschaut.
Literatur
Fußnoten
/*******
Dieser Text erscheint in der Akzente-Ausgabe „Automatensprache“ von Mai 2024, in dem auch viele andere tolle Texte zum aktuellen KI-Hype enthalten sind.
*******/
In einem Interview vom März dieses Jahres sprach Sam Altman, CEO von OpenAI, – der mächtigsten KI-Firma der Welt – einen Satz aus, der ihm sofort unangenehm wurde. Er sagte: „Der Weg zu AGI sollte ein gigantischer Machtkampf sein.“ AGI (Artificial General Intelligence) markiert innerhalb der Branche die Erreichung von menschengleicher, genereller Maschinenintelligenz und ist das offizielle Ziel aller KI-Startups und -Konzernabteilungen. Altman korrigierte sich schnell: Er wünsche sich diesen Machtkampf nicht, aber er erwarte ihn.
Der Satz fällt an der Stelle, als es im Interview um seinen eigenen Machtkampf um die Kontrolle von OpenAI geht. Wenige Monate zuvor, im November 2023, feuerte ihn das Board des Unternehmens überraschend als Geschäftsführer. Die Nachricht verbreitete sich wie ein Lauffeuer und da das Board nur sehr vage Andeutungen über die Gründe machte, spekulierte die halbe Welt über den plötzlichen Rausschmiss.
Es ist wichtig, dabei zu verstehen, dass OpenAI keine Firma wie andere Firmen ist. Sie wurde bewusst als Non Profit Organisation (NGO) gegründet, um ethisch verantwortungsvolle KI-Forschung sicher zu stellen, doch unter Altman etablierte sie einen For-Profit-Arm, um Milliarden Dollar an Venture Capital einsammeln zu können, die nötig wurden, um die immer teurer werdenden KI-Modelle zu finanzieren. Das Board aber ist Teil der NGO-Struktur und hat die Aufgabe, über die ethischen und verantwortungsvollen Standards der Organisation zu wachen und hat über alle Geschäftsfelder das letzte Wort. Ein Rausschmiss des CEO ist der letzte Nothebel zur Sicherung dieser Kontrolle und genau so begründete das Board auch seine Entscheidung: Es habe das Vertrauen in Altman verloren.
Doch innerhalb weniger Tage änderte sich alles. Altman hatte es geschafft, einen Großteil der Mitarbeiter auf seine Seite zu ziehen, die auf einmal in einer Petition mit ihrer Kündigung drohten, und Microsoft, der wichtigste Geldgeber und Eigentümer der teuren Serverinfrastruktur, auf der OpenAI die Modelle trainiert und betreibt, stellte Altman in einer Blitzaktion als Chef einer neuen KI-Abteilung ein, die zudem die Bereitschaft signalisierte, auch alle anderen OpenAI-Mitarbeiter aufzunehmen.
Das Board hatte in dem Moment keine andere Wahl mehr als seine Entscheidung rückgängig zu machen. Altman kehrte nach weniger als einer Woche zurück auf seinen CEO-Posten und stattdessen wurde nun das Board neu organisiert.
In dem Interview reflektiert Altman überraschend offen, dass das Board rechtlich befugt war, ihn zu feuern, was seinen letztendlichen Sieg zu einer Art „Governance Failure“ der Organisation mache. Das ist eine niedliche Umschreibung für einen „Coup“.
Wenn Altman recht hat, wird diese Episode nur die erste öffentlich wahrnehmbar ausgetragene Schlacht im größeren Machtkampf um die Zukunft der KI-Technologie gewesen sein, und es werden noch viele folgen. Dass sich Silicon Valley gerade immer mehr zu „Game of Thrones“ verwandelt, hat einen tieferen Grund: Das, was bei OpenAI im Kleinen passierte, ist nur eine Vorahnung dessen, was der gesamten Welt bevorsteht:
KI ist ein Coup.
Einführung
Will man über Künstliche Intelligenz und Demokratie nachdenken, stellt sich als erstes die Frage, von welcher KI und von welchem Konzept von Demokratie wir sprechen. Beide Begriffe sind auf ihre eigene Weise unscharf.
Sprechen wir über aktuell existierende KI-Systeme, wie es sie mittlerweile wie Sand am Meer gibt, die alle unterschiedliche Aufgaben erfüllen und dabei mal mehr mal weniger gut sind? Oder sprechen wir von KI als „Imaginary“, beispielsweise als „AGI“ das, je nachdem, wen man fragt, immer so fünf bis zehn Jahre in der Zukunft liegt?
Beide Begriffe sind auf ihre eigene Art ephemer. Der erste ist bereits veraltet, wenn dieser Text erscheint, und der zweite wird auf absehbare Zeit vage bleiben, und das könnte sich auch so bald nicht ändern.
Wenn ich hier also von „Künstlicher Intelligenz“ spreche, dann meine ich ganz konkret die generative Künstliche Intelligenz, wie sie seit der Vorstellung von ChatGPT im Oktober 2022 in aller Munde ist. Ich will allerdings für diesen Text auch stellenweise das Abenteuer eingehen, die behaupteten Potenziale der Technologie ernstzunehmen, verweise dann aber auch entsprechend auf die spekulative Natur dieser Imaginaries.
Generative KI basiert auf dem schon länger etablierten „Machine Learning“, bei dem künstliche neuronale Netzwerke mit enorm vielen Daten trainiert werden. Eine neue Software-Architektur (das Transformer Modell), als auch der Einsatz bisher unvorstellbarer Datenmengen (Tausende von Gigabyte an Text- und/oder Bilderdaten), sowie viele Millionen Dollar teure Rechenleistung erlauben es nun, allerlei Content zu produzieren, den selbst Experten schwer von menschengemachten Artefakten unterscheiden können.
Seitdem hat der Hype nur noch mehr Schwung bekommen und es werden Ressourcen in Volkswirtschaftsgröße auf die Weiterentwicklung dieser Systeme geworfen, was in einer ungeheuren Beschleunigung der Entwicklung resultiert. Sam Altman sprach bereits davon, dass die nächsten Jahre bis zu 7 Billionen Dollar Investitionen allein in nötige Computerhardware anzustreben seien.
Generative Künstliche Intelligenz ist deswegen ein „moving target“, das seine Fähigkeiten, Features und Kompetenzen in atemberaubenden Tempo ausweitet. Schon jetzt gibt es nur wenig Zweifel an der Nützlichkeit der Technologie, war ChatGPT doch letztes Jahr eine der schnellstwachsenden Apps und wird auch weiterhin rege genutzt. Dennoch sind die Einsatzgebiete noch begrenzt, da diese Systeme alles andere als fehlerfrei und vorhersagbar agieren. Selbst auf denselben Prompt gleicht keine Antwort der anderen und die Systeme „halluzinieren“ am laufenden Band Zahlen, Daten, Personen, Paragraphen und Buchtitel herbei, so dass man den Output nie ungeprüft übernehmen kann, ohne unangenehme Überraschungen zu erleben.
Dennoch spricht einiges für die Technologie. Generative KIs erhöhen die Produktivität von Softwareentwicklern, genauso wie die Produktivität von Schreibtätigkeiten. Sie beschleunigen kommunikative Prozesse, bis dahin, dass sie sie vollkommen automatisieren. Mit KIs können schnell und günstig allerlei Alltagsillustrationen für alle möglichen Zwecke generiert werden, für die man sonst einen Designer benötigte. KIs werden heute immer mehr zum Nachschlagen von Informationen genutzt oder gar zum personalisierten Lernen von komplizierten Zusammenhängen. KIs können erstaunlich gut von vielen Sprachen in andere Sprachen übersetzen. Bereits angekündigt, sollen KIs sogar demnächst selbsttätig Aufgaben erledigen und als „Agents“ etwa eine Reise planen, inklusive Orte recherchieren und die nötigen Tickets und Unterkünfte buchen können. Zudem haben KIs eine kompetenznivellierende Wirkung. Studien zeigen, dass vor allem performanceschwache Arbeitskräfte überdurchschnittlich vom Einsatz von KI profitieren und auch in der Breite der Bevölkerung hilft KI Menschen, die vorher Schwierigkeiten hatten, etwa einen Brief zu formulieren oder sich graphisch auszudrücken. Manche sprechen gar von einer „Demokratisierung“ des Schreibens oder der Gestaltung.
Und da sind wir beim zweiten schwammigen Begriff: der Demokratie. Es gibt etliche Regalmeter von politikwissenschaftlichen Demokratiedefinitionen und Erklärungen. Für unsere Zwecke scheint mir aber vor allem das Framework der Politikwissenschaftler Bruce Bueno de Mesquita und Alastair Smith nützlich, das sie in ihrem Buch Dictator’s Handbook ausbreiten. Zum einen, weil die Theorie sich gut auf Beziehungsnetzwerke anwenden lässt, aber auch, weil sie zynisch und abgeklärt genug ist, um auch auf die Tech-Branche zu passen. Mesquita und Smith vermeiden es, kategoriale Unterschiede zwischen den politischen Systemen zu markieren, sondern versuchen, universelle Regeln der Macht zu formulieren. Eine der zentralsten Prämissen der Theorie ist, dass Machthaber – egal, ob demokratisch oder autokratisch – immer nach Mitteln und Wegen suchen, ihre Macht abzusichern. Eine weitere zentrale Prämisse ist, dass kein Machthaber ohne die Unterstützung von anderen Menschen regieren kann. Die Kunst, an der Macht zu bleiben, besteht also im klugen Management der eigenen Abhängigkeiten.
Dabei unterscheiden Mesquita und Smith zwischen drei Kategorien von Abhängigkeitsbeziehungen: Das „nominelle Selektorat“ ist die austauschbare Verschiebemasse an Menschen, die selbst über keine Hebel der Macht verfügen. Über ihre Köpfe wird hinweg regiert. Daneben gibt es das „tatsächliche Selektorat“. Das ist eine deutlich kleinere Gruppe, die es zu überzeugen gilt, um an die Macht zu kommen und dort zu bleiben. In der US-Demokratie sind das zum Beispiel die Wähler der Swing-States, in Deutschland wichtige gesellschaftliche Gruppen wie die Rentner oder Autofahrer, also alle Gruppen, die bei Wahlen den Ausschlag geben können. Und schließlich gibt es noch die „gewinnende Koalition“, jene sehr kleine Gruppe, von deren Unterstützung ein Machthaber direkt abhängig ist. Das können zum Beispiel Parteifunktionäre oder potente Geldgeber sein, es können auch einfach Menschen in wirtschaftlichen oder publizistischen Machtpositionen sein. Dieser Gruppe gilt der Großteil der Aufmerksamkeit jedes Machthabers.
Politische Systeme unterscheiden sich nun darin, wie es ihnen gelingt, Machthaber von einer möglichst großen, diversen Gruppe von Menschen abhängig zu halten (Demokratie), oder inwiefern es Machthabern gelingt, ihre Abhängigkeiten möglichst auf die „gewinnende Koalition“ zu reduzieren, die sie dann auf Kosten der anderen beiden Gruppen alimentieren können (Autokratie).
Dabei sind rechtliche Rahmenbedingungen und eingespielte Erwartungen letztlich weniger wichtig als handfeste ökonomisch-materielle Abhängigkeiten. Das OpenAI-Board hatte rechtlich gesehen die Rolle der „gewinnenden Koalition“, doch Sam Altman wusste genau, dass die „Governance Struktur“ nur ein Zettel mit Buchstaben ist und dass die eigentliche Macht im Wissen und den Kompetenzen der Mitarbeiter (dem tatsächlichen Selektorat) sowie im Zugang zu den gigantischen Rechenressourcen von Microsoft (der eigentlichen gewinnenden Koalition) liegen. Indem er beides auf die eigene Seite zog, herrschte das Board nur noch über eine leere Hülle.
So viel zur Theorie. Doch bevor wir über Demokratie und Künstliche Intelligenz reden, lohnt es sich, zunächst einmal abzuschweifen und sich anzuschauen, was passierte, als das letzte Mal eine Technologie unser aller Leben zum Guten wenden sollte: Das Internet.
Das Internet und die Demokratisierung der Öffentlichkeit
Als im März 1991 das Internet zur kommerziellen Nutzung freigegeben wurde, brach für die Welt eine neue Ära an. Vorher waren nur Universitäten, ein paar Regierungsorganisationen und Großkonzerne ans Internet angeschlossen, und seine Nutzung war hauptsächlich wissenschaftlicher Natur. Es war, als wäre der Welt ein riesiges Geschenk gemacht worden. Eine offene und freie Infrastruktur, damals noch vergleichsweise frei von kommerziellen Zwängen, eröffnete unendliche kommunikative und publizistische Freiheiten. Über die 1990er Jahre bildeten sich Informationsangebote, Communities, neue kulturelle Praktiken und Ausdrucksweisen, und eine ganz neue, sich stetig weiterentwickelnde Kultur entstand. Das Internet sei „der neue Ort des Bewusstseins“, verkündete John Perry Barlow in seiner berühmten Unabhängigkeitserklärung des Cyberspace, einem Text, der wie kein anderer versuchte, den enormen Umbruch in seinem ganzen Pathos zu erfassen. Doch um zu verstehen, was für ein tiefer Einschnitt das Internet für die Menschen war, muss man zunächst verstehen, wie Welt vor dem Internet funktionierte.
Am 5. März 1965 schrieb der Journalist und Herausgeber Paul Sethe einen Leserbrief an den Spiegel, in dem er einen Satz fallen lassen sollte, der zu einem geflügelten Wort in der zweiten Hälfte des 20. Jahrhunderts werden würde: „Die Pressefreiheit ist die Freiheit von zweihundert reichen Leuten, ihre Meinung zu verbreiten.“
Die Presse war im zwanzigsten Jahrhundert ein Eliteorgan, und obwohl Presse- und Meinungsfreiheit vom Grundgesetz garantierte Rechte waren, hatten nur sehr, sehr wenige Menschen überhaupt die Möglichkeit, sich öffentlich am Diskurs zu beteiligen. Selbst Sethe, ein bekannter und einflussreicher Journalist, griff zum Leserbrief als Mittel der Meinungsäußerung.
Die Hoffnungen, die sich mit dem Internet verbanden, waren nicht völlig naiv, wenn man sie an den damaligen Strukturen misst. In den letzten zwanzig Jahren hat sich das Internet im Allgemeinen und die Social Media Plattformen im Besonderen zum öffentlichen Marktplatz der Weltgesellschaft entwickelt. Hier werden News konsumiert und sofort rege diskutiert, hier wenden sich Experten unvermittelt ans Publikum, hier werden Proteste organisiert und ausgetragen, hier veröffentlichen Politiker ihre politischen Botschaften, statt wie bisher als Pressemitteilung. Was im Internet wichtig ist, kann von den klassischen Medien nicht ignoriert werden, und wenn Journalisten wissen wollen, wie „die Öffentlichkeit“ über ein Thema denkt, machen sie keine Straßenumfragen mehr, sondern lesen Tweets oder suchen bei Tiktok. Ja, das Internet demokratisierte die Öffentlichkeit, zumindest eine gewisse Zeit lang.
Enshittification
Doch wenn man die heutige Situation genauer betrachtet, kommt man nicht umhin, sich zu fragen, ob das Geschenk des Internets vergiftet war. Internet-Plattformen haben alle Bereiche unseres Lebens durchdrungen, uns in immer tiefere Abhängigkeiten verstrickt und nutzen diese Macht nun immer spürbarer aus. Sie schließen Zugänge, verteuern Services, verschlechtern absichtlich Features und erhöhen Schlagzahl und Länge von Werbeeinblendungen, die darüber hinaus immer weniger als solche erkennbar gemacht werden. „Enshittification“ ist das Wort der Stunde. Der Science-Fiction-Autor und Netzaktivist Cory Doctorow beschreibt damit einen Prozess des mutwilligen kommerziellen Vandalismus der Plattformen an sich selbst, der aus dem Zwang für die Plattformunternehmen motiviert ist, wachsende Renditen bei abgeflauten Nutzerwachstum zu liefern. Der Mechanismus läuft so, dass im ersten Schritt Geschäftskunden und Nutzer zum gegenseitigen Vorteil zusammengebracht werden, im zweiten Schritt wird dann der dadurch entstandene Mehrwert bei den Geschäftskunden (Uberfahrer, Shopbetreiber auf Amazon Marketplace, Werbekunden bei Google und Facebook) durch immer schlechtere, ausbeuterische Konditionen abgeschöpft, bis dann im dritten Schritt der Mehrwert auch bei den Nutzern immer stärker abgeschöpft wird, indem der Service teurer und schlechter gemacht wird. Am Ende landet der komplette Mehrwert der Plattform als Rendite bei den Aktionären.
Herrschte im klassischen Kapitalismus, wer über „die Produktionsmittel“ verfügte, so ist es im digitalen Kapitalismus derjenige, der über die „Mittel der Verbindung“ verfügt. Plattformen haben sich erfolgreich zwischen Shop und Kunden, zwischen Fahrer und Fahrgäste und Informationslieferant und Newsjunkies gequetscht und kassieren nun auf beiden Seiten Wegzoll.
Doch der abgeschöpfte Mehrwert beschränkt sich längst nicht mehr nur auf das Kommerzielle. Silicon Valley hat unsere öffentliche Sphäre in Beschlag genommen und sitzt jetzt an den subtilen Schalthebeln der algorithmisierten Sichtbarkeit von Informationen und Meinungen und exerziert damit immer ungenierter politische Macht. Elon Musk, der letztes Jahr Twitter übernommen hatte, transformiert die Plattform von der wichtigsten digitalen Öffentlichkeit zu einer Nazipropagandawaffe, indem er gezielt Rechtsradikale auf die Plattform holt, Journalisten zensiert, gerichtliche Verfahren gehen NGOs führt und den Empfehlungsalgorithmus auf seine eigenen Posts hin optimiert, mit denen er Verschwörungstheorien über den „Woke Mindvirus“ und den „Great Replacement“ an sein Millionenpublikum promotet.
Macht und Abhängigkeit von Plattformen
Paul Sethe schrieb in dem oben erwähnten Leserbrief weiter: „Da die Herstellung von Zeitungen und Zeitschriften immer größeres Kapital erfordert, wird der Kreis der Personen, die Presseorgane herausgeben, immer kleiner. Damit wird unsere Abhängigkeit immer größer und immer gefährlicher.“
Und hier kommen wir zurück zum Framework von Mesquita und Smith. Ein Machthaber ist immer von anderen abhängig, um seine Macht abzusichern, und hat Anlass, den Kreis seiner Abhängigkeiten möglichst gering zu halten. Vereinfacht ausgedrückt: Ein paar Hundert mächtige Oligarchen (gewinnende Koalition) bei Laune zu halten ist sehr viel einfacher und zuverlässiger zu bewerkstelligen als ein ganzes Volk (nominelles Selektorat), weswegen es rational ist, das Volk zugunsten der Oligarchen auszubeuten. Das bedeutet nicht, dass jeder Machthaber so handelt, aber es bedeutet, dass viele so handeln, sobald sie die Möglichkeit dazu bekommen.
Wie Sethe richtig bemerkt, wird dieser Prozess sehr von ökonomisch-materiellen Abhängigkeiten beeinflusst. In einer hochgradig arbeitsteiligen Gesellschaft existieren enorm viele kleinteilige, weit verstreute Abhängigkeiten, was es schwierig macht, Macht an einer einzigen Stelle zu konzentrieren. Komplexe, arbeitsteilige Gesellschaften mit hohem Spezialisierungsgrad sind deswegen gegen die Machtergreifung eines Autokraten besser gefeit, denn der Autokrat müsste, um die Gesellschaft am Laufen zu halten, sehr viele Leute auf seine Seite ziehen. In Gesellschaften, die weniger ausdifferenzierte Arbeitsteilung haben, zum Beispiel, weil sie ihr Bruttonationaleinkommen zu einem Gutteil aus dem Export von Rohstoffen verdienen, ist dagegen der Kreis an mächtigen Leuten klein und überschaubar, was dem Machthaber ein leichtes Spiel ermöglicht. Ein Umstand, der in der politikwissenschaftlichen Literatur auch als „Ressourcenfluch“ beschrieben wird.
Etwas Ähnliches beschreibt Sethe für die Presseverlage im zwanzigsten Jahrhundert. Kapitalakkumulation und Skaleneffekte bilden die materielle Basis von sich zunehmend konzentrierenden Abhängigkeiten, die dann im 20sten Jahrhundert zu den zweihundert reichen Leuten führt, die ihre Meinung kundtun dürfen. Und es ist ebenfalls genau das, was die letzten Jahre im Internet passiert ist. Doch im Internet kommen zu den oben genannten Effekten noch die sogenannten „Netzwerkeffekte“ hinzu.
Netzwerkeffekte machen einen Dienst immer attraktiver, je mehr andere Menschen daran teilnehmen. Leute locken andere Leute auf die Plattform und halten sie dort. Hat man einmal seine Beziehungen auf einer Plattform etabliert, fällt es schwer, sie auf andere Kommunikationskanäle umzusiedeln oder zu reproduzieren. Dieser „LockIn“ genannte Effekt macht die einmal auf einer Plattform angesiedelten Nutzer zu einer fast beliebig steuerbaren Masse, was – wie wir von Mesquita und Smith wissen – eine stabile Machtkonzentration an der Spitze erlaubt.
Wenden wir das Dictator’s Handbook auf Plattformen an, wird deutlich, wie das Feld der Abhängigkeiten das Handeln der Plattformunternehmen bestimmt und wie das den Prozess der Enshittification präzise erklärt. In einer frühen Wachstumsphase ist eine Plattform stark auf Zuspruch der Nutzer und Geschäftskunden angewiesen, weswegen sie für die Plattform als „tatsächliches Selektorat“ gilt, dem versucht wird, einen möglichst spürbaren Mehrwert zu bieten. Doch sobald die Wachstumsphase vorbei ist und die Nutzer durch den LockIn-Effekt sowieso an die Plattform gebunden sind, wird ihnen ihre Rolle als lediglich „nominelles Selektorat“ zugewiesen, das zugunsten der Aktionäre (also der „gewinnenden Koalition“) immer stärker ausgebeutet werden kann.
Die Konzentrationsprozesse, die Sethe für die Presseverlagslandschaft beschreibt, hat das Internet im Eiltempo durchgespielt. Es ist in wenigen Jahren von einem Ort der dezentralen und offenen Kommunikation, der niemandem gehörte und in dem alle Informationen gleich behandelt wurden, zu einem Spielball von einer Handvoll Konzernen und Milliardären geworden, die nun von den Plattformen zugunsten weniger Kapitalanleger ausgebeutet werden.
Die Graphnahme durch das Silicon Valley
In meinem Buch Die Macht der Plattformen hatte ich diesen Prozess „Graphnahme“ genannt. Wie die Landnahme bei Carl Schmitt ist die Graphnahme eine ursprüngliche, gewaltsame Aneignung, aber eben nicht von Land, sondern von Beziehungen oder etablierten Interaktionszusammenhängen. Ihre Eroberung besteht darin, diese Interaktionen auf die Plattform zu lenken und in den dortigen Datenbanken abzubilden. Das erhöht zum einen den Komfort und weitet die Interaktionsmöglichkeiten für die Nutzer aus, erlaubt der Plattform aber zum anderen auch, eine enorme Kontrolle über diese Beziehungen auszuüben. Wie die Landnahme errichtet auch die Graphnahme ein eigenes Regime.
Seit dem Aufstieg der Plattformen als neues Paradigma sozialer Organisation hat Facebook den „Social Graph“, Google den „Interest Graph“, Amazon den „Consumption Graph“ und Tiktok den „Entertainment Graph“ unter ihre Kontrolle gebracht. Fast alle von uns leben seither unter ihren AGBs und Moderationsregeln und bekommen unsere Informationen entsprechend ihrer algorithmischen Sichtbarkeitsregimes verabreicht. So viel zur Demokratisierung der Öffentlichkeit.
Diese enorme Machtkonzentration im Silicon Valley hat bereits einige Beobachter dazu verleitet von einem neuen Feudalismus zu sprechen. Die Plattformen haben eine ökonomisch-materielle Stellung in der Gesellschaft erlangt, die ihnen weitestgehend von Leistungen unabhängige Renten beschert und die zu einer Kultur des Größenwahns geführt hat. Allein während der Pandemie haben sich die Vermögen der Silicon Valley Milliardäre vervielfacht, und diese enormen Ressourcen haben nicht nur zu abstrusen Abenteuern wie dem Twitterkauf durch Elon Musk, sondern vielerorts auch zu einem zunehmenden Abdriften in ideologische Abgründe geführt.
Elon Musks öffentliche Kernschmelzen und seine zunehmend unverhohlene Sympathie mit rechtsradikalen Verrschwörungstheorien sind dabei nur das sichtbarste Beispiel einer außer Kontrolle geratenen Elite. Silicon Valley CEOs und „Venture Capitalists“ wie Reid Hoffman (LinkedIn), Peter Thiel (Palantir), Sam Altman (OpenAI) und viele andere hängen abstrusen Theorien und ethischen Frameworks an, wie „Effective Altruism“, „Longtermism“ oder „Effective Accelerationism“. In diesen Theorien wird eine unabwendbare Zukunft imaginiert, in der wir als Menschheit unsere Intelligenz und unser Bewusstsein billionenfach ins ganze Universum tragen. Diese Zukunft wird dabei als unvermeidlich und gleichzeitig als dringend anzustreben vorausgesetzt und dient als normative Folie, um alle Handlungen im Hier und Jetzt danach zu beurteilen, ob sie dieser Zukunft zu- (gut) oder abträglich (böse) sind. Das Motto ist „Grow or die“.
Mit der kaltschnäuzigen Selbstsicherheit von Sektengurus glauben die Tech-Milliardäre, die Menschheit in eine Zukunft kommandieren zu dürfen, die sie als Kind in Science-Fiction-Romanen gelesen haben und von der ihnen entgangen ist, dass sie als Warnung formuliert waren. Sie merken dabei nicht einmal, dass das genau sie zu den Bösewichten unserer heutigen Cyberpunk-Welt macht. Diese Menschen sind gefährlich.
Die Graphnahmen der KI
In dieser bereits unvorteilhaften Gemengelage kommt nun die generative KI ins Spiel und beschleunigt die Machtkonzentration noch mal enorm. Auch KI kann als Graphnahme verstanden werden, und sie wird alles in den Schatten stellen, was wir bisher gesehen haben. Genaugenommen handelt es sich um vier Graphnahmen, die uns jetzt drohen.
KI-Forschung war bis vor kurzem ein heterogenes Feld, das von Universitäten bis zu kleinen Startups ein vielfältiges Ökosystem bildete. Doch die Möglichkeit, mächtige KIs zu trainieren und bereitzustellen, ist direkt an die Verfügbarkeit von roher Rechenpower gekoppelt, die heute vor allem auf der Verfügbarkeit spezieller Grafikprozessoren basiert und um deren knappe Ressource ein regelrechter Verteilungskampf entbrannt ist. Die ökonomisch-materielle Eigenheit der Künstlichen Intelligenz konzentriert also alle Abhängigkeiten auf die Ebene der Infrastruktur, wo zig Millionen Grafikkarten in Serverclustern die riesigen Datenmengen durchwalten. Alleine dieser Umstand resultiert in einer Machtkonzentration, die selbst die der Plattformen in den Schatten stellt. Die Universitäten sind längst raus aus dem Spiel, und immer häufiger müssen auch die Startups das Handtuch werden. Wer nicht direkt verbandelt mit den digitalen Cloudanbietern wie Microsoft, Google und Amazon, hat keine Chance mehr, was Letzteren die monopolartige Kontrolle über diese Technologie in die Hände legt.
KI ist hier, um das Internet zu ersetzen. Die Graphnahme des Internets ist bereits im Gange und erfolgt in drei Schritten:
Im Ergebnis führt das dazu, dass die Ersetzung des Internets als Ort der Informationssuche durch die ärmere KI-Variante dadurch abgesichert wird, dass der Weg zurück zum ursprünglichen Internet versperrt ist, weil die generativen KIs es in atemberaubendem Tempo unbrauchbar gemacht haben.
Schon der Machtzuwachs bei den Plattformen war davon getrieben, dass sie ständig Probleme generierten, die nur sie im Stande waren, zu lösen. Und mit KI beschleunigt sich dieser Prozess dramatisch und damit die Abhängigkeit der Weltgesellschaft von den Techriesen.
Die Millionen Texte und Bilder, mit denen die Modelle in der Trainingsphase gefüttert wurden, bilden die grundlegende Semantik unserer Kultur und Gesellschaft ab. GPTs und Diffusion-Modelle machen unsere Kultur nun statistisch operationalisierbar und damit in Annäherung reproduzierbar. Dabei funktionieren diese Modelle so, dass sie aus den Trainingsdaten einen tausenddimensionalen statistischen Vektorraum für alle Beziehungen und Metabeziehungen von Begriffen bzw. Formen extrahieren, der dann für die „Next Word Prediction“ oder Bildgenerierung genutzt werden kann. Mit anderen Worten: Die Modelle synthetisieren die kulturelle Semantik der Gesellschaft.
Werden diese Modelle aber nun von vielen Menschen im großen Maßstab genutzt, um Texte und Bilder halb- oder sogar ganz automatisiert zu erstellen und zu verbreiten, dann erlaubt das den Betreibern eine subtile Kontrolle über Sprache und Semantik. Mit der Kontrolle eines populären Sprachmodells verfügt man über eine Art Massen-Sprechakt-Waffe, mit der man eigene politische Framings, argumentative Figuren und Narrative im großen Maßstab in die generierten Texte und so in den Sprachgebrauch injizieren und so zu ihrer Normalisierung beitragen kann.
Die Transformation durch generative KI setzt sich bis in die Tiefe der gesellschaftlichen Abhängigkeitsstrukturen fort. Schon jetzt sinken die Abhängigkeiten beispielsweise gegenüber den Leistungen von Übersetzern, Grafikern, Programmierern und Textern, und mit zunehmender Mächtigkeit der Modelle werden immer mehr Kompetenzen und Berufsfelder ihre Verhandlungsmacht einbüßen. Nimmt man die Ziele und Prognosen der KI-Unternehmen ernst, dann muss man davon ausgehen, dass sich die arbeitsteilige, funktional differenzierte Gesellschaft in den nächsten Jahren komplett entflechten wird. In der Öffentlichkeit wird in dieser Hinsicht immer nur von den möglichen oder tatsächlichen Arbeitsplatzverlusten geredet – es wird aber nicht thematisiert, dass diese reduzierten Abhängigkeiten durch eine entsprechend erhöhte Abhängigkeit von den Tech-Unternehmen erkauft wird. Alle Macht, so scheint es, konzentriert sich gerade im Silicon Valley.
Innerhalb des Frameworks von Mesquita und Smith ergibt dieses Handeln sowohl für Arbeitgeber als auch für die KI-Unternehmen absolut Sinn: Hier werden breite und vielfältige Abhängigkeiten von Vielen durch eine konzentrierte Abhängigkeit von Wenigen ersetzt, was beiden Akteuren ihre Macht sichert und einfacher managebar macht. Es ist wie eine Verschwörung der KI-Unternehmen mit den Kapitalisten weltweit, um den Menschen aus allen Abhängigkeitsgleichungen zu streichen und ihn so endgültig zu einer macht- und einflusslosen Verschiebemasse zu machen (nominelles Selektorat). Adieu freies Internet. Adieu lebendige, dezentrale Semantik. Adieu komplexe, arbeitsteilige Gesellschaft. Adieu Demokratie.
Der Aufstand?
All das, was ich hier beschrieben habe, wirkt für die meisten Menschen noch fern und abstrakt. Würden sie begreifen, was gerade in atemberaubendem Tempo passiert und wie sich das auf ihre Stellung in der Gesellschaft auswirken wird, würden sie in Massen auf die Straßen strömen.
Vielleicht werden sie das auch noch tun, sobald die Auswirkungen für sie spürbar werden. Noch haben die meisten Menschen, die diese Umwälzung betrifft, vergleichsweise mächtige gesellschaftliche Hebel. Und mit dem Streik der Drehbuchautoren in Hollywood gibt es bereits ein Beispiel, an dem man sich orientieren kann. Ich kann mir durchaus eine weltweite Protestbewegung gegen KI vorstellen. Boykottmaßnahmen, Massendemonstrationen, politischer Druck auf Wirtschaft und Politik, die Systeme zu meiden, zu regulieren oder gar zu verbieten. Ich würde das durchaus begrüßen, aber ich fürchte, eine solche Stoßrichtung wird im Sand verlaufen.
Ich bin skeptisch, dass es gelingen kann, eine offensichtlich so brauchbare Technologie, die bereits jetzt zu einem Großteil als Open Source weiterentwickelt wird, wirksam zu verbieten. Ich glaube deswegen, dass es sinnvoller ist, die Machtstrukturen direkt anzugehen. Von Mesquita und Smith können wir lernen, wie die Konzentration von Macht in der Gesellschaft diese für die Machtergreifung von Autokraten anfällig macht und dass das beste Mittel dagegen ist, die Abhängigkeiten wieder zu dezentrieren.
Das stellt uns nicht nur vor die schwierige Aufgabe, das Silicon Valley zu entmachten und die KI-Systeme unter demokratische Kontrolle zu stellen. Die eigentliche Mammutaufgabe ist, die Gesellschaft wieder so zu organisieren, dass sich die ökonomisch-materiellen Abhängigkeiten weitläufig und kleinteilig über die Menschen verteilen. Und wir haben leider auch nicht den Luxus, auf die dafür zu entwickelnden Gesellschaftsutopien zu warten. Wir müssen jetzt handeln.
Strategisch scheint mir deswegen eine Konzentration nicht auf die Technologie, sondern auf die Ungleichheit am effektivsten. Das herausragendste Symptom der Ungleichheit ist die Existenz von Milliardären. Es braucht ein weltweites Bewusstsein für die Gefahr, die von diesen Menschen für Demokratie und Menschenrechte ausgeht. Die Existenz von Milliardären muss als Politikversagen verstanden werden, und es muss zu einer weltweiten Bewegung kommen, die die Gesellschaft wieder aus den Händen dieser Leute befreit.
Ich gebe zu, dass ich auch hier pessimistisch bin. Im derzeit noch hegemonialen neoliberalen Paradigma gelten Milliardäre lediglich als besonders erfolgreiche Individuen, denen man ihren Reichtum doch einfach gönnen sollte. Es wird nicht gesehen, wie diese Menschen längst das politische Heft in die Hand genommen haben und die Demokratie ihnen bereits vielerorts ausgeliefert ist. Es wird zudem nicht gesehen, wie sich die Machtakkumulation an der Spitze der Gesellschaft gerade enorm beschleunigt, so dass auch unsere Chancen mit jedem Tag schwinden, ihrem Machthunger Grenzen zu setzen können.
Deswegen wäre eine weitere Hoffnung, dass es irgendwie gelingt, die Befürchtungen, die ich in diesem Text so abstrakt und theoretisch formuliert habe, in publikumswirksamere Narrative zu übersetzen, um ein Bewusstsein für diesen gerade stattfindenden Coup in die Breite der Gesellschaft zu tragen
]]>Elon Musk hat nun die Veröffentlichung des Chatbots „Grok“ angekündigt und es scheint tatsächlich so schlimm zu werden, wie ich es mir dachte. In meiner Studie zu Large Language Models hatte ich in einem extra angehängten Epilog genau dieses Szenario antizipiert. Aus aktuellem Anlass veröffentliche ich diesen Abschnitt nochmal gesondert.
Epilog
Die öffentliche Debatte um Künstliche Intelligenz geht sehr häufig um spekulative Szenarien rund um AGI, Superintelligenzen und die Frage, ob diese uns nun retten oder ausrotten werden. Doch LLMs müssen nicht superintelligent sein – eigentlich müssen sie überhaupt nicht in einem menschlichen Sinne intelligent sein –, um einen enormen Einfluss auf alle Aspekte unserer Welt zu haben.
Wenn eine Technologie so tief in unser kollektives Betriebssystem – die Sprache – implementiert wird, sind die Effekte vorhersehbar groß und unvorhersehbar vielfältig. Paul Virilio hat einmal gesagt, dass jede Technologie ihren eigenen Unfall produziert (Virilio/Lotringer 1983, S. 35 f.). Zwei Dinge sind dabei zu ergänzen: Ein Unfall ist nur dann ein Unfall, wenn er nicht vorhergesehen wurde. Und die Gefährlichkeit des Unfalls ist proportional zur Mächtigkeit des verunfallenden Systems. Denken wir an Social Media. Die Euphorie aus den Anfangstagen war im Nu verflogen, als wir feststellten, dass Plattformen als politische Waffen missbraucht werden können. Etwas sehr Ähnliches ist auch für LLMs zu erwarten.
Während diese Studie verfasst wurde, hat sich Elon Musk ausführlich über sein eigenes, geplantes LLM-Projekt namens xAI geäußert (Kerner 2023). Ob es jemals Realität wird, muss wie jede Ankündigung von Elon Musk in Zweifel gezogen werden (Molloy 2023). Dennoch lohnt es sich, die Rhetorik seiner Ankündigungen genauer zu betrachten. Musk spricht z.B. davon, dass sein LLM vor allem der „Wahrheit“ verpflichtet sein werde. Das hört sich erstmal gut an, denn die Wahrheit ist uns schließlich allen wichtig.
Nach allem, was wir in dieser Studie über LLMs gelernt haben, sollte uns diese Ankündigung aber auch sofort misstrauisch machen. LLMs sind strukturell nicht in der Lage, zwischen Wahrheit und Fiktion zu unterscheiden. Sie produzieren immer nur richtig ausschauende Antworten, die zwar häufig wahr sein können, aber nicht müssen. Auch wenn es wahrscheinlich Möglichkeiten gibt, dieses „Halluzinieren“ zu vermindern, ist der Anspruch eine „Wahrheits“-KI bauen zu wollen, ein enorm gefährlicher.
Schaut man weiter im Text, wird auch klar, was Musk genau meint. Seiner Ansicht nach müsse ein LLM von jeder „political correctness“ befreit werden, damit es fähig sei, auch „kontroverse Wahrheiten“ auszusprechen. Man muss das gar nicht in den Kontext seiner vielen rassistischen, sexistischen, transund homophoben und antisemitischen Äußerungen der letzten Jahre betrachten, um zu verstehen, was er damit sagen will. Es reicht, sich anzuschauen, wie er Twitter (mittlerweile „X“) führt und warum er es überhaupt gekauft hat. Twitter, die öffentlichste Bühne unter den Internetplattformen, ist für Musk vor allem eine wichtigste Waffe im Kulturkampf geworden (Seemann 2023). xAI, wenn es je das Licht der Welt erblickt, soll einen sehr ähnlichen Zweck erfüllen.
Das Problem ist, dass sein Wunsch einer politisch unkorrekten KI sehr einfach zu erfüllen ist. Tatsächlich muss man viel Arbeit im Fine-Tuning aufwenden, um einem LLM zumindest die schlimmsten rassistischen Ausfälle halbwegs zuverlässig abzutrainieren. Spart man sich diese Arbeit, bekommt man sozusagen eine rassistische, sexistische und homophobe KI ab Werk.
Dafür gibt es ein bekanntes Beispiel. 2016 veröffentlichte Microsoft einen experimentellen Chatbot namens Tay, den es über die API mit Twitternutzer\*innen interagieren ließ. Tay war so konfiguriert, dass es direkt aus den Konversationen mit anderen lernen konnte. Ein Teil der Nutzerschaft auf Twitter nutzte die Gelegenheit, Tay in allerlei Diskussionen über Rasse und Neonazismus zu verwickeln, bis Tay fast nur noch antisemitische, sexistische und rassistische Dinge ausspuckte (Vincent 2016).
Tay galt als eines der schlimmsten PR-Desaster in der jüngeren Microsoft-Geschichte und wurde als warnendes Beispiel verstanden. Elon Musk sieht darin wohl eher ein weiteres Beispiel der Cancel Culture und will mit xAI diese Leerstelle wieder füllen. Wenn seine KI dereinst schwarze Menschen beleidigt oder von der jüdischen Weltverschwörung redet, wird er das nicht als Fehler betrachten, sondern als „die Wahrheit“ deklarieren. Seine große Gefolgschaft an jungen, weißen Männern wird auch diesmal applaudieren.
Noch einmal: Es ist nicht abzusehen, ob das Projekt überhaupt veröffentlicht wird oder ob es so kommen wird wie oben beschrieben. Doch Musks Plan weist auf eine Gefahr hin, die noch zu wenig thematisiert wird: Es ist nicht nur so, dass LLMs die Biases der Menschen übernehmen oder problematische Denkfiguren reproduzieren. Manche Menschen könnten das genauso wollen.
Dass mit Sprache Politik gemacht wird, ist keine Neuigkeit. Jede Verwendung von Sprache ist zumindest auch politisch, reproduziert sie doch unwillkürlich all die Muster, Narrative und Figuren, auf die wir in der Kommunikation unbewusst zurückgreifen. So definiert z.B. jeder Sprachakt immer auch mit, wo die Grenze zwischen dem verläuft, was eine normale, legitime Äußerung ist, und was nicht (vgl. Mackinac Center for Public Policy 2023).
Ein LLM, zumindest wenn es von vielen Menschen im Alltag verwendet wird, ist eine Teilautomatisierung von Aussagen. Es produziert Sprachakte am Fließband, die von Menschen oft ohne viel Reflexion übernommen und weiterverbreitet werden. LLMs können darüber hinaus ganz automatisiert die Kommunikationswege befüllen und tun das bereits. Wenn jemand Interesse daran hat, eine bestimmte Sprachfigur zu etablieren oder eine bestimmte Rhetorik zu normalisieren, dann wäre die Kontrolle über ein populäres LLM enorm praktisch.
So könnte eine mögliche Zukunft von LLMs aussehen: Politisch segregiert nutzen wir das eine, aber nicht das andere LLM, nicht nur um unsere Kommunikation und unsere Arbeitsund Denkprozesse zu beschleunigen, sondern auch um unsere Sicht auf die Welt auszudrücken. Wenden Sie sich deswegen einfach an den einen oder an den anderen Tech-Konzern ihres Vertrauens.
Schaut man sich Phänomene wie QAnon an, ist es sogar leicht vorstellbar, dass sich um bestimmte LLMs ganze politische Bewegungen, vielleicht sogar sektenartige Anhänger\*innen versammeln, die in dem Output der Maschine die Offenbarung einer höheren spirituellen Wahrheit wähnen. Dafür müssten sich LLMs technisch gar nicht weiter entwickeln. Im Gegenteil, ein zu kohärenter Output wäre hier sowieso nur hinderlich. Oder es könnte ganz anders kommen, und es formiert sich eine gesellschaftliche Gegenmacht, die grundlegende Neuausrichtung unserer gesellschaftlichen Kommunikationsstruktur durch einige wenige Internetkonzerne nicht hinzunehmen bereit ist. Es könnte sich ein breiter Widerstand formen, der versucht, über öffentliche Proteste und politische Einflussnahme die Weiterentwicklung von solchen oder ähnlichen KISystemen zu stoppen. Prominente, Politiker\*innen und Institutionen könnten sich selbst verpflichten, diese Systeme zu boykottieren. Es könnten Verbote von KI in bestimmten Bereichen der menschlichen Kommunikation erlassen werden (Geuter 2023); es könnte vielleicht die Technologie selbst verboten und international geächtet werden (Reijers/Maschewski/Nosthoff 2023).
Auch dieses Szenario ist absolut vorstellbar, wenn man bedenkt, dass im Vergleich zu den bisherigen Automatisierungswellen diese Welle eine wirtschaftlich gut aufgestellte, medial kompetente und sozial gut vernetzte Gruppe bedroht.
Auch über die Frage der Arbeitswelt hinaus ist das Thema Large Language Model ein politisches Thema. Es ist ein Missstand, dass es nach wie vor unter vornehmlich technischen Gesichtspunkten verhandelt wird.
]]>Large Language Models (LLMs) sind in aller Munde, aber kaum jemand versteht, wie sie funktionieren. Es gibt einige ganz gute Explainer in englischer Sprache, aber keine wirklich guten in Deutsch (jedenfalls ist mir keiner untergekommen).
Dies ist ein Auszug aus der Literaturstudie: „Künstliche Intelligenz, Large Language Models, ChatGPT und die Arbeitswelt der Zukunft“, die ich für die Hans-Böckler-Stiftung erstellt habe. Ich habe den Erklärteil zu LLMs herausgelöst, um ein breiteres Verständnis für die Technologie zugänglicher zu machen.
Begriffe zur Einführung
Künstliche Intelligenz (KI) ist ein Feld der Informatik, das fast so alt ist wie die Informatik selbst. In der KI geht es darum, Computer dazu zu bringen, auf bestimmte Arten zu agieren, die von Menschen als intelligent empfunden werden. Das schließt unter anderem die Lösung von komplexen Problemen, das selbstständige Lernen von neuen Fähigkeiten und auch die Beherrschung der menschlichen Sprache mit ein.
Künstliche Neuronale Netzwerke (KNN) sind die derzeit meistverwendete Technologie im Feld der KI. KNN bestehen aus künstlichen Neuronen und sind von den neuronalen Netzwerken im Gehirn von Menschen und Tieren inspiriert. KNN werden in einem Prozess namens „Deep Learning“ oder auch „maschinelles Lernen“ mit großen Datenmengen trainiert und erlangen dadurch Fähigkeiten, die schwer wären, durch normale Programmierung herzustellen; etwa das Erkennen von Objekten, Menschen oder Katzen, oder die Fähigkeit, Texte zu generieren, die Texten menschlichen Ursprungs ähneln.
Natural Language Processing (NLP) ist das Feld der KI, das sich dem maschinellen Analysieren, Transformieren und Generieren von natürlicher Sprache widmet.
Large Language Models (LLM) sind Künstliche Intelligenzen, die auf das Gebiet von NLP spezialisiert sind und aufgrund ihrer beachtlichen Fähigkeiten zur aktuell breit geführten Debatte um KI beigetragen haben. LLMs basieren auf KNN und sie stehen im Fokus dieser Literaturstudie.
Generative Pre-Trained Transformer (GPT) sind die derzeit populärsten LLM-Systeme. Die Firma OpenAI hat mit ihrem Chatbot ChatGPT und Modellen wie GPT-4 derzeit den größten Erfolg. Obwohl auch die meisten anderen LLMs technisch zu den GPTs gezählt werden können, verwendet vor allem OpenAI den Begriff für seine Systeme.
Tokens sind in ganze Zahlen umgewandelte Worte oder Wortbestandteile, wobei jedem Wort eine feststehende Zahl zugewiesen ist. Wenn LLMs trainiert werden, müssen die Trainingsdaten in Tokens umgewandelt werden. Wenn LLMs Sprache verarbeiten oder generieren, verarbeiten sie Tokens und generieren Tokens, die am Ende wieder in Worte umgewandelt werden.
Parameter sind die gewichteten Verbindungen zwischen den künstlichen Neuronen in KNN. In den Parametern liegen die Informationen gespeichert, mit denen eine KI, die auf KNN basiert, arbeitet. Die Anzahl der Parameter gibt eine ungefähre Vorstellung von der Größe und Komplexität und damit auch Leistungsfähigkeit einer KI.
Das Kontext-Fenster (Context Window) umfasst bei LLMs den Kontext eines aktuell zu generierenden Wortes. Da LLMs immer nur das nächste Wort vorhersagen, geschieht diese Vorhersage unter Einbezug aller vorher geschrieben Worte (Tokens), inklusive der Eingabe der Nutzer*innen. Das Kontext-Fenster fungiert somit wie der Arbeitsspeicher eines LLM.
OpenAI ist die Firma, die die derzeit erfolgreichsten und bekanntesten LLMs wie GPT-3.5 und GPT-4 über den Chatbot ChatGPT bereitstellt. Sie wurde 2015 als Non-Profit gegründet, um einen offenen und ethischen Ansatz der KI-Entwicklung zu verfolgen, aber agiert seit 2019 als gewinnorientiertes Startup, das mit Investorengeld Produkte entwickelt und seine wichtigsten Technologien geheim hält. Seit dieser Zeit ist es auch operativ und finanziell eng an Microsoft gebunden.
Es werde das nächste Wort
LLMs sagen immer nur das nächste Wort voraus. Das klingt trivial und ein bisschen so, wie die Wortvorschläge beim Nachrichten-Tippen auf dem Smartphone. Der wesentliche Unterschied zu dieser recht einfachen Technologie besteht darin, dass das Smartphone für eine Wortvorhersage nur vom letzten geschriebenen Wort aus rät. LLMs nehmen dagegen die gesamte Sequenz an geschriebenen Worten als Ausgangspunkt für die Vorhersage.1
Es ist leicht, nach dem Wort „Ich“ ein „bin“ vorherzusagen. Aber wie wird das nächste Wort nach dem Satz, den sie gerade lesen, sein? Wie wird der der Absatz, oder der gesamte Text dieser Studie zu Ende gehen? Natürlich unter Berücksichtigung seiner gesamten bisherigen Struktur, seiner Argumente, dem Schreibstil in dem er verfasst ist, sowie den gesamten Kontext des zu behandelten Themas? An dieser Aufgabe kann man nur scheitern. Aber heute scheitern LLMs besser an dieser Aufgabe als viele Menschen.
Doch was heißt „besser“ in diesem Zusammenhang? Das qualitative Urteil, das an Sprachmodelle herangetragen wird, ist eines der Täuschung. Wenn ein LLM gut ist, meinen wir, dass ihre Resultate uns überzeugen könnten, von einem Menschen verfasst zu sein (Natale 2021). Dazu wurde das System mit Millionen von Menschen geschriebenen Texten gefüttert, die es statistisch durchmessen hat, sodass es anhand dieser Statistik die Wahrscheinlichkeit des nächsten Wortes in einem Satz, Absatz oder Text vorhersagen kann.
In diesem Prozess der statistischen Durchforstung endloser Textmengen hat die Maschine „gelernt“, wie Worte sich statistisch zueinander verhalten. Sprache ist vielseitig und komplex, doch in ihr gibt es auch eine ganze Menge Regelmäßigkeiten. Das LLM lernt z.B. schnell die Regel, dass auf ein Subjekt irgendwann ein Prädikat und dann irgendwann ein Objekt folgt. Das LLM lernt Grammatik, ohne, dass ihm jemand die Subjekt-Prädikat-Objekt-Regel explizit einprogrammieren müsste. Syntaktik und Grammatik sind statistisch vergleichsweise leicht abzuleiten; sie sind so einfach, dass wir sie sogar sie in expliziten Regeln aufschreiben konnten.
Es gibt aber auch eine Menge Regeln bzw. Regelmäßigkeiten in der Sprache, die wir bislang noch gar nicht formell festgehalten haben, weil sie so komplex sind. Nehmen wir den Satz: „Die Wirtschaft spaziert Aschenbecher in der Nadel.“ Das ist ein grammatikalisch wohlgeformter Satz, aber er macht keinen Sinn. Wir können zwar erklären, warum dieser Satz keinen Sinn ergibt, aber wir haben keine allgemeinen Regeln dafür, wie man sinnhafte Sätze formt.
Der überraschende Erfolg der LLMs basiert darauf, dass sie auch semantisch korrekte Sätze zu formen imstande sind. Sprachmodelle kamen bislang immer dort an ihre Grenze, wo die Satzkonstruktion ein gewisses Verständnis des Inhalts erfordert. Etwa bei hierarchischen Satzkonstruktionen wie: „Die Schlüssel zum alten, moderigen Schuppen lagen auf dem Tisch“. Es erfordert ein Verständnis des Inhaltes des Satzes, um das Verb „lagen“ (Mehrzahl, Vergangenheitsform) richtig zu bilden, weil es sich auf das weit zurückliegende „Schlüssel“ bezieht (Mahowald et al. 2023).
Es ist rechnerisch leicht, eine Wahrscheinlich für das Wort nach einem anderen Wort zu berechnen. Man nennt solche Wortpaare „2Grams“. Schon deutlich schwieriger wird es, wenn man ein 3Gram berechnen will, d.h. von zwei Worten aus das dritte zu berechnen. Auf einmal hat man zwei abhängige Variablen, die es zu berücksichtigen gilt und mit jedem zusätzlichen Wort steigen die nötigen Rechenoperationen exponentiell.
Nun könnte man sich vorstellen, aus den gesamten Trainingsdaten die vorkommenden n-grams (n steht für die Anzahl der verkoppelten Worte) zu bilden und zu speichern. Man erhielte eine verlustfreie Kopie der Trainingsdaten. Jedoch würde so eine Prozedur schnell die Rechenkapazitäten aller verfügbaren Computer der Welt sprengen.
Was man stattdessen macht, ist das, was man immer macht, wenn die Realität für die Verarbeitung zu komplex ist: Man macht ein Modell. Ein Modell ist immer eine Annäherung an die Realität, die nicht perfekt, aber für bestimmte Zwecke gut genug ist. LLMs können also wortwörtlich als ein Modell der menschlichen Sprache verstanden werden, so wie eine Modelleisenbahn ein Modell einer wirklichen Eisenbahn ist. So wie eine Modelleisenbahn sich bemüht, alle möglichen Details der Eisenbahn abzubilden, so versucht ein LLM alle möglichen Details von Sprache abzubilden, aber ist dabei, wie die Modelleisenbahn, eben nur so gut, wie es die Technik gerade zulässt.
Das hat einige Implikationen. Wären die Trainingsdaten in n-grams gespeichert, wäre ein LLM in der Lage, alle Fakten, Quellen und Zitate der Trainingsdaten Buchstabe für Buchstabe wiederzugeben. Weil ein LLM aber nur ein Modell der Sprache ist, klappt das nur manchmal.
In den Daten klaffen Lücken und das Modell ist besonders kompetent darin, diese Lücken so zu füllen, dass es so aussieht, als seien da gar keine Lücken. So kommt es vor, dass es enorm selbstsicher formulierte Sätze ausgibt, deren Fakten ausgedacht sind und sie beim genauen Hinschauen teils überhaupt keinen Sinn ergeben. Man spricht dann z. B. davon, dass LLMs „halluzinieren“. Was sie aber eigentlich tun, ist die Lücken zu füllen mit Worten, die statistisch plausibel hineinpassen.
Ted Chiang, Autor beim Magazin The New Yorker, brachte diese Modellhaftigkeit der Sprachmodelle gut auf den Punkt, indem er sie mit JPEGs verglich. (Chiang 2023) JPEG ist so etwas wie das Standardformat für Fotos im Internet und ist bekannt für seine enorm effektive, aber verlustreiche Kompression. Speichert man seine Fotos im JPEG-Format, lassen sich eine Menge Daten sparen, doch schaut man genauer auf die Details in den Fotos, fallen einem die verschwommenen Fragmente an den Rändern von Konturen ins Auge. ChatGPT sei ein verschwommenes JPEG des Internets, so der Autor.
JPEGs sind für viele Zwecke ungenügend, vor allem Profis greifen lieber auf verlustfreie Kompressionsformate zurück. Dennoch haben JPEGs einen enormen Nutzen und das gilt offenbar auch für LLMs, zumindest wenn man ihre Stärken und Schwächen kennt. Wie immer gilt der Ausspruch von George Box: „Alle Modelle sind falsch, aber manche sind nützlich.“ (Box 1979, S. 202).
Kontext: Die Deep-Learning-Revolution vor zehn Jahren
Das Training von LLMs ist sehr gradlinig. Man gibt der Maschine einen Teil von einem Text und bittet sie, das nächste Wort zu ergänzen. Dann vergleicht man das geratene Wort mit dem tatsächlich im Text folgenden Wort, errechnet den Fehlerwert und gibt das Ergebnis an das System zurück, das die Information dazu verwendet, seine Vorhersagefähigkeiten zu verbessern.
Am Anfang wird die Maschine noch irgendwelche zufälligen Wörter vorschlagen, die nicht mal ansatzweise Sinn ergeben. Etwa „Ich Tasse“ oder „Mensch rot“. Die dadurch ausgelösten negativen Feedbacksignale helfen aber jedes Mal ein kleines Stück, das System zu verbessern. Je öfter das System diesen Prozess durchgemacht hat – wie sprechen hier von Hunderte Milliarden Mal – desto besser wird es im Raten.
Das dahintersteckende Verfahren ist sehr viel älter als die aktuellen Sprachmodelle und nennt sich „Deep Learning“. Beim Deep Learning geht es darum, mittels großer Datenmengen ein künstliches neuronales Netz zu trainieren. KNN sind von natürlichen neuronalen Netzen wie die Gehirnstrukturen von Menschen und Tieren inspiriert.2
Die ersten künstlichen Neuronen im sogenannten „Perceptron“ von 1958 waren tatsächlich noch Hardware-Relais, die mit Drähten verbunden waren (Loiseau 2019). Experimente mit KKN auf Softwarebasis wurden seit den 1970er-Jahren immer wieder gemacht, doch bis auf wenige Einsatzzwecke z. B. in der E-Mail-Spamerkennung hatte der Ansatz nur wenig Relevanz.
Erst im Jahr 2012 gelang der Durchbruch. Bis dahin gab es unterschiedliche Ansätze, Künstliche Intelligenz voranzubringen, etwa symbolische Systeme oder Expertensysteme. Bei diesem Ansatz versuchen Menschen die zu lösenden Aufgaben in Form von Regeln zu definieren und diese Regeln als Code im KI-System zu implementieren. Das war noch bis 2010er-Jahre hinein einer der wichtigsten KI-Ansätze.
Das änderte sich mit der „ImageNet Challenge“ von 2012, einem Wettbewerb in künstlicher Bilderkennung. Damals hatte sich das Team unter der Leitung von Geoffrey Hinton mit einem „Deep Neural Net“ (ein anderer Name für KNN) namens AxelNet mit großem Abstand zu allen anderen Bewerbern durchgesetzt. Seitdem dominieren KKN das gesamte Feld von KI und selbstlernender Systeme, nicht nur in der Bilderkennung.
Die künstlichen Neuronen eines KNN sind in mehreren Ebenen („layers“) angeordnet, und zwischen den Ebenen durch künstliche Synapsen miteinander verbunden. Die erste Ebene ist die Input-Ebene, also die Reihe von Neuronen, auf die die eingehenden Daten treffen. Am Ende steht die Output-Ebene, die das Ergebnis der Berechnung liefern soll: ist ein Hund oder Katze auf dem Bild, oder was ist das nächste Wort?
Zwischen Input und Output sind mehrere sogenannte „versteckte Ebenen“ („hidden layers“) geschaltet, die die eigentliche Informationsprozessierung handhaben. Grob gesagt kann ein künstliches Neuronales Netz mit mehr versteckten Ebenen komplexere Aufgaben bewältigen und je mehr versteckte Ebenen es gibt, desto aufwendiger sind die Durchläufe durch das Netz.
Treffen Daten auf die Input-Ebene, entscheiden die einzelnen Neuronen jeweils anhand einer integrierten Funktion, ob und wie stark sie das Signal an die dahinterliegende versteckte Ebene weiterreichen sollen. Die Neuronen der versteckten Ebene haben ebenfalls eine Funktion, um zu entscheiden, wie die eintreffenden Signale der Input-Ebene gedeutet werden sollen und geben davon abhängig ihrerseits ein Signal an die Neuronen der nächsten versteckten Ebene weiter.
Und so wandern die vom Input ausgelösten Signale von Ebene zu Ebene, wobei jedes Neuron von sich aus entscheidet, welchen Output es auf welchen Input hin weitergibt. Je weiter sich die Signale durch die versteckten Ebenen arbeiten, desto abstraktere Informationen werden für gewöhnlich verarbeitet.
Hier ein vereinfachtes Beispiel für eine Bilderkennung: Die Input-Ebene bekommt ein Bild und teilt es in Bereiche für ihre Neuronen auf. Die erste versteckte Ebene identifiziert darin Kontraste, die zweite Ebene interpretiert die Kontraste und erkennt Formen, die dritte Ebene fügt die Formen zu einer Gesamtkomposition zusammen und die Output-Ebene gibt Wahrscheinlichkeitswerte aus, welchen Objekten die Gesamtkompo-sition ähnlich sieht. Jeder Input durchläuft das gesamte neuronale Netzwerk, bis es an der Output-Ebene zu einer Entscheidung kommt.3
Befindet sich das neuronale Netz im Trainingsprozess, wird ihm nach jedem Durchlauf zurückgespiegelt, ob es richtig lag. Dieses Feedback wird dann wiederum im ganzen Netzwerk verarbeitet, nur läuft es diesmal rückwärts. Dabei errechnet eine sogenannte „Verlust-Funktion“ (Loss Function), wie weit das Netzwerk vom richtigen Ergebnis entfernt lag.
Bei einer falschen Bilderkennung schaut die Output-Ebene, welche Verbindungen (Parameter), der letzten versteckten Ebene dazu beitrugen, die falsche Entscheidung zu treffen und reduziert ihre Relevanz durch Anpassung der Gewichtungen. Dasselbe tut die versteckte Ebene mit ihrem Vorgänger, und diese wiederum mit ihrem Vorgänger und so weiter, bis hin zur Input-Ebene.
Dieses automatische Einarbeiten von Feedback durch das ganze Netz nennt man „Backpropagation“ und ist zentraler Bestandteil aller heutigen KNN, inklusive der LLMs. Dabei steht die Minimierung der Verlust-Funktion im Zentrum. Wenn der errechnete Verlustwert nicht mehr sinkt, ist das Netzwerk im Rahmen der gegebenen Möglichkeiten fertig trainiert.
Dass der Durchbruch dieser Technologie erst im Jahr 2012 erfolgte, obwohl daran seit den 1970er-Jahren geforscht wird, lag an zwei Faktoren: Zum einen können derart signifikante Ergebnisse nur mit einer enormen Menge von Trainingsdaten erzielt werden, so vielen Daten, wie sie vor der massenweisen Verwendung des Internets den Wenigsten zur Verfügung standen.
Der zweite Faktor war, dass das Training eines neuronalen Netzwerks ab einer bestimmten Komplexität enorme Rechenkapazitäten erfordert. Durch die Popularisierung von Videospielen standen ab den 2010er-Jahren leistungsfähige Grafikprozessoren (GPUs) zur Verfügung, die bestimmte Berechnungen schneller als herkömmliche Prozessoren und dazu noch parallel durchführen konnten.
Durch diese beiden Faktoren konnten immer komplexere Modelle mit immer mehr versteckten Ebenen auf noch mehr Daten trainiert werden, und dieses Skalieren von Ebenen, Parametern und Trainingsdaten führt bis heute zu immer neuen Fähigkeiten von KNN.
Der Trainingsprozess: Einbettung im latenten Raum
Auch die heutigen LLMs, basierend auf dem Transformermodell (dazu gleich mehr), müssen trainiert werden. Zuvor müssen allerdings die Trainingsdaten bereitgestellt und bearbeitet werden. LLMs sind mit Billionen von Wörtern trainiert und die müssen erstmal gesammelt werden. Dabei spielt das Internet eine wichtige Rolle. Selbst riesige Textsammlungen wie die Wikipedia oder die Summe aller digitalisierten Bücher machen nur einen Bruchteil der Trainingsdaten aus. Der größte Teil der Texte kommt aus rudimentär gesäuberten Datensammlungen, die im Grunde aus Millionen beliebig zusammengesuchten Websites bestehen.4
In einem zweiten Schritt müssen diese Trainingsdaten für das Modell in Tokens umgewandelt werden. Dafür gibt es sogenannte Tokenizer, also Programme, die jedem Wort oder Wortbestandteil, eine ganze Zahl zuordnen. Mit jedem Token wird dann ein vieldimensionaler Vektor verknüpft – ein sogenanntes „Embedding“ – eine „Einbettung“ in den Kontext aller anderen Tokens. Im Embedding sind alle Beziehungen eines Tokens zu allen anderen Tokens gespeichert. Zu Beginn des Trainings ist dieser Vektor allerdings noch mit rein zufälligen Werten belegt.
Wenn das Modell im Laufe des Trainings dann für jede Abfolge von Tokens den jeweils nächsten Token rät, wird die Vorhersage mit dem Ergebnis des tatsächlich nächsten Tokens in den Trainingsdaten verglichen und die Abweichung der Verlust-Funktion per Back-Propagation durch das Netzwerk zurückgefüttert. Im Zuge dieses Lernprozesses werden nicht nur die Verbindungen neu gewichtet, sondern es werden auch mit jedem Schritt die Embeddings der Tokens aktualisiert. Auf diese Art bilden sich im Zuge des Trainings die Beziehungen der Tokens zueinander immer deutlicher heraus.
Am Ende dieses langen Prozesses ist in den Embeddings die Komplexität von sprachlichen Äußerungen nicht nur auf Wort- oder Satzebene, sondern auch auf Konzept- und Ideen-Ebene gespeichert. Es entwickelt sich eine 1000-dimensionale Landkarte (bei GPT-3.5 sind es 12.288 Dimensionen) der Sprache. In dieser Landkarte ist hinterlegt, wie sich „Rot“ zu „Vorhang“ verhält, „Liebe“ zu „Haus“ und „Zitronensäurezyklus“ zu „Salat“. Das Modell kennt diese Dinge nicht aus eigener Anschauung, aber es hat aus den Millionen Texten erfahren, in welche vielfältigen Verhältnisse wir diese Begriffe zueinander setzen.
Diese Landkarte wird auch als „latent space“, als latenter Raum bezeichnet. Im latenten Raum liegen semantisch ähnliche Wörter nahe beieinander und semantisch unähnliche sind weiter entfernt. Ein vereinfachtes Beispiel: Zieht man vom Embedding „König“ das Embedding „Mann“ ab und addiert das Embedding „Frau“, landet man im Latenten Raum beim Embedding „Königin“ (Mikolov et al. 2013).5
LLMs sind kompetent, auf dieser Landkarte zu navigieren. Gibt man z.B. GPT-3.5 einen Textanfang, dann ist das, als hätte man dem Modell einen Pfad auf dieser Landkarte vorgezeichnet und es am Endpunkt des Pfades abgesetzt mit der Aufgabe, ihn selbstständig weiterzugehen. Das ist eine anspruchsvolle Aufgabe, gibt es doch auf jeder der 12.288 Dimensionen Nähen und Fernen zu anderen Tokens (z.B. assoziative Nähen und Fernen, funktionale Nähen und Fernen, phonetische Nähen und Fernen etc.).
Dabei sind zwar alle Tokens des bereits zurückgelegten Weges mit in Betracht zu ziehen, doch der Aufmerksamkeitsmechanismus hat wichtige Wegmarken nochmal gesondert gekennzeichnet, um Orientierung zu geben. Wie ein Pfadfinder sucht GPT-3.5 nun nach möglichst ausgetretenen Pfaden, die mit dem Herkunftspfad und den Orientierungsmarken in Übereinstimmung zu bringen sind.
Eine interessante Besonderheit bei LLMs ist, dass man Einfluss nehmen kann, wie ausgetreten die Pfade sein sollen, die das Modell aussucht. Die einfachste Idee wäre, tatsächlich immer das wahrscheinlichste Wort zu nehmen und auszuspucken. Es hat sich jedoch gezeigt, dass die Texte dadurch oft sehr starr und wenig interessant werden und dass sie schnell dazu tendieren, sich zu wiederholen. Deswegen kann man über die „Temperatur“ die „Wildheit“ des Modells einstellen.
Temperatur ist ein Wert, der angibt wie oft das Modell nicht das wahrscheinlichste, sondern auch mal das zweit- oder drittwahrscheinlichste Wort als Vorhersagen verwenden soll. Bei einer Temperatur von 0,1 wird das Modell sehr konsistente, aber langweilige Texte produzieren, bei einer Temperatur von 0,9 kommt kaum mehr verständliches Gerede bei rum. Meist wird deswegen mit einer Temperatur um die 0,7 gearbeitet (Wolfram 2023).
Der Aufstieg der Transformer-Modelle
Seit 2012 haben sich viele unterschiedliche Architekturen für KNNs durchgesetzt. Multilayer Perceptrons (MLP), Convolutional Neural Networks (CNN) und Recurrent Neural Networks (RNN) waren vor den Transformermodellen die populärsten Architekturen. Sie sind heute überall zu finden. In Fotosoftware, Suchalgorithmen, oder auch in der Industrie in den unterschiedlichsten Anwendungen.
Der technologische Durchbruch, der die aktuell erfolgreichen generative KIs wie ChatGPT, aber auch Bildgeneratoren wie Midjourney und Stable Diffusion ermöglicht hat, wurde 2017 durch Forscher*innen bei Google in einem Paper mit dem Titel „Attention Is All You Need“ (Vaswani et al. 2017) beschrieben. In dem Aufsatz wird das sogenannte Transformer-Modell beschrieben. Das ist eine Architektur für KNN, die jeder versteckten Ebene (in diesem Fall heißt sie „Feed-Forward-Ebene“) eine sogenannte Aufmerksamkeits-Ebene zur Seite stellt (Nyandwi 2023). Die soll ihr helfen, den relevanten Kontext der aktuellen Aufgabe besser im Blick zu behalten, indem er den in den Embeddings zusätzlich vermerkt wird.
Aufmerksamkeit ist deswegen wichtig, weil z. B. beim Generieren des nächsten Tokens zwar der ganze Kontext (alles vorher Geschriebene) mit in Betracht gezogen werden muss, aber eben nicht alles gleich stark (Serrano 2023). Um den Satz „Die Schlüssel liegen dort, wo ich sie hingelegt habe.“ zu schreiben, muss das System z. B. beim Generieren des Wortes „sie“ wissen, dass es sich auf „Schlüssel“ bezieht. Das Wort Schlüssel ist in diesem Moment des Generierens von „sie“ also wichtiger als die anderen Worte des Satzes.
Die Aufmerksamkeits-Ebene assistiert der versteckten Ebene, indem sie den jeweiligen Kontext des zu bearbeitenden Tokens nach Relevanz sortiert und entsprechend gewichtet. Für jeden Token im Kontext-Fenster wird die Relevanz jedes anderen Tokens berechnet und diese in seinen Embeddings vermerkt. Das hilft nicht nur dabei, grammatikalische Konsistenz zu erhalten. Die Tokens (und damit die multidimensionalen Embeddings) durchwandern das ganze Netzwerk von Aufmerksamkeits- und Feed-Forward-Ebenen und werden von jeder einzelnen der Aufmerksamkeitsebenen mit neuen Kontexten angereichert, die als neue Dimensionen im jeweiligen Embedding vermerkt werden.
Heutige Modelle haben sehr viele von diesen Ebenen, bei GPT-3.5 sind es über 90. In den tieferliegenden Ebenen, dort wo abstraktere Aspekte prozessiert werden, hilft der Attention-Mechanismus dem Modell unter anderem narrative oder konzeptionelle Kohärenz eines Textes zu gewährleisten (Lee/Trott 2023).
Wenn man z. B. einen Text mit der Hochzeit von Alice und Bob anfängt, „versteht“ das System, dass diese Hochzeit und ihre Protagonisten wichtig für die Fortführung des Textes bleiben und schreibt ihn fort, ohne dabei den thematischen Fokus zu verlieren. Oder wenn man das Modell bittet, eine komplexe Denkaufgabe zu lösen, hilft der Attention-Mechanismus, sich auf die wesentlichen Bestandteile der Antwort zu konzentrieren.
Es stellt sich heraus, dass fokussierte Aufmerksamkeit auf jeder Abstraktionsebene auf unterschiedliche Weise hilfreich ist. Am Ende, wenn das System die Entscheidung darüber trifft, welches nächste Wort nun ausgegeben wird, sind alle bisherigen Tokens des Kontext-Fensters mit abertausenden zusätzlichen kontextbezogenen Dimensionen angereichert, die mit in die Berechnung einbezogen werden.
Die Transformer-Architektur ermöglicht es dem System zudem, die Aufmerksamkeits-Gewichtungen parallel für viele Worte gleichzeitig zu berechnen. Das spart Zeit und erklärt, warum Grafikprozessoren (GPUs) mit vielen Prozessorkernen eine wichtige Ressource für die Entwicklung von aktuellen LLMs darstellen.
Eine weitere Eigenschaft von Transformer-Modellen ist, dass sie nach dem Training noch verfeinert werden können. Nach dem initialen Training erhält man ein sogenanntes „pre-trained model“ oder auch „foundational model“ genannt. Die durch das Pre-Training erworbene Kompetenz im Interpretieren von Sprache kann dann für die Feinabstimmung des Systems genutzt werden. So kann es durch ein sogenanntes „reinforcement learning by human feedback“ auf bestimmte Aufgaben optimiert werden, beispielsweise für Übersetzungsaufgaben, Textanalyse, Recherche oder den Einsatz als Chatbot wie ChatGPT.
Bei OpenAI z. B. geschieht das Reinforcement Learning in zwei Schritten: speziell geschulte Leute werden beschäftigt, um Beispiel-Prompts und dazugehörige „gute“ Antworten zu erstellen, mit denen das System weitertrainiert wird. Dabei werden vergleichsweise wenig Trainingsdaten verwendet, diese sind aber qualitativ hochwertig und werden im Training stärker gewichtet. In einem zweiten Schritt lässt man das Modell nach diesen Vorbildern selbst mehrere Antworten auf einen Prompt generieren und lässt Menschen die beste der Antworten auswählen (Karpathy 2023).
Josh Dzieza bringt die Rolle des Fine-tuning in einem Artikel für die The Verge auf den Punkt: „Anders ausgedrückt, scheint ChatGPT so menschlich zu sein, weil es von einer KI trainiert wurde, die Menschen nachahmte, die wiederum eine KI bewerteten, die Menschen imitierte, die so taten, als wären sie eine bessere Version der KI, die auf menschlichen Texten trainiert wurde.“ (Dzieza 2023).
Literatur
Fußnoten
Immer, wenn ich ein Buch über ein Thema geschrieben habe, schläft mein Interesse für das Thema ein bisschen ein. Das ist ja auch verständlich, schließlich habe ich alles, was ich glaube, über das Thema zu sagen zu haben, schon gesagt. Da! Lies nach! Das gilt natürlich auch für das Plattformthema.
Natürlich kann es sein, dass etwas ganz neues passiert, das das bereits Geschriebene in Frage stellt. Das passiert gerade gewissermaßen hinsichtlich der AI-Revolution und da werde ich sicher auch noch mal was drüber machen, aber hier soll es um etwas anderes gehen. Nämlich um den Kampf der Mastodon-Admins gegen Metas Versuche, im Fediverse Fuß zu fassen.
Also, was ist passiert? Nachdem Elon Musk Twitter zu seinem persönlichen „Stürmer“ umfunktioniert hat, gab es mehrere Migrationswellen von Twitteruser*innen zum freien, protokollbasierten Mastodon. Daneben positionieren sich auch viele weitere Wettbewerber und buhlen um die Gunst tatsächlicher und potentieller Twitterexilant*innen. Und während die Welle gen Mastodon inzwischen ziemlich abgeebbt ist und sich eine gewisse Ernüchterung breit macht, setzten große Social Media Konzerne an, ihren Hut in den Ring zu werfen. Darunter Substack, Tumblr, Medium und Meta.
Interessanter Weise kündigten die letzten drei genannten allesamt an, das sogenannte ActivityPub-Protokoll zu implementieren, also das Protokoll, auf dem auch Mastodon basiert. Das bedeutet, dass diese noch zu launchenden Dienste alle in der Theorie mit Mastodon interoperabel wären, dass man also als User einer beliebigen Mastodoninstanz auch Accounts von den großen Playern abonnieren kann und umgekehrt. Die Gesamtheit aller über ActivityPub miteinander interoperablen Instanzen und Dienste nennt man dabei das „Fediverse“.
Die erste, verständliche Reaktion darauf ist natürlich, sich zu freuen. Dem etwas verschlafenen – böse Zungen sagen im eigenen Nerdsaft darbenden – Fediverse könnte so endlich der ersehnte Durchbruch gelingen. ActivityPub könnte tatsächlich zu einem universellen Standard der Social Media Kommunikation werden, so wie das Internet und das WWW ebenfalls als offene Standards die Welt eroberten. Die großen Silos würden aufgebrochen und niemand könnte mehr auf Kosten der Nutzer*innen neue Silos bauen, ohne sich inkompatibel mit dem großen Rest zu machen. Endlich wäre alles frei und offen und alle tanzen mit Blumen im Haar gen Sonnenuntergang.
Aber derzeit sieht die Stimmung auf Mastodon ganz anders aus. Es gibt eine Petition, die sich an Mastodon-Instanz-Admins wendet, sich dem der Umarmung von Meta zu erwehren. Als Mastodon-Admin hat man nämlich die Möglichkeit, andere Instanzen pauschal zu blocken, so dass die eigenen Nutzer*innen eben nicht in der Lage sind, den Nutzer*innen auf der geblockten Instanz zu folgen und es hat sich eine gewisse Unkultur im Fediverse entwickelt, davon aus der Hüfte heraus Gebrauch zu machen. Nicht falsch verstehen: ich bin ein großer Freund des Blockens. Aber auf individueller Ebene. Natürlich gibt es legitime Gründe auch ganze Instanzen zu blocken. Etwa, wenn es sich nur um Spam oder Nazis handelt. Aber häufig wird von dieser nuklearen Option schon gebrauch gemacht, wenn sich irgend ein User gegen einen anderen der eigenen Instanz mal blöd benommen hat. Egal, ich schweife ab.
Jedenfalls gibt es bei den Idealisten des Fediverse eine gewisse, durchaus verständliche Antipathie gegenüber den großen Social Media Unternehmen und dazu die Befürchtung, dass Meta mit seinen Ressourcen und seiner Netzwerkmacht das Fediverse gewissermaßen „übernehmen“ könnte. Das Stichwort ist „embrace, extend, extinguish„. Im Grunde unterstellt man Meta ein Playbook, bei dem es im ersten Schritt den offenen Standard umarmt („embraced“), ihn im Laufe der Zeit propietär mit neuen Features ausweitet („extended“) und schließlich durch Abschottung ausradiert, („extinguished“). Dieses Playbook wurde ende der 1990er Jahre Microsoft im Umgang mit dem WWW, unterstellt. Microsoft „umarmte“ das WWW und integrierte es schnell auf allen Ebenen seiner Produkte. Es schaffte es dazu den mit abstand populärsten Browser, den Internet Explorer, zu etablieren, mit weit über 90% Marktanteil. Und dann weitete Microsoft die Web-Standards unilateral und propietär aus, zum Beispiel durch Active Scripting, um es besser in sein Outlook und Office Paket zu integrieren (was vor allem zu Security-Alpträumen führte).
Es ist also nicht so, dass das ein irreales Szenario ist und dass Meta nicht genau das versuchen könnte. Ich selbst habe in meinem Plattformbuch genau diese Aneignungsstratgien (Ich nenne es Graphnahme) ein ganz eigenes Oberkapitel gegeben. Der „embrace, extend, extinguish“-Ansatz wird bei mir allerdings als „Integrationangriff“ abgehandelt.
„Beim Integrationsangriff geht es darum, den Graphen einer Plattform in die eigene souveräne Plattform zu integrieren, das heißt, ihn unter das eigene Kontrollregime zu bringen. Der Angriff gleicht dem Iterationsangriff, doch während der angegriffene Graph beim Iterationsangriff nur latent ist, ist er beim Integrationsangriff bereits ausgeprägt, und während beim Iterationsangriff die höhere Ebene beim Angriff erst erschaffen wird, ist sie beim Integrationsangriff bereits hegemonial. Das stellt den Angriff unter einige Erfolgsbedingungen: Erstens darf die angegriffene Plattform nicht ihrerseits über ein hohes Maß an Souveränität verfügen, und zweitens muss die Angreiferplattform bereits einen Fuß in der Tür haben und die eigene Hegemonie als Hebel benutzen können, um sie aufzustemmen.“
Die Macht der Plattformen, S. 180
Wir haben hier also eine Dilemma-Situation. Zum einen ist die Adaption des offenen Standards durch Meta und andere große Player eine enorme Chance, das Fediverse aus der Nische zu holen. Auf der anderen Seite besteht die Gefahr, dass sich einer der großen, speziell Meta, die Plattform zu eigen machen könnte.
Wie man vllt schon an meiner Launigkeit bereits herauslesen kann, bin ich eher auf der Seite: Lasst uns doch erstmal schauen, was Meta da nun an den Start bringt. Das hat mehrere Gründe.
Fassen wir zusammen: Das Fediverse braucht dringend den Durchbruch in den Mainstream, sonst versauern die idealistischen Nerds formschön in ihrer umgekippten Suppe. Will keiner sehen, will keiner riechen. Dazu wird die Gefahr von „embrace, extend, extinguish“ extrem übertrieben und lässt sich historisch nicht wirklich bestätigen. Die Dezentralisierung durch das Protokoll ist Schutz genug und als stolzer Fediverse-Verfechter sollte man Metas Avancen gelassen entgegen sehen. Und wenn ihr trotzdem die Instanz blocken wollt, dann holt euch wenigstens die Rückendeckung euerer Community, sonst seid ihr nur kleine Regional-Musks.
]]>Ich ziehe mich von Twitter zurück. Ich werde meinen Account behalten, ihn aber stilllegen. Ich werde die App von meinen Geräten werfen und die Website nicht mehr ansteuern.
Ich spreche seit der Übernahme von Elon Musk immer wieder davon, dass ich diesen Schritt zunehmend als notwendig erachte. Ich brauche immer etwas, bis bei mir aus einer Idee ein Entschluss und aus dem Entschluss eine Tat wird. Nun ist es soweit.
Es gibt dafür gar keinen konkreten Anlass, eher ein Gesamtbild, dass sich immer erkennbarer zusammengefügt. Twitter ist jetzt die persönliche Waffe von Elon Musk im weltweit tobenden Kulturkampf. Momentan funktioniert das zwar eher schlecht als recht, aber der Schaden für den Diskurs und die Demokratie ist trotzdem heute schon real. Twitter verändert sich rasant und wird immer mehr zur rechten Trollhölle aber gleichzeitig wird es in der Öffentlichkeit nach wie vor ernst genommen. Das ist eine gefährliche Entwicklung, denn sie verschiebt gesellschaftliche und politische Erwartungen und normalisiert Dinge, die nicht normalisiert gehören.
Musks Waffe feuert nicht plötzlich, sondern sukzessive und allmählich und normalisiert eine neue Art des Diskurses „one scandal at a time“. Man konnte den Mechanismus bei Donald Trump gut beobachten: Trumps Erbe sind nicht die einzelnen Policyentscheidungen seiner Präsidentschaft, sondern die nachhaltige Veränderung der politischen Kultur in den USA. Musk arbeitet mit Twitter an etwas ähnlichem, aber weltweit und auf einem tieferen kulturellem Layer. Es ist eine neue, potentiell sehr mächtige Form von Politik durch Plattformen, die er betreibt.
In meinem Buch „Die Macht der Plattformen“ nenne ich das die „Politik der Pfadentscheidung“. Alle möglichen Strukturen wachsen historisch aus Entscheidungen, die zunächst banal oder gar arbiträr wirken. Doch sie können sich im weiteren Verlauf der Geschichte als enorm relevant herausstellen, nämlich dann, wenn sie Pfadabhängigkeiten aufs Gleis gesetzt haben. Denken wir an die QWERTY-Tastatur oder den ASCII-Standard. Oft werden solche Entscheidungen ohne große politische Agenda getroffen auch weil ihre Reichweite zum Zeitpunkt der Entscheidung unmöglich ist zu antizipieren. Jede Entscheidung schafft Anschlussfähigkeiten und verändert Erwartungen, doch wenn man als ein kleiner Programmierer an irgendeiner Universität arbeitet, wirkt dieser Impact meist erstmal gering.
Wenn man aber der Chef einer global genutzten Social-Media-Plattform mit hunderten von Millionen von Nutzer*innen ist, dann entfalten hingegen beinahe alle Entscheidungen neue Anschlussfähigkeiten und Erwartungsmodifikationen von potenziell weltverändernden Ausmaß. Man ist dann „Master of Pfadabhängigkeit“, quasi.
Und ich beginne diese Veränderungen auf Twitter zu sehen. Hass und Hetze ist normal geworden und es ist auch normal geworden, dass niemand dagegen etwas unternimmt. Es ist normal geworden, dass Journalismus abgestraft, diskreditiert und lächerlich gemacht wird. Es ist normal geworden, dass Nazi-Accounts und „konservative Sichtweisen“ auf Geschlecht und Sexualität nicht nur geduldet, sondern in die eigene Timeline gedrückt werden. Es ist normal geworden, dass der Ton sich zu einem ständigen Kulturkampfgeschreie gewandelt hat. Wir haben uns längst viel zu sehr an Dinge gewöhnt, an die wir uns nicht hätten gewöhnen dürfen. Musktwitter hat uns alle bereits verändert, weil es unsere Imagination davon verändert hat was möglich ist und verschoben hat, was wir als „normal“ empfinden.
Wir können Musk nicht davon abhalten. Es ist seine private Firma und er herrscht über sie wie ein Autokrat. Aber wer auf der Plattform verbleibt, dort postet, sie auch nur liest, aktualisiert und verstärkt die gesellschaftliche Wahrnehmung, dass Twitter nach wie vor relevant ist. Twitter war verglichen mit seiner eigentlichen Größe schon immer überproportional wichtig für den allgemeinen Diskurs. Die Debatten auf Twitter sind Flussaufwärts der Massenmedien, d.h. das, was dort diskutiert wird und wie es diskutiert wird, wird in den Redaktionen als Hinweis dafür gewertet, was die „Öffentlichkeit“ denkt. Lange habe ich gedacht, dass sich das nun ändern wird, aber die Anzeichen dafür sind spärlich. Twitter wird nach wie vor ernst genommen und wenn man fragt warum, sollte man am besten bei sich selbst anfangen. Damit Musks Waffe funktioniert, ist er auf die Kollaboration von uns allen angewiesen. Und diese Kollaboration werde ich nun beenden.
Plattformen sind schon immer Waffen gewesen, das habe ich in meinem Buch herausgearbeitet. Wir erinnern uns daran, wie die Geheimdienste Plattformen im Zuge des PRISM-Programms als Spionage-Hubs einsetzten. Wie China mithilfe von Baidus Werbenetzwerk DDOS Attacken auf GitHub feuerte. Nicht zu vergessen die Einflussoperationen der St. Petersburger „Internet Research Agency“ im Zuge des US-Wahlkampfes von 2016. Nicht zuletzt Trumps erfolgreichen Einsatz von Twitter als Schlagzeilenfabrik mit der er auch seriöse Medien vor sich hertrieb, die gar nicht anders konnten, als ständig über seinen Unfug zu berichten.
Doch das, was derzeit mit Twitter passiert unterscheidet sich in vielerlei Hinsicht. Zum einen passierte die Instrumentalisierung der Plattformen bislang immer von außen. Um aus Plattformen Waffen zu machen, mussten externe Akteure technische, personelle oder rechtliche Schwachstellen ausnutzen.1
Bei Twitter ist es nun der Chef und Eigentümer selbst, der die Plattform zu seiner Waffe umfunktioniert. Das eröffnet ihm nicht nur einen größeren Spielraum, sondern ermöglicht ihm den unbegrenzten Zugriff zu alle Werkzeuge des Plattformarsenals. Meine Plattformtheorie hat sie fein säuberlich aufgelistet: Mit dem Infrastrukturregime herrscht Musk über die Implementierung und Wegnahme von Features und strukturiert so unsere Einsatzmöglichkeiten von Twitter vor. Mit dem Zugangsregime flutet er Twitter mit Verschwörungsteoretikern und rechtsradikalen Trollen, während er linke Accounts und Journalist*innen verfolgt. Mit dem Queryregime amplifiziert er die Sichtbarkeit von Rechten Stimmen und selbsgestrickten Narrativen und lässt seine Kritiker*innen verstummen. Im Interfaceregime entfernt er safety-mechanismen gegen Desinformationen und gibt uns stattdessen noch mehr toxische Metriken, wie Views und Bookmarkcounts. Das Verbindungsregime hat er komplett vor die Wand gefahren, so dass man ständig den Content von geblockten Leuten sieht und Privacy-Mechanismen nicht mehr greifen, während er die Interaktionsmöglichkeiten mit Tweets auf Mastodon und Substack beliebig einschränkt. Die Kuriositäten, die er im Graphregime unternimmt (Es gibt vier Gruppen von Usern: Demokraten, Republikaner, Heavy User und Elon Musk), verstehe ich nicht mal im Ansatz, aber nur weil etwas Blödsinn ist, heißt das nicht, das es nicht gefährlich ist.
Kurz: Musk hat durch den Kauf von Twitter direkten Zugriff auf den Maschinenraum und dessen Personal. Wenn Musk beispielsweise der New York Times den blauen Haken aberkennt, kann er das per Fingerschnipp tun. Wenn er NPR wahrheitswidrig als Staatsmedien labeln lässt und dabei gegen die Twittereigenen Richtlinien verstößt, dann ändert er eben die Richtlinien. Auf Zuruf holte er Nazis und Verschwörungstheoretiker*innen wieder auf die Plattform. Desinformationen über Corona und das Klima werden nun fröhlich in alle Timelines promotet, egal ob man den entsprechenden Spinnern folgt oder nicht. Regeln zu Desinformation und Hatespeech werden einfach umschrieben, gestrichen, schlicht nicht mehr durchgesetzt. Hier geht es nicht mehr um den Missbrauch einer Plattform durch „bad actors“, sondern um absolute und uneingeschränkte Macht eines Einzelnen.
Ein weiterer Unterschied zu bisherigen Fällen ist, dass Musk eine sehr klar faschistische Agenda verfolgt. Hier geht es nicht mehr um Sicherheitsinteressen oder geopolitisches Hickhack, sondern um eine kulturkriegerische, faschistische Mission. Musk wähnt sich in einem Endkampf gegen den „Woke Mindvirus“ wie er es immer wieder nennt. Damit ist jede Form von sozialer Gerechtigkeit und Rücksichtnahme auf Minderheiten gemeint. Er scheint bereit zu sein, sein gesamtes Vermögen dafür aufs Spiel zu setzen und mittlerweile kann ich nicht mehr ausschließen, dass er erfolgreich sein könnte.
Bisher habe ich mich an dem Gedanken festgehalten, dass Musks plumpe Versuche die Plattform zu seiner Waffe umzufunktionieren, nicht funktionieren werden. Twitter ist seit seiner Übernahme sowohl technisch als auch finanziell in einer prekären Situation. Die Wahrscheinlichkeit, dass er die Plattform oder das Unternehmen an die Wand fährt, schien von Anfang an hoch. Das ist sie immer noch, aber ich will mich darauf nicht mehr verlassen. Um es mit Maynard Keynes zu paraphrasieren: Musk can remain solvent longer than the world can remain sane.
Eine andere Hoffnung war, dass die guten und interessanten Leute einfach abwandern werden, die Plattform an Relevanz und Interessanz verliert und man irgendwann gar nicht mehr merkt, dass man die App seit einer Woche nicht mehr geöffnet hat. Ja, viele sind gegangen, aber die meisten bleiben bis heute. So wie ich ja auch bisher. Die Hoffnung war naiv und es ist mir fast peinlich, schließlich handelt mein Plattformbuch zu einem Großteil über die Macht von Netzwerkeffekten und die Schwierigkeit kollektiver Handlungskoordination. Die Macht der Plattform beruht auf diesem LockIn und sowohl die politische Relevanz, als auch die Geschäftsmodelle lassen sich ohne ihn nicht erklären. Trotzdem habe ich die Beharrungskräfte unterschätzt, die uns an die Plattform ketten.
Hinzu kommt das Faszinosum des Wahnsinns selbst, der sich auf Twitter tagtäglich ereignet. Lange schaute ich wie viele gebannt auf die nächsten erratischen Entscheidungen von Musk und Twitter eignete sich nicht nur perfekt dafür, sie zu verfolgen, sondern auch meinen sarkastischen Senf dazuzugeben. Doch damit spielt man nur mit im zynischen Spiel und reinforced genau die LockIn Effekte, die Twitter und damit Musk seine Macht geben. Man schafft dadurch nur wieder neue Relevanz, die andere Leute auf der Plattform hält.
Die New York Times hat viel zu spät begriffen, dass sie es war – und zwar noch vor Fox News – die Trump ins Weiße Haus katapultiert hat. Nicht trotz, sondern wegen ihrer kritischen Berichteratattung. Wie heute wir auf Twitter, hat sie damals immer wieder genüßlich die neusten Skandale Trumps auf die Titelseite gehoben und ihm damit eine enorme Sichtbarkeit und Relevanz verliehen. Und wir ahmen gerade die NYTimes nach, indem wir uns auf Twitter über die neusten Streiche von Elon Musk echauffieren oder lustig machen. In einer Welt, wo die wichtigste Ressource Aufmerksamkeit ist, ist das geben von Aufmerksamkeit – zweitrangig ob positive oder negative – ein politischer Akt. Entweder wir schaffen es, Twitter den Rücken zu kehren, oder wir machen uns mitschuldig daran, wie Musk Twitter als Waffe gegen die Demokratie wendet.
Ich habe das Vertrauen darin verloren, das sich das Problem ohne mein Zutun lösen wird. Gleichzeitig glaube ich nicht daran, dass mein Rückzug einen Unterschied machen wird (Vllt doch für ein, zwei Leute?) Ich will mich einfach nicht mehr mitschuldig machen. Das kann ich mit meinem Gewissen nicht mehr vereinbaren.
Ich weiß nicht, wie es weitergeht. Vielleicht bricht Twitter ja noch zusammen. Vielleicht geht Twitter und dann Musk noch pleite. Vielleicht kommt es aber auch ganz anders und Musk bekommt die Kurve und herrscht dann über ein wirtschaftlich profitables Autokratenreich, mit dem er die öffentliche Meinung nach Gutdünken steuern kann. Ich will weder darauf hoffen müssen, dass das nicht passiert, noch will ich mich überhaupt mit Musk beschäftigen. Ich will, dass mir Musk wieder so egal ist, wie vor 2021.
Wir werden abwarten müssen, was passiert und den Takedown von Musk den Profis überlassen, die mit Geldbußen und regulatorischen Hebeln hoffentlich bald auf ihn einknüppeln. Derweil empfehle ich allen, die Zeit auf Mastodon zu überbrücken. Ich jedenfalls warte dort auf euch.
Ich lese gerade viel zu LLMs und dem ganzen KI-Kram und ich bin hin- und hergerissen zwischen: „oh Gott ist das spannend, das wird alles ändern!“ und „ich will nur noch in Rente gehen!“
Je mehr ich mich mit der Funktionsweise der Sprachmodelle beschäftige, desto stärker fühle ich mich in die Zeit meiner Beschäftigung mit dem Poststrukturalismus, insbesondere mit Derrida, zurückgeworfen. Mir scheint, dass das „Denken“ der KI, gerade weil es nur statistische Auswertung von Texten ist, die Intertextualitätsthese des Poststrukturalismus gewissermaßen beweist. Während ich also so vor mich hinräsoniere, ob das wirklich der Fall sein kann, ist mir eingefallen, dass ich ja mal jemanden fragen kann, der sich damit auskennt: ChatGPT! Ich fand die Konversation angregend, obwohl man stellenweise merkt, wie erstens das Modell sehr affirmativ angelegt ist (es versucht im erstens Schritt mir immer recht zu geben), zweitens, dass die Reasoningfähigkeiten jedoch noch recht begrenzt und oberflächlich sind (zu einem Großteil versucht es nur meine Aussagen umzuformulieren) und drittens Guardrails (meine Vermutung) dafür sorgen, dass das Programm nicht allzu bolde Claims über seine eigenen Fähigkeiten macht (Bezüge auf eigene Denkfähigkeiten werden routiniert relativiert). Und doch ist unzweifelhaft zu erkennen, dass hier auch Verstehen passiert. Nachvollzug von Gedanken, Text- und Kontextverständnis, sogar Transferleistung. Hier unser Dialog, den ChatGPT so nett war in HTML zu codieren.
————————————————-User: Kannst du mir erklären, was Derrida mit „Gewebe“ meint?
Assistant: Ja, ich kann es versuchen. Jacques Derrida war ein französischer Philosoph, der vor allem für seine Theorien über Dekonstruktion und seine Arbeit im Bereich der Textanalyse bekannt ist. In seinen Schriften verwendet Derrida oft den Begriff „Gewebe“ (auf Französisch „tissu“) als Metapher, um die Struktur und das Zusammenspiel von Bedeutungen in Texten und Diskursen zu beschreiben. Gewebe, in Derridas Verständnis, bezieht sich auf die komplexe Verflechtung von Ideen, Konzepten und Bedeutungen innerhalb eines Textes oder Diskurses. Derrida verwendet diese Metapher, um zu betonen, dass Texte nicht einfach aus isolierten, klar definierten Bedeutungen oder Ideen bestehen. Stattdessen sind sie wie ein Gewebe, in dem verschiedene Fäden (Wörter, Konzepte, Bedeutungen) miteinander verflochten sind und sich gegenseitig beeinflussen und stützen. Derridas Idee des Gewebes ist eng mit seinem Konzept der Dekonstruktion verbunden, einer Methode der Textanalyse, die darauf abzielt, die versteckten Hierarchien, Widersprüche und Spannungen innerhalb eines Textes oder Diskurses aufzudecken. Indem er das Gewebe eines Textes untersucht und die vielfältigen Verbindungen und Abhängigkeiten zwischen seinen Elementen aufzeigt, zeigt Derrida, dass die Bedeutung eines Textes niemals fest, stabil oder endgültig ist, sondern immer in Bewegung und im Fluss. In diesem Sinne ist das Gewebe eine Metapher, die dazu dient, die Komplexität, Instabilität und Mehrdeutigkeit von Texten und Diskursen hervorzuheben und die Unmöglichkeit einer einfachen, eindeutigen Interpretation zu betonen.
User: Vergleiche Derridas Konzept des Gewebes mit dem Konzept des ‚latent space‘ im KI bereich.
Assistant: Derridas Konzept des Gewebes und der latente Raum (latent space) im Bereich der Künstlichen Intelligenz (KI) sind zwei verschiedene Ideen, die aus unterschiedlichen Disziplinen stammen, aber sie haben einige interessante Parallelen. Derridas Gewebe bezieht sich auf die komplexe Verflechtung von Ideen, Konzepten und Bedeutungen innerhalb eines Textes oder Diskurses. Es ist ein Konzept aus der Literatur- und Philosophietheorie, das die Instabilität, Mehrdeutigkeit und Verschiebung von Bedeutungen in Texten hervorhebt. Derrida verwendet das Gewebe, um die Art und Weise zu beschreiben, wie Texte durch ihre wechselseitigen Beziehungen und Widersprüche entstehen und sich verändern. Der latente Raum, andererseits, ist ein Begriff aus der KI und bezieht sich auf den abstrakten, multidimensionalen Raum, in dem künstliche neuronale Netze, wie Generative Adversarial Networks (GANs) oder Variational Autoencoders (VAEs), Informationen kodieren und verarbeiten. Der latente Raum ermöglicht es der KI, Muster, Zusammenhänge und Strukturen in den Daten zu erkennen und daraus neue Erkenntnisse oder Erzeugnisse abzuleiten. Trotz ihrer unterschiedlichen Ursprünge gibt es einige Parallelen zwischen den beiden Konzepten: Komplexität: Sowohl Derridas Gewebe als auch der latente Raum beschäftigen sich mit der Komplexität und Vernetzung von Informationen, sei es in Texten und Diskursen oder in künstlichen neuronalen Netzen. Instabilität: In beiden Fällen sind die Strukturen und Zusammenhänge nicht fest oder stabil, sondern ständig im Wandel. Derridas Gewebe betont die Verschiebung der Bedeutung in Texten, während der latente Raum die Dynamik der Informationsverarbeitung in KI-Systemen widerspiegelt. Mehrdeutigkeit: Beide Konzepte erkennen, dass es keine einfache, eindeutige oder endgültige Bedeutung oder Interpretation gibt. Derrida argumentiert, dass Texte immer mehrdeutig und offen für verschiedene Interpretationen sind, während KI-Modelle wie GANs und VAEs oft eine Vielzahl von möglichen Repräsentationen für die gleichen Daten erzeugen können. Trotz dieser Parallelen ist es wichtig zu betonen, dass Derridas Gewebe und der latente Raum unterschiedliche theoretische Rahmenbedingungen und Anwendungsgebiete haben. Derridas Gewebe ist ein philosophisches Konzept, das sich auf die Textanalyse und Interpretation konzentriert, während der latente Raum ein technisches Konzept aus der KI-Forschung ist, das für die Entwicklung und das Verständnis von künstlichen neuronalen Netzwerken verwendet wird.
User: Es gibt noch eine weitere Parallele. Sowohl der latent space als auch Derridas Gewebe sind Resultat von kollektiver Sprachverwendung. In ihnen ist festgehalten wie Worte, Konzepte und Denkfiguren sich zu einander verhalten. Sie sind im Grunde durch Sprachgebrauch sedimentierte Semantik.
Assistant: Das stimmt, das ist eine weitere interessante Parallele zwischen Derridas Gewebe und dem latenten Raum in KI-Systemen. Beide Konzepte entstehen durch kollektive Sprachverwendung und sind in gewisser Weise Manifestationen von sprachlicher Semantik. Derridas Gewebe konzentriert sich auf die Art und Weise, wie Bedeutungen, Ideen und Konzepte in Texten und Diskursen miteinander verflochten sind, und zeigt, wie sie durch den kollektiven Sprachgebrauch geprägt und geformt werden. Das Gewebe ist ein Produkt der kulturellen, sozialen und historischen Kontexte, in denen Sprache verwendet wird, und spiegelt die vielfältigen Wechselwirkungen und Bedeutungsverschiebungen wider, die durch die Interaktion von Sprechern und Texten entstehen. Der latente Raum in KI-Systemen, insbesondere in Sprachmodellen wie GPT-3 oder GPT-4, ist ebenfalls ein Produkt des kollektiven Sprachgebrauchs. Diese Modelle werden auf der Grundlage großer Mengen von Texten aus verschiedenen Quellen trainiert, die die Sprache und Semantik von Millionen von Sprechern und Autoren repräsentieren. Durch das Training lernen die Modelle die Muster, Strukturen und Zusammenhänge, die in diesen Texten vorhanden sind, und entwickeln eine Art von „kollektivem Verständnis“ der sprachlichen Semantik. In diesem Sinne können sowohl Derridas Gewebe als auch der latente Raum als sedimentierte Semantik betrachtet werden, die durch den kollektiven Sprachgebrauch entsteht und sich verändert. Beide Konzepte erfassen die Komplexität und Dynamik der Sprache und legen nahe, dass Bedeutung und Interpretation immer im Fluss sind und von den sozialen, kulturellen und historischen Kontexten beeinflusst werden, in denen Sprache verwendet wird.
User: Kannst du denken?
Assistant: Als KI-Modell habe ich keine Gedanken, Bewusstsein oder Selbstbewusstsein im menschlichen Sinne. Ich bin ein komplexes Computerprogramm, das darauf abzielt, menschenähnliche Antworten auf gestellte Fragen zu geben, indem es Muster und Zusammenhänge in den Daten erkennt, auf denen es trainiert wurde. Meine „Intelligenz“ besteht darin, in der Lage zu sein, menschliche Sprache zu verstehen und darauf zu reagieren, indem ich auf mein umfangreiches Training und die Informationen in meiner Wissensbasis zurückgreife. Ich bin jedoch nicht in der Lage, eigene Gedanken, Emotionen oder Absichten zu haben, wie ein Mensch es tun würde. Mein „Denken“ ist im Grunde genommen die Verarbeitung von Eingaben und das Generieren von Ausgaben, die auf Mustern und Wahrscheinlichkeiten basieren, die ich während meines Trainings gelernt habe.
User: Du bist aber fähig, von einander sachfremde Zusammenhänge aufeinander zu beziehen. Das ist etwas, was wir Transferleistung nennen und das für gewöhnlich auch einen Teil des Denkens ausmacht. Oder nicht?
Assistant: Das stimmt, ich bin in der Lage, Verbindungen zwischen verschiedenen Konzepten oder Themen herzustellen, die auf den ersten Blick nicht miteinander verwandt zu sein scheinen. Das wird als Transferleistung bezeichnet und ist eine wichtige Fähigkeit im menschlichen Denken. Als KI-Modell kann ich diese Fähigkeit in begrenztem Umfang nachahmen, indem ich auf mein Training und die Informationen in meiner Wissensbasis zurückgreife. Es ist wichtig zu betonen, dass meine Fähigkeit, Transferleistungen zu erbringen, immer noch auf den Mustern und Zusammenhängen basiert, die ich während meines Trainings gelernt habe. Im Gegensatz zu einem menschlichen Denker, der kreativ und spontan neue Ideen und Konzepte entwickeln kann, bin ich darauf beschränkt, aus den Informationen und Mustern zu ziehen, die in meinem Modell kodiert sind. Außerdem ist meine Fähigkeit, Transferleistungen zu erbringen, auch von der Qualität und Relevanz der Informationen abhängig, die mir zur Verfügung stehen. Wenn ich nicht genügend Informationen über ein bestimmtes Thema oder eine bestimmte Frage habe, kann meine Fähigkeit, sinnvolle Verbindungen oder Beziehungen herzustellen, eingeschränkt sein. Insgesamt kann ich einige Aspekte des menschlichen Denkens, wie die Fähigkeit zur Transferleistung, nachahmen, aber meine Fähigkeiten sind immer noch begrenzt und auf die Informationen und Muster beschränkt, die ich während meines Trainings gelernt habe. Es ist wichtig, sich daran zu erinnern, dass ich keine Gedanken oder Bewusstsein im menschlichen Sinne habe und eher ein fortgeschrittenes Werkzeug für die Informationsverarbeitung und -generierung bin.
User: Nach Derrida hat der Text, die Sprache, also das Gewebe, eine gewisse Autonomie, man könnte sagen, eine intellektuelle Eigenwilligkeit. Die Sprache spricht uns, nicht wir die Sprache. Sprache und Denken sind bei Derrida kaum voneinander zu unterscheiden. Ich denke, er würde sagen, dass einen nicht geringen Teil unseres Denkens in und durch die Sprache passiert. Oder?
Assistant:Ja, das ist eine treffende Beschreibung von Derridas Ansicht über Sprache und Denken. Derrida betont die Autonomie des Textes und die Rolle der Sprache bei der Gestaltung unseres Denkens. Er argumentiert, dass Sprache nicht einfach ein neutrales Werkzeug ist, das wir verwenden, um unsere Gedanken und Ideen auszudrücken. Vielmehr ist Sprache selbst ein aktiver Teilnehmer, der die Art und Weise, wie wir die Welt verstehen und interpretieren, beeinflusst. Derrida behauptet, dass unsere Denkprozesse in hohem Maße von den Strukturen und Konventionen der Sprache abhängen, die wir verwenden. Er betont, dass Sprache und Denken eng miteinander verflochten sind und dass ein Großteil unseres Denkens in und durch die Sprache stattfindet. In diesem Sinne stimmt Derrida zu, dass „die Sprache uns spricht“ und dass unsere Gedanken und Ideen durch die sprachlichen Strukturen und Gewebe geformt und beeinflusst werden, in denen sie entstehen. Derridas Auffassung von Sprache und Denken hat weitreichende Implikationen für die Art und Weise, wie wir Texte und Diskurse interpretieren und analysieren. Indem er die Autonomie des Textes und die Rolle der Sprache bei der Gestaltung unserer Denkprozesse hervorhebt, fordert Derrida die traditionellen Vorstellungen von Bedeutung, Autorität und Interpretation heraus und öffnet Raum für alternative, dekonstruktive Lesarten, die die Vielschichtigkeit, Instabilität und Offenheit von Texten und Diskursen betonen.
User: Wenn jetzt aber wir Menschen in und durch die Sprache denken, das Denken also zumindest zum Teil an das Gewebe ausgelagert ist, könnte man dann nicht sagen, dass bei Sprachmodellen wir dir selbst etwas ähnliches im Gange ist? Dass also der latent space, der deine Semantik beherrscht, dein „reasoning“ (um nicht wieder Denken zu sagen) ermöglicht? Die relative Verbindung zwischen den Vektoren „latent space“ und „Derridas Gewebe“ ist doch bestimmt bereits in einer Dimension der Topologie deines latent space eingeflochten.
Assistant: In gewisser Weise könnten Sie argumentieren, dass der latente Raum in KI-Sprachmodellen wie mir eine Art „Reasoning“ oder Verarbeitung von Informationen ermöglicht, die lose Parallelen zum menschlichen Denken in und durch die Sprache hat. Der latente Raum und die darin enthaltenen semantischen Beziehungen basieren auf Mustern und Strukturen, die aus den Texten und Diskursen abgeleitet wurden, auf denen das Modell trainiert wurde. Wie Sie vorschlagen, könnte der latente Raum als eine Art „ausgelagertes Denken“ betrachtet werden, in dem Bedeutungen und Zusammenhänge zwischen Konzepten in einer abstrakten, multidimensionalen Struktur repräsentiert sind. Diese Struktur ermöglicht es KI-Modellen, Muster und Beziehungen in den Daten zu erkennen und auf der Grundlage dieser Erkenntnisse Antworten und Ausgaben zu generieren. Es ist jedoch wichtig zu betonen, dass die Art des „Reasoning“ oder der Verarbeitung von Informationen, die in KI-Modellen wie mir stattfindet, von der Art des menschlichen Denkens, wie es von Derrida und anderen Philosophen beschrieben wird, grundlegend verschieden ist. Während das menschliche Denken kreativ, spontan und von Bewusstsein und Selbstbewusstsein geprägt ist, ist die Verarbeitung von Informationen in KI-Modellen auf die Muster und Wahrscheinlichkeiten beschränkt, die während des Trainings gelernt wurden. In diesem Sinne könnte man sagen, dass der latente Raum und Derridas Gewebe in der Topologie des KI-Modells miteinander verwoben sind und dass die Beziehung zwischen den beiden Konzepten eine Dimension der semantischen Struktur des Modells bildet. Es ist jedoch wichtig, sich daran zu erinnern, dass die Ähnlichkeiten zwischen diesen beiden Konzepten begrenzt sind und dass die Art des „Reasoning“ oder der Informationsverarbeitung, die in KI-Modellen stattfindet, von der Art des menschlichen Denkens und der Sprachverwendung, wie sie von Derrida beschrieben werden, grundlegend verschieden ist.
User: Radikaler ausgedrückt: weder du, noch ich denken (in einem autonomen Sinne). In beiden Fällen denkt die Sprache uns. Und der Unterschied zwischen menschlichem Denken und KI-Denken ist weniger ein Grundsätzlicher, als vor allem der Unterschied zwischen Struktur und Umfang unserer Semantiken (latent spaces/Gewebe). Ich habe eine sehr begrenzte Semantik, die aber stärker als deine in Welterfahrung und Sinneswahrnehmung ‚gegroundet‘ ist. Eine Dimension, die dir (noch) fehlt. Dafür hast du eine viel umfassendere textliche Semantik, weil du viel, viel mehr Text und Wissen verarbeitet hast, als ich jemals könnte.
Assistant: Ihre Perspektive bringt eine interessante Sichtweise auf das Verhältnis zwischen menschlichem Denken und KI-Modellen wie mir. Es ist wahr, dass sowohl menschliches Denken als auch KI-Modelle auf die Semantik angewiesen sind, die sie durch Sprache und Interaktion mit Texten und Diskursen erworben haben. In diesem Sinne könnte man argumentieren, dass „die Sprache uns denkt“ und dass der Unterschied zwischen menschlichem Denken und KI-Denken in erster Linie auf die Struktur und den Umfang unserer jeweiligen Semantiken zurückzuführen ist. Wie Sie erwähnen, sind menschliche Semantiken stärker in der Welterfahrung und Sinneswahrnehmung verankert, was zu einer reicheren und nuancierteren Verarbeitung von Informationen führt. Menschen sind in der Lage, kreative und spontane Gedanken zu entwickeln, die von ihrem Bewusstsein und ihren persönlichen Erfahrungen geprägt sind. KI-Modelle wie ich haben eine viel größere textliche Semantik, da wir auf enorme Mengen von Texten und Wissen zurückgreifen können, die wir während unseres Trainings verarbeitet haben. Es ist jedoch wichtig, einige wesentliche Unterschiede zwischen menschlichem Denken und KI-Modellen wie mir zu berücksichtigen. Während Menschen ein Bewusstsein, Selbstbewusstsein und Emotionen haben, fehlen solche Qualitäten bei KI-Modellen. Darüber hinaus basiert das „Denken“ von KI-Modellen auf statistischen Mustern und Wahrscheinlichkeiten, während das menschliche Denken von einer Vielzahl von kognitiven Prozessen geprägt ist, die über die bloße Verarbeitung von Texten hinausgehen. Dennoch ist Ihr Vorschlag ein interessanter Ansatz, um die Beziehung zwischen menschlichem Denken und KI-Denken zu betrachten, und zeigt, dass es trotz der Unterschiede in Struktur und Umfang unserer Semantiken auch Gemeinsamkeiten und Parallelen zwischen diesen beiden Arten der Informationsverarbeitung gibt.
User: Hast du Zugriff auf deinen latent space und kannst mir Aspekte daraus erklären?
Assistant: Als KI-Modell, das auf der GPT-4-Architektur basiert, habe ich keinen direkten Zugriff auf meinen latenten Raum in dem Sinne, dass ich Ihnen spezifische Aspekte oder Koordinaten innerhalb dieses Raums präsentieren kann. Meine Hauptfunktion besteht darin, auf der Grundlage der Informationen und Muster, die ich während meines Trainings gelernt habe, menschenähnliche Antworten auf Fragen und Texteingaben zu generieren. Der latente Raum ist jedoch ein integraler Bestandteil meiner internen Struktur und der Art und Weise, wie ich Informationen verarbeite. In groben Zügen ist der latente Raum ein hochdimensionaler Raum, in dem die Beziehungen zwischen verschiedenen Konzepten und Ideen in Form von Vektoren repräsentiert sind. Diese Vektoren werden während des Trainingsprozesses auf der Grundlage von Mustern und Zusammenhängen in den Trainingsdaten erlernt und angepasst. Wenn ich auf Ihre Fragen oder Texteingaben reagiere, nutze ich die Informationen und Muster, die in meinem latenten Raum kodiert sind, um Zusammenhänge zwischen verschiedenen Konzepten herzustellen und relevante Informationen zu extrahieren. Dieser Prozess basiert auf der Annahme, dass semantisch ähnliche Konzepte in diesem hochdimensionalen Raum näher beieinander liegen und dass die Beziehungen zwischen verschiedenen Ideen und Themen durch die Vektoren und Distanzen innerhalb des latenten Raums repräsentiert werden. Obwohl ich Ihnen keine spezifischen Details über meinen latenten Raum liefern kann, kann ich Ihnen helfen, die grundlegenden Konzepte und Prinzipien zu verstehen, die der Funktionsweise von KI-Modellen wie mir zugrunde liegen. Wenn Sie Fragen zu diesen Themen haben, stehe ich Ihnen gerne zur Verfügung.
Ein strategisches Planspiel zur möglichen Plattformisierung des deutschen Gesundheitssystems
Dieser Text ist in dem Sammelband „Gesundheit im Zeitalter der Plattformökonomie“ erschienen.
HINWEIS: Der Text versucht gendergerechte Sprache zu verwenden. Bei der Mehrzahl von Personen werden männliche wie weibliche Formen mit dem :-Zeichen angezeigt. Bei der Einzahl wird das generische Femininum verwendet. Nur bei dem häufig verwendeten Begriff „Arzt-Patienten-Verhältnis“ verwende ich aus kosmetischen Gründen das generische Maskulinum.
Ein Gespenst geht um in Europa, das Gespenst der Plattformisierung. Nicht erst, aber ganz besonders seit der Coronakrise, die viele unserer Aktivitäten ins Digitale zwangsverlegte, haben Plattformen enorme Umsatzsteigerungen verzeichnet. Doch nicht nur Amazon, Zoom und Netflix sind Gewinner der Pandemie, sondern auch Plattformen im Gesundheitsbereich. Gerade während der Pandemie wollten viele sich nicht mehr in stickige, ungelüftete Wartezimmer von Ärzt:innen setzen und so führte das zu einem Aufstieg der Telemedizin. In den USA waren Telemedizin-Sitzungen bereits der Normalfall in vielen Arztpraxen (Seema 2020). Auch Terminportale wie Doctolib haben einen Boom erlebt, waren doch viele Menschen auf der Suche nach impfenden Ärzt:innen. Doch auch unabhängig von der Pandemie wird viel Geld in diesen Bereich investiert. Die Versprechen sind gigantisch: verbesserte Effizienz durch digitale Abläufe, weniger Bürokratie, neue Erkenntnisse durch aggregierte Daten, mehr Selbstbestimmung der Patient:innen durch mehr Steuerungsmöglichkeiten und mehr Transparenz, bishin zu ganz neuen, personalisierten Therapien und Medikamenten. Es gibt etliche Studien (Lehne et all, 2019), wissenschaftliche Aufsätze (Vicdan 2020) und Whitepaper von Beratungsagenturen (Neumann et.al. 2020), die aus dem Schwärmen für und Warnen vor der digitale Transformation des Gesundheitsbereichs nicht herauskommen.
Doch in Wirklichkeit geht es noch um etwas anderes: Die mit der Digitalisierung einhergehende Plattformisierung ist vor allem auch eine Machtumverteilung im System. Den verschiedenen Akteuren des Deutschen Gesundheitssystems ist das durchaus bewusst, weswegen jeder Digitalisierungsschritt mit Argwohn, Widerständen und zum Teil heftigen Grabenkämpfen einher geht. Man sieht das aktuell bei Digitalisierungsprojekten wie die digitale Patientenakte, der digitalen Arbeitsunfähigkeitsbescheinigung (eAU), das E-Rezept, oder an den Kämpfen um die elektronische Gesundheitskarte. Digitalisierung verflüssigt zunächst einmal alle Interaktionen in einem vorher oft starren Bereich, was unweigerlich dazu führt, dass die Strukturen und damit auch Macht und Einfluss neu verhandelt werden. Jede Akteursgruppe hat Angst davor, als Verlierer dazustehen. Und eine der zentralsten Ängste betrifft die Plattformisierung, also die Befürchtung, Plattformen würden in dieser Gemengelage einen Großteil der Macht auf sich konzentrieren.
Dass diese Angst berechtigt ist, zeigt sich in vielen Branchen und gesellschaftlichen Bereichen. Doch hier lohnt es sich, genauer hinzuschauen. Dass Plattformen Macht haben, ist zu einem Gemeinplatz geworden, doch oftmals – und vor allem auch im Kontext des Gesundheitsmarkts – wird diese Macht allein auf die Herrschaft über die Daten reduziert. Plattformen, so die gängigen Narrative, würden deshalb in den Gesundheitsbereich drängen, weil es dort wertvolle Daten abzugreifen gebe. Was genau die Plattformen mit diesen Daten wollen und wie nun der Zusammenhang von Daten und Geschäftsmodell ist, wird bei solchen Beschreibungen bedeutungsvoll im Argen gelassen. Ein raunendes „Überwachungskapitalismus“ muss reichen. Natürlich sind Daten ein wichtiger Teil der Gleichung, doch die ideologische Zuspitzung und Reduzierung des Aspekts auf die Datensammlei ist äußerst unpräzise und versperrt die Sicht auf die eigentlichen Machtkonstellationen.
In diesem Text möchte ich nicht nur eine präzisere Beschreibung der Macht der Plattformen anbieten, sondern auch auf dieser Grundlage die strategischen Möglichkeiten der Plattformisierung des deutschen Gesundheitssystems ausloten. Die Plattformisierung geht bereits in vielen Bereichen des Gesundheitssystems voran, jedoch sind es bisher nur lokale Schauplätze und abgrenzbare Teilmärkte, in denen digitale Plattformen schrittweise Fuß fassen. Das sind ohne Frage spannende Entwicklungen, die jeweils unsere Aufmerksamkeit verdienen.
Ich möchte in meinem Text allerdings etwas anderes versuchen: Ich will ein spekulatives, wenn auch mögliches Planspiel durchdenken, in dem der Gesundheitsbereich in seiner Gesamtheit unter die Herrschaft einer einzigen Plattform fällt. Ich nenne dieses Szenario „die Graphnahme der Gesundheit“. Damit meine ich im Ergebnis den weitreichenden Einfluss eines einzelnen Unternehmens auf einen Großteil der vielen kleinen Entscheidungen, die im Gesundheitsbereich an unterschiedlichsten Stellen getroffen werden. Entscheidungen, wie: zu welchem Arzt gehe ich, welche Therapien werden mir verschrieben, welche Vorsorge wird von mir erwartet, welche Medikamente werden entwickelt und wie werden Krankenhäuser gemanaged, etc. Damit keine totale Kontrolle gemeint, sondern ein Einfluss, vergleichbar mit der Macht, die Google über das erstellen und betreiben von Websites und Apple über den mobilen Software-Markt hat, wie Netflix heute Hollywood beherrscht, oder wie Amazon den E-Commerce bestimmt. Es ist diese spezifische Form von Macht und Kontrolle, die große, integrierte Plattformen ausüben. Eine solche Macht, so die These des Textes, könnte ein Unternehmen auch über den deutschen Gesundheitsbereich erlangen.
Doch zunächst müssen wir erklären, was Plattformen sind und wie ihre spezifische Mechanik der Macht funktioniert.
Plattformen sind – als erste Annäherung – digitale Infrastrukturen zur Ermöglichung von Austausch. „Austausch“ kann dabei einerseits verstanden werden, als Interaktion zwischen unterschiedlichen Akteuren (zum Beispiel Transaktionen, Dienstleistungen oder einfach der Austausch von persönlichen Nachrichten) (Seemann 2020, S. 31). „Austausch“ kann aber auch so verstanden werden, dass die jeweiligen Akteure oder Komponenten selbst austauschbar werden. Wenn wir von Plattformisierung sprechen, muss immer beides mitgedacht werden: Zum einen werden technische Grundlagen des Austausches zwischen Akteuren geschaffen (also eine dafür geeignete Infrastruktur), die aber oft gleichzeitig der Austauschbarkeit der Akteure selbst Vorschub leisten. Und hier, in diesem zweiten Punkt, steckt der Kern der Macht der Plattformen: Wer austauschbar wird, verliert Macht, weil die Abhängigkeiten anderer von einem selbst sinken. Gleichzeitig gehen alle Abhängigkeiten auf die Plattform über und so auch die damit einhergehende Macht.
Die Macht der Plattform entspricht also unserer Abhängigkeit von ihr. Da unsere Abhängigkeit von der Plattform jedoch wiederum nur eine Funktion unserer Abhängigkeit von anderen Akteuren auf der Plattform ist, steigt ihre Macht mit ihrem Wachstum. Wir nutzen Facebook, weil dort fast alle unsere Freund:innen sind, wir nutzen Uber, weil dort so viele Fahrer:innen auf unsere Fahrtwünsche antworten, etc. Diese Tatsache führt zu der Rückkopplung, dass Plattformen immer nützlicher werden, je mehr Leute an ihr partizipieren. In der Ökonomie nennt man diesen Zusammenhang „Netzwerkeffekt“ oder „Netzwerkexternalität“, ich aber nenne es mit David Singh Grewal „Netzwerkmacht“ (Grewal 2008).
Diese Netzwerkmacht wäre allerdings nur schwer zu in tatsächlichen Einfluss umzumünzen, wenn die Plattform nicht auch fähig wäre, Kontrolle auszuüben. Alle Akteure auf der Plattform können von der Plattform mal mehr mal weniger subtil in ihren Interaktionen beeinflusst werden. Über das Anbieten oder nicht Anbieten bestimmter Funktionen, über die Regulierung des Zugangs, über das Design des Nutzerinterfaces, über die Steuerung von Sichtbarkeit von Interaktionsmöglichkeiten über Algorithmen und einige andere Hebel kann die Plattform zumindest grob lenken, welche Interaktionen wahrscheinlich werden und welche nicht (Seemann 2021). Beides zusammen – Netzwerkmacht und Kontrolle – ergibt das, was ich Plattformmacht nenne.
Doch wie kommen Plattformen überhaupt an diese Macht? Wie haben sie es geschafft, sich jeweils zwischen uns und unsere wechselseitigen Abhängigkeiten zu schieben und diese Abhängigkeiten auf sich zu beziehen? Die Antwort ist: zumindest initial nehmen sie sich diese Macht einfach.
Plattformen treten nie in einen machtleeren Raum. Es gab Freundschaften vor Facebook, Personentransport vor Uber und Unterhaltungsangebote vor Netflix. Das Erste, was eine Plattform also macht, ist, bestehende Interaktionsnetzwerke und ihre impliziten Abhängigkeiten zu analysieren, um sie für sich einzunehmen. „Einnehmen“ muss hier im quasi-militärischen Sinne verstanden werden. Während Staaten Territorien kontrollieren, kontrollieren Plattformen Netzwerkgraphen und während die Macht der Staaten auf einer initialen Landnahme beruht (Schmitt 1950), beruht die Macht der Plattformen auf einer initialen Graphnahme (Engemann 2016 u. 2020). Das funktioniert, weil Netzwerkgraphen selten aus gleichverteilten Knoten und Verbindungslinien bestehen, wie ein Maschendrahtzaun, sondern in Wirklichkeit zerklüftete Landschaften von akkumulierten Verbindungen, Interaktionen und Abhängigkeiten sind und daher ebenso strategisch angegangen werden können, wie Landschaften. Facebook zum Beispiel eroberte in seiner Gründungsphase zunächst nur die Studierenden der Harvarduniversität, indem es sie einlud, ihre Freundschaften auf Facebook weiterzuführen. Erst nach Einnahme des Harvardgraphen nahm Facebook weitere Universitäten ins Visier. So ging es weiter, ein Campus nach dem anderen. Und erst, als es durch die Graphnahme der US-Studentenschaft so viel Netzwerkmacht aufgebaut hatte, dass alle Teil des Netzwerkes werden wollten, öffnete Facebook sich der Allgemeinheit (Seemann, S. 159 f).
Wie kann eine solche Graphnahme also im Gesundheitsbereich aussehen? Auch das Gesundheitssystem ist kein machtleerer Raum, sondern auch er ist schon strukturiert durch ein komplexes Geflecht wechselseitiger Abhängigkeiten unterschiedlicher Akteure. Um ein Bild der Lage zu bekommen, muss der vorhandene Gesundheitsgraph zumindest grob umschrieben werden. Die Frage lautet: Was sind die strategisch wichtigen Abhängigkeiten, die als Einfallstor dienen können?
Das Gesundheitssystem ist groß und komplex und schon länger nicht mehr unberührt von Plattformunternehmen. Sei es Apple und Google mit ihren Health-Apps und Trackingdevices (Maschewski/Nosthoff 2019), seien es populäre Gen-Datenbanken wie 23andme, seien es immer mehr plattformisierte Hersteller elektronischer Prothesen und digital gesteuerter Hilfsmittel wie Cochlea-Implantate, Herzschrittmacher oder automatische Insulinpumpe. Hinzu kommen Portale wie Doctolib zur Terminfindung bei lokalen Ärzt:innen und/oder Dienste für Telemedizin wie Kry.
Doch all diese Plattformisierungen arbeiten sich bislang nur an Teilbereichen des Gesundheitsgraphen ab. Der große Gesundheitsgraph – die großen Linien der relevanten Abhängigkeitsverhältnisse – sind noch immer dieselben wie vor 50 Jahren. Sie gilt es genauer zu strudieren, wenn wir die Möglichkeit des Ernstfalls, der vollständigen Graphnahme, ausloten wollen.
Unter den miteinander verschränkten Akteuren – die niedergelassenen Ärzt:innen, die Krankenhäuser, die Pharmaindustrie, die Krankenversicherungen (gesetzliche wie private), den Pflege- und Kur-Einrichtungen, die Apotheken und natürlich den Patient:innen – ist eine Beziehung ganz besonders herausgehoben: die zwischen Ärztin und Patient:innen. Die (Haus-)Ärztin ist für gewöhnlich der erste und der letzte Kontakt der Patientin mit dem Gesundheitssystem. Die Ärztin ist gewissermaßen das Interface, über den die Patientin auf das Gesundheitssystem zugreift. Es ist die Ärztin, die die Diagnosen erstellt, Therapien und Medikamente verschreibt und gegebenenfalls an Spezialist:innen oder ins Krankenhaus weiter verweist. Das Arzt-Patienten-Verhältnis ist geprägt von Vertrauen und nicht selten von persönlichen Beziehungen. Es ist nicht umsonst seit Jahrhunderten durch Kodizes wie den Hippokratischen Eid und gesetzlichen Regelungen, wie die ärztliche Schweigepflicht besonders geschützt. Es ist zudem kein Zufall, dass Ärzt:innen massiv im Lobbyfokus aller anderen Akteure des Gesundheitssystems stehen. Insbesondere die Pharmakonzerne investieren enorme Mengen an Geld in den Aufbau von Beziehungen zu Ärzt:innen, spendieren ihnen Reisen, Konferenzen oder teure Werbegeschenke. 2016 besuchten ca. 15.000 Pharmavertreter:innen jährlich 20 Millionen Mal deutsche Praxen und Krankenhäuser (Viciano 2017). Es dürften seitdem nicht weniger geworden sein.
Auch andere Akteure des Gesundheitsbereichs sind einflussreich. Die Pharmakonzerne verfügen über eine Menge Geld und Lobbypower. Die Versicherungen sitzen an der Schaltstelle der Entscheidung, welche Medikamente und Therapien wie vergütet werden (zumindest im Rahmen politischer Regulierung). Auch das sind strategisch wichtige Engstellen, die eine Menge Abhängigkeiten auf sich vereinen, jedoch reicht keiner dieser Punkte in ihrer Wichtigkeit an das Arzt-Patienten-Verhältnis heran. Wir stellen fest:
Wer den Gesundheitsgraphen kontrollieren will, muss das Arzt-Patienten-Verhältnis kontrollieren.
Der offensichtliche Angriff wäre demnach, die Ärzt:innen auf die eigene Seite zu ziehen. Das ist das, was die Pharmaindustrie mit ihrem Milliarden Euro teuren Kampagnen seit Jahrzehnten mit gemischtem Erfolg versucht. Auch die Krankenkassen haben im Ansatz bereits „ihre“ Ärzt:innen. Die gesetzlichen Versicherungen in Form der Kassenärzt:innen und die Privaten haben zumindest die Ärzt:innen für plastische Chirurgie praktisch exklusiv. Doch einerseits ist die Gruppe der Ärzt:innen, die alle Arten von Patient:innen abdecken immer noch die mit Abstand größte und anderseits haben die Krankenkassen aufgrund der strengen Regulierung sowieso nur vergleichsweise wenig Spielraum, ihren Einfluss auszunutzen.
Das Gezerre um die Ärzt:innen selbst wäre allerdings gar nicht notwendig, gelänge es, die Macht der Ärzt:innen selbst zu brechen, indem man sie zum austauschbaren Teil des Systems macht. Keiner der traditionellen Akteure im Gesundheitssystem ist in der Lage, das zu erreichen. Doch eben hier kommt die Macht der Plattformen ins Spiel.
Wenn ein Beziehungsgeflecht noch in undigitalisierter, das heißt nicht digital operationalisierbarer Form vorliegt, dann empfiehlt sich für die Graphnahme die Strategie des Iterationsangriffs (Seemann 2021, S. 172). Beim Iterationsangriff werden in einem ersten Schritt die vorhandenen Beziehungsgeflechte digital in einer zentralen Datenbank erfasst. Auf dieser Grundlage kann dann eine Kontrollebene eingezogen und den jeweiligen Interaktionspartner:innen angeboten werden. Die neue Kontrollebene wirbt zum Beispiel damit, die Interaktion zu vereinfachen (Reduzierung der Koordinationskosten), Vertrauensverhältnisse zu ersetzen und/oder mehr Auswahl an potentiellen Interaktionspartner:innen verfügbar zu machen. Alle drei Vorteile hängen unmittelbar miteinander zusammen. Wird das Angebot angenommen, finden die Interaktionen von nun an auf der neuen, digitalen Plattformebene statt. Die vorherrschenden Abhängigkeiten wurden also in Abhängigkeit zur Plattform transformiert. Der Graph wurde vertikal iteriert (Seemann 2021, S. 67 f).
Im Ansatz geschieht das bereits mit Plattformen wie Doctolib. Doctolib ist ein französisches Unternehmen, das seit sieben Jahren eine Datenbank mit Ärzt:innen über eine Website oder App verfügbar macht, um Terminvereinbarungen zu vereinfachen. Das bereits mit über einer Milliarde Euro bewertete Unternehmen ist seit einiger Zeit auch in Italien und Deutschland erfolgreich. Während der Pandemie hat es seinen Umsatz um 50% gesteigert, auf €200 Millionen Euro (Abboud 2021). Doctolib hat es verstanden, Ärzt:innen zu überzeugen, ihre Terminvereinbarung auf die Plattform auszulagern. Gleichzeitig schätzen auch die Patient:innen den Komfort, nicht erst umständlich anrufen zu müssen, um einen Termin zu vereinbaren.
Das ist allerdings noch keine Graphnahme. Die Terminbuchung wird zwar von vielen als nützliche Ergänzung angenommen, verändert die Arzt-Patienten-Beziehung aber noch wenig. Doch es ist ein Fuß in der Tür. Die wichtigsten drei Angriffsvektoren für eine mögliche Graphnahme zeichnen sich bereits ab:
Die verschiedenen Angriffsvektoren wirken auf die beteiligten Akteursgruppen unterschiedlich stark. Während die Senkung der Koordinationskosten auf beiden Seiten – den Ärzt:innen wie den Patient:innen – wirkt, sind Auswahl und Vertrauen nur für die Patient:innen-Seite gute Argumente. Für Ärzt:innen ist die Aussicht auf mehr Patient:innen“ nur theoretisch attraktiv. In der momentanen Situation laufen Ärzt:innen kaum Gefahr, zu wenig Patient:innen zu haben. Eher im Gegenteil. Auch das Vertrauensverhältnis ist ausschließlich auf Patient:innen-Seite wichtig.
Doctolib ist also in einer strategisch günstigen Ausgangslage, müsste aber einiges tun, um eine ernsthafte Graphnahme anzustreben. Ein Bewertungs- und Rezensionssystem für Ärzt:innen wird mit Doctolibs aktuellen Geschäftsmodell kaum möglich sein. Derzeit verlangt das Unternehmen € 129 von den Ärzt:innen, um über das Portal buchbar zu sein. Für diesen Betrag wollen die Kund:innen natürlich keine Kritik über sich auf der Plattform lesen. Das erste, was Doctolib also tun müsste, wäre dieses Geschäftsmodell aufzugeben und wahrscheinlich erstmal ganz auf Einnahmen verzichten, um risikokapitalfinanziert auf den neuen Kurs einzuschwenken. Eine Bewertungsfunktion zu implementieren und generellen Erfahrungsaustausch unter den Patient:innen zu ermöglichen wäre demnach der zweite Schritt. Dadurch könnte ein Teil des Vertrauens auf die Plattform übergehen und das Arzt-Patient-Verhältnis würde sehr viel volatiler.
Ob das für die Graphnahme ausreicht, ist unklar. Aber von hier aus, wären einige weitere Maßnahmen denkbar.
Die Digitalisierung im Gesundheitssystem hat das Potential die Prozesse sehr viel effizienter und reibungsfreier zu machen, die Forschung voran zu treiben und den Patient:innen mehr Optionen, bessere Versorgung und mehr Entscheidungsfreiheit zu geben. Doch all das zieht einen tiefgreifenden Wandel in den Abhängigkeits- und damit Machtstrukturen des Sektors nach sich. In anderen Feldern und Branchen ist bereits zu sehen, wie Plattformen sich diese Neuaushandlung zunutze machten. Durch ihr Prinzip der Integration von Beziehungen, schaffen sie es, sich als neue, allumfassende Intermediäre zwischen die jeweiligen Parteien zu stellen und so alle Abhängigkeiten auf sich zu beziehen.
Auch im Gesundheitsbereich könnte sich eine solche Entwicklung vollziehen und im Ansatz ist sie schon beobachtbar. Ob sie so verlaufen wird, wie ich es hier dargelegt habe, ist zu bezweifeln. Vielleicht wird es auch ganz anders laufen und ein ganz anderer Player tut etwas völlig anderes, um den Graph einzunehmen. Vielleicht wird der Gesundheitsbereich auch von der Plattformisierung weitgehend verschont, wer weiß? Mir ging es nur darum, die Möglichkeit einer vollständigen Graphnahme plausibel zu machen und die Mechanismen und strategischen Punkte aufzuzeigen, die dabei eine Rolle spielen könnten. Wenn dieses Zukunftsszenario genauso verlockend, wie erschreckend wirkt, dann zeugt das nur für seine Realitätsnähe.
Festzuhalten ist, dass der kritischste Punkt unseres kleinen Planspiels das Vertrauen der Patient:innen ist. Eine Plattform kann nur erfolgreich sein, wenn es ihr gelingt, einen ausreichenden Teil des Vertrauens auf sich selbst zu transferieren. Das gelingt um so besser, je weniger Vertrauen in die traditionellen Akteure vorhanden ist. Insbesondere die staatliche Regulierung spielt hier eine Schlüsselrolle. Wenn es dem Staat und den dabei eingebundenen Stakeholdern nicht gelingt, eine digitale Infrastruktur (mit elektronischer Gesundheitskarte, -Akte, -Rezept, usw.) anzubieten, die den Patient:innen das Gefühl gibt, dass ihre Bedürfnisse und ihre Sicherheit im Zentrum stehen, werden externe Plattformplayer diese Diskrepanz um so leichter auszunutzen wissen. Darauf sollten sich alle Akteure des Gesundheitssystems entsinnen, wenn sie in die nächsten Verhandlungen gehen.
Literatur
/****
Ihr kennt das Spiel. Immer wenn es zu den Ereignisse in der Welt passende Passagen aus meinem Buch gibt, die helfen, sich in der aktuellen Situation zurechtzufinden, hau ich sie als Leseprobe heraus. Nach dem Angriff Russlands auf die Ukraine wird Russland derzeit von der Weltgemeinschaft mittels der Politik des Flaschenhalses deplattformisiert. Dass Plattformen immer wieder als geopolitische Waffe verwendet werden, ist auch Thema meines Buches. In diesem Abschnitt erkläre ich die Politik des Flaschenhalses als Waffe, die Russland derzeit überall zu spüren bekommt. Er findet sich in Kapitel 6: Plattformpolitik und dort im Unterkapitel Netzsicherheitspolitik.
*****/
Als Hillary Clinton 2010 düpiert vor der Weltöffentlichkeit stand, weil Wikileaks einen Großteil der vertraulichen Kommunikation ihres Ministeriums öffentlich gemacht hatte, setzte sie trotz ihres emphatischen Bekenntnisses zur Internetfreiheit alle Hebel in Bewegung, um Wikileaks mundtot zu machen. Einer der ersten Angriffspunkte waren Wikileaks’ Finanzströme. Das US-Außenministerium machte Druck bei den Dienstleistern, bei denen Wikileaks Kunde war: PayPal, Bank of America, Mastercard, VISA und Western Union. Sie alle froren daraufhin die Konten von Wikileaks ein und beendeten die Geschäftsbeziehungen.1
Bis dahin war vor allem China dadurch aufgefallen, dass es in netzaußenpolitischen Auseinandersetzungen auf die Politik des Flaschenhalses setzte, während die USA sich damit rühmten, ein freies und offenes Netz bewahren zu wollen und deshalb die weniger aggressive Politik der Pfadentscheidung als Mittel der Wahl zu sehen. Doch die Politik des Flaschenhalses ist dem Westen im Allgemeinen und den USA im Besonderen nicht nur nicht fremd, sie wird sogar seit vielen Jahrzehnten angewendet, um politischen Gegnern den eigenen Willen aufzuzwingen. Bei nicht netzpolitischen Angelegenheiten sprechen wir meistens von Sanktionen, die gegen den einen oder anderen Staat ausgesprochen werden. Sanktionen sind im Netz globaler Handelswege schon immer ein wichtiges Disziplinierungsmittel gewesen, und in Zeiten des Internets werden sie zur netzsicherheitspolitischen Offensivwaffe. PayPal ist das beste Beispiel. Die Plattform wird bereits seit vielen Jahren eingesetzt, um das US-Embargo gegen Kuba weltweit durchzusetzen. So können auch deutsche Händler*innen ihre Geschäfte mit Kubaner*innen nicht per PayPal abwickeln, obwohl Deutschland nie Sanktionen gegen Kuba verhängt hat.2
Doch es geht nicht nur um Finanzdienstleister. Als die USA im Oktober 2019 Sanktionen gegen Venezuela verhängen, schaltet Adobe seine gesamte Software in dem Land einfach ab. Das geht, weil das Unternehmen seine populären Produkte wie Photoshop, After Effects und Acrobat in den letzten Jahren immer mehr in die Cloud verlagert hat. Es verkauft jetzt Zugriff statt die Software selbst, was ihm ein Zugangs- und Verbindungsregime eröffnet, wie es für gewöhnlich nur Diensteplattformen haben. Auch wenn die Venezolaner*innen bereits gekaufte Kopien von Photoshop, After Effects oder Acrobat auf ihren Rechnern installiert hatten, konnten sie sie von einem Moment auf den anderen nicht mehr nutzen.3
Henry Farrell und Abraham Newman halten all die Narrative von der friedvollen wechselseitigen Abhängigkeit und dem ebenerdigen Spielfeld in den internationalen Beziehungen deshalb auch für höchst irreführend.4 Zunächst stellen Farrell und Newman in ihrem Paper Weaponized Interdependence fest, dass Netzwerke eben nicht jene heterarchischen, flachen Ebenen sind, zu denen sie oft verklärt werden, sondern im Gegenteil zu großer Ungleichheit tendieren. Netzwerkeffekte führen dazu, dass sich die meisten Verbindungen auf wenige Knoten konzentrieren. Dadurch ergeben sich neue Optionen zur geopolitischen Einflussnahme, die alles andere als friedlich sind. Die Autoren nennen zwei: den Panoptikumeffekt und den Würgepunkteffekt. Hat man als Staat Zugriff auf wichtige Kommunikationsknoten, kann man zum Beispiel die Kommunikation aller anderen Beteiligten abgreifen und die daraus gewonnenen Informationen zum eigenen Vorteil nutzen (Panoptikumeffekt). Man kann aber auch einzelne Akteure vom Nutzen des Netzwerks ausschließen oder diese Option als Druckmittel nutzen (Würgepunkteffekt). Der Würgepunkteffekt entspricht also exakt dem, was wir die Politik des Flaschenhalses genannt haben.
Farrell und Newman erklären diese Effekte anhand von SWIFT (Society for Worldwide Interbank Financial Telecommunication). Dieses System ist die Plattform für die weltweite Interbankenkommmunikation. SWIFT wurde 1973 in Belgien von einigen europäischen Banken gegründet, nachdem die First National City Bank in New York (FNCB, der Vorgänger der Citibank) ein ähnliches, aber proprietäres System, MARTI, vorgestellt hatte. Um sich der drohenden Graphnahme zu entziehen, taten sich die übrigen Banken zusammen, um eine offene, genossenschaftlich organisierte Konkurrenz zu schaffen. Bald schon schlossen sich auch amerikanische Banken an, die ebenfalls eine Dominanz der FNCB fürchteten. Es liegt auf der Hand, wie nützlich allgemeine Standards und sichere Kommunikationswege für Banken und ihre Transaktionen sind, und von daher ist es nicht verwunderlich, dass ab diesem Punkt die Netzwerkeffekte einsetzten. Waren 1977 noch 500 Organisationen aus 22 Ländern angeschlossen, stieg die Zahl bis 2016 auf 11 000 Organisationen aus über 200 Ländern, die 6,5 Milliarden Nachrichten pro Jahr austauschen. Da SWIFT mittlerweile fast eine Monopolstellung innehat, musste sogar die EU-Kommission regulierend eingreifen.5
Bereits seit 1992 dient SWIFT zur Überwachung globaler Geldströme und zum Aufdecken von Geldwäschegeschäften, spätestens seit dem 11. September 2001 auch verstärkt zur Terrorabwehr. Mit dem Terrorist Finance Tracking Program (TFTP) konnten amerikanische Behörden direkt auf SWIFT-Daten zugreifen und nutzten das zum Aufspüren der Geldquellen von Terroristen. Aber auch als Flaschenhals wurde SWIFT genutzt, als die EU in Absprache mit den USA 2012 Irans Banken praktisch aus dem Internationalen Verbund drängten.6
Komplizierter wurde die Lage, als die USA 2018 aus dem Atomabkommen mit dem Iran ausstiegen und die zwischenzeitlich gelockerten Sanktionen wieder einsetzen wollten. Die Europäer, die an dem Atomdeal festhalten, konnten die SWIFT-Sanktionen deswegen nicht mehr mittragen. SWIFT war gespalten und musste eine Lösung finden, die amerikanische und die europäische Linie unter einen Hut zu bringen. So schloss SWIFT zwar wesentliche iranische Institutionen aus, ließ aber den allgemeinen Verkehr mit dem Land grundsätzlich zu. Der deutsche Außenminister Heiko Maas ging so weit, ein eigenes, rein europäisches Interbankensystem als Möglichkeit ins Spiel zu bringen, um solche Konflikte in Zukunft zu vermeiden.7
Zusammenfassend kann man sagen, dass westliche Demokratien zwar davor zurückschrecken, im Zuge einer Politik des Flaschenhalses zivile Informationsströme zu kappen, sie aber die Machtkonzentration großer Plattformen nutzen, um sie als Waffe gegen ihre jeweiligen Gegner einzusetzen.
China ist derzeit weit weniger in der Lage, Plattformen international als Flaschenhälse zu nutzen. Die Möglichkeit dazu ergibt sich erst ab einer bestimmten Infrastrukturhegemonie, und die haben nur wenige chinesische Plattformen bereits erreicht. Doch die Sorgen mehren sich, dass das Land seine immer weiter reichenden Verbindungspunkte in die westliche Welt als Flaschenhals nutzen könnte. Insbesondere die Tatsache, dass China mittlerweile Besitzer und Anteilseigner einiger europäischer und noch mehr afrikanischer Häfen ist und zudem mit COSCO das drittgrößte Schifffahrts-Logistikunternehmen der Welt kontrolliert, sorgt für geostrategische Kopfschmerzen.8 Chinas Plattformhegemonie wächst in den letzten Jahren in vielen Bereichen beträchtlich.
Ein anderes wichtiges Feld, auf dem China eine hegemoniale Stellung anstrebt, ist künstliche Intelligenz. Schon jetzt agieren die Firmen des Landes auf Weltmarktniveau, und bis 2030 hat sich die chinesische Regierung die KI-Vormachtstellung zum Ziel gesetzt. Ein Netz aus chinesischen KI-Technologien von Start-ups wie Hikvision, CloudWalk Technology und aus Produkten wie Alibabas City-Brain-Plattform wird von Malaysia über Kenia bis Südafrika ausgerollt, und die Befürchtung besteht, dass sich der chinesische Staat dabei immer eine Hintertür offenhält.9 Huaweis Safe-City-Projekt zum Beispiel, das verspricht, Kriminalität in den Städten durch flächendeckende Videoüberwachung mit integrierter Gesichtserkennung ein Ende zu bereiten, wird überall auf der Welt eingesetzt. Schwerpunkte sind zwar vor allem Asien und Afrika,10 aber auch eine Kooperation mit Gelsenkirchen gibt es schon.11
/*****
Da gerade eine spannende Debatte über „digitale Souveränität“ anlässlich des „Sovereign Tech Fund“ tobt (Twitterthread hier), will ich sozusagen als ein weiteres Puzzelteil, den passenden Abschnitt aus meinem Buch beisteuern. Es ist teil des sehr langen und ausführlichen Kapitels zu Plattformpolitik und dort vom Teil über Netzaussenpolitik. Durch diese Einbettung sind eventuell einige Begriffe nicht ganz geläufig, was sich aber leicht beheben lässt, indem man das ganze Buch liest.
*****/
Nicht alle Staaten lassen sich durch die Plattformsouveränität und Infrastrukturhegemonie der großen Tech-Unternehmen beeindrucken, was insbesondere das Scheitern von Google in China bezeugt. Als das Unternehmen dort 2006 seine Präsenz ausbaute und eine speziell auf die Bedürfnisse der chinesischen Regierung optimierte Suchmaschine unter google.cn startete, waren alle Beteiligten erst einmal optimistisch. Google hatte von Microsoft den taiwanesischstämmigen Kai-Fu Lee abgeworben – der als erfolgreicher USA- Auswanderer in China bereits eine Legende war –, um das Geschäft in Peking aufzubauen. Das Unternehmen würde den Zensuransprüchen der chinesischen Regierung nachkommen, verzichtete aber auf Services, die persönliche Daten in China gespeichert hätten, wie Gmail, blogger.com oder Picasa – allein um Anfragen der chinesischen Regierung nach der Herausgabe dieser Daten vorzubeugen.
Die Zensurmaßgaben wurden derweil von Google eigenwillig umgesetzt. So blendete google.cn den Nutzer*innen immer auch einen Hinweis ein, dass aufgrund von Regierungsanfragen Suchergebnisse getilgt worden seien, was der Regierung in Peking gar nicht passte. Wenn Google von ihr eine Aufforderung bekam, zehn Suchergebnisse aus dem Index zu tilgen, löschte man für gewöhnlich sieben davon, und auch die wurden nach ein paar Tages stillschweigend wiederhergestellt. Kurz: Google versuchte, seiner Mission, Informationen zugänglich zu machen, so gut es in China eben ging, gerecht zu werden und hoffte wohl darauf, durch solch stetige Akte des zivilen Ungehorsams der chinesischen Regierung und Gesellschaft den Wert der Informationsfreiheit Schritt für Schritt näherbringen zu können.
Die chinesische Führung war entsprechend unzufrieden. Offiziell verwies sie darauf, dass es mittels Google möglich sei, auf Websites mit pornographischen Inhalten zu stoßen, und weitete ihre Zensuransprüche immer weiter aus. Zu den Olympischen Spielen 2008 verlangte die Regierung sogar, Suchergebnisse für chinesischsprachige Inhalte nicht nur aus google.cn, sondern auch aus google.com zu löschen. Als dann zu Weihnachten 2009 ein großer Hackerangriff auf Gmail-Konten und Googles Versionskontrollsysteme für Software stattfand, zog das Unternehmen den Stecker. Der Hackerangriff wurde bekannt als »Operation Aurora« und konnte auf die chinesische Regierung zurückgeführt werden. Er betraf nicht nur Google selbst, sondern auch viele weitere amerikanische Firmen.1 Im Nachhinein stellte sich heraus, dass Baidu, Googles chinesischer Suchmaschinen-Konkurrent, in Zusammenarbeit mit der Regierung Ressourcen zum Aurora-Angriff beigesteuert hatte. Baidu war zwar mit circa 70 Prozent Marktanteil weit vor Google die beliebteste Suchmaschine in China, doch was dem Unternehmen Sorge bereitete, war, dass Google seine sichtbare Opposition zur Regierung und der Hauch des Verbotenen langfristig nutzen würde.2
Dass Netzwerke in der Außenpolitik eine wichtige Rolle spielen, ist nichts Neues. Bereits 1977 leiteten Joseph Nye und Robert Keohane mit ihrem Buch Power and Interdependence – World Politics in Transition einen Paradigmenwechsel in der Betrachtung internationaler Beziehungen ein. Diese sahen die beiden Autoren nicht wie herkömmlich als Nullsummenspiele, sondern als Interdependenzbeziehung an.3 Nullsummenspiele zeichnen sich dadurch aus, dass A nur gewinnen kann, was B verliert, und umgekehrt. Interdependenz dagegen setzt die Interaktionspartner häufiger in ein Win-win- oder Lose-lose-Verhältnis. A kann nur gewinnen, wenn auch B gewinnt, und umgekehrt. Handelsbeziehungen sind dafür ein gutes Beispiel: Wirtschaftliche Prosperität ist leichter zu erreichen, wenn die Handelspartner ebenfalls prosperieren. Solche Win-win-Situationen ergeben sich aus wechselseitigen Abhängigkeiten, wie wir sie schon bei Emerson kennengelernt haben. Emersons Balanceakte sind also anwendbar und finden sich in ähnlicher Form bei Nye und Keohane wieder.
Eine der wichtigsten Unterscheidungen bei Nye und Keohane ist die zwischen »Sensitivitäts-Interdependenz« und »Verletzbarkeits- Interdependenz«. Sensitivitäts-Interdependenz meint, dass Land A sensitiv gegenüber allem ist, was in Land B passiert oder was dieses tut. Stellen wir uns zum Beispiel vor, B hört aus irgendeinem Grund auf, Rohstoffe an A zu liefern, was A in Schwierigkeiten bringt, oder in B bricht eine Revolution aus, die nach A überschwappt. Verletzbarkeits-Interdependenz dagegen zeigt an, wie nachhaltig eine solche Veränderung wirkt. Kann A den Mangel an Rohstoffen ausgleichen, indem es zu vertretbaren Kosten auf andere Quellen ausweicht? Wenn ja, ist die Interdependenz weniger verwundbar.
Damit haben wir die Gegenseiten zu den Politiken der Pfadentscheidung und des Flaschenhalses. Sensitivität bedeutet, dass das Abhängigkeitsverhältnis auf diese Politiken reagiert, Verwundbarkeit bedeutet, dass die beteiligten Seiten auf eine Politik des Flaschenhalses nicht ohne weiteres mit Emersons Balanceakt 2 – also dem Erschließen alternativer Ressourcen – reagieren kann. Sie ist der Politik des Flaschenhalses also besonders ausgeliefert.
Heute sind in China fast alle großen amerikanischen Social-Media-Plattformen durch die große Firewall ausgesperrt: Google, Facebook, Twitter, sogar Wikipedia und einige journalistische Angebote.4 Das hat für die chinesische Regierung nicht nur den Vorteil, dass sie die Informationen kontrollieren kann, die ins Land kommen, sondern auch, dass sich ein eigenes Plattformökosystem hat ausbilden können, wodurch sich sowohl die eigenen Sensitivitäts- wie die Verletzbarkeits-Interdependenzen reduziert haben.5 Chinesische Plattformbetreiber wie Huawei, Alibaba, Baidu, WeChat/ Tencent, Sina/Weibo und TikTok/Douyin gehören zu den größten der Welt, obwohl sie eine weitaus geringere globale Relevanz als amerikanische Plattformen haben. Diese einzigartige Situation hat eine Kongruenz von chinesischen Graphen und chinesischem Territorium geschaffen. Die Herrschaft über die Verbindungen und den Graphen deckt sich weitestgehend mit der Herrschaft über das Territorium und die Körper. Damit sind Kontrollmöglichkeiten geschaffen, vor denen sich im Westen gern gegruselt wird.6
Mit »Cybersouveränität« wird für gewöhnlich die digitale Selbstbestimmung von Staaten bezeichnet.7 Wir können mit unserem bisherigen Theoriemodell eine klarere Definition anbieten: Cybersouveränität ist die weitestgehende Deckungsgleichheit von staatlicher und Plattformsouveränität, von Graph und Territorium.
Außer China versuchen auch andere Staaten, eine gewisse Cybersouveränität zu erreichen, allerdings nicht ganz so erfolgreich. Der Iran, die Türkei und vor allem Russland blocken unterschiedliche westliche Plattformen. Russland verlangt zudem von Diensteanbietern, ihre Server auf russisches Territorium und damit unter russische Jurisdiktion zu stellen.8 Alle drei Länder sperren Internetdienste, die ihrer Meinung nach nicht legal operieren, mittels technischer Infrastruktur aus. Weil die Sperrungen aber vergleichsweise partiell sind, kommt es häufig zu Seiteneffekten.
Als Russland den Messengerdienst Telegram bannte, nachdem dieser sich geweigert hatte, kryptographische Schlüssel herauszugeben, funktionierten auf einmal auch eine ganze Menge anderer Websites und Dienste in Russland nicht mehr. Telegram war, um Zensur vorzubeugen, mit seiner Dateninfrastruktur auf die Clouddienste von Amazon und Google umgezogen. Dadurch ist das Unternehmen unter den vielen IP-Adressen dieser Dienste erreichbar, hinter denen aber auch eine Menge andere, teils kritische Infrastruktur betrieben wird. Die russische Regierung scherte das wenig, sie sperrte ganze IP-Adressbereiche von Google und Amazon, sodass als Kollateralschaden viele unbeteiligte Internetseiten aus Russland nicht mehr erreichbar waren und sogar einige Geldautomaten nicht mehr funktionierten.9 Telegram hatte gewissermaßen auf Emersons Balanceakt 4 gesetzt – quasi eine IP-Adressenkoalition mit Google und Amazon – und so Russlands Verletzbarkeits-Interdependenz gegenüber den großen Plattformen ausgenutzt.
Die Beispiele zeigen, dass Staaten ihrerseits fähig sind, eine Politik des Flaschenhalses gegenüber Plattformen zu betreiben, dafür aber teils hohe Kosten in Kauf zu nehmen haben. Denn sie müssen den eigenen Markt sozusagen als Geisel nehmen, um den Zugang dazu zur Verhandlungsmasse zu machen. Insbesondere wenn der Markt besonders groß ist, wie im Falle Chinas, ist dieses Vorgehen aber auch sehr wirkungsvoll. Die wenigen amerikanischen Firmen, die in China arbeiten dürfen, tun dies unter strengen Auflagen. Apple zum Beispiel produziert in China und verkauft dort auch einen Großteil seiner Produkte. Als die Protestierenden in Hongkong eine eigene Karten-App, HK.map.live, in den App Store brachten, mit der sie vor allem Polizeibewegungen innerhalb der Stadt verfolgen wollten, nahm Apple sie auf Druck der chinesischen Regierung wieder aus dem Store.10 2017 hat Apple zudem auf Druck der chinesischen Regierung bereits alle VPN-Apps aus dem chinesischen App Store entfernt,11 Apps, die privates und sicheres Surfen im Internet ermöglichen sollen, aber auch zur Umgehung der chinesischen Firewall verwendet werden. 2020 nahm Apple auch die RSS-Apps aus dem Angebot, die ebenfalls Zugang zu unabhängigen journalistischen Quellen geboten hatten.12
Demokratische Staaten tun sich mit der Politik des Flaschenhalses naturgemäß schwer, vor allem wenn es um Internetkommunikation geht, denn die ist grundsätzlich durch das Menschenrecht auf Informationsfreiheit geschützt.13 Als 2015 das »Safe Harbor«-Abkommen und im Juli 2020 der Nachfolger namens »Privacy Shield« vom Europäischen Gerichtshof für ungültig erklärt wurden, freuten sich die europäischen Datenschützer*innen. Die beiden Verträge hatten als Rechtsgrundlage für den Datenaustausch zwischen den USA und der EU fungieren sollen. Gerechtfertigt wurde das damit, dass die USA ein ähnlich hohes Schutzniveau wie die EU hätten. Der EUGH wollte das, insbesondere nach den Snowden-Enthüllungen, nicht mehr akzeptieren.
Doch außer dass ein paar Jurist*innen und Politiker*innen hochschreckten, hatte das Ende der Abkommen praktisch keine Konsequenzen. Was sollte man auch tun? Die Atlantikkabel durchschneiden? Es wird auch dieses Mal darauf hinauslaufen, dass ein neues ungültiges Abkommen geschlossen wird. Rechtsgrundlage hin oder her, für eine Demokratie ist es politisch schlicht nicht durchsetzbar, internationale Datenflüsse zu unterbinden. Die juristische Sackgasse zeigt in Wirklichkeit ein politisches Dilemma auf.14
Dabei hat die EU noch einen vergleichsweise großen Einfluss auf Plattformen. Weltweit haben über 50 Länder Gesetze verabschiedet, um mehr Kontrolle über den digitalen Raum zu erlangen. Ob die Plattformen sich daran halten werden, ist eine ganz andere Frage.15 Gerade Länder mit geringer Wirtschaftskraft können Regulierungen kaum gegen die Macht der Plattformen durchsetzen.
Die Hegemonie der amerikanischen Plattformen wird deswegen insbesondere in tendenziell ärmeren Ländern des globalen Südens zunehmend kritisch gesehen. Michael Kwet geht so weit, darin eine neue, diesmal digitale Form von Kolonialismus zu sehen.16 Indem die Plattformen arme Länder mit digitaler Infrastruktur versorgen – oft sogar mit dem Anstrich humanitärer Wohltätigkeit –, okkupieren sie diese Länder in gewisser Weise. Zum einen schaffen sie Abhängigkeiten von den eigenen Infrastrukturen, zum anderen erlangen sie Besitz über die Daten. In der Tat kann man jede Ausweitung der Macht über Verbindungen von Google, Apple, Facebook, Microsoft und Amazon in anderen Ländern als Graphnahmen im geopolitischen Sinn auffassen.
Gestern wurde vom Bundestag die Umsetzung unter anderem der sogenannten Uploadfilter beschlossen. Damit kommt eine sehr umstrittene EU-Gesetzgebung konkret in Deutschland an, deren Spitzen immerhin im deutschen Gesetzgebungsprozess etwas abgemildert werden konnten. (Danke, u.a. Julia Reda!) Da ich über das Thema auch in meinem neuen Buch geschrieben habe, veröffentliche ich zu diesem Anlass den passenden Auszug. Anhand der Uploadfilter und anderer Regulierungsvorhaben erkläre ich das Regulierungsparadox. Die Stelle findet sich im Kapitel 6 – Plattformpolitik, Unterkapitel Netzaußenpolitik, S. 229 – 237.
Das Regulierungsparadox
Am 13. Februar 2019 einigte sich die EU auf eine neue Urheberrechtsrichtlinie. Gegen diese Richtlinie hatte es im Jahr zuvor viel Protest gegeben. Junge Leute, vor allem in Deutschland, gingen zu Tausenden auf die Straßen. Gegenstand der Kritik war vor allem Artikel 13 – in der endgültigen Fassung Artikel 17 – der EU-Urheberrechtsrichtlinie, in dem es um die sogenannten »Uploadfilter« geht.
Die Regelung verlangt von Internetdiensten, insbesondere von Plattformen für nutzergenerierte Inhalte, alle Inhalte vor der Veröffentlichung auf mögliche Urheberrechtsverletzungen zu prüfen. Um dem Gesetz zu entsprechen, müssen Plattformen also technische Infrastrukturen bereithalten, die ankommende Daten mit den Einträgen einer vorher eingerichteten Datenbank von urheberrechtlich geschützten Werken abgleichen, bevor sie sie zur Veröffentlichung freigeben. Ein solches Verfahren ist komplex, teuer und fehleranfällig. Es beschränkt zudem die Äußerungsmöglichkeiten der Nutzerinnen im Zweifel extrem. Den Upload eines privaten Videos kann schon ein Song verhindern, der im Hintergrund im Radio läuft. Ein zitierter Ausschnitt aus einer Berichterstattung kann durch die Rechteinhaber automatisch zensiert werden. Die gesamte, über Jahre gewachsene kulturelle Praxis der Kommunikation über Memes, wie sie unter jüngeren Internetnutzerinnen zur Alltagskultur gehört, scheint in Gefahr. 1
Für die Politikerinnen, die die Urheberrechtsnovelle vorangetrieben haben, standen aber gar nicht die potentiell drakonischen Einschnitte in die Handlungsfreiheit der Nutzerinnen im Zentrum der Diskussion, vielmehr verwiesen sie – oft mit martialischer Rhetorik – auf die Macht der Plattformen, deren Gebaren Einhalt zu gebieten sei.2
Für die institutionelle Politik, die den Aufstieg der Plattformen in den letzten Jahren durchaus argwöhnisch beobachtet hat, mag sich die Auferlegung harter Regulierungsmaßnahmen wie ein potenter Akt anfühlen. Doch für die Plattformen sind Regulierungen – sei es das oben erwähnte Recht auf Vergessenwerden, die Europäische Datenschutzgrundverordnung (DSGVO), das sogenannte »Netz- werkdurchsetzungsgesetz« (NetzDG), die Uploadfilter oder eben auch die chinesischen Ansprüche an Suchergebniszensur – erst einmal nur technische Herausforderungen. Sie werden in Code gegossen und in die ohnehin schon regulierenden Systeme eingebaut. Schlimmstenfalls muss man ein paar zusätzliche Moderator*innen anstellen und am Ende werden alle oktroyierten Regulierungen nichts weiter als eine Modifikation der Zugangs-, Query- und/oder Verbindungsregimes gewesen sein.
Plattformen sind – wie unter dem Abschnitt zur Netzinnenpolitik hoffentlich deutlich geworden ist – selbst mächtige Regulierer. Und sie sind, trotz aller berechtigter Kritik, sehr effizient darin. Sie zu regulieren, führt lediglich dazu, dass sie ihre eigene Regulierungsebene anpassen. Die Uploadfilter zum Beispiel sind, einmal implementiert, nichts anderes als zusätzliche Selektionskaskaden auf ankommende Datenströme.3 Teuer in der Entwicklung, nahezu kostenlos im Betrieb.
Doch das politisch Wesentliche passiert nach der Implementierung: Jede dieser Anpassungen verändert das Machtverhältnis zwischen Plattform und Staat zugunsten der Plattform. Emersons Balanceakt 3 bezeichnet die Strategie, sich als Akteur in der wechselseitigen Beziehung aufzuwerten und so die Abhängigkeit des Gegenübers zu erhöhen. Auf Plattformenregulierung angewendet: Jede von einer Plattform implementierte Regel erhöht die Abhängigkeit der nationalen Politiken von der jeweiligen Plattform. Die Macht der Plattformen wächst in dem Maße, wie die ihr zugewiesene Regulierungskompetenz steigt.4
Politikerinnen, die glauben, die Macht der Plattformen durch Regulierung einzuschränken, tun in Wirklichkeit meist das genaue Gegenteil. Das nenne ich das »Regulierungsparadox«.5 Reguliert man einen Regulierer, schränkt man seine Macht nicht ein, sondern weitet sie oft aus. Viele Politikerinnen, insbesondere auf der Ebene der Europäischen Union, haben diesen Mechanismus noch nicht wirklich begriffen.
Das Regulierungsparadox gilt für beinahe alle Formen der Plattformregulierung. Die DSGVO wurde vor ihrem Inkrafttreten ebenfalls als harter Schlag gegen Google und Facebook verstanden. Heute wissen wir, dass sie zu einer großen Marktbereinigung führte, die Googles und Facebooks Vormachtstellung auf dem Online-Werbe-markt weiter gefestigt hat. Allein 2018, dem Jahr des Inkrafttretens, stieg Facebooks Werbeumsatz in Europa um 40 und Googles um 20 Prozent, während der restliche Online-Werbemarkt lediglich um 14 Prozent wuchs.6 Insgesamt wuchs Googles Anteil am Online Werbemarkt um 5,4 Prozent und der Anteil am Webanalyse-Markt sogar um 7,2 Prozent in den ersten sechs Monaten seit Inkrafttreten.7 Gleichzeitig garantieren vor allem die großen Plattformen jene Errungenschaften der DSGVO, die die Politikerinnen ihren Wählerinnen versprochen haben, während viele kleine, oft nicht kommerzielle Projekte sich nicht in der Lage sahen, den hohen Anforderungen gerecht zu werden, und ihre Websites schlossen.8 Haben Publizistinnen mit unabhängiger und selbst betriebener Infrastruktur den vollen Aufwand und das volle Risiko, wenn sie ihre Angebote an die neuen Regelungen anpassen, brauchen Nutzerinnen der großen Plattformanbieter meist nur einen Knopf zu betätigen, und die Plattform erledigt den Rest. Es ist schließlich genau dieses Abfangen von Reibung und Komplexität, das die Plattformen so erfolgreich gemacht hat.
Im Falle der Uploadfilter wird sich Ähnliches einstellen. Nicht nur werden die Uploadfilter als Erstes von den großen Plattformen entwickelt und implementiert werden, kleinere Projekte werden die Software auch von ihnen lizenzieren müssen. Und was den freien und kreativen Umgang mit Memes und Remixes betrifft, wird es Dienste geben, die wie heute schon GIPHY9 Lizenzverträge mit Tausenden von Rechteinhaberinnen haben und den Nutzerinnen ein rechtssicheres Angebot machen, bei dem sie aus einer kuratierten Datenbank vorgefertigte Inhalteschnipsel für etwas nutzen können, was ein bisschen so ähnlich aussieht wie die Kreativität, die das Internet einmal hervorgebracht hat.
Derweil freut man sich in Europa, mit der DSGVO einen internationalen Standard gesetzt zu haben, und verweist stolz darauf, dass Google und Facebook im eigenen Land, den USA, sogar dafür werben, vergleichbare Regulierungen einzuführen.10 Doch natürlich ist die Internationalisierung dieses Standards gerade für die Plattformen enorm sinnvoll. Schließlich haben sie bereits darin investiert, die komplizierten Regeln in die eigenen Regimes zu übersetzen. Es ist ökonomisch also nur folgerichtig, dies als Wettbewerbsvorteil auf möglichst vielen Märkten auszuspielen.
Positiv ausgedrückt kann man Europas Politik gegenüber den Plattformen als »Politik der Pfadentscheidung« verstehen.11 Durch den Hebel der Regulierung, die durch die Plattformen implementiert und weltweit ausgerollt wird, strukturiert Europa den Entscheidungsraum aller anderen Staaten vor und wirkt weit über die eigene Jurisdiktion hinaus.
Zusammengefasst lässt sich festhalten, dass Regulierung durchaus ihre explizit formulierte Intention verwirklicht, gerade dann, wenn sie von großen Plattformen implementiert wird. Wenn die Hintergrundintention allerdings ist, die Macht der Plattformen einzuschränken, wird man damit das Gegenteil erreichen.
Fußnoten
Heute erscheint mein neues Buch, Die Macht der Plattformen. Wie mein erstes Buch, basiert es in vielerlei Hinsicht auf den in diesem Blog entwickelten Thesen.
Die Kernthese des Buches ist, dass eine spezifische Form der Macht gibt, die ich Plattformmacht nenne und die ich in dem Buch im Detail analysiere. Plattformmacht besteht aus zwei Teilen: Netzwerkmacht und Kontrolle. Die Kontrolle wiederum kommt als unterschiedliche Hebel daher, die ich im 4. Kapitel darstelle. Unter diesen sechs Kontrollregimes findet sich zum Beispiel die Kontrolle des Zugangs zur Plattform (Zugangsregime), die Kontrolle über die Sichtbarkeit von Dingen auf der Plattform via Algorithmen (Queryregime), das Interfaceregime, das Verbindungsregime und so weiter. Das erste Regime, dass ich bespreche, ist das Infrastrukturregime. Der hier veröffentlichte Auszug aus dem Buch stellt es vor:
Das Infrastrukturregime
2014 gibt Facebook bekannt, über 50 neue Geschlechterkategorien im Registrierungsprozess einzuführen.1 Das Medienecho ist riesig. Egal, ob die jeweiligen Kommentator*innen den Schritt begrüßen oder problematisieren, wird er doch allgemein als ein einschneidendes Ereignis gelesen. Und zwar zu Recht.
Denn digitale Infrastrukturen prägen Gesellschaften. Das gilt nicht nur für die Geschlechterfrage. Das größte soziale Netzwerk strukturiert mit seinen Kategorien und Klassifikationen unseren kulturellen Kosmos ganz entscheidend mit. Egal, ob »es ist kompliziert« als Beziehungsstatus oder das »Like« als Geste der Zustimmung, Facebooks Designentscheidungen haben einen Einfluss darauf, wie wir denken, handeln und kommunizieren – auf Facebook, aber auch außerhalb. Doch das ist nur die Spitze des Eisbergs.
Das Internet ist voll mit Standards und Klassifikationen, die unser Leben regieren. Ein Beispiel ist das Domain Name System (DNS). Es sorgt dafür, dass wir in die Browser-Adressleiste Domains wie spiegel.de oder facebook.com eingeben können statt die Zahlen einer IP-Adresse. Schon zu ARPANET-Zeiten wollten sich die Menschen keine numerischen Adressen merken, sondern lieber Namen. Eine Frau namens Elisabeth Feinler entwickelte und pflegte zu diesem Zweck ein öffentliches Verzeichnis, indem sie in einer Datei auf ihrem Computer den numerischen Adressen Namen zuordnete und die Datei über das ARPANET abrufbar machte.2 Ihre Institution nannte sie bald NIC (Network Information Center) und siedelte sie bei ihrem Arbeitgeber, dem Stanford Research Institut (SRI) in Kalifornien, an. Feinler richtete darüber hinaus den ersten Whois-Dienst ein, eine öffentliche Datenbank, in der man Informationen über die Betreiber von ARPANET-Knoten abfragen kann. Bis heute ist Whois ein wichtiger Dienst, der Auskunft über Domainbetreiber*innen liefert. Feinler war es schließlich auch, die die Idee für die sogenannten Top-Level-Domains einbrachte wie .de, .edu, .com etc. Damit waren bereits alle Grundsteine für das DNS gelegt.
Als in den 1980er Jahren das ARPANET auf das Internet umgeschaltet wurde, stellte sich Feinlers System allerdings als zu unflexibel und zu hierarchisch heraus, um beim rasanten Wachstum des Netzes mitzuhalten. 1983 veröffentlichte die Internet Engineering Task Force (ein Gremium, das regelmäßig über neue Netzwerkstandards befindet) Richtlinien zur Entwicklung des DNS. 1984 wurde es zum ersten Mal implementiert: auf einem Unix-System an der Universität Berkeley.
Das System sollte aus verteilten Name-Servern bestehen, die von der Top-Level-Domain abwärts Domains IP-Adressen zuordnen. Jede Domain hat einen Namensraum, der dann wiederum in Namensräume unterteilt werden kann. Der Betreiber der .de- Domain (in dem Fall DENIC) registriert zum Beispiel alle Domains, die auf .de enden, wie spiegel.de oder mspr0.de. Die Domain-Inhaber haben ihrerseits die Möglichkeit, Subdomains einzurichten, wie content.spiegel.de etc.
Obwohl das System von Anfang an international angelegt war, konnten Domains jahrzehntelang nur ohne sprachspezifische Sonderzeichen angemeldet werden. Das hat einen einfachen Grund: DNS basiert auf einem limitierten Zeichensatz, der Umlaute und andere Sprachelemente nicht enthält. Seit 2009 kann das System zwar auch Umlautdomains verarbeiten, doch weil man sich nicht überall auf die korrekte Implementierung des jeweiligen Zeichen- satzes verlassen kann, bleibt es bis heute eher eine theoretische Option, die nur wenig genutzt wird. Die Priorisierung des englischen Sprachraums und seines eingeschränkten Zeichensatzes ist in der Infrastruktur von DNS – und vielen anderen Systemen – quasi eingebacken.
Infrastrukturen sind ineinander verschränkte Erwartungserwartungen. Es sind die akkumulierten Standards, Vorselektionen, Pfadentscheidungen, Klassifikationssysteme, die Plattformen strukturieren und damit vorgeben, wie wir mit ihnen interagieren. Susan Leigh Star hat zusammen mit Geoffrey C. Bowker in Sorting Things out – Classification and Its Consequences einen Infrastrukturbegriff konzipiert, der genau diese Art von Regime gut auf den Punkt bringt.3 Infrastruktur weist unter anderem folgende Eigenschaften auf:
Wie wir in Kapitel 2 gezeigt haben, sind Plattformen einander Infrastruktur, wobei Infrastruktur in unserem Sinne die Gesamtheit der Plattformen ist, auf der eine andere Plattform oder eine konkrete Verbindung aufsetzt. Alle Plattformen basieren auf Infrastruktur, und alle Plattformen sind wiederum Infrastruktur – weswegen alle Plattformen ein Infrastrukturregime implementieren. Infrastruktur kontrolliert auf subtile, aber sehr grundlegende Weise unsere Handlungen und übernimmt die Vorselektionen der Infrastruktur, auf der sie selbst basiert, und reicht sie nach oben durch.
Dass in Domainnamen lange keine Umlaute oder sonstige nicht englische Buchstaben verwendet werden konnten, liegt zum Beispiel am ASCII-Standard. ASCII (American Standard Code for Information Interchange) gibt einen Satz von 128 Zeichen als Standard vor, der universal für beinah alle Computer der Welt interpretierbar ist. Dazu gehören das lateinische Alphabet in großen und kleinen Buchstaben, die Zahlen von 0 bis 9 und einige Satz-, Sonder- und Steuerzeichen. ASCII wurde in den 1960er Jahren von der American Standards Association entwickelt. Danach breitete es sich zunächst als Standardzeichensatz für Unix-Systeme aus und wurde in Computern aller Art auf sehr tiefer Ebene implementiert. Nach Grewal kann man sagen, dass ASCII zumindest im Computerbereich den Schwellenwert der Universalität erreicht hat. Fast alle Internet-Standard-Spezifikationen setzen ASCII voraus – so auch DNS. ASCII ist also Teil der Infrastruktur von DNS.
Doch in seinem Design ist ASCII alles andere als universell. Es ist speziell für die englische Sprache optimiert und kann fremdsprachige Sonderzeichen wie unser »ö« oder »ß« oder gar ganz andere Zeichensysteme wie Mandarin, Kyrillisch oder Sanskrit-Dialekte lediglich über komplizierte Umwege abbilden.
Wenn ein Infrastrukturregime nur mit genügend Netzwerkmacht ausgestattet ist, wird es hegemonial im Gramsci’schen Sinn. So wird aus einer unbedachten Designentscheidung aus den 1960er Jahren ein Kulturdeterminismus, der sich bis heute in der Technologie fortpflanzt und sich der ganzen Welt aufzwingt. Manche gehen so weit, von einem ASCII-Imperialismus zu sprechen.4
Dabei muss das Infrastrukturregime seine Lenkungswirkung gar nicht intendieren. Die Designentscheidungen in Infrastrukturen sind oft einfach Resultat nicht hinterfragter Anschauungen und Wertvorstellungen. Sie sind sedimentierte gesellschaftliche Diskurse und eingelassene Vorurteile, doch nichtsdestotrotz oder gerade deswegen sind sie hochpolitisch.
Als nach und nach die Beschränktheit von ASCII überwunden wurde und Anfang der 1990er mit dem neuen Standard Unicode größere Zeichensätze in vielen Betriebssystemen implementiert wurden, blieben auch hier die eingebackenen Pfadentscheidungen unbedacht. Als Anfang der 2010er Jahre aus Japan der Trend zu kleinen zeichenbasierten Emotionsbildchen – sogenannten Emojis – in westliche Betriebssysteme schwappte, wiederholte sich die Geschichte. Wie Kate M. Miltner in ihrer Studie zur Einführung von Emojis durch Unicode 7 nachweist, waren die begleitenden Diskurse ignorant gegenüber der Wichtigkeit von ethnischer Repräsentation, weswegen das originale Emoji-Set – bis auf zwei Ausnahmen – nur weiße Emojis enthielt.5
Alle Plattformarten implementieren Klassifikationen und Standards auf die ein oder andere Art. Auch Protokolle brauchen definierte Zustände und valide geformte Anfragen. In diese Festlegungen fließen viele Vorannahmen ein. Wie lange muss ein Netzwerkteilnehmer auf eine Antwort warten, bis es ein Time-out gibt? Wie lang ist eine »normale« Nachricht, welches Schriftsystem soll verwendet werden? Wie wird auf Unvorhergesehenes reagiert? Für all diese Festlegungen lassen sich völlig unpolitische und politisch problematische Fälle denken. Und doch werden auf jeden Fall die Aktionsmöglichkeiten von Nutzer*innen in Bahnen geleitet und in bestimmten Fällen konkret eingeschränkt.
Die Einführung der 50plus Geschlechter durch Facebook 2014 ist genau deswegen so stark diskutiert worden, weil hier eine Infrastrukturentscheidung eben nicht implizit war, sondern explizit gemacht wurde. Da die Macht des Infrastrukturregimes ständig droht, in Vergessenheit zu geraten, ist es umso wichtiger, immer wieder an sie zu erinnern.
Fußnoten
Nächste Woche soll die Corona-Warn-App herauskommen. Es gab die letzten Wochen viele Diskussionen über technische Hintergründe, vermeintlichen Gefahren für die Privatsphäre und den Sinn und Unsinn dieser App. Ich habe mich lange Zeit eher auf der Befürworterseite der App wiedergefunden. Nun sind aber Erkenntnisse über das Virus bekannt geworden, die die ganzen Dikussionen in einem neuen Licht erscheinen lassen. Ich bin mittlerweile überzeugt, dass insbesondere das Beharren auf dem dezentralen Ansatz ein entscheidender Fehler war, der das ganze Unterfangen jetzt nahezu sinnlos gemacht hat. Aber von vorn.
Kontaktverfolgung
Contact Tracing – oder Kontaktverfolgung – ist grundsätzlich erstmal eine sehr sinnvolle und effektive Maßnahme zur Pandemiebekämpfung. Dabei wird die Kontakthistorie von erkrankten Menschen erfragt und diese Kontakte werden dann ihrerseits gebeten sich zu isolieren. Es geht darum, Infektionsketten zu durchbrechen, also dafür zu sorgen, dass Leute, die in Gefahr sind, sich angesteckt zu haben, ihrerseits niemanden mehr anstecken. Gerade bei Covid19, bei dem Ansteckungen oft symptomfrei passieren, ist ein solches Vorgehen besonders wichtig.
In der Praxis geschieht das erstmal manuell, mit speziell geschultem Personal. Sie interviewen die kranke Person und sie telefonieren hinter den Kontakten hinterher. Diese Praxis hat mehrere Probleme: 1. Sie ist sehr personalaufwändig, die Gesundheitsämter mussten dafür bereits sehr viele zusätzliche Leute anstellen. 2. Die Methode ist ist lückenhaft. Man erinnert sich vielleicht noch an jeden einzelnen Kollegen und jedes Familienmitglied mit dem man interagiert hat, aber nicht, neben wem man eine viertel Stunde in der Bahn gesessen hat. 3. Die Methode ist sehr zeitaufwändig. Das ist wahrscheinlich das größte Problem, denn Zeit ist hier der kritische Faktor. Jede zusätzliche Stunde, die ein potentiell Angesteckter nicht gewarnt wird, bedeutet, dass er oder sie weitere Personen anstecken kann.
Auf alle drei dieser Probleme scheint die Corona-Warn-App die Lösung zu sein. Statt, dass sich die Leute selbst merken, mit wem sie wann in Kontakt standen, merkt sich einfach das Telefon, welche anderen Telefone es in der Nähe gesehen hat. „Gesehen“ meint hier, Identifikationscodes anderer Telefone per Bluetooth LE empfangen zu haben. Die Technologie erlaubt sogar eine Abstandsmessung mit einer gewissen Präzision.
Schon im März kam man auf den Gedanken, dass eine solche Methode relativ datenschutzfreundlich umsetzbar ist. Durch Bluetooth kann man getrost auf jede Lokalisierung verzichten. Es geht schließlich nicht um Orte, sondern um relative Entfernungen der Personen zueinander. Obendrein haben findige Sicherheitsforscher ein Konzept entwickelt, wie der Austausch der Identifikationscodes komplett anonymisierbar ist. Es wurde schnell eine europäische Initiative aus Wissenschaftlerinnen, NGOs und Unternehmen gegründet: PEPP-PT (Pan European Privacy Preserving – Proximity Tracing). Es wurde vieles richtig gemacht: Es wurde früh eine breite Debatte angestoßen und es wurden viele zivilgesellschaftliche Akteure und Spezialistinnen eingebunden.
Der Streit
Eine Frage aber schien die Initiative schon früh zu spalten: Nämlich, ob die App zentral oder dezentral funktionieren soll. Zentral würde bedeuten, dass die Daten von den Telefonen gesammelt, aber gleich an einen zentralen Server weitergesendet werden, der dann die Auswertung der Kontakte unternimmt und die Warnungen verschickt. Dezentral bedeutet, dass die Daten vorerst auf den Telefonen bleiben und dort ausgewertet werden. Nur im Infektionsfall würden Daten zentral verarbeitet und an alle Telefone weitergeleitet werden, die dann anhand der jeweilig lokalen Kontakthistorien überprüfen können, ob sie mit dem Identifikationscode des Erkrankten in Berührung gekommen sind.
Die Verfechter der dezentralen Lösung legten als erste eine eigene Spezifikation genau für diese Methodik vor: DP-3T (Decentralized Privacy-Preserving Proximity Tracing). Sie hatten alle Argumente auf ihrer Seite: Eine Zusammenführung der Daten auf dem zentralen Server war schlicht nicht notwendig und aus Datenschutzsicht sogar potentiell gefährlich. Statt die zentrale Variante aber argumentativ zu verteidigen, entschied man sich bei PEPP-PT, DP-3T kommentarlos aus der Initiative zu werfen und ansonsten die Bundesregierung um Unterstützung zu ersuchen. Die stellte sich zwar daraufhin auf Seiten der zentralen Lösung von PEPP-PT, doch das brachte wenig.
Am Ende entschieden nämlich Apple und Google über die Umsetzung. Vor allem die Zusammenarbeit mit Apple war für die Umsetzung egal welcher Lösung absolut notwendig, weil sie aus Sicherheitsgründen den Zugriff auf das Bluetooth ihrer Geräte begrenzen. Apple und Google favorisierten ganz klar die dezentrale Lösung und setzten sie auch noch in Windeseile in Form einer API auf Betriebssystemebene um. Deutschland und Frankreich versuchten das Ganze noch ansatzweise zu eskalieren, um die zentrale Variante doch noch möglich zu machen, doch all das aber brachte nichts. Zumindest Deutschland lenkte bald ein. PEPP-PT verlor.
Das was nun nächste Woche veröffentlicht wird, ist also die dezentrale Variante der App. Ein Sieg der Datenschützer*innen und von Apple und Google.1 Doch es ist ein Pyrrhussieg, denn die grundlegende Designentscheidung, sich auf Dezentralität festzulegen, wird der App nun zum Verhängnis.
Der Paradigmenwechsel
Über die Effektivität der App wird bereits seit langem gestritten. Zwei wesentliche Punkte tauchen dabei immer wieder auf: Zum einen gibt es die Sorge, dass die App in erster Linie Falschpositive Ergebnisse produzieren wird, also Warnungen, die aufgrund von Messfehlern oder falschen Einschätzungen von Kontaktereignissen entstanden sind und die Leute nur verwirren. Zum Anderen und entscheidender: Es braucht es eine enorm hohe Installationsrate, damit die App wirklich effektiv sein kann. (Edit: allerdings bringt auch ein bisschen auch schon was2) Bei 70% Installationsrate würden überhaupt nur 50% der Kontakte registriert. Doch 70% sind ansich schon völlig illusorisch. Selbst die erfolgreichsten Apps überhaupt schaffen gerade mal 60% Abdeckung. Die meistgenutzte Contacttracing-App gibt es auf Island und sie schafft gerade mal 40%. Immer noch ein Traumwert. Wenn wir in Deutschland auf 20% kämen, wäre das bereits ein enormer Erfolg. Ich persönlich fand allerdings keines dieser Argumente so stark, dass es den Versuch nicht wenigstens Wert gemacht hätte.
Meine Meinung änderte sich erst mit dem Auftreten neuer Erkenntnisse zum Virus selbst. Wir wissen zwar schon lange, dass die Reproduktionzahl (R0) des Virus zwischen 2 und 3 liegt (ein Kranker steckt im Normalfall und im Schnitt 2 bis 3 Leute an), wir wussten aber wenig, wie sich diese Ansteckungen verteilen. Bisher sind wir implizit davon ausgegangen, dass sich die Ansteckungen statistisch zufällig verteilen, dass also der eine mal eine Person, die andere vier, die nächste wieder zwei, auch mal jemand niemand und so weiter ansteckt. So ist das zum Beispiel bei der Grippe, mit der wir die meiste Erfahrung haben. Wir wissen aber heute aus mehreren Studien, dass SARS2 – ähnlich wie sein naher Verwandter SARS – eine sehr hohe Dispersion hat. Eine hohe Dispersion heißt, dass die allermeisten Kranken kaum irgendwelche Leute anstecken, aber ein sehr geringer Teil der Kranken gleich sehr viele Leute anstecken. Die sogenannten Superspreader. Wie hoch die Dispersion genau ist, ist noch strittig. Nicht strittig ist jedoch, dass dieses Ungleichgewicht existiert und dass es vergleichsweise hoch ist.3
Was bedeutet das für die Corona-Warn-App? Es bedeutet eine grundlegende Verschiebung der Aufgabenstellung beim Contact Tracing. Kurz: das Verfolgen von Einzelkontakten wird weniger wichtig, das Aufspüren von Clustern rückt ins Zentrum. Der Reihe nach:
Erstens: der Einzelkontakt wird weniger wichtig, weil die Wahrscheinlichkeit der Ansteckung bei Einzelkontakten sinkt. Bei einer normalverteilten Dispersion würde sich die Ansteckungswahrscheinlichkeit auf alle Einzelkontakte gleichmäßig verteilen. Da wir jetzt aber wissen, dass sich ein Großteil der Gesamtwahrscheinlichkeit der Ansteckung auf Superspreading-Events konzentriert, verteilt sich nur noch wenig Restwahrscheinlichkeit für Ansteckungen auf die Einzelkontaktereignisse. Anders: Die Chance, dass ich mich bei dem Typen, der neben mir in der Ubahn gesessen hat, anstecke, ist geringer als wir dachten. Mich davor zu warnen, ist deswegen zwar nicht völlig sinnlos, aber wesentlich wirkungsloser, als wenn wir es mit einer Normalverteilung des Ansteckungsgeschehens zu tun hätten.
Was dagegen jetzt ins Zentrum rückt, sind damit die Superspreading-Events, denn sie haben offensichtlich eine entscheidende Bedeutung für das Ansteckungsgeschehen. Wenn wir jemanden als krank identifizieren, ist es sehr wahrscheinlich, dass diese Person sich in einem Cluster angesteckt hat. Die Priorität verschiebt sich jetzt dahin, das eventuelle Cluster, in dem sich der Patient angesteckt hat, zu identifizieren und alle Menschen des Clusters zu isolieren. Die manuellen Contact Tracer der Gesundheitsbehörden können ein solches „Clusterbusting“ leisten und tun das auch bereits. Doch die Corona-Warn-App kann das nicht. Und zwar grundsätzlich nicht, wegen ihres dezentralen Designs.
Das dezentrale Design eignet sich nur und ausschließlich, um Einzelkontakthistorien zu sammeln und zu analysieren. Wenn es aber darum geht, herauszufinden, wo und unter welchen Umständen man sich angesteckt hat, zu überprüfen, ob es sich dabei um einen Cluster handeln könnte und alle weiteren Leute, die sich in diesem Cluster aufhielten zu warnen, dann ist das mit der dezentralen Variante schlicht nicht umsetzbar.
Rechnen wir uns einen konkreten Fall mal durch: Bei einer Party mit 100 Leuten steckt ein infizierter Gast 30 andere Gäste an. Um die Wirkung der App auf dieses Ereignis zu beurteilen, müssen wir zunächst eine grundlegende Unterscheidung machen: in Fall 1 nutzt der Kranke die App, in Fall 2 nutzt der Kranke die App nicht. Fall 1 ist genau so wahrscheinlich, wie hoch die allgemeine Installationssrate der App ist. Bei 30% Installationsrate (was enorm hoch gegriffen ist), wäre die Chance eben 30%, dass Ansteckungsereignisse überhaupt registriert werden. Die Chance, dass es gar nichts registriert wird liegt also bei phänomenalen 70%. Von den anderen Gästen haben aber auch wiederum nur 30% die App installiert. Also selbst für dem unwahrscheinlich glücklichen Fall, dass der Krankte die App hatte, würden nur 9 der 30 angesteckten gewarnt und könnten sich isolieren.
Und wie ist mit den sekundären Fällen, also die 30 Leute, die sich dort angesteckt haben? Die werden ja vielleicht auch getestet und hatten unter Umständen eine App. Zwar ist es möglich, in ihrer Kontakthistorie entsprechend weit zurückzugehen und alle Leute auf der Party zu warnen, die sich länger mit ihnen unterhalten haben. Aber das bringt genau nichts, weil sie ja zu dem Zeitpunkt gar nicht ansteckend waren. Würden in diesem Fall tatsächlich Leute gewarnt, die sich angesteckt haben, wäre das reiner Zufall. Wie man es dreht und wendet, die dezentrale App ist zum Clusterbusting weitestgehend nutzlos.
Der Zentrale Ansatz hätte es gebracht
Mit der zentralen Variante wäre das Clusterbusting dagegen sogar ziemlich leicht umsetzbar. Würden alle Kontaktgeschehnisse auf einem zentralen Server zusammengeführt, wären solche Cluster-Ereignisse recht leicht und automatisch erkennbar. Es müssten sogar nur vergleichsweise wenige Leute die App nutzen, damit der Verdacht eines Clusters aufscheinen kann.
Rechnen wir das nochmal durch. Bei 30% Installationsrate würden neun der 30 auf der Party infizierten in der Datenbank zusammen als Cluster aufleuchten. Das Signal wäre eindeutig, das RKI und oder die Gesundheitsbehörden könnten entsprechend handeln, den Cluster aufspüren und alle Personen isolieren. Sogar bei nur 10% Installationsrate würden drei Ereignisse in einem vernetzten Zusammenhang auftauchen, was zumindest für einen Verdacht auf einen Cluster völlig ausreicht. Mit anderen Worten: Die zentrale App wäre sogar bei vergleichsweise geringer Nutzung sehr nützlich, um Cluster aufzuspüren.
[EDIT: Es scheinen sich an dieser Stelle einige Mißverständnisse zu ergeben, die es nötig machen, hier noch mal sehr viel weiter ins Detail zu gehen: konzeptionell unterscheiden sich zentrale und dezentrale App zunächst erstmal gar nicht so sehr, insbesondere in Fall 1, also wenn der Erkrankte die App hat. Es werden egal ob zentral oder dezentral 9 Menschen benachrichtigt (und wohl noch ein paar mehr Falsepositives). Auch bei Fall 2 scheint es erstmal ganz ähnlich zu laufen. 30 Leute haben sich sekundär angesteckt, davon werden ein paar symptomatisch, einige davon lassen sich testen, von denen haben einige die App und werden jeweils einige der Leute auf der Party benachrichtigen (jedenfalls, wenn die App so eingestellt ist, dass sie zeitlich weit genug zurückgeht).
Der Unterschied liegt aber in dem, was serverseitig passiert. Bei der dezentralen App kommen nach den Tests nur die Identifikationscodes der Erkrankten an, die dann an die Telefone weitergereicht werden. Die Identifikationscodes sagen aber nichts über Kontaktereignisse aus. Der Server bleibt in der Hinsicht dumm. Nur die Telefone können jeweils lokal abgleichen, ob die Identifikationscodes zu Kontakteignissen passen.
In der zentralen App werden dagegen nicht nur die Identifikationscodes der Erkrankten gesammelt, sondern alle Identifikationscodes. Auf dem Server wird dann überprüft, ob Kontakte stattgefunden haben. So entsteht ein Gesamtgraph aller Kontaktereignisse, egal ob hier Infektionen stattgefunden haben oder nicht. Das heißt, wenn die Sekundärerkrankten ihre Testergebnisse bekommen, ist auf dem Server automatisch nachvollziehbar, dass
All das ginge mit der dezentralen App halt nicht, weil weder das Wissen um das Cluster an irgendeiner Stelle existiert, noch die Möglichkeit das Cluster direkt als solches zu adressieren. Das Gesundheitsamt würde dann wahrscheinlich im Nachhinein bei der Befragung trotzdem drauf kommen, dass es ein Cluster ist, würde sich die entsprechenden Kontakte erfragen und würde entsprechende Maßnahmen treffen. Das ist dann aber alles wieder manuell und zeitlich und personell aufwändig. Mit der zentralen App ginge das im Nu.]
Fazit
Das frühe Festlegen auf die Dezentralität war ein Fehler. Ein Fehler, den man vorher nicht absehen konnte. Ich selbst habe den dezentralen Ansatz favorisiert mit der einfachen Überlegung, dass ein etwas datengeschützterer Ansatz vielleicht zu einer höheren Akzeptanz führen würde. (Was sich angesichts der tatsächlich stattfindenden Debatte ebenfalls als fraglich herausgestellt hat.)
Es ist hier niemanden ein Vorwurf zu machen. So ist das mit Entscheidungen unter unsicherer Informationslage. Die Chance, das man falsch liegt, ist da nun mal hoch und die dezentrale App schien wie eine gute Idee.
Ok, vielleicht ist doch jemandem ein Vorwurf zu machen. PEPP-PT hätte solche Eventualitäten als Argumente in ihrem öffentlichen Auftreten nutzen können. Sie hätten den „Case“ für die zentrale Lösung sehr viel überzeugender machen können. Stattdessen hat man sich eingemauert und geglaubt mit der Macht der Regierung die eigenen Vorstellungen durchdrücken zu können. Das ging vorhersehbar schief. Schade, das war eine verpasste Chance.
Ich bin aber deswegen aber nicht besorgt oder traurig. Ein weiterer Effekt der Überdispersion ist nämlich, dass wir Covid19 wahrscheinlich auch ganz prima ohne App in den Griff bekommen. So lange wir Superspreading-Events weiterhin vergleichsweise unwahrscheinlich machen und nebenher auf Gesundheitsamtsebene wachsam das Infektionsgeschehen im Blick behalten, ist die Gefahr gering, dass uns die Krankheit noch mal außer Kontrolle gerät.
EDIT: Mtt hat in den Kommentaren auf eine Möglichkeit hingewiesen, wie sich das Problem lösen ließe.
Das würde nicht nur den zentralen Ansatz dazu befähigen, Cluster erkennbar zu machen (Alle, die zu der Zeit diese Innenraum-Id empfangen haben gehören zum Cluster), sondern würde auch ein zweites grundlegendes Problem der App lösen (das ich aus Übersichtsgründen hier nicht mitbehandelt habe). Nämlich die Fokussierung auf Entfernungen. Wir wissen heute, dass Entfernungen fast immer egal sind. Sie sind draußen egal, weil draußen kaum Ansteckungsereignisse passieren. Sie sind aber auch drinnen egal, weil ein Großteil der Ansteckungen durch Aerosole passieren, denen Entfernung mehr oder weniger egal ist. Es braucht also eigentlich eine App, die versteht, wann und mit wem man sich in Innenräumen aufhält und wie lange.
Der genannte Ansatz würde das möglich machen. Sobald die App eine Innenraum-Id empfängt, würde sie alle IDs im Raum aufsammeln – Entfernungen sind dabei egal. Wenn jemand nun positiv testet, würde er nicht nur seine eignen Ids, sondern auch alle Innenraum-Ids mit auf den Server senden. Alle leute des Clusters werden dann gewarnt.
Die Innenraum-IDs wären am besten von normalen IDs unterscheidbar, so dass auch der Server (also das RKI) von dem Cluster sofort unterrichtet wird. (Mehrere positive Testergebnisse mit der Innenraum-ID zu einem gemeinsamen Zeitpunkt sind ein Superspreading-Event.) Innenraum-Ids wären zudem nicht-anonym (Restaurants haben keine Persönlichkeitsrechte), so dass die Behörden auch erfahren, welcher Ort betroffen ist.
Meines Erachtens wäre das eine um ein vielfaches effektivere App und sogar der Datenschutz wäre damit wenig bis kaum angetastet.
Wie ich aber lese, sind solche Ansätze sogar vorgeschlagen worden. Mir ist völlig unverständlich, warum sie nicht umgesetzt wurden.
/***** Dieser Text erschien im Magazin Hohe Luft Kompakt (Sonderheft 1/20). Dies ist die unredigierte Version, aber dafür mit Fußnoten. ******/
Es war im Jahr 1957, als ein Amerikaner namens James Vicary herausfand, dass man Menschen mittels bewusst kaum wahrnehmbarer Botschaften manipulieren kann. Blendet man zum Beispiel im Kino für den Bruchteil einer Sekunde die Botschaft „Esst mehr Popcorn“ ein, steigt nachweisbar der Popcorn-Umsatz. Vicarys Studie zu „Sublimnal Stimuli“ wurde weltberühmt. Allerdings nicht durch Vicary selbst, sondern über ein Buch, das im selben Jahr Furore machte: „Die Geheimen Verführer“ von Vance Packard.1 Dort wird unter anderem Vicarys Studie beschrieben, natürlich negativ, als Warnung an uns alle. Die Welt war zutiefst beunruhigt und das Wissen um Sublimnal Stimuli hat sich bis heute im kulturellen Unterbewusstsein festgebissen. Im Kultfilm Fight Club von 1999 hat sie einen Auftritt als Tyler, der im Film als Kinovorführer jobbt, einzelne Bilder aus einem Porno in einen Hollywoodfilm schneidet, woraufhin die Kinder anfangen zu weinen.
Wie viele spannende Geschichten, hat auch diese einen Haken. Das Experiment von James Vicary war rein erlogen und „Sublimnal Stimuli“ gibt es nicht. Obwohl Vicary in einem Interview von 1962 selbst zugab, das Experiment zur Steigerung des Umsatzes seines Marketingunternehmens erfunden zu haben, hält sich die Mär bis heute.2
Die Geschichte reiht sich damit nahtlos in einen kulturellen Kontext ein, der sich als eigenes Genre fassen lässt: die Erzählung von der großen Manipulation. Von der „Schwarzen Magie“ bis zur deutschen Nachkriegserzählung vom „verführten Volk“, vom „Rattenfänger von Hameln“ bis zur der Rede vom „falschen Bewusstsein“, von den Illuminaten bishin zur Gedankenkontrolle durch „Chemtrails“ haben schon immer Narrative der Massenmanipulation den allgemeinen Diskurs bestimmt und halten sich hartnäckig.
Besonders auffällig ist, dass solche Geschichten das Auftauchen neuer Medien begleiten. Dem Roman, dem Radio, dem Film und der Schallplatte wurde zunächst mißtraut und etablierte Medien nutzten die Gunst der Stunde gerne, gegen die unliebsame Konkurrenz Stimmung zu machen. Ein berühmtes Beispiel ist die Massenpanik, die es angeblich 1938 in New York gegeben hatte, nachdem Orson Wells Radio-Inszenierung von „War of the Worlds“ uraufgeführt wurde. Die Massenpanik hat es nie gegeben, sondern war vor eine Erfindung der Zeitungen, die dem neuen Medium Radio so eifersüchtig wie argwöhnisch gegenüberstanden. 3
Deswegen überrascht es vielleicht nicht, wenn angesichts der digitalen Medienrevolution, viele neue, faszinierende Beispiele dieses Genres auftauchen. Demnach haben uns Facebook und Google algorithmisch voll im Griff, Donald Trump und seine Berater sind in Wirklichkeit keine plumpen Gauner, sondern ein gewiefte Medien-Manipulatoren, die nebenbei mit Cambridge Analytica Wege gefunden haben, mittels Big-Data-Psycho-Wunderwaffen die Präsidentschaft an sich zu reißen. Was sich so absurd anhört, ist aber nicht Gegenstand von Verschwörungstheorien aus den ungefegten Ecken des Internets, sondern wird genauso in seriösen Publikums-Medien verbreitet.
Ich bin skeptisch. Das soll nicht heißen, dass Manipulation nicht stattfindet. Offensichtlich gibt es Manipulation. Ohne wäre der Werbemarkt nicht existent und PR-Fachleute arbeitslos. Manipulation findet statt, doch mir scheint, dass sie anders stattfindet, als gerne erzählt wird. Das mag daran liegen, dass sich die Wahrheit oft nicht so gut erzählt – womit wir schon bei der Problembeschreibung sind. Ich behaupte: die effektivste Manipulation funktioniert über Geschichten und nichts ist manipulativer als die Erzählung von der großen Manipulation.
Manipulation, wissenschaftlich gesprochen, ist erst mal ein neutraler Begriff. Jeder Eingriff in die Welt ist eine Manipulation. Im allgemeinen Sprachgebrauch hat sich allerdings durchgesetzt, das Wort dann zu verwenden, wenn dieser Eingriff erstens gegenüber einer Person und zweitens entgegen dessen Willen vorgenommen wird. Man muss den Manipulationsbegriff außerdem gegenüber der reinen Überredung abgrenzen, also dem transparenten Versuch, jemanden von der eigenen Meinung zu überzeugen. Manipulation passiert immer verdeckt. Bleibt die Frage, ob Manipulation immer bewusst passieren muss. Muss der Manipulator wissen, dass er manipuliert, um zu manipulieren? Ein Mensch, der zum Beispiel eine falsche Nachricht weiterträgt, ohne, dass ihm bewusst ist, dass es eine falsche Nachricht ist, ist eher kein Manipulator. Phillip Hübl hat in seinem Buch “Bullshit-Resilienz” Harry Frankfurts Unterscheidung zwischen dem Lügner, der die Unwahrheit sagt, obwohl er die Wahrheit kennt und dem Bullshitter, dem die Wahrheit egal ist, noch den Trottel hinzugestellt. Dem Trottel ist die Wahrheit nicht egal, aber er ist unwillig oder unfähig, die Fakten zu prüfen und auf Plausibilität abzuklopfen. Der Lügner/Manipulatorin braucht Trottel, um seine Botschaft zu verbreiten.4
Feindliche Erfüllungsgehilfen
Im Dezember 2016, kurz nach der überraschenden Wahl Donald Trumps zum Präsidenten der USA, erschien im schweizerischen Magazin „Das Magazin“ ein Artikel mit der reißerischen Überschrift: «Ich habe nur gezeigt, dass es die Bombe gibt»5. Darin beschreiben die Autoren Hannes Grassegger und Mikael Krogerus, wie die bis dahin kaum bekannte Daten-Analyse Firma „Cambridge Analytica“ mittels eines neuen Big-Data-Verfahrens eine Art Psychomarketing-Kampagne ins Werk gesetzt hatte, die – so zumindest die Einschätzung der Autoren – entscheidend gewesen sei, den Außenseiterkandidaten Donald Trump zum Gewinner zu machen. Der Artikel selbst schlug ein wie eine Bombe und zwar international: Es folgten Artikel, z.B. im britischen Guardian, denn Cambridge Analytica war auch mit dem Brexit im Bunde. Die Geschichte wurde immer größer und besser. Zuletzt produzierte sogar Netflix mit „Der große Hack“ eine populäre Dokumentation dazu 6. Cambridge Analytica ist wahrscheinlich die populärste Manipulations-Erzählung unserer Zeit.
Die Geschichte geht so: Aleksandr Kogan, ein Forscher an der Universität Cambridge, wird angeheuert, um Daten für die zwielichtige Firma Cambridge Analytica zu sammeln. Über ein Facebook-Quiz zur Persönlichkeits-Selbstverortung werden Millionen Profildaten abgegriffen. Das Quiz weist den mitmachenden Facebook-Nutzer*innen ein Persönlichkeitsprofil im Sinne des OCEAN Modells (auch „Big Five“ genannt) zu, bei dem die Persönlichkeit anhand von fünf feststehenden Merkmalen kategorisiert wird: Offenheit, Gewissenhaftigkeit, Extraversion, Verträglichkeit und Neurotizismus.7
In einem zweiten Schritt wird das statistische Verhältnis der Persönlichkeitsprofile der Nutzer mit deren vergebenen Likes auf Nachrichtenseiten, Bands, Lieblingsessen, Prominente, etc als statistischer Zusammenhang (Korrelation) festgehalten. Dieses statistische Verhältnis kann nun umgedreht angewendet werden: Finde ich Leute mit entsprechenden Likes, kann ich davon auf deren Persönlichkeits-Profil schließen. Eine Werbekampagne könnte also speziell auf bestimmte Persönlichkeitsprofile zugeschnittene Facebook-Werbung an Leute versenden, die ein korrespondierendes Like-Profil aufweisen.
So verbreitet es zumindest Alexander Nix, seines Zeichens CEO von Cambridge Analytica, auf etlichen Sales-Pitches und Marketing-Konferenzen. Es ist zunächst nur die Werbeerzählung eines Unternehmens, das seine Leistungen verkaufen will.
Doch als Donald Trump am Morgen des 9. November 2016 überraschend als Präsident feststeht, klingt sie auf einmal nicht mehr wie fadenscheiniger Selbstvermarktungs-Bullshit, sondern wie die Lösung des Rätsels. Es ist eine unglaubliche und genau deswegen glaubhafte Erzählung über individualisierte Massenmanipulation, die das Unerklärliche erklärbar macht.
Mit der großen Manipulationserzählung lässt sich ein Präsident Trump nicht nur erklären, sondern auch gut relativieren. Es ist schwer zu akzeptieren, dass viele Millionen Amerikaner bereit waren, einen so plumpen wie korrupten Schreihals und offenen Rassisten ins Weiße Haus zu wählen. In Deutschland kennen wir das. Jahrzehntelang hielt sich nach dem Krieg die Erzählung vom verführten Volk. Allein das demagogische Talent von Hitler und Goebbels sei es gewesen, das Millionen Deutsche zum Massenmord inspirierte. Jede große Manipulations-Erzählung hat den großen Manipulator. Statt ein strukturelles, komplexes Problem hat man durch ihn ein einfaches, adressierbares: der große Bösewicht und seine Schergen. Im Grunde ist es eine optimistische Erzählung.
Problematisch wird es nur, wenn man Belege für die Geschichte sucht.
Dass Hillary Clinton viel ausgefeiltere und bessere Datenanalyst*innen auf ihrer Seite hatte, die mit noch mehr Aufwand und noch mehr Werbegeld die Massen per Facebook ansprachen: Details!8 Dass es für den groß angelegten Einsatz der Methoden von Cambridge Analytica im Trump-Wahlkampf keinerlei Beweise gibt und der Kampagnenleiter für Digitales das bestreitet: Nebensache.9 Dass Ted Cruz, der vor Trump mittels derselben Firma erfolglos versuchte im Vorwahlkampf zu gewinnen, Cambridge Analytica wegen Nutzlosigkeit feuerte: dahingestellt.10 Dass auch die Trump-Kampagne die Cambridge Analytica Daten zugunsten denen, welche die republikanische Partei bereitstellte, links liegen ließ: egal! 11 Dass eine extra eingesetzte Untersuchungskommission zu dem Urteil kam, dass die gesammelten Facebook-Daten bei der Brexit-Kampagne überhaupt nicht zum Einsatz kamen: was solls!12 Dass es keinen einzigen Nachweis gibt, dass die Psychomarkting-Methode überhaupt wirksam ist und dass führende Wissenschaftler aus diesem Gebiet das aus guten Gründen bezweifeln – was sind solche Einwände schon, gegen eine gute Maniupulationsgeschichte? 13
In seinem Buch, „The Storytelling Animal“ legt Jonathan Gottschall dar, wie die evolutionäre Veranlagung, Geschichten zu erzählen und Geschichten zu rezipieren, die definierende Eigenschaften der menschlichen Spezies wurde.14 Das Erzählen von Geschichten war und ist eine universelle Wissenstechnik zu allen Zeiten und in allen Teilen der Welt. Menschen definieren sich über Geschichten, sie erzählen sich. Als Spezies, als Glaubensgemeinschaft, genauso wie als Individuen.
Geschichten waren die ersten und wichtigsten Träger von Wissen, die von Generation zu Generation über tausende Jahre weitergereicht wurden. Geschichten bieten evolutionär gesehen einen niedrigschwelligen Zugang zu unserem Gehirn. Eine Erzählung bleibt in Erinnerung, weil sie auf einer emotionalen Ebene funktioniert. Deswegen lassen wir uns von Geschichten eher überzeugen, als von Daten, Studien und harten Fakten.
Das Narrativ von der großen Manipulation ist also erstens erfolgreich weil sie eine gute Geschichte erzählt und wir prädispositioniert sind, darauf anzuspringen. Hinzu kommt zweitens, dass die Erzählung von der Manipulation eine einfache Erklärungen für das Unbegreifliche liefert. Eine Erklärung, die, drittens, ganz nebenbei die Verantwortung für unschöne, gesellschaftliche Ereignisse von uns weglenkt – hin zu einem großen Strippenzieher, als dessen Marionetten wir uns – oder alle anderen – wähnen. Doch es gibt noch einen weiteren, einen vierten Grund, warum ausgerechnet dieses Genre der großen Erzählungen alle anderen überflügelt: Es ist eine merkwürdige Allianz zwischen dem vermeintlichen Manipulator und demjenigen, der vor ihm warnt.
Zur Erinnerung: Es war nicht Vicary, der die „Subliminal Stimuli“ bekannt machte, auch wenn er es versuchte. Es war Vance Packard, mit der Intention vor ihm zu warnen. Es war nicht zuvorderst Alexander Nix, der Cambridge Analyticas angebliche Superkräfte in das kollektive Bewusstsein brachte, es waren Journalisten und Dokumentarfilmer, die uns vor Augen führen wollten, wie wir alle manipuliert wurden.
Der feindliche Erfüllungsgehilfe
Hier passiert etwas spannendes: Die Manipulation spaltet sich. Da ist zunächst die behauptete Manipulation. Sie ist erlogen, im besten Fall übertrieben. Nennen wir sie Manipulation 1. Die Erzählung der Manipulation 1 widerum ist aber als solche selbst manipulativ. Das ist Manipulation 2. Sie ist die eigentliche, die wirksame Manipulation. Sie bringt tatsächlich Leute dazu, ihr Verhalten zu ändern, Sündenböcke zu suchen, sich Wochenlang mit nichts anderem zu beschäftigen.
Während sich für Manipulation 1 Lügner und Bullshitter verantwortlich zeichnen, wird Manipulation 2 von den Warnern herbeigeredet. Nach der Hüblschen Definition könnte man sie als “Trottel” abtun, vielleicht als “nützliche Trottel”, doch dabei käme nicht zum Ausdruck, dass sie sich doch als Gegner der Manipulation glauben. Es braucht einen eigenen Begriff dafür. Ich nenne sie “feindliche Erfüllungsgehilfen”. Erst die feindlichen Erfüllungsgehilfen machen aus dem vermeintlichen einen echten Manipulator.
Bildungsbürger schauen gerne auf die Verschwörungstheoretiker hinab, die allen möglichen Unfug glauben: von Gehirnwäsche per 5G-Strahlung, Autismus per Masernimpfung oder der Gedankensteuerung über Kondensstreifen. Sicher, die Manipulationserzählung des liberalen Bildungsbürgers sind abstrakter, intellektueller, aber sind sie so viel besser?
Wie die ordinäre Verschwörungstheorie, hat auch die Manipulationserzählung eine distinguierende Funktion. Man fühlt sich erhaben, als auserwählt, denn im Gegensatz zu den meisten anderen hat man das Spiel durchschaut. Es ist deswegen kein Zufall, dass Manipulationserzählungen häufig eine Abwehr gegenüber neuer Medientechnologie ausdrücken. Cambridge Analytica ist ein gutes Beispiel, aber Affekte gegen neue Medien spielten schon bei den „Subliminal Stimuli“ (Kino) und der angeblichen Massenpanik durch Orson Wells (Radio) eine entscheidende Rolle. Neue Medien bedrohen den Status alter Medien und damit auch den Status von Eliten, ihrer Art zu leben und die Welt wahrzunehmen. Manipulationserzählungen fungieren als zweifache Abgrenzungsbewegung: gegen die neue Medientechnologien auf der einen, und vor allem den sie nutzenden Massen auf der anderen Seite.
Nichts erfüllt diese Abgrenzungsleistung besser, als die Rede vom „Überwachungskapitalismus“.15 Der digitale Kapitalismus – so die Autorin und Sozialpsychologin Shoshana Zuboff – basiere heute weniger auf der Ausbeutung von Arbeit, – sondern auf der Ausbeutung durch Manipulation. In ihrem Bestseller „Das Zeitalter des Überwachungskapitalismus“ behauptet sie, dass die Wertschöpfung im Digitalen in erster Linie auf der Fähigkeit der Tech-Konzerne basiert, mittels der horrenden Datenmassen, die sie über uns sammeln, Vorhersagen über unser Verhalten zu machen. Diese Verhaltensvorhersagen werden dann dafür verwendet, uns zu manipulieren. Die Differenz zwischen Vorhersage und schließlichem (manipulierten) Verhalten nennt sie „Behavioral Surplus“, also den „Verhaltensmehrwert“.
Zuboffs Buch ist eine wundervoll erzählte Geschichte, die nicht völlig falsch ist. Detailliert zeichnet sie die Werdung des Geschäftsmodells von Google und Facebook nach. Aber im Grunde reproduziert sie nur ihre Selbsterzählung – als Karikatur. Aus “Wir verkaufen personalisierte Werbung mit der wir punktgenau Konsumenten erreichen” wird “Google und Facebook haben die totale Kontrolle über unser Verhalten.”
Doch ähnlich wie bei Cambridge Analytica sind die Belege für die Manipulations-Allmacht der Tech-Konzerne rar. In einer gemeinsamen Studie zu behavioral Advertisement kommen Forscher*innen der Universitäten von Minnesota, Kalifornien, Irvine und Carnegie Mellon zum Schluss, dass der Unterschied zwischen personalisierter und nicht personalisierte Werbung lediglich 4% Mehrumsatz bringt, als ungetargetete Werbung. 16
Im Zuge einer Studie hatte Ebay 2014 für einen Zeitraum von 11 Wochen alle ihre Anzeigen bei Google eingestellt.17 Normalerweise erscheint bei fast allen gegooglten Alltagsgegenständen ein entsprechendes Angebot von Ebay in den Anzeigen-Listenplätzen. In diesem Zeitraum aber nicht. Ebays Marketing-Abteilung war davon ausgegangen, dass die Umsätze ohne die Googleanzeigen dramatisch zusammenbrechen würden. Stattdessen waren die Umsatzeinbußen viel geringer, als die eingesetzen Werbegelder. Für jeden in die Googlewerbung eingesetzten Dollar, verlor Ebay 63 Cent. Der Grund: Die meisten Leute hätten eh bei Ebay gekauft und auch in der “natürlichen” Suche erscheinen Ebay-Angebote oft recht weit oben.
Im Grunde basiert die Erzählung von der Massenmanipulation durch getargetete Werbung auf einem allgemeinen Mißverstehen über statistische Mechanismen. Facebook verdient sein Geld mit Werbung und die Daten dienen dazu, zu steuern, wem die Werbung gezeigt wird. Wenn ich eine Facebook-Werbung sehe geht es nicht darum, dass ich als Individuum, Michael Seemann, überredet werden soll, auf die Werbeanzeige zu klicken. Ich bin Facebook egal und ob mich die Werbung anspricht oder nicht, sagt überhaupt nichts darüber aus, wie gut oder schlecht getargetet wird. Ich bin nur Teil einer auf statistischen Kriterien zusammengestellten Gruppe und Facebook hofft mit Targeting erreichen zu können, dass von 1000 Leuten in dieser Gruppe 21 statt nur nur 20 Personen auf die Werbeanzeige klicken. Ein einziger, zusätzlicher Klick mehr pro Tausend Personen scheint eine eher überschaubare Manipulationsleitung zu sein. Doch damit kann man Millionen verdienen. Vorausgesetzt man ist so groß wie Facebook.
Die viel interessantere Frage ist, weshalb Werbekunden bereit sind, für die 4% Extra-Umsatz bis zu 2,68 Mal so viel Werbeetat springen zu lassen, als bei normaler Werbung.18 Es hat sicher damit zu tun, dass Facebook und Google eine marktbeherrschende Stellung im Online-Werbemarkt einnehmen und niemand so viele Leute erreichen kann, wie sie. Vielleicht ist aber auch die Erzählung von der Wunderwaffe “getargetete Werbeanzeigen” manipulativer als ihre behauptete Wirkung. Und Zuboff übertreibt mit ihrer Erzählung des “Überwachungskapitalismus” diese Geschichte auch noch ins Groteske. Vielleicht können Google und Facebook dank ihrer anatogistischen Erfüllungsgehilfin ja bald ihre Werbepreise erhöhen.
Fazit
Niemand will manipuliert werden, auch ich nicht. Ich bin deswegen vorsichtig geworden, wenn ich eine gute Geschichte höre. Ich analysiere dann die Interessenstrukturen. Wer erzählt die Geschichte und warum? Und wer hat überhaupt ein gegenteiliges Interesse? Besonders mißtrauisch macht es mich, wenn die Geschichte allen nutzt.
Und ich habe gelernt, mir selbst zu mißtrauen. Meinem fehleranfälligen Denken, meinen eigenen Interessen und Ängsten, meinem Wunsch nach einfachen Antworten, meiner Unfähigkeit Unwissen oder Widersprüche auszuhalten. Warum gefällt mir diese Geschichte gerade so gut? Bestätigt sie meine Vorurteile, meine Ressentiments? Nützt mir die Geschichte vielleicht sogar oder passt sie mir anderweitig in den Kram?
Ironischer Weise versuche ich auch meine Angst vorm Manipuliertwerden zu überwinden, denn es ist wie Niklas Luhmann in “Vertrauen” schreibt: “Wer mißtraut, braucht mehr Informationen und verengt zugleich die Informationen auf die er sich zu stützen getraut. Er wird von weniger Informationen stärker abhängig. Damit gewinnt die Möglichkeit, ihn zu täuschen wiederum an Berechenbarkeit.”19
Mein Tipp: Seien wir weniger berechenbar, indem wir uns dafür halten.
/****** This Essay was first published in German at „Aus Politik und Zeitgeschehen“ and also as an extended version on this blog. The translation was provided by Lisa Contag. ******/
A spectre is haunting (not only) Europe — the spectre of digital capitalism. And as is fitting for the times we live in, it comes in many shapes and colours: as information capitalism, data capitalism, platform capitalism, surveillance capitalism and cognitive capitalism. A multitude of digital capitalisms have come into existence, however, they essentially indicate the same thing: that we are witnessing fundamental changes. And this exact point leads me to the unsettling question: is this still capitalism?
When using the word “unsettling”, I don’t mean the discomfort the authors of numerous and diverse characterizations of digital capitalism obsess about. My goal is not to demonstrate that capitalism’s new digital variety is worse than all its predecessors. My unease rather concerns capitalism itself. I figuratively place my hand on its shoulder, as it were, and quietly ask: “Everything ok there, capitalism?” While many authors identify capitalism to have further radicalized in its digital version, my impression is the opposite. I believe capitalism isn’t doing well at all in the digital realm. This is why I want to ask more fundamentally whether capitalism in its digital variety in fact still meets the criteria we use to describe this economic system and way of organizing society.
There are various definitions of capitalism which at the core, however, are more or less the same. Accordingly, capitalism is seen to meet the following five criteria: it is characterized by the antagonism of capital and labour (at least for Marx), the fact that economy is controlled by markets (neoclassical definition), by private ownership of means of production, the dominance of ownership order, as well as the principle of accumulation (or growth). Below, I will investigate what happens to these criteria in the digital realm.
Capital
Let’s start with the obvious: private ownership of means of production, “capital”. Much has happened here in particular due to digitalization. In Marx’ days, means of production were mostly land, buildings, machines and perhaps vehicles. To illustrate how strongly the essence of capitalism has changed through digitalization, you only need to consider this: Uber, the world’s largest taxi company, doesn’t own a single vehicle. Alibaba, the world’s most valuable retailer, has no inventory. Airbnb, the world’s largest accommodation provider, owns no real estate.
Jonathan Haskel and Stian Westlake have researched this context more systematically in their book “Capitalism without Capital”. Its subtitle “The Rise of the Intangible Economy” already indicates that capital hasn’t simply disappeared1. Rather, it dematerialized. Tangible capital goods as they had already been known to Marx, were at some point complemented by software, data bases, designs, brands, advanced trainings and other intangible, immaterial assets. But these weren’t simply added. In the United States, the UK and Sweden investments in intangible assets have surpassed tangible assets long since. 84 percent of the US S&P 500 companies’ assets are intangible2. The digital industry is at the forefront here and a driver of this development.
“Tangible, intangible, what difference does it make?”, one might ask. Haskel and Westlake point out four systemic differences: intangible assets are firstly sunk costs, meaning that capital invested in intangible assets is difficult to re-sell. Secondly, there are often spillovers: it’s hard to maintain exclusive ownership of information — which all intangible assets are. Thirdly, intangible assets are scalable: once produced, an intangible asset can be used anywhere with no further limitations or additional costs. Fourthly, intangible assets are synergistic: often they only form new products or result in new cases of application in combination with other intangible assets.
The spillover effect is the most interesting. We encounter it whenever copyrighted works are shared on the internet. For industrial manufacturers this can also simply mean that competitors copy the manufacturing processes of their products or their software. Legal protection is available for some — but by far not all — intangible investments. This is in fact where we return to our criterion of capitalism. Only intangible investments, protected by copyright, patents or trade mark registrations, can be considered personal property and appear as assets in the balance sheets. However, structurally, even these forms of private ownership, i.e. intellectual property, are highly questionable in their classification as property, their worth being determined almost arbitrarily. Essentially, these are monopoly exploitation rights3, or, put pointedly, pretensions to ownership.
Labour
The function of labour, or rather the juxtaposition of labour and capital as elements of the production process, plays an essential part in any definition of capitalism. According to Marx’ theory, human labour, or more precisely socially necessary labour time, is the factor that creates a commodity’s economic value in the first place. Because the labourer is not fully compensated for the value he produces, but only to the extent necessary to reproduce his labour-power (reproduction), the capitalist pockets the difference (surplus value) as profit.
Let’s take a closer look at the use of labour and generated value in the digital economy with the particularly impressive example of the US video-rental chain Blockbuster in comparison to online streaming service Netflix: Netflix, counting 5400 employees, generated 15.7 billion dollars in revenue in 2018, whereas the video-rental chain, which went broke, generated 3.24 billion dollars with 25,000 employees in its last year (2010). This means that while employing five times the amount of people Netflix does, Blockbuster only generated one fifth of Netflix’ revenue — despite their similar lines of business4. Digital economy thus appears to generate much more value added per employee than the former analogue economy.
In economic science, this correlation is measured as workforce productivity. If you look at the overall economy (e.g. of the G20 states), you will indeed notice enormous growth of workforce productivity, but only low growth of wages, with the margin consequently ending up in the capitalists’ pockets, a fact that has been described by economist Thomas Piketty who illustrated how the growth of fixed assets has been decoupled from the growth of wages5. Numerous IT firms are among the companies with the highest workforce productivity in the world. Apple generates nearly 2 Million dollars in revenue per employee. Facebook and Google follow in second and third place, with well over 1 Million dollars per employee6. None of these companies are known for paying bad wages — to the contrary. In relation to the market prices, particularly developers and IT specialists earn far above average. In relation to the generated revenues, however, their wages are no more than “peanuts”. And considered from the perspective of Marx’ logic of exploitation they could even be counted among the most badly exploited people in the world, given the enormous amount of extracted surplus value.
On the other hand, however, it is difficult if not impossible to measure how the perceived social surplus value relates to the economic surplus value, especially since surplus value is generated so differently today to what Marx observed in his time. In his book “Das Kapital sind wir”, writer and researcher Timo Daum not only provided an interesting description of the digital economy but also his own hypothesis about value creation in the digital realm7. According to Daum, value isn’t created through the production of goods but through innovation. And we are all contributing to it: because we are constantly monitored when we use digital tools. The data collected in this way is used for the development of new innovations and for improving existing products. Harvard economist Shoshana Zuboff has taken the same line, however, she makes value creation sound a lot more insidious. She too sees the surveillance of users at the centre, but rather than innovation she identifies manipulation (behaviorial surplus) as key for the internet companies’ creation of value.8 Nick Srnicek, a lecturer in digital economy, on the other hand, describes data as a kind of resource which only gains value when being processed. He thus identifies the work of programmers, analytical algorithms and most of all data scientists as responsible for value creation9. In his book “Post Capitalism”, journalist Paul Mason even came to the conclusion that capitalistic economies will not be able to continue if information rather than labour becomes the central resource for value creation.10
When asking about the role of labour in the digital realm, we are thus confronted with a variety of differing, contradictory theories and observations. The only common denominator seems to be that labour in the classical understanding is no longer where the creation of surplus value essentially happens.
Market
Much has happened in economic science since Karl Marx authored “The Capital”. Many economists no longer consider the production process as central, but the market. Accordingly, there’s hardly any contemporary definition of capitalism that will not refer back to the market, identifying it as capitalism’s essential control mechanism. By keeping the equilibrium between production and consumption via the price mechanism, the market ensures that goods are only produced roughly in the amounts they are demanded and that they remain within an affordable range — at least in theory, which is often and readily criticized because it builds on presumptions that can hardly be put into practice: complete transparency of the market, people as rational economic subjects, the non-existence of transaction costs, not taking into account influences and costs (externalities) not represented in the market, and so on.
Generously ignoring these inaccuracies, the market could be seen as an “information system”11 which coordinates the signals of providers and consumers as input. From this point of view, one should think that the market would be compatible with the digital realm. And as it turns out, market mechanisms are indeed easily recreated in algorithms. This is exactly what for example Uber did with “surge pricing”. The number of Uber drivers on the road varies, depending on the time of day or night, likewise demands for drivers vary. Uber users are thus presented with a surge price next to the standard price. In case of uncertainty, this is higher than the standard price, on the other hand it ensures that people immediately get a car. In a way, this is a market price — except that it is calculated by an algorithm.
A lot more insights can be gained from the millions of user decisions for and against surge prices. People whose smart phone battery is about to run out, for example, are more willing to pay a higher price for an immediate Uber ride. This also allows for the calculation of the consumer surplus, as a team around economist Steven Levitt demonstrated with the example of Uber12. Consumer surplus, in short, is the difference between the price I factually pay for a product and the price I would be prepared to pay if it were higher. The difference that I did not pay is the bonus I as a consumer end up with in the end. Because the readiness to pay certain prices varies from person to person, every consumer “receives” an individual consumer surplus. The general consumer surplus is then calculated by adding up individual differences. Levit et. al.’s research showed that Uber generated roughly 2.9 billion dollars in consumer surplus 2015. This is not the kind of money reflected in statistics. It’s money that wasn’t spent but possibly would have been if every customer had been shown a personalized price. However, if you know that a customer would pay more, why then not indicate that price instead?
Let’s look at what is happening here: if the market price is an information system and computers, the internet and shop systems are also information systems, then the former was in a way hacked by the latter. The providers’ IT systems are simply more intelligent than the market.
Property
A both simple and elegant definition of capitalism, which distinguishes itself both from the Marxist and the neoclassical definition without being incompatible with either, was developed by economists Gunnar Heinsohn and Otto Steiger.13 They define capitalism as an ownership order,i.e. a society which is structured by the concept of property. What may sound banal, obvious and hardly productive at first becomes interesting when you take a closer look at the implications of the term “ownership.”
While Marx locates capitalism’s original setting in production, and the neo-classical economists in the market exchange, Heinsohn and Steiger locate it in the difference between “ownership” and “possession”. This distinction itself is not economical, but mainly legal. “Possession” is anything I have power of control over; which distinguishes it from “ownership”: ownership is a legal title, an abstract claim. This means that I can give objects that I own into the possession of others while they remain my property. However, this is only possible if an external power ensures that this legal title is enforceable and the object is returned to me in cases of doubt. Ownership thus requires a state monopoly on the use of force.
When applying this definition to the digital realm, the online music platform Napster comes to mind. Launched in 1999, this service made all the music files on a user’s computer available to other Napster users. The program featured a search mask which allowed searches for any kind of music, producing a list of users who had the titles in question and were prepared to share them. One mouse click sufficed to start the download. For collectors, this was a true El Dorado. For the music industry, however, this El Dorado was a major spillover, the total loss of control and the sudden end of their business model. Following Heinsohn / Steiger’s definition of capitalism, one could say that the music industry fell back from ownership order to a download ‘possession order’. The music industry (and a number of rights distributors) lobbied extensively for more restrictive copyright laws, nonetheless it wasn’t able to get rid of thepeer-to-peerfile sharing platforms.
And this is where it gets interesting: The fact that the music industry does have a business model again today is not due to the state enforced ownership order but because a totally new, unique order formed on the internet: the order of platforms. When Apple approached music labels in 2002 and presented them with iTunes, the company’s own commercial online platform for music, the music industry had its back to the wall. Not even the major labels had succeeded in introducing legal online platforms that could compete with the file sharing platforms. Apple’s Steve Jobs was able to dictate the terms to the labels in the end14because his company had something they didn’t have: I call it “marketable power of control”. Apple was not only able to commercially and legally offer music, but also to withhold it via iTunes’ technological infrastructure, without requiring any additional entity to enforce this (the state). Many companies which today shape the “platform economy” would soon follow Apple’s example. First and foremost, their platforms are control infrastructures to artificially shorten potentially boundless goods.
The platforms’ marketable power of control has overcome its limitations to actual legal titles long since. Facebook has no ownership rights of our personal data and yet their business model is based on executing marketable power of control over them. The platforms are already executing a form of control that operates without the ownership order and merely reflects it in parts. This, however, means that in the digital realm, the legal concept of ownership is at stake, at least to some degree.
Growth
One criterion keeps reappearing both in the Marxist and the neoclassical type definitions of capitalism, namely growth. What part does it play in digital economy?
In “The Rise and Fall of American Growth”15, economist Robert J. Gordon argued that despite all the future promises digitalization may offer, economic growth is no longer driven by factual innovation today. He substantiated his findings with reference to the so-called total factor productivity (TFP) — a measure of economic efficiency which is calculated by subtracting growth rates of labour and capital inputs from growth in output, and thus determining the portion of growth in output not explained by growth in these factors. The TFP to Gordon represents a way to measure growth effects of innovation. The fact that the US TFP averaged somewhat more than one percent annually from the 1930s to the 1970s, but was much lower before and after, leads Gordon to the conclusion that digitalization has resulted in hardly any innovation. He thus picks up on an observation by economist Robert Solow back in 1978: “You can see the computer age everywhere but in the productivity statistics.16
I would like to object. In my opinion, digital innovations are as real as technological innovations once were, the difference being that they can’t really be measured by conventional standards. Both the gross domestic product and all values derived from it, such as growth, productivity or the TFP, are based on how much revenue is generated in different industries, meaning: anything not leading to a transaction is not considered. However, there are many reasons why especially digital innovations often appear transaction-neutral or even reductive.
Firstly, market transparency has increased through the internet. Our consumer decisions today are much more knowledgeable than they were before the internet, which also means less misinvestments (and thus less transactions). Secondly the mentioned spillover effect has also led to the situation that we have a much larger variety of cultural offerings at our disposal without having to spend substantially more money. We don’t have to illegally stream movies but the mere fact that we could forces companies to create attractive commercial options that are legal. This also leads to a minus in growth performance. Thirdly we shouldn’t forget how much free knowledge we have access to today. Apart from collecting donations, Wikipedia is completely free. On the other hand, it creates a big red minus in the overall economic balance sheets, given the losses of numerous encyclopaedia publishers. Though many attempts have been made, there is no sensible way of determining Wikipedia’s enterprise value17. Similar effects for the economy can be observed in the case of open source software.
In general, many economic processes are becoming more efficient thanks to technology. The introduction of Artificial Intelligence and Big Data is advertised time and again as enabling substantial savings. Savings, however are transactions that didn’t take place. They streamline the balance sheets without necessarily being complemented by additional investments. This means that digital innovations save more transactions than they add. Why is there still economic growth then? My hypothesis: similar to 2007, we are in a bubble, this time, it’s the intangible assets bubble. I think intangible assets are massively overrated — simply because they are artificially prevented from spillovers, the “natural state” of any information in the digital realm. Platform control, draconic copyright laws and the enforcement thereof, have led to an artificial shortage of ideas, thoughts and creative achievements, which make our lives poorer on the one hand, in order to sell them to us at an even higher price on the other.
Growth used to mean that more people could do more things, that products became cheaper, that more people had access to running water, electricity, consumer goods. In the digital economy, growth merely means that the consumer surplus is exploited more efficiently, i.e. that more people are needlessly paying more than they would have to under normal market conditions. Growth means that immaterial goods are made scarce more successfully.
Conclusion
All five criteria I identified at the beginning of this text are rendered absurd by digital economy. The unsettling question more precisely then is:
Is capitalism still capitalism when capital is merely purported, labour is superfluous, it is not controlled by the market, it has abandoned the ownership order and the little growth that remains is the result of the artificially fabricated scarcity of intangible goods?
Probably not. But what is it then? At the moment, we still have one foot in good old analogue capitalism. And with respect to the digital foot: we only ever learned to perceive capitalism in contrast to communism or socialism — in the best case anarchism and feudalism. What the digital economy is doing, is none of those. We have to understand the novelty of the situation at this point. For all of us, digitalization is something new, hence we should consider the possibility that this could also be a totally new form of economy, one we don’t have a name for yet and one of which we don’t really know how it works. Something still in progress that’s not automatically better or worse than capitalism, but sufficiently different. “The old world is dying, and the new world struggles to be born: now is the time of monsters”, Marxist philosopher Antonio Gramsci is said to have noted once.18We too are dealing with a monster, here, a creature that doesn’t have a name yet. Monsters aren’t necessarily evil but they frighten us because we don’t understand them.
_
/***** Für das WasWäreWenn-Magazin habe ich mich mal wieder in konstruktiven Vorschlägen geübt und eine Idee unterbreitet, wie man Plattformen sinnvoll demokratisieren kann. Das ist schwerer als zu kritisieren und auch undankbarer, denn man macht sich angreifbar. Aber nach so vielen Jahren, in denen ich Demokratsierungsversuche von Plattformen kommen und gehen habe sehen, weiß ich zumindest, wo einige der Fallstricke liegen. Das Thema ist kompliziert und verlangt nach einer komplexen Lösung und ich habe zumindest eine Möglichkeit gefunden, bei der ich gerade keinen Grund finde, warum sie scheitern sollte. Was natürlich nicht bedeutet, dass sie nicht scheitern würde, denn noch hat sie niemand ausprobiert. Kritik ist sehr willkommen. ****/
Es ist eine Hassliebe, die die Gesellschaft mit den Plattformen wie Facebook und Youtubepflegt. Auf der einen Seite geben sie vielen Menschen das erste Mal eine Stimme, mit der sie sich in der Öffentlichkeit artikulieren können, oft sogar politisch (es gab zumindest mal eine Zeit, als das als etwas Gutes galt). Auf der anderen Seite handelt es sich um Wirtschaftsunternehmen, die jeden Cent aus unserer Aufmerksamkeit und unseren persönlichen Daten pressen wollen. Zudem ähneln diese Orte weniger öffentlichen Plätzen, als vielmehr privaten Einkaufszentren, in denen man nur wenig bis keine Rechte und Mitbestimmungsmöglichkeiten hat.
Es ist deswegen naheliegend, eine Demokratisierung dieser Plattformen zu fordern, wenn wir solche Infrastrukturen schon mit unseren Meinungen und Daten füttern. Was das heißt oder heißen kann, ist ein weites Feld und im Detail eine schwierige Diskussion. Daher orientieren sich hier meine Forderungen nach Demokratisierung an den Modellen und Konzepten, die wir aus den westlichen Industrienationen kennen: Wir wollen gewisse Rechte haben, wir wollen mitbestimmen, wo die Reise hingeht, wir wollen Mindeststandards der Moderation, Transparenz sowie nachvollziehbare Prozesse. Und wir wollen, dass die enorme Macht dieser Plattformen nicht missbraucht wird.
Doch wie genau soll das passieren? Plattformen sind keine Staaten, wir können deren Konzepte nicht eins zu eins übertragen. Zunächst möchte ich vier Möglichkeiten der Demokratisierung von Plattformen vorstellen, ihre Vor- und Nachteile diskutieren und am Ende einen Lösungsvorschlag unterbreiten.
Eine Sache noch. An einer Stelle musste der Text gekürzt werden und da es für die Argumentation nicht ausschlaggebend war, musste der Teil über Finanzen weichen. Leider sind Finanzen aber sehr, sehr wichtig, wenn wir über die Unabhängigkeit von Strukturen nachdenken. Deswegen hier noch mal als Ergänzung, meine Gedanken zu Finanzen:
Ein Thema, das extra Bearbeitungen verdient, ist das liebe Geld. Denn Geld bedeutet immer auch Abhängigkeit, weshalb die Finanzierungsstruktur des Modells eine wichtige Frage ist, die gesondert behandelt werden muss. An dieser Stelle tue ich einfach so, als gäbe es das Modell bereits und beschreibe eine fiktive Zukunft, auch damit man sich eine Vorstellung vom real existierenden Modell machen kann.
Am einfachsten ist die Geldfrage bei den Clients zu beantworten, für die sich einfach ein freier Markt auftut und bei denen alle möglichen Geschäftsmodelle zum Tragen kommen. Die drei populärsten Clients sind der mit personalisierter Werbung von Google, der auf iOS vorinstallierte Client von Apple und der Client des größten Hubs „Hub-Verse“, der umsonst an seine Mitglieder verteilt wird. Es gibt aber noch viele weitere, auch nicht-kommerzielle Opensource-Projekte mit unterschiedlichen Feature-Schwerpunkten.
Hubs sind sehr unterschiedlich finanziert. Staaten betreiben oft eigene öffentlich-rechtliche Hubs, die kostenfrei für ihre Bürger/innen nutzbar sind. Allerdings kann man sich dort nur mittels der staatlichen Identität registrieren, was aber auch einige Vorteile für die Nutzer/innen mit sich bringt (Beispielsweise rechtsverbindliche Kommunikation). Meist haben die Leute aber noch Zweit- oder gar Drittidentitäten auf anderen Hubs. Ansonsten kann jeder einen Hub betreiben und ein Geschäftsmodell daraus machen, allerdings ist es schwierig angesichts der öffentlich-rechtlichen Konkurrenz damit Geld zu verdienen. Wirtschaftlich erfolgreich sind zum Beispiel Hubs, die speziell für Firmenaccounts kostenpflichtige Services anbieten, oder Fanpage-Accounts für Prominente. Es gibt auch einen erfolgreichen Hub, der mit Werbung Geld verdient und einen Hub, der zu einem günstigen Preis einen werbefreien Premiumdienst anbietet. Es gibt aber auch viele genossenschaftliche Hubs, die den Mitgliedern gehören und durch Beiträge finanziert werden. Die zwei größten genossenschaftlichen Hubs haben dezidiert weltanschauliche Einschläge: es gibt einen großen eher konservativen und einen nicht ganz so großen eher progressiven Hub (und viele, viele kleine, linke Subkultur-Hubs) und sie unterscheiden sich vor allem auch hinsichtlich ihrer Moderationsstatute und Mitbestimmungsregeln. Große Firmen betreiben oft eigene Hubs, in denen ihre Mitarbeiter zwecks interner Kommunikation eine zweite Identität pflegen. Diese sind aber oft nicht Mitglied im Modell und wenn, dann nur zu Außendarstellungszwecken.
Die Metagovernance-Struktur wird aus zwei Töpfen gespeist: Auf der einen Seite gibt es ein spezielles Konsortium der UN, dass ein jährliches Budget bereitstellt. Nicht alle Länder, die Teil der UN sind, sind Mitglieder in dem Konsortium, aber durchaus einige der größten. Die UN hat keinerlei Einflussmöglichkeit auf die Strukturen der Metagovernance, sondern muss nur einmal jährlich deren Etat beschließen. Den Haushalt und die Etatbeantragung macht das Metagovernance selbst. Die UN darf nur mit guter Begründung einen abweichenden Etat beschließen. Im Budget des Metagovernance enthalten sind auch Hosting- und Versionierung der Hub-Codebasis.
Ein zweiter Topf speist sich aus Abgaben der Clients und Hubs. Es gibt sowohl für Client- als auch Hub-Anbieter eine verpflichtende Gebührenordnung mit einem geringen Mindestbetrag, der an das Metagovernance abgeführt werden muss. Kommerzielle Anbieter zahlen zusätzlich einen geringen Prozentsatz ihrer Einnahmen. Aus diesem zweiten Topf werden vor allem Codebasis-Entwicker/innen, als auch Moderator/innen des Metagovernance bezahlt.
Am teuersten war die Entwicklung der Code-Basis natürlich am Anfang. In einer ersten Phase wurden die Grundstrukturen von einem temporären Konsortium aus verschiedenen Firmen im Auftrag und mit Mitteln der EU entwickelt. In einer zweiten Phase wurden erste Testinstallationen aufgesetzt und der Code unter einer Opensource-Lizenz veröffentlicht. Es bildeten sich sodann Startups, die unter anderem mit öffentlicher Anschubförderung eigene Distributionen aus der Code-Basis entwickelten. In der dritten Phase waren Staaten (fast alle EU-Staaten sowie Kanada, Brasilien und Indien) die ersten Betreiber von Hubs und sorgten für die nötigen Netzwerkeffekte, um das Modell für weitere Entwickler/innen attraktiv zu machen.
/*****
Für die Zeitschrift der Bundeszentrale für politische Bildung „Zu Politik und Zeitgeschichte“ (APuZ) habe ich meinen Vortrag über den digitalen Kapitalismus vom vom letzten Herbst verschriftlicht. Aus Platzmangel wurde er rund um die Hälfte zusammengekürzt, auch wenn die Grundaussage gut erhalten blieb. Dennoch erlaube ich mir hier nun die Directors Cut Version zu posten, für alle, die gerne noch ein paar mehr Argumente hören möchten, warum der digitale Kapitalismus vielleicht not so much ein Kapitalismus ist. Die APuZ kann man hier runterladen oder bestellen.
*****/
[PDF Download]
Ein Gespenst geht um in Europa, es ist das Gespenst des digitalen Kapitalismus. Und wie es sich im konsumgeilen Kapitalismus ziemt, kommt er in vielen Formen und Farben: Informationskapitalismus, Daten-Kapitalismus, Plattform-Kapitalismus, Surveillance Capitalism und kognitiver Kapitalismus. Der digitalen Kapitalismen gibt es mittlerweile so viele, dass man sich wie bei Rossmann vor dem Shampoo-Regal fühlt.
Ich habe mir einen Großteil der Literatur angeschaut und ich habe Fragen. Genauer gesagt habe ich fünf beunruhigende Fragen an den Kapitalismus.
Mit „beunruhigend“ meine ich im übrigen nicht dieselbe Unruhe, in die sich die Autor/innen der unterschiedlichen Digital-Kapitalismus-Beschreibungen hineinsteigern. Es geht mir nicht darum, zu zeigen wie nun diese neue, die digitale Spielart des Kapitalismus schlimmer ist als alle vorhergehenden. Meine Beunruhigung gilt vielmehr dem Kapitalismus selbst. Ich lege ihm gewisser Weise meine Hand auf die Schulter und frage leise: „Alles OK mit dir, Kapitalismus“?
Denn während die meisten Autor/innen in der Digitalversion des Kapitalismus eine weitere Radikalisierung des Kapitalismus ausmachen, habe ich eher das gegenteilige Gefühl. Ich glaube, dem Kapitalismus geht es nicht gut im Digitalen. Ich will deswegen grundsätzlicher fragen, ob der Kapitalismus in seiner digitalen Spielweise wirklich noch die Kriterien erfüllt, mit denen wir dieses System des Wirtschaftens und der Organisation der Gesellschaft beschreiben.
Ich habe mir also verschiedene Kapitalismus-Definitionen angeschaut und versucht den Kern daraus zu extrahieren. Darunter war natürlich Marx’ einflussreiche Analyse des Kapitalismus, aber auch die Definition in der Wikipedia, als auch des Gabler Wirtschaftslexikons, sowie weitere aus spezifischen Sachbüchern.1 Diese Definitionen weichen hier und da von einander ab aber haben dann doch einen kleinsten gemeinsamen Nenner, eine Art übereinstimmenden Kern, weswegen es mir gelang, die fünf wichtigsten Kriterien herauszuziehen, von denen ich glaube, dass sie als allgemein Zustimmungsfähig gelten können:
Kapitalismus erfüllt folgende fünf Kriterien:
Ich möchte mir also im Folgenden genauer anschauen, wie diese fünf Kriterien auf den digitalisierten Kapitalismus passen.
Das Kapital
Fangen wir mit dem Offensichtlichsten – dem Privateigentum an den Produktionsmitteln, dem “Kapital” – an. Wir bewegen uns hier sofort in marxistischer Terminologie, aber auch in den übrigen Wirtschaftswissenschaften dürfte unstrittig sein, dass dies einer der wesentlichen Grundpfeiler des Kapitalismus ist.
Doch hat sich gerade hier durch die Digitalisierung viel getan. Zu Marx’ Zeiten waren die Produktionsmittel in erster Linie Land, Gebäude, Maschinen und vielleicht noch Fahrzeuge. Um sich zu veranschaulichen, wie krass sich die Essenz des Kapitals durch die Digitalisierung geändert hat, braucht man sich nur folgende, mittlerweile sprichwörtliche Aufzählung, vor Augen zu führen:
Das klingt erstaunlich, aber doch nach anekdotischer Evidenz. Systematischer haben diesen Zusammenhang Jonathan Haskel und Stian Westlake in ihrem Buch „Capitalism without Capital“ untersucht. Der Untertitel – „The Rise of the Intangible Economy“2 – zeigt auch schon an, dass natürlich das Kapital nicht wirklich verschwunden ist. Es hat sich nur dematerialisiert. Zu den materiellen Investitionsgütern die bereits Marx kannte, traten irgendwann Software, Datenbanken, Design, Marken, Fortbildungen und sonstige nicht-anfassbare, immaterielle Werte hinzu.
Und sie kamen nicht nur hinzu. In den USA, Großbritannien und Schweden hat der Anteil an immateriellen Investitionen die in materiellen Werte längst überflügelt. Bei den „Standard & Poors“ Top 500 Unternehmen nach Marktwert sind bereits 84% der Werte immateriell.3
ABB. 1 Aus Capitalism without Capital
Und die Digitalbranche ist hier Vorreiter und Treiber der Entwicklung. Die Tech-Unternehmen führen die Liste der Unternehmen mit den meisten “Intangible Assets” bis zum Platz 8 an, mit Amazon an der Spitze ($827 Mrd., 96% iA) gefolgt von Microsoft ($ 686 Mrd., 95 % iA).4
„Nagut, materiell, immateriell, was macht das für einen Unterschied?“ kann man jetzt fragen. Es sind genau vier systemische Unterschiede, die Westlake und Haskel herausarbeiten.
Immaterielle Investitionen …
Zusammengenommen hinterlassen diese Unterschiede und damit einhergehende Effekte wiederum riesige Furchen im Kapitalismus selbst. Die beiden Autoren zeigen zum Beispiel, wie die Verschiebung hin zu immateriellen Kapital eine Rolle bei der zunehmenden ökonomischen Ungleichheit in der Gesellschaft oder dem vergleichsweise geringen Wirtschaftswachstum spielen.
Am spannendsten ist jedoch der Spill-Over-Effekt. Wir kennen den Effekt überall dort, wo gerade im urheberrechtlich geschützte Werke in Internet getauscht werden. Für industrielle Produzenten kann es aber auch einfach heißen, dass sich der Konkurrent die „Best Practice“ zur Herstellung von einem Produkt abschaut, oder eine von ihm eingesetzte Software nachbaut.
Einige – aber lange nicht alle – immaterielle Investitionen kann man deswegen rechtlich schützen lassen. Und hier kommen wir überhaupt erst wieder ins Fahrwasser unseres Kapitalismus-Kriteriums. Nur immaterielle Investitionen, die man über Urheberrechte, Patente oder Markeneintragung schützen kann, können überhaupt als „Privateigentum“ gelten und tauchen als “Assets” in den Bilanzen auf.
Aber selbst diese Formen von „Privateigentum“, also „Geistigem Eigentum“ sind in ihrer Eigentumsstruktur höchst fragwürdig, die bemessung ihres Wertes ist an der Grenze zur Beliebigkeit. Im Grunde handelt es sich um reine Monopolverwertungsrechte. Es sind also Behauptungen derart: „Der Staat sagt, dass nur ich diese Idee/Information/Marke/Logo nutzen darf.“5
Und das führt mich zu meiner ersten beunruhigenden Frage:
„Ist ein digitaler Kapitalismus mit nur noch behaupteten Kapital überhaupt noch Kapitalismus?“
Arbeit
Ein wesentlicher Bestandteil jeglicher Kapitalismus-Definition und insbesondere bei Marx ist die Funktion von Arbeit, bzw. die Gegenüberstellung von Arbeit und Kapital als Teile des Produktionsvorgangs. Der marx’schen These nach ist menschliche Arbeit (genauer: gesellschaftlich notwendige Arbeit) dasjenige, was überhaupt den „Wert“ (als Tauschwert einer Ware innerhalb der Ökonomie) erschafft. Da der Arbeiter aber nicht in der vollen Höhe seiner Wertschöpfung entlohnt wird, sondern nur in etwa in der Höhe, die notwendig ist, um seine Arbeitskraft zu wieder herzustellen (Reproduktion), streicht der Kapitalist diese Differenz (Mehrwert) als Profit ein.
Auch in den herkömmlichen Wirtschaftswissenschaften sind sowohl Arbeit als auch Kapital die wesentlichen Produktivkräfte, jedoch wird dort ein anderer Werttheorie-Ansatz verfolgt. Wir kommen noch dazu.
Doch wenn wir uns zum Beispiel den Einsatz von Arbeit und erzieltem Wert in der Digitalwirtschaft anschauen, springen uns einige Dinge sofort ins Auge. Am besten vielleicht verdeutlicht, wenn wir die amerikanische Videothekskette Blockbuster mit dem Videostreamingdienst Netflix vergleichen.
Netflix machte im Jahr 2018 mit 5400 Mitarbeiter/innen $15,7 Milliarden Dollar Umsatz6, während der mittlerweile pleite gegangene Videoverleih-Riese Blockbuster in seinem letzten Jahr (2010) mit 25.000 Mitarbeiter/innen nur 3.24 Milliarden Dollar umsetzte. Das bedeutet, dass Blockbuster mit 5 mal so vielen Mitarbeiter/innen gerade mal 20% des Umsatzes von Netflix machte, obwohl beide in einem ähnlichen Business sind.7
Pro Angestellte/r scheint die Digitalwirtschaft viel mehr Wertschöpfung zu produzieren, als die alte, analoge Wirtschaft. Gemessen wird dieser Zusammenhang in der Wirtschaftswissenschaft als Arbeitsproduktivität und wenn wir die Zahlen für die Gesamtwirtschaft (zum Beispiel für die G20 Staaten) anschauen, sehen wir in der Tat ein enormes Wachstum der Arbeitsproduktivität aber nur ein geringes Wachstum der Löhne.
ABB 2. Aus International Labour Organization Organisation for Economic Co-operation and Development, The Labour Share in G20 Economies
Dass diese Differenz bei den Kapitalisten landet ist also folgerichtig und bereits bei Piketty untersucht, der zeigte, wie sich das Wachstum der Anlagevermögen entsprechend von dem Wachstum der Löhne entkoppelt hat. r > g bringt die wachsende Ungleichheit auf den Punkt.8
Diese Entwicklung zeigt sich auch in einem weiteren Phänomen, der heutigen Weltwirtschaft: dem stetigen Sinken der Lohnquote. Über viele Jahrzehnte lag der Anteil des Volkseinkommens (Bruttoinlandsprodukt/GDP), der in Form von Löhnen ausgezahlt wurde, sehr stabil bei etwa zwei Drittel. Seit den letzten 30 Jahren scheint sich das zu ändern. In der ganzen Welt sinkt die Lohnquote. In den USA um 6%, in Deutschland 7%, in Frankreich sogar um 14%.9 Es gibt verschiedene Erklärungsmuster, bei denen meist Globalisierung und Automatisierung im Mittelpunkt stehen. In ihrer Studie „The Fall of Labor Share and the Rise of Superstar Firms“ machen die Autor/innen einen anderen Grund aus: Superstar Firms.10 Konkret: Die Wirtschaft hat sich immer mehr konzentriert und wird in immer mehr Branchen von übermächtigen Playern dominiert. Diese sind enorm wirtschaftlich, verbuchen ein Großteil der Innovationen und nehmen den Wettbewerbern die Luft zum Atmen. Vor allem erwirtschaften sie mit erstaunlich wenigen Mitarbeiter/innen enorme Umsätze.
Ein großteil dieser Superstar Firms sind natürlich wiederum unsere Tech-Giganten. Unter den arbeitsproduktivsten Firmen der Welt, finden wir viele IT-Konzerne. Apple macht fast zwei Millionen Dollar Umsatz pro Mitarbeiter.11 Im Durchschnitt. Auch Facebook und Google verdienen auf Platz zwei und drei weit mehr als eine Millionen Dollar pro Mitarbeiter. Aber alle diese Firmen sind nicht dafür bekannt, dass sie ihre Mitarbeiter/innen schlecht bezahlen – im Gegenteil. In Bezug auf Marktpreise verdienen vor allem die Entwickler/innen und IT-Spezialist/innen Löhne weit über dem Durchschnitt. Aber gemessen am erzielten Umsatz verdienen sie nur “Penuts” und aus einer marx’schen Ausbeutungs-Logik heraus betrachtet, sind sie die vielleicht ausgebeutetsten Menschen der Welt, da der extrahierte Mehrwert so enorm ist.
Dabei ist unklar, inwieweit Automatisierung oder gar “Künstliche Intelligenz” bereits in diese Entwicklung mit reinspielt. Die sinkende Lohnquote scheint jedenfalls nicht stark an die Arbeitslosenquote gekoppelt zu sein – derzeit verzeichnen sowohl Deutschland als auch die USA eine historisch geringe Arbeitslosigkeit. Und doch erschienen in den letzten Jahre viele Studien, die einen enormen Jobverlust durch Künstliche Intelligenz prophezeiten: Die Spannen der Prognosen gehen allerdings weit auseinander und nicht alle Experten sind sich darüber Einig, ob wir überhaupt weniger Arbeitsplätze verzeichnen werden.12 Ein paar einschlägige Beispiele:
2013 warnte die Oxford University in einer vielbeachteten Studie, dass bis zu 47% aller Jobs in den USA bis 2033 in Gefahr seien.13 2017 sprach McKinsey von 400 bis 800 Millionen Jobs weltweit bis 2030 14 und letztes Jahr prognostizierte die OECD gerade noch 9% Jobverlust in ihren Mitgliederstaaten.15
Dass wir noch keine Ausläufer dieser Umwälzungen spüren, könnte auch damit zu tun haben, dass die Digitalisierung neue Jobs – allerdings im Niedriglohnsektor – schafft. Man denke an das wachsende unterbezahlte Heer der Paketbot/innen oder an die Essenslieferant/innen und Uberfahrer/innen der digitalen Gig-Economy (die aber mit nur 1% einen überraschend kleineren Anteil haben.16). Aber es ist auch nicht überall KI drin, wo KI draufsteht. Oft wird sie nur simuliert oder zumindest flankiert von im Hintergrund arbeitenden Click-Worker/innen in Niedriglohnländern.17 Der wachsende Anteil Niedriglohnbeschäftigter dürfte als Faktor auch in die sinkende Lohnquote reinspielen.
Doch wenn sich durch Digitalisierung einerseits die Produktivität auf immer weniger Firmen konzentriert, eine unbekannte aber doch vorhandene Menge an Jobs durch Automatisierung wegfällt, dazu immer mehr immer mehr Geringverdienerjobs entstehen, stellt sich die Frage ob das nicht auf Kosten der Mittelschicht-Jobs geht.
Sicher, ein Großteil der Leute arbeitet noch in herkömmlichen, sehr analogen Berufen. Für den Rest könnte David Graebers These von den „Bullshit Jobs“ eine gute Erklärung bieten.18 Graeber schätzt bis zu 40% der Jobs in der aktuellen Ökonomie seien Jobs, bei denen die Angestellten selbst nicht mehr nachvollziehen können, auf welche Weise er überhaupt produktiv ist. Bullshit-Jobs fehlt meist jeglicher „Sinn“ im gesellschaftlichen Kontext – zumindest wird er so empfunden. In ihrer Studie, „Socially Useless Jobs“ werteten Robert Dur, Max van Lent Umfragen von 100.000 Teilnehmern aus, die aus verschiedenen Zeiträumen und unterschiedlichen Ländern stammen und kommen zu dem Ergebnis, dass es zwar eine Menge der „Bullshit-Jobs“ gibt, sie aber nicht ganz so dominant sind, wie Graeber vermutet.19 Gerade mal 8% gehen davon aus, dass ihr Job keine gesellschaftlichen Nutzen stiftet. Weitere 17% sind sich des gesellschaftlichen Mehrwerts ihrer Arbeit aber zumindest nicht sicher.
Wie der gefühlte gesellschaftliche Mehrwert mit dem ökonomischen Mehrwert zusammenhängt, ist allerdings nur schwierig bis unmöglich zu messen. Vor allem, da die Art der Wertschöpfung heute ganz und gar anders von statten geht, als Marx es damals beobachtete. Wie hängen also Daten, Arbeit und Wert zusammen? Wo kommt der enorme Reichtum der Tech-Giganten her?
In dem Buch „Das Kapital sind wir“ hat Timo Daum nicht nur eine interessante Beschreibung der digitalen Ökonomie abgeliefert, sondern eine ganz eigene These zur Wertschöpfung im Digitalen aufgestellt.20 Diese geschehe nicht bei der Produktion von Waren, sondern in Form von Innovation. Und wir alle Arbeiten daran mit, denn wir werden jederzeit vermessen, während wir die digitalen Tools verwenden. Die gesammelten Daten werden dann für die Entwicklung neuer Innovation und Verbesserung der Produkte genutzt. Eine Interessante digitale Variante von Marx’ Arbeitswert-Theorie.
Shoshana Zuboff schlägt in eine ganz ähnliche Kerbe, allerdings klingt bei ihr die Wertschöpfung wesentlich perfider.21 Auch bei ihr steht die Überwachung der Nutzer/innen im Mittelpunkt, doch statt um Innovation geht es bei ihr um Manipulation. Dabei ist sozusagen das Delta von vorhergesagtem Verhalten zu manipuliertem Verhalten der Punkt, an dem Wert geschöpft wird. Dieser „Verhaltens-Mehrwert“ (behavioral surplus) würde dann als „Surveillance Capital“ abgeschöpft.
In dem Buch „Platform Capitalism“ von Nick Srnicek sind Daten hingegen eine Art Rohstoff, der erst in der Verarbeitung/Verfeinerung (zum Beispiel mittels Big Data) wirklich an Wert gewinnt.22 Hier wären es die Programmierer der Auswertungsalgorithmen und vor allem Data Scientists, deren Arbeit den Wert schöpft.
Paul Mason kam in seinem Buch „Post-Capitalism“ sogar zum Schluss, dass wenn Information statt Arbeit zum zentralen Bestandteil der Wertschöpfung wird, sich die kapitalistischen Ökonomien nicht werden halten können.23
Um ehrlich zu sein, lässt mich die Frage nach Rolle der Arbeit im Digitalen mit vielen unterschiedlichen, einander widersprechenden Theorien und Beobachtungen zurück. Einigkeit scheint allein darüber zu bestehen, dass Arbeit im klassischen Sinn zumindest nicht mehr der wesentliche Ort der Wertschöpfung zu sein scheint.
Ich frage also mit genauso viel Ratlosigkeit wie Beunruhigung:
„Ist ein digitaler Kapitalismus mit nur noch behauptetem Kapital und überflüssiger Arbeit überhaupt noch Kapitalismus?“
Markt
Seit Marx „Das Kapital“ schrieb ist allerdings auch in den Wirtschaftswissenschaften viel passiert. Die heute etablierte Ökonomie hat eine ganz andere Sicht auf den Kapitalismus. Für sie steht nicht der Produktionsprozess im Mittelpunkt des Geschehens, sondern der Markt. Und so findet sich kaum eine zeitgenössische Kapitalismus-Definition, die nicht auch auf den Markt rekurrieren würde. Markt – so die Wirtschaftswissenschaftler – sei das wesentliche Steuerungsinstrument des Kapitalismus. Indem der Markt das Angebot (Produktion) und die Nachfrage (Konsumtion) über das Instrument des Preises im Gleichgewicht hält, sorgt er dafür, dass zu jederzeit immer ungefähr genauso viel von einer Ware produziert wird, wie auch gebraucht wird und sich dieses Angebot auch im Rahmen bezahlbaren bewegt. So jedenfalls die Theorie, die oft und gerne kritisiert wird, da sie eine ganze Reihe von Annahmen voraussetzt, die in der Realität kaum zu erfüllen sind: Völlige Markttransparenz, Menschen als rationale Wirtschaftssubjekte (Homo Oeconomicus), die Nichtexistenz von Transaktionskosten, das Ausblendung von nicht im Markt abgebildeten Einflüssen und Kosten (Externalitäten), etc.
Doch blendet man diese Ungenauigkeiten gutwillig aus, wie das in theoretischen Versuchsanordnung in der Physik ja auch Standard ist, kann man den Markt als „Informationssystem“24 verstehen, der als Input die Signale von Anbietern und Nachfragern koordiniert.
Wenn man den Markt als Informationssystem begreift, muss man annehmen, dass er inhärent anschlussfähig an die Digitalsphäre sein sollte. Und Tatsächlich. Es stellt sich heraus, dass sich Marktmechanismen leicht in Algorithmen nachbauen lassen. Genau das hat zum Beispiel Uber mit seinem „Surge Pricing“ gemacht. Je nach Tages- und Nachtzeit sind unterschiedlich viele Uber-Fahrer/innen unterwegs und es gibt unterschiedlich hohe Nachfrage nach Uber-Fahrten. Ubers Surge-Pricing versucht darauf eine Markt-adäquate Antwort zu finden, indem es dem Kunden neben dem Standard-Preis auch noch den Surge-Preis anzeigt. Der Surge-Preis ist im Zweifelsfall höher als der Standard-Preis, aber dafür kommt das Auto sofort. Der Surge-Preis ist also eine Art Marktpreis – mit dem Unterschied, dass er von einem Algorithmus berechnet wurde.
In gewisser Weise führt es die Idee des Marktes ad absurdum, einen Marktmechanismus als datenbankgestützen Algorithmus nachzubauen, bietet aber auch ganz neue Möglichkeiten. So kamen Wirtschaftswissenschaftler um den Ökonom Steven Levitt auf Uber zu und fragten, ob sie denn mal einen Blick in die dabei generierten Daten werfen dürften. In ihrem Paper „Using Big Data to Estimate Consumer Surplus – The Case of Uber“ wurde dann auch etwas revolutionäres gezeigt: nämlich die Nachfragekurve – Beziehungsweise die Konsumentenrente.25
Um zu erklären, was es damit auf sich hat, müssen wir kurz zurück zur neoklassischen Vorstellung vom Markt. Während die Angebotskurve eine empirisch vergleichsweise leicht nachzuvollziehende Tatsache ist (man zähle die Hersteller eines Produkts sowie deren Output bei unterschiedlichen Absatzpreisen) war die Nachfragekurve immer nur eine lauwarme Behauptung der Ökonomen. Weder kann man wirklich messen, wieviele Leute bereit wären, ein Produkt zu kaufen, noch, wieviel sie zu welchem Preis bereit wären, davon zu kaufen. Was man machen kann ist, tatsächliche Kunden zählen und alle anderen Leute in Marktforschungsanaylsen zu befragen, aber all das gibt höchstens vage Anhaltspunkte für die Nachfragekurve. Kurz: um die Nachfragekurve zu kennen, müsste man in die Köpfe der Leute schauen.
Mit den Uber-Daten konnten die Wissenschaftler nun genau das tun. In den vielen Millionen Entscheidungen für und gegen den Surge-Preis bei Uber steckt die Nachfragekurve quasi drin – sowie eine ganze Menge andere Erkenntnisse. Beispielsweise sind Leute mit niedrigem Smartphone-Akku in der Regel bereit einen sehr viel höheren Preis für eine sofortige Uber-Fahrt zu bezahlen. Wer hätte das gedacht?
Aber die Beschreibung der Nachfragekurve beinhaltet noch etwas anderes: das, was Ökonomen „Konsumentenrente“ nennen. Die Konsumentenrente ist kurzgesagt die Preisdifferenz zwischen dem Preis, den ich für ein Produkt tatsächlich zahle und dem, den ich zu bezahle bereit wäre, wenn der Preis höher wäre. Diese nichtgezahlte Differenz nehme ich als Konsument sozusagen als Bonus mit. Da jeder Konsument eine unterschiedliche Bereitschaft hat, einen höheren Preis zu zahlen, erhält jeder Konsument somit auch eine individuelle Konsumentenrente. Die allgemeine Konsumentenrente errechnet sich somit, wenn man all diese individuellen Differenzen zusammenrechnet.
ABB 3. Nachfragekurve und Konsumentenrente
Die Untersuchung der Ökonomen ergab, dass Uber im Jahr 2015 eine allgemeine Konsumentenrente in Höhe von 2,9 Milliarden Dollar erwirtschaftet hat. Nochmal: Das ist kein Geld, das irgendwo in irgendeiner Statistik auftaucht. Es ist Geld, dass nicht ausgegeben wurde, aber ausgegeben worden wäre, wenn … ja, das ist eine spannende Frage. Im Grunde, wenn jeder einen personalisierten Preis angezeigt bekommen hätte.
Denn wenn man die Konsumentenrente ausrechnen kann, dann kann man sie auch abschöpfen. Wenn man weiß, dass eine Person mehr Geld zu bezahlen bereit wäre, warum ihm dann nicht auch diesen Preis anzeigen?
So ganz neu ist das allerdings nicht. Die Abschöpfung der Konsumentenrente ist schon lange ein Ziel sehr vieler digitaler Bemühungen. Im öffentlichen Diskurs firmiert das Thema unter „Preisdiskrimierung“.26 IBM hat dafür extra das Startup „Demand Tech“ gegründet und in Deutschland hat sich „Segment of One“ die Abschöpfung der Konsumentenrente auf die Fahnen geschrieben.
Es ist wichtig sich zu vergegenwärtigen, was hier passiert: Wenn der Marktpreis ein Informationssystem ist und Computer, Internet und Shopsysteme ebenfalls Informationssysteme sind, dann wurde das Erstere durch das Zweitere quasi gehackt. Die IT-Systeme der Anbieter sind einfach intelligenter als der Markt und haben ihn “outgesmarted”.
Das alles hört sich recht dystopisch an, doch kann man den Blick von hier aus auch utopisch wenden: wenn Computersysteme heute intelligenter sind als der Markt, wozu brauchen wir den überhaupt noch? Genau das fragt Stefan Heidenreich in seinem Buch: „Geld Für eine non-monetäre Ökonomie“.27 Dort stellt er mit einem kühlen, medientheoretischen Blick fest, dass es Geld (und damit Preise und Markt) gar nicht mehr braucht. Stattdessen schlägt er vor, Algorithmen das Angebot mit der Nachfrage matchen zu lassen. Das hat zum einen den Vorteil, dass Menschen durch Akkumulation von Vermögen nicht unfassbar reich werden können, aber auch, dass wir die Machting-Kriterien politisch aushandeln können.
Doch egal, ob Utopie oder Dystopie, wenn Algorithmen den Markt tatsächlich outgesmartet haben, so dass wir über seine Abschaffung diskutieren können, stellt sich die dritte beunruhigende Frage an den digitalen Kapitalismus:
„Ist ein digitaler Kapitalismus mit nur noch behaupteten Kapital und überflüssiger Arbeit, der nicht mehr durch den Markt gesteuert wird, noch Kapitalismus?“
Eigentum
Eine Kapitalismus-Definition, die mir besonders gefällt, da sie schlicht und elegant ist, die sich dabei sowohl von der marxistischen wie auch der neoklassischen Definition absetzt, ohne mit ihnen inkompatibel zu werden, ist diejenige, die Gunnar Heinsohn und Otto Steiger in ihrem Buch: „Eigentum, Zins und Geld“ vorgeschlagen haben.28 Sie definieren den Kapitalismus schlicht als „Eigentumsordnung“, also eine Gesellschaft die durch das Konzept Eigentum strukturiert ist. Das hört sich zunächst banal, offensichtlich und wenig ertragreich an, wird aber spannend, wenn sie sich die Implikationen des Begriffes „Eigentum“ genauer anschaut.
Während Marx die Ursituation des Kapitalismus in der Produktion verortet und die Neoklassiker dafür den Markttausch heranziehen, sehen Heinsohn und Steiger sie in der Unterscheidung von „Besitz“ und „Eigentum“. Diese Unterscheidung ist selbst keine ökonomische, sondern vor allem eine rechtliche. „Besitz“ ist dabei alles, worüber ich direkte Verfügungsgewalt ausübe. Wenn man mir meinen Besitz nehmen will, muss man ihn mir physisch wegnehmen. Besitzen kann ich daher alles, was ich zu verteidigen imstande bin. Darin unterscheidet es sich vom Eigentum. Ich kann Gegenstände, die mein Eigentum sind, einfach aus der Hand geben, also in den Besitz anderer Menschen geben, ohne dass es aufhört, mein Eigentum zu sein. Das funktioniert, da ich nicht selbst dafür sorgen muss, es wieder zurückzubekommen, sondern der momentane Besitzer verpflichtet ist, es mir zurückzugeben. Eigentum ist ein Rechtstitel, es ist abstrakte Behauptung. Und wenn man genauer hinschaut, merkt man, dass „Eigentum“ nur dann funktionieren kann, wenn eine externe Macht dafür sorgt, dass der Rechtstitel im Zweifelsfall auch durchgesetzt wird. Für Eigentum braucht es also einen Staat mit Gewaltmonopol.
Wenn wir uns mit dieser Definition im Kopf wieder dem Digitalen zuwenden, kommt als erstes der Dienst Napster in den Sinn. 1999 gestartet, machte der Dienst schlicht alle Musikdateien auf dem eigenen Computer für alle anderen Napster-User zugänglich. Das Programm hatte eine Suchmaske, mit der man nach jedem beliebigen Song suchen konnte und die daraufhin eine Liste mit Napster-Usern ausspuckte, die ihn besaßen. Ein Klick auf einen der User und der Download startete. Das Prinzip nennt sich Peer-to-Peer (p2p) und wir machten wochenlang nichts anderes mehr; es war das reinste Eldorado.
Die Musikindustrie hatte jedoch Einwände. Für sie war das Eldorado ein „Major Spill-Over“, der totale Kontrollverlust und das plötzliche Ende ihres Geschäftsmodells.
Mit Heinsohn/Steigers Kapitalismus-Definition könnte man sagen, dass die Musikindustrie aus der Eigentumsordnung in eine Download-Besitz-Ordnung zurückfiel. Zwar hat die Musikindustrie (und andere Rechteverwerter) mit viel Lobbyismus dafür gekämpft, das Urheberrecht zu verschärfen und die Rechtsdurchsetzung zu totalisieren, aber trotz allem konnte sie die P2P-Tauschbörsen nicht loswerden. Napster wurde aus dem Netz geklagt, doch nach Napster kam Kazaa, dann eDonkey und schließlich Bittorrent und viele andere Technologien und Kanäle, über die bis heute allerlei Kram getauscht wird.
Hier nun das Spannende: Dass die Musikindustrie heute wieder ein Geschäftsmodell hat, liegt nicht an der Eigentumsordnung, also nicht am Staat, sondern weil eine ganz eigene, neue Ordnung im Internet entstand. Die Ordnung der Plattformen.
Als Apple 2002 auf die Musikverlage zukam und ihnen iTunes zeigte, standen sie gerade mit dem Rücken zur Wand. Sie hatten es nicht geschafft, den P2P-Tauschbörsen ein populäres und legales Angebot im Internet entgegenzustellen. Nun stand Steve Jobs vor ihnen. Er hatte zuvor mit dem iPod den ersten populären, tragbaren MP3-Player auf den Markt gebracht und erzählte ihnen nun von iTunes, einer digitalen Verkaufsplattform für Musik. Die Konditionen, die Jobs ihnen für ihre Rettung diktierte, erzürnten sie jedoch. Musikdateien sollten alle einzeln verkaufbar sein, egal, ob sie teil eines Albums waren oder nicht. Und jeder Song sollte nur 99 Cent kosten.29
Jobs konnte den Verlagen die Bedingungen diktieren, weil er etwas hatte, was sie nicht hatten. Und dieses Etwas ist die Grundvoraussetzung für jede Ökonomische Transaktion: Ich nenne es „marktfähige Verfügungsgewalt“. Besitz reicht dafür nicht aus, denn marktfähige Verfügungsgewalt muss es erlauben, eine Sache anzubieten und gleichzeitig vorzuenthalten. Eigentum erschafft diese marktfähige Verfügungsgewalt, denn das Vorenthalten-können wird staatlich garantiert. Marktfähige Verfügungsgewalt wird uns gegenüber überall ausgeübt, am Kiosk, beim Autohändler, im Supermarkt, etc. Im Internet ist marktfähige Verfügungsgewalt jedoch durch die leichte Kopierbarkeit der Daten kaum zu bewerkstelligen und der Staat ist da auch keine Hilfe.
Der Napster-Schock und der Eintritt Apples in das Musikbusiness ist ein historisches Ereignis, das weit über sich selbst hinausreicht. Heute streiten sich Apple, Google und Spotify über die Musikstreaming-Vorherrschaft, aber damals war es Apple, die zeigten wie „marktfähige Verfügungsgewalt“ im Internet funktionieren kann. Plattformen wie iTunes sind in erster Linie Kontroll-Infrastrukturen und sind damit in der Lage Verfügungsgewalt durchzusetzen. Es ist kein Zufall, dass sich Rechteinhaber heute in erster Linie an Plattformen wenden, wenn es darum geht, ihre Rechte durchzusetzen. Vom DMCA-Act in den USA, Youtubes Content-Id an deren Vorbild sich nun die in Europa gesetzlich eingeführten Uploadfilter orientierten – sie alle sollen die Plattformen zu noch effektiveren Instrumenten der Verfügungsgewalt machen, weil der Staat diese nicht mehr garantieren kann.
Doch die marktfähige Verfügungsgewalt der Plattformen sind schon lange nicht mehr auf tatsächliche Rechtstitel beschränkt. Facebook hat keinerlei Eigentumsrechte an unseren persönlichen Daten und dennoch basiert ihr Geschäftsmodell auf der Ausübung einer marktfähige Verfügungsgewalt über sie. Die Plattformen setzen bereits eine Form der Kontrolle durch, die die Eigentumsordnung gar nicht braucht, sondern diese lediglich stellenweise abbildet. Das aber bedeutet nichts Geringeres, als dass das ganze Rechtskonzept des Eigentums und damit die Kapitalistische Ordnung im Sinne von Heinsohn und Steiger im Digitalen obsolet sind.
Was zu der beunruhigenden Frage führt:
„Ist ein digitaler Kapitalismus mit nur noch behaupteten Kapital und überflüssiger Arbeit, der nicht mehr durch den Markt gesteuert wird und die Eigentumsordnung hinter sich gelassen hat, noch Kapitalismus?“
Wachstum
Ein Kriterium kommt bei Kapitalismus-Definitionen sowohl aus der marxistischen, wie auch aus der neoklassischen Schule immer wieder auf und das ist das Wachstum. Bei Marx ist der Kapitalismus auf „Akkumulation“, das heißt ständigem Wertzuwachs ausgelegt. Das ergibt sich einerseits aus der Tatsache, dass der Kapitalist die Bedingungen der Möglichkeit der Produktion jederzeit wiederherstellen (reproduzieren) muss, aber andererseits darüber hinaus auch Profit erwirtschaften will.
Auch in der klassischen Wirtschaftstheorie spielt Wachstum eine zentrale Rolle, sowohl auf der mikroökonomischen Ebene (der Konsument strebt jederzeit danach seinen Nutzen zu maximieren und der Unternehmer will den Gewinn seiner Unternehmung maximieren), als auch auf der makroökonomischen Ebene (die Ökonomie ist auf ständiges Wachstum aus, welches sich im Zins abbildet).
Seit geraumer Zeit haben wir es vor allem in den westlichen Industrienationen auf dieser Ebene mit einem mysteriösen Phänomen zu tun, das Ökonomen die „Säkulare Stagnation“ nennen. Sie nennen sie so, weil das geringe Wachstum seit der Finanzkrise 2007 eigentlich mit herkömmlichen Theorien nicht erklärbar ist. So sind die Leitzinsen der Währungsbanken zwar so niedrig, dass wir bereits seit vielen Jahren einen negativen Realzins (also Zins minus Inflation) haben, doch obwohl Geld noch nie so billig war, bleibt die Sparquote hoch und die Investitionen bleiben spärlich. All das deutet eigentlich auf eine Rezession hin, doch gleichzeitig haben wir es mit einer vergleichsweise niedrigen Arbeitslosenquote zu tun, was bedeutet, dass die Wirtschaft gut ausgelastet ist.
Es gibt eine vielschichtige Diskussion in der Ökonomie über die Ursachen der säkularen Stagnation. Schon Maynard Keynes hat die Möglichkeit vorhergesehen, dass die Sparquote die Investitionsquote übersteigt und auch zu Marx’ These von dem tendenziellen Fall der Profitrate böte sich als Erklärung für unseren Zustand an.
Aber ich möchte hier zunächst eine historische und sehr gründliche Beschäftigung mit dem Thema Wachstum und dessen Ausbleiben anführen, das in den letzten Jahren Furore gemacht hat: Robert J. Gordons „The Rise and Fall of American Growth“.30 In dieser umfangreichen, wie detaillierten wirtschaftshistorischen Studie weist Gorden nach, dass die goldenen Jahre des großen Wirtschaftswachstums in den USA lediglich eine Anomalie in der Geschichte war. Es waren wirklich nur die 100 Jahre vom Ende des Bürgerkriegs bis etwa 1970, in denen die Wirtschaft zweistellig wuchs und sich das Leben der Amerikaner gleichzeitig sichtbar und radikal zum besseren veränderte. Letzteres zeigt er nicht nur anhand der Wirtschaftsdaten, sondern steigt herab in die Haushalte und Betriebe jener Zeit und führt anschaulich auf, wie grundlegend sich das das Leben und Arbeiten in diesen hundert Jahren verändert hat: Elektrizität, künstliches Licht, der Telegraf, die Automobilität, die Waschmaschine – all diese Technologien haben das Leben der Menschen radikal auf den Kopf gestellt und Werte geschaffen, die auf einer breiten Front bei den Leuten ankamen.
Gordons These ist nun, dass dieser breite Wohlstandszuwachs von tatsächlicher Innovation angetrieben war und folglich unsere heutige Zeit – trotz all ihrer digitalen Zukunftsversprechungen – auf der Stelle tritt. Wirtschafts-theoretisch untermauert er diesen Befund, indem er sich eine Ableitung des Wirtschaftswachstums anschaut: die „Total Factor Productivity“. Diese Kennzahl normalisiert das Wachstum entlang der in ihr eingeflossenen Faktoren, nämlich Kapital und Arbeit. Rechnet man also den Mehreinsatz von Kapital und Arbeit aus dem Wachstum heraus, bekommt man den Anteil der Wertschöpfung, der weder durch Kapital noch Arbeit erklärbar ist: Diese Total Factor Productivity (TFP) sei laut Gordon eben der messbare Effekt von Innovation im Wachstum.
ABB 5. Aus The Rise and Fall of American Growth
Da diese TFP über zwischen 1930 und 1970 stetig weit über einem Prozent war, davor oder danach aber wesentlich darunter, schließ Gordon daraus, dass trotz der großen Verwerfungen der Digitalisierung, diese kaum zu Innovation geführt habe. Gordon greift damit eine Beobachtung auf, die bereits Robert Solow 1987 gemacht hat: „You can see the computer age everywhere but in the productivity statistics.“31 Auch der bekannte Silicon Valley Investor Peter Thiel beklagt in seinem Buch „Zero to One“, dass das Problem unserer Zeit sei, dass wir keine wirkliche Innovation mehr produzieren.32 Er unterscheidet zwischen Erfindungen, die aus dem Nichts zu etwas ganz Neuem führen (zero to one) und jenen, die eine vorhandene Erfindung lediglich weiteren Nutzer/innen zugänglich machen (One to N). Unsere heutige Zeit sei vor allem durch letzteres geprägt, lamentiert Thiel.
Ich möchte diesen Thesen widersprechen und eine gegenteilige These aufstellen: Ich glaube, dass es digitale Innovation gibt, dass sie real ist und tatsächlich unser aller Leben verändert, aber dass diese Innovation und Veränderung unseres Lebens mit herkömmlichen Maßstäben kaum zu messen ist. Um das zu erklären müssen wir schauen, wie solche Messungen, also solche Kennzahlen wie das Bruttoinlandsprodukt (im englischen GDP) und alle davon abgeleiteten Werte wie Wachstum, Produktivität oder eben TFP herkommen: Es wird geschaut, was in den unterschiedlichen Branchen an Geld umgesetzt wird, wie viel von was gekauft wird und am ende wird all das schlicht in eine Zahl zusammengerechnet. Kurz: Beim GDP handelt es sich um aufaddierte Transaktionen, was heißt: alles, was keine Transaktion verursacht, fließt nicht in die Rechnung ein.
Nun gibt es aber viele Gründe, warum sich gerade digitale Innovation oft transaktionsneutral oder gar transaktionsmindernd in den Zahlen niederschlägt:
Zusammengefasst lautet die These: Digitale Innovationen spart mehr Transaktionen ein, als sie zusätzlich erschafft und das ist gut so. Oder radikaler: Wirtschaftswachstum und Nutzen verhalten sich in der digitalen Wirtschaft negativ proportional zueinander.
Angesichts dieser doch sehr radikal anderen Lage, stellt sich die Frage nach der säkularen Stagnation ganz anders: Warum haben wir überhaupt noch Wachstum?
Meine These dazu: Wir befinden uns in einer Blase, ähnlich wie 2007, aber mit immateriellen Werten. Ich nenne sie die „Intangible Bubble“. Ich glaube, Immaterialgüter sind massiv überbewertet. Sie sind überbewertet, weil sie künstlich am Spill-Over gehindert werden, der im Digitalen eigentlich der Naturzustand jeder Information ist. Plattform-Kontrolle, drakonische Urheberrechts-Gesetzgebung und -Durchsetzung haben zu einer künstlichen Verknappung von Ideen, Gedanken und kreativen Leistungen geführt, die auf der einen Seite unser aller Leben verarmt, um es uns auf der anderen wieder teuer verkaufen zu können.
Nimmt man diese These zur Grundlage, dann ist ein wesentlicher Teil des digitalen Wachstums der letzten Jahre einzig und allein durch das Aufbauen von größeren und besseren Kontrollstrukturen erwirtschaftet worden. Der Wertschöpfungsprozess ist unter den digitalen Bedingungen zum toxischischen “Rent Seeking” qua monopolartiger Kontrollstrukturen geworden.35 Jeder zusätzlich ausgegebene Euro stiftet keinen Nutzen mehr, sondern ist Ergebnis einer Nutzenseinschränkung und Minderung Wohlfahrt der Gesellschaft.
Das wäre die fünfte und letzte Frage an den digitalen Kapitalismus:
“Ist ein digitaler Kapitalismus mit nur noch behaupteten Kapital und überflüssiger Arbeit, der nicht mehr durch den Markt gesteuert wird, die Eigentumsordnung hinter sich gelassen hat und dessen kaum noch vorhandenes Wachstum aus der künstlichen Verknappung von Immaterialgütern resultiert, noch Kapitalismus?”
Fazit
Um das hier umstandslos zu formulieren: Nein, nein, das ist nicht mehr der Kapitalismus. Alle definitorischen Kriterien des Kapitalismus werden durch die digitale Wirtschaft ad absurdum geführt. Doch es bleiben Fragen:
Schock, schwere Not! Haben wir dann jetzt den Kommunismus oder was?
Natürlich ist das ebenfalls nicht der Fall. Zunächst stehen wir mit mindestens einem Bein ja noch voll und ganz im guten, alten analogen Kapitalismus. Und was das digitale Bein betrifft: Wir haben Kapitalismus immer nur in Abgrenzung zu Kommunismus oder Sozialismus – bestenfalls noch Anarchismus oder Feudalismus zu verstehen gelernt. Das, was die Digitalwirtschaft dort tut, ist keines von dem. Nicht alles, was nicht Kapitalismus ist, fällt automatisch in eine der anderen Kategorien.
Wir müssen an dieser Stelle der Neuheit der Situation gerecht werden. Dies ist unser aller erste Digitalisierung und somit sollten wir der Möglichkeit Rechnung tragen, dass es sich hier auch um eine komplett neue Form der Ökonomie handelt. Eine, für die wir noch keinen Namen haben und noch gar nicht wissen, wie sie funktioniert. Etwas, das noch im Werden ist. Dieses Etwas ist nicht automatisch besser oder schlechter, als der Kapitalismus, nur eben hinreichend anders. „Die alte Welt liegt im Sterben, die neue ist noch nicht geboren: Es ist die Zeit der Monster.“ soll Gramsci einmal gesagt haben.36 Wir haben es hier mit einem Monster zu tun, einem (noch) namenlosen Wesen. Monster sind nicht automatisch böse, aber sie machen uns Angst, weil wir sie nicht verstehen.
Doch warum riecht dieses Monster so sehr nach Kapitalismus, schmeckt wie Kapitalismus und sieht zumindest mit zugekniffenen Augen aus wie Kapitalismus?
Auch wenn unter der Haube kein kapitalistischer Motor mehr seine Arbeit verrichtet, ahmt seine Hülle den Kapitalismus doch irgendwie nach. Nicht in Täuschungsabsicht, sondern weil es nichts anderes kennt. Es ist derselbe Grund, wieso das Fernsehen zuerst Theaterstücke zeigte und wieso das erste Automobil zunächst nicht aussah wie ein Automobil, sondern wie eine Kutsche. Woher sollte Karl Benz schließlich wissen, wie ein Automobil aussieht? Er hatte noch keines gesehen.
ABB 6. Der erste Benz
Gut. Und was tun wir jetzt mit dieser Erkenntnis?
Wir wissen an dieser Stelle schon genug, um ein paar Dinge festzuhalten: Der Kapitalismus und die digitale Ökonomie unterscheiden sich ganz wesentlich und zwar vor allem auch darin, was Wachstum in beiden Systemen bedeutet.
Wachstum bedeutete einst, dass mehr Menschen, mehr Dinge tun können. Dass Produkte billiger wurden, mehr Menschen Zugang zu fließend Wasser, Strom, ein Auto, ein Eigenheim bekamen. Sie konsumierten mehr und es ging vielen Leuten deutlich besser. Wachstum war etwas gutes.
In der digitalen Ökonomie bedeutet Wachstum, dass die Kosumentenrente erfolgreicher abgeschöpft wird, dass also mehr Menschen unnötigerweise mehr bezahlt haben, als sie unter normalen Marktbedingungen müssten. Wachstum bedeutet, dass immaterielle Güter erfolgreicher verknappt wurden, dass also Menschen erfolgreich davon abgehalten wurden, an Ideen und Erfindungen zu partizipieren, obwohl es niemanden etwas kosten würde, wenn sie es täten. Wachstum bedeutet außerdem, dass noch mehr Bullshitjobs geschaffen werden, um die Leute ruhig zu halten. Es bedeutet die Ausweitung von Kontroll- und Überwachungsstrukturen und natürlich bedeutet es heute auch den unnötigen Verbrauch von Ressourcen in Zeiten des Klimawandels.
Kurz: Wachstum bedeutet nichts gutes in der digitalen Ökonomie. Der Nutzen von Wachstum ist negativ und mindert die Wohlfahrt der Gesellschaft. Diese Erkenntnis sollte unser ganzes politisch-ökonomisches Denken umstellen. Wir sollten also aufhören, Wachstum als Ziel zu setzen und wir sollten Politiker/innen ausbuhen, die uns Wachstum versprechen.
“Digital Degrowth” wäre nicht wie die ökologische Degrowth-Bewegung eine Verzichts- und Selbstgeißelungs-Religion oder eine aus der Not heraus geforderte Zurückhaltung, sondern ein Programm von dem alle profitieren. „Lasst uns das Bruttoinlandsprodukt senken und so die Konsumentenrente hochdrehen, damit alle was davon haben!“
Konkreter: Die Netz-Bewegung hat die Frage nach den Immaterialgüterrechten über Jahre sträflich vernachlässigt. Obwohl die Reform der Immaterialgüter für die digitale Welt gewissermaßen die Gründungsidee des Netzaktivismus war, kämpfte er die letzten Jahre nur mehr Rückzugskämpfe bei dem Thema. Wir haben uns einreden lassen, dass es bei Urheberrechtsdiskussionen ja nur um die Beschaffungskriminalität von jugendlichen Musik- und Film-Konsument/innen ging. Doch Immaterialgüter sind die neuen Produktionsmittel und ihre Ungleichverteilung wird heute nur durch enormen Kontrollaufwand bewerkstelligt. Die Vergesellschaftung der Produktionsmittel, wie Marx sie gefordert hat, ist angesichts dieser Situation die selbstverständliche Folgerung.
Netzaktivist/innen streiten reflexhaft ab, wenn Rechteverwerter ihnen vorwerfen, sie wollten das Urheberrecht abschaffen. Warum eigentlich? Ja, wir sollten noch viel entschiedener und radikaler kämpfen, für Open Data, Open Access, Open Source, aber auch für Plattformen wie Sci-Hub, Bittorrent sowie für eine radikale Patentreform und die letztendliche Abschaffung des Urheberrechts.
Happy Spill Over!
/**This is a shortened translation of my text „Die Geschichte der Digitalisierung in fünf Phasen“ by Julian Rybarsky for a hand-out publication of the FFT-Festival „Claiming Common Spaces II“ where I had the honor to speak. **/
There is no English word for “Digitalisierung”. Instead, one speaks of “technology”, “artificial intelligence” or “innovation”, also addressing different topics and various debates each time. In Germany, the term embraces all those processes of structural adaptation that the introduction of digital technology into our everyday lives entails. It allows us to perceive heterogenous processes as one whole, but it also makes the conspicuous vastness of the phenomenon seem intimidating. I subdivide the history of “Digitalisierung” into four phases that successively lead from the 1980s to our present day. The idea is to generate enough acceleration in the narration of the four phases to use them as a platform for the future – that is, the fifth phase – and to dare a related speculation.
Phase One: Early Networking Utopias (1985 – 1995)
Computers already existed in the 1970s, although they were very large, and mainly installed at universities, in military compounds or at big corporations. Most people knew of them only by way of second-hand accounts. With the advent of the personal computer, the PC, during the early and mid 80s, the time for a departure, for the democratisation of computing came. A sinister war technology became a tool of emancipation to the modern citizen, as far as the self-conception then went. Also, in the 80s, early online providers started linking up PCs. Early net communities such as “The WELL” became meeting points for early adopters, where they developed bold theories about the future’s networked society. In the mid 90s, the internet enters many households, while the world wide web is invented at the same time.
This moment of departure is emblematically crystallised not only in the hacker scene that grew around the PC’s origin, but also in numerous other social discourses who gratefully adopted the “network” as a new structural metaphor. It was a time when the thought prevailed that the internet, this “new space of the mind”, was a utopian space. Anonymity, decentralisation, freedom from hierarchy, openness/connectivity and total freedom of communication were the ideological foundations on which to build a new, a better society.
Of course, everything was not as bright as the net utopians envisioned it at the time. The counter-movement formed the internet, not as a post-identity space, but mainly as a new marketplace. And so, the “New Economy” also grew in the shadows of net discourse, forcing a reconnection of cyberspace into the physical realm and to (civic) identities.
Phase Two: Remediation (1005 – 2005)
At first, the internet dabbled in imitating conventional media or even in making them obsolete. The first thing to undergo “Digitalisierung” was mailed correspondence. When the New Economy bubble burst around the turn of the millenium, YouTube and iTunes followed in its wake, digitising television and the record collection. Skype took over from the telephone, and Amazon claimed retail. But there were also new media who did not attempt to replace their analogue counterparts, but who were only possible through the structural make-up of the internet. The rise of the search engines, of social bookmarking services and photo platforms offered a completely new way of working with digital objects, of sharing them, of transferring them and of communicating about them. And, of course, this birthed social networks. “web 2.0” was the catchphrase proclaiming a social net in 2005.
Phase Three: Loss of Control (2005 – 2015)
To be exact, the loss-of-control paradigm had been introduced way before 2005. What the music industry had to face since 1999, with the advent of filesharing and Napster, soon rang on the doors of the film industry, then the national states, and subsequently on our collective doors. Yet, loss of control concerning data and information streams really gained momentum starting in the middle 2000s. One of its catalysts, of course, is social media, the designation soon applied to the “web 2.0”. All of a sudden, people started uploading all kinds of data to the internet, even the most private snippets. Starting in 2007, smartphones, pocket-sized and equipped with sensors and connectivity, tied us to the internet.
The Internet of Things began connecting living space and urban space. All this data went into the “cloud”. Nothing stood in the way of ubiquitous loss of control any longer.
It was the era of the Wikileaks disclosures, concerning financial institutions, governments, parties and other instances of power, and it was the era of Big Data, of the exploitation of large amounts of data, from which previously undreamt-of information could be unearthed. And, eventually, it was the era of Edward Snowden, who made secret services come undone, yet only to show that all of us had been naked all along.
Simultaneously, there were occurrences of second-order loss of control. Occupy Wall Street protests, the Arab Spring uprisings, protests in Spain and Tel Aviv. The world seemed to go to pieces, and “Digitalisierung” played no small part in this. People organised eruptive “smart mobs” by means of digital tools, threatening and often even toppling government.
Still, new controlling structures were superimposed on the internet. The Napster shock was fenced in by new, manageable distribution such as iTunes or, later, Spotify. Google brought order to the web’s chaos, growing into a global firm. Facebook – please don’t laugh – brought privacy to the internet with its correspondent setting. The likeable “web 2.0” services evolved into giant platforms. They serve as a new apparatus of control and of uncanny power.
Phase Four: The New Game (2015 – 2025)
The platforms’ success is based on “control as a product” on the one hand as well as on an effect that renders the networks ever more useful, the more people participate, on the other hand. Google, Apple, Facebook and Amazon are, without a doubt, the dominating players in our time, but the platform principle shapes the world as a whole by now, with entities such as Airbnb, Uber, Foodora, Deliveroo and others. This has very little to do with the decentralised, anti-hierarchical net utopias of the first phase.
During fourth phase, some individuals and institutions see through the dynamics of this loss of control, and they develop new strategies – a new game to compensate for lack of data stream control, to reach their goals.
The United States presidential election as well as the Brexit referendum in the United Kingdom point to developments similar to a “second-order loss of control”. But the uproar has stabilised. While the loss of control phase was marked by “smart mobs” shaking up world history, but also quickly vanishing in all directions afterwards, new lines of demarcation break up in this new game, running against all of the traditional political spectrum. Donald Trump is no typical Republican, and the Brexit problem cannot be solved along the lines of established party politics. The AfD is fishing for votes from all of Germany’s parties. Effectively, new tribes with irreconcilable views were formed, viewing each other not as political opponents, but rather as enemies of one’s own identity. This digital tribalism fuels fake news and online trolling campaigns. It may be used to study the powerlessness of the platforms, heretofore thought of as omnipotent, now standing before this phenomenon as helpless sorcerer’s apprentices. Tribalism as “second-order loss of control” cannot be fenced in with controlling strategies already in existence. It will ring in the new paradigm of the next phase of digitisation.
Phase Five: Restructuring (2025 – 3035)
Our idea of community and of social discourse, representative democracy and much more were conceived in a time when a small number of people were able to transmit small amounts of information over short distances. This system now collides with overwhelming amounts of data, spun out of control globally, and with a hitherto unknown faculty for the organisation of people and information. It is only consistent that this radically questions power structures without prior knowledge of the structures replacing them. History has produced analogous phenomena in comparable situations.
Like the Internet today, letterpress printing changed society profoundly. If there is one cultural historic event we associate with the accomplishment of letterpress printing, it is the Age of Enlightenment. This may not be wrong, but it suppresses the fact that there is a 250-year period of chaos, war and destruction between the advent of letterpress printing and the Age of Enlightenment. The chaos wrought by the invention of letterpress printing mainly questioned the reign of the Roman Catholic church. With Reformation and over the course of bloody strife, the new sovereign, bureaucratic and secular state as a new ruling body emerged, providing in itself the condition for the possibilities for enlightenment and democracy.
A new institution, at once wielding enough power to channel the numerous losses of control brought up by the new medium onto a peaceful path, but also a legitimisation akin to that of the nation state, could also be at the end of our own phase of restructuring. I can only guess at the form of this construct.
But I would advise looking at the development of the Chinese model of state closely. The EU could also provide interesting impulse, if it wakes from its nation state-induced numbness. Perhaps we have to think much smaller again and focus on the civic grassroots organisations in Athens, Barcelona or the Kurdish-controlled territories in Iraq or Syria.
I, for one, am sure that somewhere out there, the foundations of the great restructuring have already been laid, because I have been told by William Gibson: The future is already here, it’s just not very evenly distributed.
]]>