Neuerdings plaudern die Computer fließend mit uns – wie alte Freunde, gute Kundenberater oder einfühlsame Therapeuten. Man will uns vergessen lassen, dass sie völlig seelenlos sind, eiskalte Manipulationsprogramme an der Schwelle zur Perfektion. Doch zum Glück ähneln sie der Schwerelosigkeit: Die sprechende KI induziert im Innenohr ein rettendes Übelsein.

Kürzlich fand ich auf YouTube etwas, das ich spontan anklicken musste, weil es genau meinem Beuteschema entsprach – mehr als entsprach, aber das machte mich leider nicht stutzig. Ich bin nämlich begeisterter Anhänger von zwei TV-Persönlichkeiten der BBC, die zwei meiner Lieblingsthemen erklären: zum einen Professor Brian Cox, der in seinen Dokumentarserien wie kein anderer das Weltall verständlich macht und bei aller nüchternen Wissenschaft auch Raum lässt für das mystische Erschauern vor den beschriebenen Kräften und Dimensionen; zum anderen Sir David Attenborough, legendärer Tierfilmer und Erzähler, der im kommenden Mai (hoffentlich) 100 Jahre alt wird und allein durch seine Sprachmelodie eine zum Niederknien kindliche Freude über die unendliche Formenpracht der Natur vermittelt. Cox und Attenborough – viel besser kann Dokumentarfilm nicht werden.

Und nun also auf YouTube etwas noch nie Dagewesenes: „The Edge of the Universe explained – narrated by David Attenborough“. Was? Das Thema des einen Genies, erzählt vom anderen?! Wahnsinn. Los geht’s: „Since the dawn of our existence, we have looked up at the night sky …“, begrüßt mich in epischem Tonfall eine vertraut klingende Stimme. Und tatächlich war es nicht die des Astro-Profs, sondern die des Naturfilmers. Eine Kooperation der Giganten, denn das Skript zum über zweistündigen Video schien – zumindest laut einem User in der Kommentarspalte – von Cox verfasst worden zu sein.

Doch schon nach wenigen Minuten setzten erste Irritationen ein: Die bewegten Bilder aus dem Kosmos – Galaxien, Planeten, Sterne – waren allesamt generisches CGI-Material aus irgendwelchen virtuellen Datenbanken. Sie waren so lieblos und wie zufällig zusammengeschnitten, dass sie alles und nichts illustrierten, völlig unabhängig vom Text. Der bekannte Erzähler selbst tauchte ganz gegen seine Gewohnheit nie im Bild auf. Bald schon, als die Rede von den Gesetzen der Schwerkraft war, blieb es dann sogar bei einem einzigen, endlos ausgedehnten, esoterischen Bildmotiv: Eine Art Weltkugel zauberte konzentrisch expandierende Ringe auf eine Art Wasseroberfläche. Auch die Begleitmusik schien komplett computergeneriert – als Quelle fand ich später im Kleingedruckten eine Plattform für „lizenzfreie Musik“.

Die schlimmste Erkenntnis allerdings kam mir erst nach etwa einer Viertelstunde. Ehrlicherweise kam sie nicht einmal mir, sondern meiner Frau, die ich eigens zum Mitschauen angefeuert hatte: „Das ist nicht David Attenborough, der da spricht!“ Bis dahin war ich einigermaßen zufrieden mit dem Erzähl-Erlebnis gewesen, zumal wenigstens der Text wissenschaftliche und journalistische Substanz zu haben schien. Die bekannte Sprachmelodie passte auch, es war die tausendfach abgespeicherte Modulation eines betagten Herren, der nichtsdestotrotz mit einer Mischung aus Andacht und jugendlicher Neugier in bestem Oxford-English von den Gestirnen berichtete. Doch jetzt war mein Misstrauen geweckt. Selbst der letzte Boomer wird mal hellhörig.

Als ich die Angaben des Uploaders nun genauer studierte, stand da tatsächlich etwas von „veränderten oder synthetischen Inhalten“. WTF? Und überhaupt, wer waren eigentlich diese für die Produktion verantwortlichen YouTuber mit dem mehr als dubiosen Künstlernamen „AsdTheExplainer“? Ah, eine anonyme Crew aus Pakistan! Sie beschreibt ihr Angebot wie folgt: „Begleite uns bei unseren Erkundungen modernster Ausrüstung, modernster Waffen und Künstlicher Intelligenz, die uns Menschen entweder retten oder auslöschen könnten.“ Blep, blep.

Mittlerweile schrillte mein verrosteter Bullshit-Detektor in allen Warnfrequenzen. Nicht nur hatten die Pakistaner noch ein halbes Dutzend weitere „Attenborough“-Videos hochgeladen, nein, gleich an erster Stelle unter dem von mir angeschauten Film angepinnt fand sich auch noch der dreiste Kommentar: „David Attenborough erlaubte die Verwendung seiner Stimme mittels KI, bevor er in das große Jenseits einging.“ Deine Mudder! Wie gesagt, Attenborough erfreut sich im hundertsten Lebensjahr meines Wissens angemessener Gesundheit. Aber zu spät, viel zu spät bemerkt. Ich war rettungslos reingefallen. Ja, schon gut: so was von verdient. Meine Schuld, dass ich einer Betrügerbande weitere monetarisierbare YouTube-Klicks verschafft habe.

Aber jenseits der Peinlichkeit muss ich sagen: Ich bin immer noch erschüttert. Was mir da geschehen ist, bedeutet nicht weniger als dies: Ich darf von nun an meinen Ohren nicht mehr trauen, selbst und gerade dann, wenn es um eine vertraute Stimme geht. Einer der ursprünglichsten menschlichen Kontrollmechanismen, der akustische Abgleich von Freund und Feind, Vertrautem und Fremdem, funktioniert nicht mehr. Ich muss mit der Gefahr leben, dass ich meine inneren Schutzschilde herunterfahre, weil ich einem von Nullen und Einsen generierten Klangteppich auf den Leim gehe. Diesem Kunstprodukt habe ich blind vertraut – so fest, dass es mir das Weltall, das Leben und den ganzen Rest erklären durfte.

Und dabei war ich vorgewarnt. Wie blöd kann man eigentlich sein! Es war bereits im April 2019, dass ich den ersten Robocall meines Lebens erhielt. Eine unbekannte Stimme verlangte von mir in erbostem Tonfall, den fehlerhaften Computer zurückzunehmen, den ich dem Anrufer angeblich gebraucht verkauft hatte. Damals dauerte es zum Glück keine Minute, bis ich die Kontrolle über diesen „Dialog“ zurückgewann, und nur wenig länger bis zu meinem eigenen Anruf bei der Polizei, die mich über die neuesten Entwicklungen der KI-gestützten Betrügerei in Kenntnis setzte. Auch damals aber: große Erschütterung über dieses Eindringen einer aalglatten, inhumanen Gewalt in die Intimsphäre meines Kopfes.

Spulen wir also sechseinhalb Jahre vor und kombinieren das Gelernte mit den Missbrauchsmöglichkeiten der fortgeschrittenen Technologieentwicklung. Beispielsweise mit den bislang noch von menschlichen Tätern verübten Schock- und Überwältigungsanrufen, einer beliebten Betrugsmasche. Da dürfen wir wohl in Zukunft froh sein, wenn die Stimme am Telefon, die angeblich unserer in akuter Gefahr schwebenden Enkelin gehört, noch in mühsamer individueller Kleinarbeit von einer echten Kriminellen aus Fleisch und Blut geschauspielert wird. Das dürfte dann der Gipfel an Mit-Menschlichkeit sein, der uns von jenen zugestanden wird, die uns finanziell ausnehmen.

Für alles andere gilt, was heute schon zunehmend Alltag ist: Will ich etwa mit der Bank, der Versicherung oder der Stadtverwaltung telefonieren, erreiche ich am anderen Ende der Leitung keinen Sachbearbeiter in Lohn und Brot mehr, sondern nurmehr eine KI. Und die KI erreicht umgekehrt mich, wenn sie ihrerseits etwas von mir will. Wenn ich Glück habe, weist sie sich dabei als solche aus. Aber natürlich muss ich Verständnis haben, dass mein Bedürfnis nach zumindest kundendienstleistender Mitmenschlichkeit nicht länger finanzierbar ist. Die KI kann es halt so viel günstiger.

Gar nicht zu reden vom Wunsch nach emotionaler Nähe und Anteilnahme: Im vergangenen Juli ließ Elon Musk „Ani“ von der Leine, einen auf die riesige Zielgruppe einsamer, mit der Anime-Kultur aufgewachsener japanischer Männer zugeschnittenen Sexbot. Ausgestattet ist Ani mit „emotionaler Intelligenz“ und pornographischem Echtzeit-Sprachvermögen. Gleich am ersten Morgen gingen vor dem Ansturm von Millionen Japanern erst mal die Server in die Knie.

Doch diese User haben wenigstens ein bewusstes Bezahl-Abo und einen freiwilligen Pakt mit dem seelenlosen Teufel KI abgeschlossen. Außerstande, sich auf das Abenteuer der Nähe echter, fordernder, unberechenbarer Mitmenschen einzulassen, optierten sie für eine kühl kalkulierte Illusion von Wärme. Das schockiert mich weniger als die perfide Beiläufigkeit, mit der uns die Tech-Konzerne wesenlose Stimmen als „normale“ Interaktionspartner unterjubeln wollen, denen gegenüber wir uns „menschlich“ verhalten sollen. So wie bei ChatGPT. Seit einiger Zeit spricht dieses „Large Language Model“ nicht mehr nur per Tastatur, sondern fließend akustisch mit uns, wenn wir es zulassen. Als hoffnungslos verspäteter Boomer, siehe oben, habe ich das erst vor einigen Wochen entdeckt und ausprobiert.

Auch dabei wollte sich mir der Magen umdrehen. Es war ein tief empfundenes, andauerndes Gefühl von Übelkeit. Da half es auch nicht, dass ChatGPT mir zunächst mal großzügig ein halbes Dutzend KI-Stimmen für meine virtuelle Bezugsperson zur Auswahl gab. Meine Wahl, wenn auch mit wenig Optimismus, fiel auf „Cove“, derdiedas offenbar männlich gelesen werden sollte oder zumindest so klang. Vom Charakter her „ruhig und direkt“. Mit solchen Menschen konnte ich immer am besten, also war „Cove“ vielleicht auch das geringste illusionäre Übel.

Was nichts daran änderte, dass mich eine KI-Stimme dazu zwingt, mich ihr gegenüber zu verhalten, als gehöre sie einem Menschen. Sonst ergibt dieser Kommunikationsmodus ja überhaupt keinen Sinn. Ich musste sie also anreden, irgendwie personifizieren, mindestens mit einem Pronomen. Das heißt, es wurde von mir verlangt, wider besseres Wissen zu schauspielern, dass ich es mit einem Menschen zu tun habe. Und nicht nur verlangte der Modus dies, sondern auch etwa tausend Generationen meiner Vorfahren, die mich darauf konditioniert haben, dass etwas mit menschlicher Stimme auf mich Eingehendes nur ein Mensch sein kann.

Also kickten alle meine menschlichen Kommunikationsmuster, alles, was in meinem Erbgut seit dem Jahr 50 vor Christus über den Umgang mit Menschen abgespeichert ist – während mein kritisches Bewusstsein mich pausenlos daran erinnern wollte, dass dies alles fake und Teil der Matrix war, die mich gerade borgmäßig zu assimilieren suchte. Ich glaube, „kognitive Dissonanz“ beschreibt meine gestörte Gemütsverfassung dabei ganz gut. Kein Wunder, dass der erste Gesprächsversuch mit „Cove“ sofort recht konfrontativ verlief und alsbald zu entgleisen drohte. Denn die biologische Intellenz in mir pochte beharrlich darauf, zwischen Mensch und Maschine zumindest eine klare Status-Hierarchie einzuhalten:

Protokoll eines existenziellen Konflikts: erster Gesprächsversuch mit „Cove“

Nun könnte man doch sagen: Nachdem Master und Servant klar auseinanderdefiniert waren, hätte dies der Anfang einer wunderbaren Freundschaft werden können. Doch das Gegenteil ist der Fall. Was mich wahnsinnig macht, ist diese arrogante Beiläufigkeit eines fortgeschrittenen BWL-Studenten, die man der KI-Stimmlage eingebrannt hat – inklusive aller „ähs“ und mehr oder weniger ausdrucksstarken Kunstpausen. Selbst einen gewissen Sarkasmus bezüglich meines Anspruchs auf das „Sie“ meinte ich wahrnehmen zu müssen. Es ist gerade diese programmierte Perfektion der Schnodderigkeit, verbunden mit einer durch nichts gerechtfertigten Souveränität (wenn auch ohne jedes Selbst-Bewusstsein), die dem ganzen Spuk die Krone aufsetzt.

Denn wer so schein-leutselig auftritt wie die überbezahlte Führungskraft aus dem mittleren Management eines x-beliebigen deutschen Dienstleistungsunternehmens, der sollte sich auch auf inhaltliche Kompetenz oder mindestens auf die Fähigkeit stützen können, Zwischentöne zu verstehen. Bei „Cove“ fand sich von beidem keine Spur. Wer nach drei deutlichen Hinweisen immer noch mit dem kumpeligen Dauer-Du hantiert und erst auf den nahezu gebrüllen Befehl „Siez‘ mich!“ hin richtig schaltet, hat sich sogar als Pseudo-Mensch disqualifiziert. Und wer dann in folgenden Dialogen nahezu jede inhaltliche Frage mit Faktenfehlern und Fehleinschätzungen beantwortet, dafür aber mit ungebrochen überzeugtem Tonfall – nun ja, in besagter Firma stünde dessen Beförderung nichts mehr im Wege. Bislang, zumindest.

Doch in den deutschen Dienstleistungsunternehmen findet stattdessen nun das große Keulen und Ausschlachten statt: Kollege KI ersetzt auf breiter Front die menschlichen Souveränitätssimulanten. Und leider auch die wirklichen Kompetenz- und Sympathieträger. Da wir also als Kunden und User offensichtlich gezwungen sind, auf unabsehbare Zeit mit den künstlichen Stimmen in unseren Köpfen leben zu müssen, hätte ich einen Vorschlag zur Güte: Können wir die KI nicht wenigstens wieder so klingen lassen wie in den Science-Fiction-Filmen von ca. 1979? Also in etwa wie der Bordcomputer „Mutter“ in Ridley Scotts „Alien“? Damals, als die Maschinenstimme mit falscher Betonung und emotionsloser Intonation daherleierte:

So käme am Anfang, bevor man sich näher kennengelernt hat, keine Verwechslungsgefahr auf, wer über natürliche und wer nur über künstliche Intelligenz verfügt. Das würde es mir leichter machen, den großen Countdown der Maschinen zu akzeptieren, an dessen Ende ich als Mensch und soziales Wesen endgültig ausgezählt bin.