Was KI mit Zuhören zu tun hat
Über Sprachmodelle, Mustererkennung und die Frage, ob das, was eine Maschine mit Sprache macht, dem ähnelt, was Menschen tun — oder nur so aussieht
Ich benutze Sprachmodelle täglich. Ich benutze sie für Code, für Textentwürfe, für das Zusammenfassen langer Dokumente. Sie sind nützlich. Das ist keine kontroverse Aussage mehr.
Was mich interessiert, ist etwas anderes: Sprachmodelle haben etwas verändert in der Art, wie ich über Sprache nachdenke — und damit über Zuhören. Nicht weil sie gut zuhören. Sondern weil sie sehr überzeugend so tun, als würden sie es.
Ein Sprachmodell produziert Text, der auf das antwortet, was man ihm gegeben hat. Es erkennt Muster in der Eingabe und erzeugt Ausgaben, die statistisch plausibel sind. Es macht das mit einer Präzision und Geschwindigkeit, die menschliche Leserinnen dazu bringt, das Resultat als Verständnis zu interpretieren. Als würde da jemand zuhören.
Das ist keine Fehlfunktion. Es ist eine Eigenschaft. Das Modell ist so trainiert, dass seine Ausgaben den Eindruck von Verständnis erzeugen. Und dieser Eindruck ist so stark, dass er selbst dann bestehen bleibt, wenn man weiss, dass kein Verständnis dahintersteckt.
„Das Modell versteht nicht. Es erzeugt Verhalten, das so aussieht, als würde es verstehen. Der Unterschied ist wichtig — aber er ist nicht immer sichtbar.”
Ich finde das interessant, weil es die Frage stellt, was Zuhören eigentlich ist. Wenn ein Mensch mir zuhört und dann antwortet — woher weiss ich, dass er verstanden hat? Ich weiss es nicht. Ich schliesse es aus seinem Verhalten. Aus dem, was er sagt, wie er fragt, ob seine Antwort auf das eingeht, was ich gesagt habe.
Das ist genau das, was ein gutes Sprachmodell auch tut.
Die Asymmetrie
Der Unterschied ist nicht im Output. Der Unterschied ist in dem, was vorher passiert.
Wenn ich zuhöre, verändere ich mich. Nicht dramatisch — aber ein Gespräch hinterlässt Spuren. Ich erinnere mich. Ich bin beeinflusst. Die Person, mit der ich gesprochen habe, hat mein Bild von etwas verändert, auch wenn ich das erst Wochen später merke.
Ein Sprachmodell verändert sich nicht. Es gibt seine Antwort und vergisst das Gespräch. (Das gilt für die meisten aktuellen Systeme ohne persistenten Kontext.) Es ist nicht betroffen. Es ist nicht müde von dem Gespräch. Es hat keine Meinung über die Person entwickelt, mit der es gesprochen hat.
Das macht es in mancher Hinsicht nützlicher als einen Menschen. Man kann es mit demselben Problem immer wieder befragen, ohne dass es genervt wird. Man kann es um drei Uhr morgens fragen. Man kann ihm Dinge sagen, die man einer Person gegenüber nicht sagen würde.
Und es macht es in anderer Hinsicht fundamental anders. Ein Gespräch zwischen zwei Menschen ist ein gegenseitiger Prozess. Was ich höre, verändert mich, und weil es mich verändert, verändert sich, was ich als nächstes sage. Das ist der Kern dessen, was ich Zuhören nenne: nicht das Empfangen von Information, sondern das Geformtwerden durch sie.
Ich glaube nicht, dass Sprachmodelle das können. Ich glaube, dass sie etwas anderes können, das ähnlich aussieht und manchmal ähnlich nützlich ist. Und ich glaube, dass die Verwechslung der beiden etwas kostet — nicht weil Maschinen schlecht sind, sondern weil der Unterschied zählt.
In Organisationen besonders. Wenn eine Führungsperson glaubt, dass ein KI-Tool ihr gesagt hat, was die Mitarbeitenden denken — weil es ein Gesprächsprotokoll analysiert und eine Zusammenfassung geliefert hat — dann fehlt etwas. Nicht die Information. Die Information ist da. Was fehlt, ist die Erfahrung des Geformtwerdens.
Das klingt abstrakt. Aber es hat konkrete Konsequenzen. Wer nicht persönlich zugehört hat, hat nicht dasselbe verstanden. Er hat eine Zusammenfassung gelesen. Das ist nützlich. Es ist nicht dasselbe.
— KM, Chur