Transkription für den Freundeskreis

Ich bin ja immer auf der Suche nach spannenden Trivialitäten für Euch. Und da gäbe es auf meiner Festplatte oder in meinen Tagebüchern auch so einiges zu finden, aber es ist doch immer sehr mühsam, diese Geschichten dann zu verschriftlichen. Spracherkennungs- und Transkriptionssoftware will uns das leichter machen, aber auch damit bleibt das Ergebnis oft hinter dem Aufwand zurück. Vor allem, wenn man sich, wie ich, auf kostenlose Angebote beschränkt. Dennoch, stets bemüht, versuche ich an neuen Entwicklungen dran zu bleiben und diese kreativ zu nutzen.

Mit meinem neuesten Experiment wollte ich Euch eine mehrstündige Audioaufnahme zugänglich machen, in der  Freund J. und ich uns über die 70er Jahre – und wie wir sie erlebt haben – unterhalten. Besser: meinen Teil der Unterhaltung wollte ich Euch zugänglich machen, des Freundes Einlassungen sind seine und bleiben auch bei ihm. Eine kleine regelbestätigende Ausnahme folgt dann weiter unten im Text, denn er ist „Sprecher 1“.

Okay, die Aufnahme ist vorhanden, wie kann ich sie in einen Text umwandeln? Im heutigen Experiment versuche ich das mit einer App von Google, „Automatische Transkription“, die nicht genau für diesen Zweck gemacht ist, sie soll eher Menschen mit Einschränkungen bei der Verständigung oder der Geräuscherkennung helfen. Dementsprechend hat sie auch keine Exportfunktion für die aufgezeichneten Texte, sondern der Export muss über copy&paste geschehen.

Der Text selbst sieht dann aus, wie transkripierte Texte immer aussehen. Ich habe während meines Studiums viele Stunden lang Interviews transkripiert; Gesprochenes, das sich vollkommen verständlich und normal anhört, ist als geschriebener Text voller Füllwörter, Wiederholungen, offensichtlicher Gedankensprünge und unbeendeter Sätze. Sprecher, die während des Sprechens denken, verschlimmern das Problem. Bei der manuellen Transkription kann der Transkriptierende noch Satzzeichen und andere hilfreiche Interpretationshilfen einfügen, Software spart sich so etwas oft, rät viel und manchmal falsch. Die kurze Suche nach dem passenden Wort gerät da schon einmal zum Absatz. Kurz: ein transkripierte Text muss immer (!) überarbeitet werden.

Gestern habe ich diese Überarbeitung per Hand und Hirn vorgenommen. Es ist vielleicht interessant, dass sich sogar Passagen, die man selbst gesprochen hat, im nachhinein oft nicht sinnvoll rekonstruieren lassen. Hört man die entsprechende Stelle in der Aufnahme nochmals an, ist alles klar. Um ehrlich zu sein, ich habe mir die Arbeit nicht gemacht, mir die entsprechenden Stellen noch einmal anzuhören, stattdessen habe ich gnadenlos gekürzt, was nicht verständlich war. Aus einem kleinen Teil der gestrigen, überarbeiteten Transkription habe ich anschließend einen Blogpost gemacht und in die 70er Jahre verschoben. Dort könnt Ihr nachschauen, wie sich das gesprochene Wort halbwegs unverfälscht liest.

Heute wollte ich dann schauen, ob sich der gestrige, mühselig Prozess nicht mit Hilfe von Googles „Bard“ abkürzen lässt. Und ja, es funktioniert. Mit Einschränkungen, wie dringend anzumerken ist. Aber bevor wir uns mit diesen beschäftigen, solltet Ihr Euch erstmal das Ergebnis anschauen, die Korrekturen darin sind von mir und ich würde den Text so zwar nicht veröffentlichen, dennoch, „man könnte“. Zur besseren Vergleichsmöglichkeit habe ich Eingabe und Ausgabe nebeneinander gestellt.

Die Eingabe bei Bard lautete:
Generiere aus allem nach dem Doppelpunkt einen grammatikalisch richtigen Text. Bleibe dabei so nah wie möglich am Originaltext: [Text]

Text, wie er aus „Automatische Transkription“ herausfiel und als Eingabe diente. Text, von „Bard“ geradegezogen.
.

Dann doch auch, dann haben wir über diese alten Zeiten gesprochen und Ja wir haben überall ich glaube eben auch Zusammenhang mit meiner schreiberei und der Geschichte und ich glaube da wollte ich dich wollte ich auch von dem paar Sachen Wissen und dann kamst du auf die Idee oder hast du gesagt du wolltest das wolltest das eh schon länger mal machen mal so eine Aufnahme Session zu deinem Leben oder einer Lebensphase und so haben sich diese beiden Interessen verbunden lang also so habe ich jetzt april für die Geschichte Halt und und

Und was ich da spannend dran fand, das war, dass ich so beim Nachhinein dann überlegt habe. Okay die die 70er. Also wenn man die jetzt mal so ganz grobkalent, also eine so ganz streng kann abgrenzt dann sind das ja die Jahre zwischen 14 und 24 bei mir und bei mir zwischen 15 und 25 und das ist eine unglaublich spannende Zeit gewesen eigentlich die.

Ja.

Ich denke zum einen waren die verprägend. Das gesamte Leben was später kommt.

Anfangsgespräch:

Person 1: Wir haben uns ja schon mal über diese alten Zeiten unterhalten, und ich glaube, dass das auch mit meiner Schreibe[rei] und der Geschichte [, die ich schreibe,] zusammenhängt. Ich wollte dich auch ein paar Sachen fragen, und dann kamst du auf die Idee  [hast Du erzählt], dass du das schon länger mal machen wolltest, mal so eine Aufnahmesession zu deinem Leben oder einer Lebensphase. So haben sich diese beiden Interessen verbunden.

Person 2: Ja, genau. Und was ich da spannend fand, war, dass ich mir beim Nachhinein überlegt habe: Okay, die 70er Jahre, also wenn man die jetzt mal so ganz grob zeitlich abgrenzt, dann sind das ja die Jahre zwischen 14 und 24 bei mir und bei dir zwischen 15 und 25. Und das ist eine unglaublich spannende Zeit gewesen eigentlich.

Person 1: Ja.

Person 2: Ich denke[,] zum einen waren die [waren ] verprägend für das gesamte Leben, w[d]as später kommt.

Die anzumerkenden Einschränkungen sind quantitativer und qualitativer Art. Dass in die Eingabe, Prompt sagen wir heute dazu, nur eine begrenzte Menge Text passt, ist zu erwarten. Ich war trotzdem überrascht. Eine kleine Nachfrage ergibt, dass sowohl der Prompt als auch die resultierende Antwort auf 1000 Zeichen begrenzt sind. Bedeutet, dass der findige Nutzer den Text vorher in sinnige Abschnitte unterteilen muss, damit Bard auch sinnig damit umgehen kann. Denn: Bard macht im ersten Anlauf nicht, was ich von ihm wollte, sondern liefert erstmal eine Zusammenfassung mit durchaus eigenen Schwerpunkten, die nicht richtig falsch, aber auch nicht richtig richtig waren. Für solcherlei Tun, wenn man es denn will, muss Zusammengehöriges natürlich auch zusammen eingegeben werden.

Immerhin, Bard liefert regelmäßig drei Alternativen dessen, was er getan hat, und die zweite ist dann die, die am nächsten dran ist an dem, was ich mir wünschte, siehe oben. Womit wir zu den qualitativen Einschränkungen kommen.

Weniger im Beispiel, aber im Rest des Textes und besonders  in der dritten Alternative war mir Bard oft nicht genau genug. Bard schludert bei der Grammatik und teilweise auch bei der Semantik, beides hätte ich aufgrund der Funktionsweise von LLM’s für ausgeschlossen gehalten (ich vermute nun, das Bard bei jeder Alternative etwas weniger streng mit inneren und äußeren Vorgaben umgeht). Gelegentlich gerät Bard auch mit den Sprechern durcheinander, aber das will ich ihm nicht vorwerfen, weil er ja in einem Text, der die Sprecher nicht unterscheidet, immerhin festgestellt hat, dass es sich um zwei Sprecher handelt.

Bards erste und priorisierte „Lösung“ des Prompts, die Zusammenfassung, ist dagegen zu glatt und allgemein. Weil der umgangssprachliche Ton wegfällt, dagegen in LLM-Manier das jeweils wahrscheinlichste, mithin durchschnittlichste Wort gewählt wird, fehlt alles, was das Allgemeine zum Besonderen macht.

Und dies führt uns zu einem vollkommen unerwarteten Abschluss.

Hausaufgabe für den Freundeskreis Hobby-Philosophie

Ergründe das Verhältnis von Besonderem zu Allgemeinem anhand des folgenden Dialogs.
„Wir haben uns getrennt, weil wir [hier eine als besondere empfundene Problemlage einsetzen].“
„Ach, der Klassiker!“

 

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert