YouTubes neue „Ausdrucksstarke Sprache“-KI: Besser als menschliche Synchronisationen?
YouTube hat gerade eine neue KI-Funktion vorgestellt, die sie als ihre beeindruckendste Aktualisierung bezeichnen. Sie nennen es „expressive Speech“ für die automatische Untertitelung in acht Sprachen.
Transkript
YouTube hat gerade eine neue KI-Funktion vorgestellt, die sie als ihre beeindruckendste Aktualisierung bezeichnen. Sie nennen es “expressive Speech” für die automatische Untertitelung in acht Sprachen. Die Versprechen sind groß: Nicht nur werden deine Worte übersetzt, sondern auch die Emotionen, der Tonfall und die Energie, die du vermittelst. Als Creator sollten wir jedoch über den Marketing-Hype hinausblicken und die grundlegende geschäftliche Frage stellen: Kann ein kostenloses Tool, das für potenziell 2 Milliarden Nutzer skalieren soll, wirklich die hohe Qualität liefern, die für die Zuschauerbindung erforderlich ist? Werfen wir einen Blick auf die Wirtschaftlichkeit.
Es ist praktisch unmöglich für YouTube, hochwertige, maßgeschneiderte Untertitel für jeden kostenlos anzubieten. Es lässt sich einfach nicht skalieren. Also, während die Technologie faszinierend sein mag, lassen Sie uns untersuchen, warum ich skeptisch bleibe und warum wir bei KW Media weiterhin auf unsere Premium-Spuren und kuratierten Voiceovers setzen. Machen wir einen Blindtest. Wir haben die neue expressive Speech von YouTube in unserem letzten Video verwendet und sie mit unserer internen YouTube-Premium-Spur-Produktion verglichen. Hören Sie sich das an. Für YouTube. Auch wenn es auf Deutsch ist, hoffentlich war der Unterschied hörbar. Eines ist funktional, das andere emotional.
Und im Bindungsspiel ist Emotion das, was die Menschen zum Weiterschauen motiviert. Werfen wir jedoch einen Blick auf die harten Daten. YouTube behauptet, dass automatische Untertitel 75 % der ursprünglichen Zuschauer-Sehdauer beibehalten, wie im letzten Creator Insider Video erwähnt. Aber wenn wir uns komplexen Inhalt mit Standard-Automatisierung ansehen, ist die Realität brutal. Schauen Sie sich dieses erste Diagramm an. Die ursprünglichen deutschen Spuren hatten eine durchschnittliche Retention von 30 %. Die Automatisierung senkte sie auf 13 %. Das bedeutet eine Retentionsrate von nur 43 % im Vergleich zum Original. Die Zuschauer klickten, hörten die Roboterstimme und verließen die Seite.
Dies deckt sich mit dem Feedback, das wir von Kunden erhalten, die im Internet auf automatische Untertitel stoßen. Und ich zitiere: “Wenn ich auf automatische Untertitel stoße, drücke ich auf den Daumen nach unten und klicke auf ‘Kanal nicht empfehlen’. So habe ich aufgrund dessen einige Creator komplett verloren, nicht nur im Shorts-Feed, sondern sie werden mir auch generell viel seltener vorgeschlagen.” Vergleichen Sie nun diese 43 % mit unserem Premium-Spuren-Ansatz bei einem unserer Kunden im Automobilbereich. Für die manuelle Untertitelung verwendeten wir einen Dokumentarfilmstil mit Voiceovers in einer verzögerten Übersetzungsebene.
Auf diese Weise versteht der Zuschauer sofort, dass es sich um eine Untertitelung handelt, aber die ursprüngliche Emotion kommt rüber. Die durchschnittliche Retention für die DAP lag hier bei 16,1 % im Vergleich zu den ursprünglichen 26,4 %. Das bedeutet, wir haben über 60 % der relativen Leistung beibehalten, 20 % besser als das Tool von YouTube und tatsächlich näher an ihrem Versprechen. Beachten Sie außerdem, dass die 75%-Retention-Statistik von YouTube wahrscheinlich ein gemischter Durchschnitt ist. Sie wird wahrscheinlich stark durch Shorts und visuell schwere Inhalte verzerrt, bei denen Audio eine untergeordnete Rolle spielt.
Für erzählerisch geprägte Long-Form-Inhalte wie unsere oder die unserer Kunden deuten die Daten darauf hin, dass der Rückgang viel stärker ist. YouTube versucht dies zu relativieren mit der Aussage: “Auch wenn die Retention niedriger ist, ist doch jede zusätzliche Traffic-Menge gut, oder?” Der Creator Insider schlägt vor, man solle sich den gesamten Watchtime-Zuwachs ansehen. Okay, das haben wir getan und sind in die Analysen eingestiegen, um die Daten zu überprüfen. Das Wachstum der automatischen Untertitel-Watchtime lag bei über 500 %. Das ist korrekt im Vergleich zu einer Zeit, als es noch keine automatische Untertitelung gab.
Aber für die automatischen Untertitel ist der gesamte Traffic-Gewinn oft statistisch irrelevant im Vergleich zum heimischen Markt mit 1%. Nehmen Sie es also mit einer Prise Salz. Und wenn wir in die Zukunft blicken, wird YouTube’s Roadmap noch gewagter. Sie testen Lip-Sync, bei dem sie Ihre Mundbewegungen an das übersetzte Audio anpassen, und arbeiten daran, eingebrannten Text innerhalb des Videos selbst zu übersetzen. Wir bewegen uns in Richtung einer vollständigen Lokalisierung, bei der das ursprüngliche Video nur eine Blaupause ist.
Und “Blaupause” ist hier ein gutes Wort, da sie auch an dynamisch eingefügte Markenabschnitte arbeiten. Leider erhalten wir keine individuellen Optionen wie z. B. “Ich bin mit der Übersetzung des Textes im Video einverstanden, aber nicht mit Lip-Sync”. Also, das war’s für heute, und ich möchte wissen: Würden Sie YouTube erlauben, Ihr Gesicht für Lip-Sync wiederzubeleben? Wo ziehen Sie die Linie bei automatischen Untertiteln? Verwenden Sie automatische Untertitel überhaupt? Teilen Sie gerne Ihre Analysen in unserem Community-Tab.
Stellen Sie sicher, dass Sie Ihre erweiterten Filter auf die letzten 365 Tage einstellen, einen Audiotrack auswählen und den durchschnittlichen Prozentsatz der Betrachtungsdauer einschließen. Lassen Sie uns darüber in den Kommentaren sprechen. Ich bin Martin und bringe Ihnen wöchentlich Creator-News. Bis nächste Woche mit weiteren YouTube-Updates!
