Der natürliche Gesprächspartner
Konkatenation von Audiofiles - ein Fachbeitrag von Christian Schneider, dynamic
audio
Moderne Sprachapplikationen begegnen dem Benutzer immer häufiger mit einem
ausgefeilten Hear & Feel-Konzept. Das Persona-Design ist ausgearbeitet, die Stimme
und die Texte sind dem Produkt angepasst und auch das Dialog-Design wird
zunehmend offener und natürlicher gehalten. Kurzum: Die Branche strebt einen
Dialog mit einem natürlich klingenden computergesteuerten Gesprächspartner an.
1. State of the Art
Betrachten wir die Sprachapplikationen am Markt, so stellen wir fest, dass sich auf
der Eingabeseite des Nutzers, auf dem Weg zum natürlichen Dialog, in den letzen
Jahren viel getan hat. Die Fragestellungen im Dialog werden immer offener und
natürlicher und auch die Spracherkennung wird immer besser. Auf der Ausgabeseite
der Systeme hingegen ist leider kaum eine Veränderung zum Positiven zu
verzeichnen. IVRs klingen heutzutage immer noch unnatürlich und roboterhaft.
Woran liegt das?
Das Bewusstsein für eine unternehmensspezifische, zum Produkt passende Persona
hat zwar zugenommen (sicherlich ein wichtiger Schritt hin zum natürlichen
Gesprächspartner), dennoch klingen die Systemausgaben immer noch unnatürlich
und künstlich zusammengebaut, was angeblich dem Umstand gezollt ist, dass die
Audioausgabe der Sprachapplikation auf konkateniertem Audiomaterial beruht.
(Unter Konkatenation versteht man das aneinanderketten einzelner Audiodateien).
Selbstverständlich ist die Technik des Konkatenierens den Dialog-Designern bekannt
und sicherlich kaum eine Anwendung kommt heute ohne konkateniertes Audio aus.
Dennoch, wird gerade in diesem Bereich Vieles falsch gemacht.
2. Wann wirkt der Gesprächspartner unnatürlich?
Eine Sprachapplikation ist eine interaktive Anwendung. Daher ist es nur schwer
vorherzusagen, welchen genauen Weg der Benutzer durch die Anwendung wählt,
bzw. in welche Richtung der Call-Flow ihn führt. Wird der Benutzer verstanden?
Braucht er Hilfe? Muss etwas wiederholt werden? Gerade in komplexen Systemen
gleicht kaum ein Call dem anderen. Vor diesem Hintergrund ist es sehr wichtig, dass
auch die einzelnen Audiofiles miteinander harmonisieren und die Anknüpfungspunkte
zwischen den Dialogsequenzen stimmig sind, damit der Dialog natürlich klingt.
Viele Systeme verwenden z.B. Random Prompts als Feedback für erfolgreiche oder
nicht verstandene Eingaben. Die Idee ist gut, lockert den Dialog auf und sorgt für
Abwechslung. Leider wird hierbei häufig vergessen, eine natürliche Sprachpause
nach dem Random Prompt einzubauen, was den Dialog holpern lässt. Generell sind
die Übergänge von Random-, Hilfe- und Nomatch Prompts zum Dialogprompt anfällig
für schlecht zusammengesetzte Audiofiles.
Wichtig ist auch die Stimmung des Sprechers, der die Audiofiles vorher im Tonstudio
aufgenommen hat. Die Tonality und Lautstärke sollte zwischen den konkatenierten
Audiodaten gleichbleibend sein, da sonst ein Bruch im Dialog entsteht. Eine
unkontinuierliche Persona wirkt stets unnatürlich.
Die größte Herausforderung scheint aber die natürliche Wiedergabe von Daten in
IVRs zu sein. Bei großen und sich ändernden Datenbeständen wird für die
Sprachausgabe meist eine TTS-Engine eingesetzt. Diese künstlichen Stimmen haben
den Vorteil, wirtschaftlicher zu sein, als alle eventuellen Datenbestände im Tonstudio
aufzunehmen. Auf der anderen Seite entsteht beim Anrufer fast immer der Eindruck
mit einem Roboter zu telefonieren.
Eine andere Möglichkeit Datenbestände wiederzugeben, ist die Verwendung von
vorher aufgenommenen Audiodaten, die konkateniert werden. Diese Methode wird
bei überschaubaren Datensätzen wie z.B.Nummern, Geldbeträgen oder Uhrzeiten
angewandt. Konkatenierte Datensätze klingen - richtig angewandt - schon recht
natürlich im Gegensatz zu TTS-Stimmen. Von einer wirklich natürlichsprachlichen
Ausgabe seitens der Systeme scheinen wir dennoch weit entfernt zu sein. Die
Sprechtempi unterscheiden sich zu oft zwischen der Datenausgabe und dem
vorangegangenem Prompt oder die Stimmungen der einzelnen Dateien passen
einfach nicht zueinander.
3. Was kann man besser machen?
Um ein natürlich klingendes Produkt zu schaffen, ist die enge Zusammenarbeit
zwischen Tonstudio und Dialog-Designern von größter Wichtigkeit. Zum einen sollte
der Sprecher im Tonstudio verstehen können, wie die einzelnen Prompts miteinander
kombiniert werden, denn nur dann kann er durch Nuancierung und Bindungen der
Betonungen ein harmonisches Zusammenspiel der Audiodaten erreichen. Gerade in
der Vorbereitung einer Aufnahmesession sollte Wert auf ein sorgfältiges
Aufnahmedokument gelegt werden. Numerisch generierte Promptlisten schaffen es
oft nicht, einen Eindruck zu vermitteln, wie der Dialog ablaufen soll. Ein
Aufnahmedokument hingegen, das der Dialogstruktur folgt, trägt viel zur
Natürlichkeit eines Systems bei: Die Kontinuität der Persona bleibt erhalten. Auch
der aufnehmende Techniker (bzw. der Editierer der Aufnahmen) sollte etwas vom
Konkatenieren verstehen. Gerade bei der Auswahl unter mehreren Sprechertakes
sollten die am besten harmonisierenden Audiofiles ausgesucht werden. Nicht immer
eine leichte Aufgabe. Vor allem dann nicht, wenn das Zusammenspiel der
Audiodateien mehrdeutig ist.
Auch bei der Wiedergabe von Datenbeständen kann man einiges verbessern. Bei
IVRs, die auf eine TTS-Engine angewiesen sind, ist es z.B. möglich, Aufnahmen mit
der gleichen Stimme zu realisieren, die die TTS-Stimme eingesprochen hat. Das
Ergebnis wäre eine gleich bleibende Stimme für die Daten (TTS-Ausgabe) und für
die Dialogprompts (Studiosprecher). Der Benutzer nimmt somit keinen gravierenden
Bruch in der Stimmung des Systems wahr.
Eine andere Möglichkeit, TTS-Engines ohne gravierenden Natürlichkeitsverlust
einzusetzen, ist die Einbindung in ein pfiffiges Gesamtkonzept. Beispiele gibt es hier
schon am Markt. Im Preisvergleich der 11864 wird der Benutzer z.B. einfach an
einen „Assistenten“ weitergeleitet, der dann die TTS Ausgabe übernimmt. Einfach
und gut gelöst.
Bei konkatenierten Datenbeständen, die auf eine TTS-Engine verzichten können,
gibt es ebenfalls Verbesserungsmöglichkeiten. Speziell bei der Wiedergabe von
numerischen Ziffern, wie z.B. Telfonnummern, Passwörtern, PINs etc. fällt auf, dass
diese oft roboterhaft zusammengesetzt klingen. Das liegt zum Teil daran, dass viele
Systeme nur eine, maximal zwei Betonungen für eine Ziffer aufnehmen. Viel
natürlicher hingegen klingen drei Betonungen: Initial, medial und final. Betrachten
wir beim Sprechen die Zahl 9873, so stellen wir fest, dass die erste Ziffer initial, die
nächsten beiden medial und die letzte Ziffer final betont gesprochen wird. Sicherlich
bedeutet die Einführung einer dritten Betonungsart einiges an Mehraufwand für den
Programmierer, das Ergebnis spricht jedoch für sich.
Eine weitere Möglichkeit, Zahlen und numerische Ziffern natürlicher wiederzugeben
ist die Verwendung von Zahlenpaaren in der Audioausgabe. Dadurch wird zwar der
Recordingaufwand erhöht, da anstatt von 20 Ziffern (10 initial und 10 final) 200
Ziffern aufgenommen werden müssen. Aber auch hier ist das Ergebnis deutlich
natürlicher.
Besonderes Augenmerk sollte auch auf das richtige Timing und die Betonung der zu
konkatenierten Audiofiles gelegt werden. Eine wirkliche Herausforderung, grade bei
der Aufnahme im Tonstudio mit dem Voice Talent. Nur wirklich gute Sprecher sind
erfahrungsgemäß in der Lage, dieser hohen Anforderung gerecht zu werden. Es
verlangt viel Disziplin und Können hunderte von Audiodaten gleichmäßig zu betonen
- ohne Schwankungen in der Stimmung und ohne Timingverlust. Doch es geht!
Damit aber noch nicht genug. Besonders im Editingprozess (Schnitt und
Bearbeitung) der Audiodateien muss beachtet werden, wie die einzelnen Audiofiles
untereinander zusammenpassen. Denn eine gute Betonung und eine saubere
Aufnahme erzeugen noch keinen natürlich klingenden Satz. Grade der gezielte
Einsatz von Pausen im Editingprozess schafft erst eine natürliche Satzmelodie.
Fazit
Einen natürlich klingenden Gesprächspartner zu kreieren ist meiner Meinung nach
derzeit zwar noch eine große Herausforderung, aber nicht unlösbar. Programmierer,
Dialog-Designer und Tonstudio müssen einfach schon frühzeitig im Projektablauf
gewerkeübergreifend zusammenarbeiten, um konzeptionell festzulegen, wie die
höchstmögliche Natürlichkeit in der Audioausgabe zu realisieren ist.
Christian Schneider
Sounddesigner und Multimediaproduzent, dynamic audio
Der Sounddesigner und Multimediaproduzent Christian Schneider
ist Mitgründer von dynamic audio - dem Full Service Spezialisten
für Audioproduktionen im Multimediabereich. Gemeinsam mit dem
Projektmanager und Audio Engineer Jonathan Buttmann bilden
sie das Kernteam des Unternehmens. Unterstützt wird das Team
durch ein breites Spektrum an freien Sprechern, Sounddesignern,
Textern, Konzeptern und Linguisten. dynamic audio verfügt über
ein professionell ausgestattetes Tonstudio, eine umfangreiche
Soundlibary sowie einen großen, mehrsprachigen Sprecherpool.
© VOICE Community 2011 - Alle Rechte vorbehaltenWeitere Infos zu dieser Pressemeldung:
Themen in dieser Pressemitteilung:
Unternehmensinformation / Kurzprofil:
dynamic audio berlin
Fullservice-Audioagentur mit integriertem Tonstudio
dynamic audio versteht sich als Full Service Spezialist für Audioproduktionen im
Multimediabereich. Die Spezialität des Unternehmens sind angepasste
Audioproduktionen für den Wiedergabekanal Telefon, sowie die Planung und
Durchführung von konkatenierten Audioelementen (aus verschiedenen Bestandteilen
zusammengefügte Audiofiles). Neben Sprachaufnahmen und Sounddesign für
Telefonsysteme produziert dynamic audio auch individuell auf Unternehmen
zugeschnittene Klangwelten, Firmenmusiken, Audiologos und Radiospots. Das
Unternehmen vereint Kompetenzen aus den Bereichen Audio Engineering,
Sounddesign, Persona, Text und Konzeption, Linguistik, Sprachaufnahmen und
Sprachregie.
Das Kernteam des Unternehmens bilden der Projektmanager und Audio Engineer
Jonathan Buttmann und der Sounddesigner und Multimediaproduzent Christian
Schneider. Christian Schneider und Jonathan Buttmann arbeiten seit über 10
Jahren im Bereich der Vertonung von verschiedenen Multimediaprodukten. 2003
beschlossen sie gemeinsam die Firma dynamic audio zu gründen. Unterstützt wird
das Team durch ein breites Spektrum an freien Sprechern, Sounddesignern,
Textern, Konzeptern und Linguisten. dynamic audio verfügt über ein professionell
ausgestattetes Tonstudio, eine umfangreiche Soundlibary sowie einen großen,
mehrsprachigen Sprecherpool.
Zu den Kunden zählen unter anderen die BSMO, NH-Hotels, sowie die Kross
Werbeagentur. Zudem ist dynamic audio Partner der Mundwerk/Excelsis AG einem
der führenden Anbieter für Sprachdialogsysteme im deutschsprachigen Raum.
Datum: 23.05.2012 - 16:00 Uhr
Sprache: Deutsch
News-ID 644659
Anzahl Zeichen: 10097
Kontakt-Informationen:
Kategorie:
Marketing & Werbung
Meldungsart: Produktinformation
Versandart: Veröffentlichung
Freigabedatum: 23.05.2012
Diese Pressemitteilung wurde bisher 355 mal aufgerufen.
Die Pressemitteilung mit dem Titel:
"Der natürliche Gesprächspartner "
steht unter der journalistisch-redaktionellen Verantwortung von
dynamicaudio berlin (Nachricht senden)
Beachten Sie bitte die weiteren Informationen zum Haftungsauschluß (gemäß TMG - TeleMedianGesetz) und dem Datenschutz (gemäß der DSGVO).
Zu seinem 10 jährigen Jubiläum präsentiert sich die Audioagentur dynamic audio berlin in neuem Gewand. Die neue Website http://www.dynamicaudio.de bietet jetzt noch mehr Service für die Umsetzung von Sprachaufnahmen, Sounddesign, Voiceover und Audioproduktion. Mit ihrem internationalen Sprecherp
Audiodesign für Sprachanwendungen ...
Audiodesign für Sprachanwendungen Das Thema Sprachanwendungen hat in den letzten Jahren enorm an Bedeutung gewonnen. Auf der Auftraggeberseite finden wir zunehmend bedeutende Unternehmen, die Teile ihres Call Centers entlasten oder gar komplette Servicebereiche durch Sprachdialogsysteme
Audioproduktionen für Sprachdialogsysteme ...
Audioproduktionen für Sprachdialogsysteme Interview mit Jonathan Buttmann und Christian Schneider, dynamic audio VOICE Community: Welche Services bietet dynamic audio? Was sind Ihre Aufgaben? Christian Schneider: dynamic audio ist eine Fullservice-Audioagentur mit integriertem Tonstud
Weitere Mitteilungen von dynamicaudio berlin
Copywriting mit KI erleichtert Einsteigern den Start! ...
Die Salevate GmbH zeigt, wie angehende Copywriter durch KI schneller in die Umsetzung kommen und Unternehmen mit verkaufsstarken Texten unterstützen. KI macht Copywriting greifbarer Der Einstieg ins Copywriting wirkt für viele Menschen zunächst anspruchsvoll. Verkaufspsychologie, Zielgruppe
DRPGroup präsentiert aktuelle Entwicklungen auf der IMEX in Frankfurt ...
Die internationale Kreativ- und Kommunikationsagentur DRPGroup präsentiert sich auf der diesjährigen IMEX Frankfurt mit mehreren Vorträgen zu den Zukunftsthemen Livekommunikation, hybride Eventformate und Künstliche Intelligenz. Mit praxisnahen Einblicken, Fallstudien und technologischen Perspek
Jetzt anmelden: FSK-Fachtag Flammschutz: Abwechslungsreiches Programm bei Brandschutzexperte Fagus-GreCon Greten GmbH&Co KG am 08. und 09. Juli 2026 ...
Der Fachverband Schaumkunststoffe und Polyurethane e.V. (FSK) lädt zum Fachtag Flammschutz am 08. und 09. Juli 2026 nach Alfeld an der Leine ein. Gemeinsam mit der Gastgeberin Fagus-GreCon Greten GmbH & Co. KG hat der Verband ein abwechslungsreiches Programm aus Expertenvorträgen zu aktuelle
2. LogaHR Kundentag von comramo mit starker Resonanz ...
Der 2. LogaHR Kundentag der comramo AG war ein voller Erfolg: Mehr als 50 Kundinnen und Kunden aus unterschiedlichen Regionen und Branchen kamen am 29. April in Hannover zusammen, um sich über aktuelle Entwicklungen, praxisnahe Lösungen und Zukunftsthemen im HR-Umfeld auszutauschen. Im Mittelpunkt
Effiziente Druckprozesse werden für Unternehmen zum Kostenfaktor ...
In vielen Unternehmen werden Drucksachen noch immer als nachgelagerter Marketingposten betrachtet. Tatsächlich beeinflussen Flyer, Broschüren, Geschäftsausstattung, Mailings oder Präsentationsunterlagen jedoch nicht nur die Außenwirkung, sondern auch interne Abläufe und Kostenstrukturen. Vor d
Mit ChatGPT und Claude wird Copywriting einfach ...
Die Salevate GmbH zeigt, wie Menschen ohne Vorerfahrung mit Stichpunkten, KI-Unterstützung und klarer Anleitung schneller professionelle Werbetexte erstellen. KI macht den Schreibprozess deutlich einfacher Copywriting galt lange als Fähigkeit, die viel Übung, Erfahrung und sprachliches Fein
Baukompetenz im Fokus: EIPOS lädt zu den Sachverständigentagen 2026 ...
Drei Tage – ein gemeinsames Ziel: Qualität und Wissen im Sachverständigenwesen stärken Die EIPOS-Sachverständigentage verbinden fundiertes Fachwissen mit praxisnahem Austausch und bieten ein Forum für den branchenübergreifenden Dialog. Ob Immobilienbewertung, Bauschadensbewertung oder Holzsc
Baukompetenz im Fokus: EIPOS lädt zu den Sachverständigentagen 2026 ...
Drei Tage – ein gemeinsames Ziel: Qualität und Wissen im Sachverständigenwesen stärken Die EIPOS-Sachverständigentage verbinden fundiertes Fachwissen mit praxisnahem Austausch und bieten ein Forum für den branchenübergreifenden Dialog. Ob Immobilienbewertung, Bauschadensbewertung oder Holzsc
Influencer Performance Studie 2026: 43 Prozent kaufen auf Empfehlung, Vertrauen bleibt der Schlüssel und KI stößt an Grenzen ...
Hamburg, 12. Mai 2026_ Influencer Marketing ist mehr als ein Reichweiteninstrument: 43 Prozent der Nutzer haben in den vergangenen drei Monaten aufgrund der Empfehlung eines Influencers ein Produkt gekauft. Gleichzeitig zeigt sich ein Engpass im System: Denn letztlich entscheidet Vertrauen über ein
Kulturwandel mit Kick: Andreas Becker im neuen Rednerprofil bei Redner-Speaker-Experten ...
Andreas Becker ist im Zuge des Website-Relaunches der Redneragentur Redner-Speaker-Experten mit einem neu aufbereiteten Rednerprofil vertreten. Unter dem Leitmotiv "Spielfeld Business - Lernen vom Profifußball" bündelt die Agenturseite Beckers Vorträge zu Agilität, Teamführung, neuen




