Der natürliche Gesprächspartner

ID: 644659

Konkatenation von Audiofiles - ein Fachbeitrag von Christian Schneider, dynamic
audio

(firmenpresse) -
Moderne Sprachapplikationen begegnen dem Benutzer immer häufiger mit einem
ausgefeilten Hear & Feel-Konzept. Das Persona-Design ist ausgearbeitet, die Stimme
und die Texte sind dem Produkt angepasst und auch das Dialog-Design wird
zunehmend offener und natürlicher gehalten. Kurzum: Die Branche strebt einen
Dialog mit einem natürlich klingenden computergesteuerten Gesprächspartner an.
1. State of the Art
Betrachten wir die Sprachapplikationen am Markt, so stellen wir fest, dass sich auf
der Eingabeseite des Nutzers, auf dem Weg zum natürlichen Dialog, in den letzen
Jahren viel getan hat. Die Fragestellungen im Dialog werden immer offener und
natürlicher und auch die Spracherkennung wird immer besser. Auf der Ausgabeseite
der Systeme hingegen ist leider kaum eine Veränderung zum Positiven zu
verzeichnen. IVRs klingen heutzutage immer noch unnatürlich und roboterhaft.
Woran liegt das?
Das Bewusstsein für eine unternehmensspezifische, zum Produkt passende Persona
hat zwar zugenommen (sicherlich ein wichtiger Schritt hin zum natürlichen
Gesprächspartner), dennoch klingen die Systemausgaben immer noch unnatürlich
und künstlich zusammengebaut, was angeblich dem Umstand gezollt ist, dass die
Audioausgabe der Sprachapplikation auf konkateniertem Audiomaterial beruht.
(Unter Konkatenation versteht man das aneinanderketten einzelner Audiodateien).
Selbstverständlich ist die Technik des Konkatenierens den Dialog-Designern bekannt
und sicherlich kaum eine Anwendung kommt heute ohne konkateniertes Audio aus.
Dennoch, wird gerade in diesem Bereich Vieles falsch gemacht.
2. Wann wirkt der Gesprächspartner unnatürlich?
Eine Sprachapplikation ist eine interaktive Anwendung. Daher ist es nur schwer
vorherzusagen, welchen genauen Weg der Benutzer durch die Anwendung wählt,
bzw. in welche Richtung der Call-Flow ihn führt. Wird der Benutzer verstanden?

Braucht er Hilfe? Muss etwas wiederholt werden? Gerade in komplexen Systemen
gleicht kaum ein Call dem anderen. Vor diesem Hintergrund ist es sehr wichtig, dass
auch die einzelnen Audiofiles miteinander harmonisieren und die Anknüpfungspunkte
zwischen den Dialogsequenzen stimmig sind, damit der Dialog natürlich klingt.
Viele Systeme verwenden z.B. Random Prompts als Feedback für erfolgreiche oder
nicht verstandene Eingaben. Die Idee ist gut, lockert den Dialog auf und sorgt für
Abwechslung. Leider wird hierbei häufig vergessen, eine natürliche Sprachpause
nach dem Random Prompt einzubauen, was den Dialog holpern lässt. Generell sind
die Übergänge von Random-, Hilfe- und Nomatch Prompts zum Dialogprompt anfällig
für schlecht zusammengesetzte Audiofiles.
Wichtig ist auch die Stimmung des Sprechers, der die Audiofiles vorher im Tonstudio
aufgenommen hat. Die Tonality und Lautstärke sollte zwischen den konkatenierten
Audiodaten gleichbleibend sein, da sonst ein Bruch im Dialog entsteht. Eine
unkontinuierliche Persona wirkt stets unnatürlich.

Die größte Herausforderung scheint aber die natürliche Wiedergabe von Daten in
IVRs zu sein. Bei großen und sich ändernden Datenbeständen wird für die
Sprachausgabe meist eine TTS-Engine eingesetzt. Diese künstlichen Stimmen haben
den Vorteil, wirtschaftlicher zu sein, als alle eventuellen Datenbestände im Tonstudio
aufzunehmen. Auf der anderen Seite entsteht beim Anrufer fast immer der Eindruck
mit einem Roboter zu telefonieren.
Eine andere Möglichkeit Datenbestände wiederzugeben, ist die Verwendung von
vorher aufgenommenen Audiodaten, die konkateniert werden. Diese Methode wird
bei überschaubaren Datensätzen wie z.B.Nummern, Geldbeträgen oder Uhrzeiten
angewandt. Konkatenierte Datensätze klingen - richtig angewandt - schon recht
natürlich im Gegensatz zu TTS-Stimmen. Von einer wirklich natürlichsprachlichen
Ausgabe seitens der Systeme scheinen wir dennoch weit entfernt zu sein. Die
Sprechtempi unterscheiden sich zu oft zwischen der Datenausgabe und dem
vorangegangenem Prompt oder die Stimmungen der einzelnen Dateien passen
einfach nicht zueinander.

3. Was kann man besser machen?
Um ein natürlich klingendes Produkt zu schaffen, ist die enge Zusammenarbeit
zwischen Tonstudio und Dialog-Designern von größter Wichtigkeit. Zum einen sollte
der Sprecher im Tonstudio verstehen können, wie die einzelnen Prompts miteinander
kombiniert werden, denn nur dann kann er durch Nuancierung und Bindungen der
Betonungen ein harmonisches Zusammenspiel der Audiodaten erreichen. Gerade in
der Vorbereitung einer Aufnahmesession sollte Wert auf ein sorgfältiges
Aufnahmedokument gelegt werden. Numerisch generierte Promptlisten schaffen es
oft nicht, einen Eindruck zu vermitteln, wie der Dialog ablaufen soll. Ein
Aufnahmedokument hingegen, das der Dialogstruktur folgt, trägt viel zur
Natürlichkeit eines Systems bei: Die Kontinuität der Persona bleibt erhalten. Auch
der aufnehmende Techniker (bzw. der Editierer der Aufnahmen) sollte etwas vom
Konkatenieren verstehen. Gerade bei der Auswahl unter mehreren Sprechertakes
sollten die am besten harmonisierenden Audiofiles ausgesucht werden. Nicht immer
eine leichte Aufgabe. Vor allem dann nicht, wenn das Zusammenspiel der
Audiodateien mehrdeutig ist.
Auch bei der Wiedergabe von Datenbeständen kann man einiges verbessern. Bei
IVRs, die auf eine TTS-Engine angewiesen sind, ist es z.B. möglich, Aufnahmen mit
der gleichen Stimme zu realisieren, die die TTS-Stimme eingesprochen hat. Das
Ergebnis wäre eine gleich bleibende Stimme für die Daten (TTS-Ausgabe) und für
die Dialogprompts (Studiosprecher). Der Benutzer nimmt somit keinen gravierenden
Bruch in der Stimmung des Systems wahr.
Eine andere Möglichkeit, TTS-Engines ohne gravierenden Natürlichkeitsverlust
einzusetzen, ist die Einbindung in ein pfiffiges Gesamtkonzept. Beispiele gibt es hier
schon am Markt. Im Preisvergleich der 11864 wird der Benutzer z.B. einfach an
einen „Assistenten“ weitergeleitet, der dann die TTS Ausgabe übernimmt. Einfach
und gut gelöst.

Bei konkatenierten Datenbeständen, die auf eine TTS-Engine verzichten können,
gibt es ebenfalls Verbesserungsmöglichkeiten. Speziell bei der Wiedergabe von
numerischen Ziffern, wie z.B. Telfonnummern, Passwörtern, PINs etc. fällt auf, dass
diese oft roboterhaft zusammengesetzt klingen. Das liegt zum Teil daran, dass viele
Systeme nur eine, maximal zwei Betonungen für eine Ziffer aufnehmen. Viel
natürlicher hingegen klingen drei Betonungen: Initial, medial und final. Betrachten
wir beim Sprechen die Zahl 9873, so stellen wir fest, dass die erste Ziffer initial, die
nächsten beiden medial und die letzte Ziffer final betont gesprochen wird. Sicherlich
bedeutet die Einführung einer dritten Betonungsart einiges an Mehraufwand für den
Programmierer, das Ergebnis spricht jedoch für sich.

Eine weitere Möglichkeit, Zahlen und numerische Ziffern natürlicher wiederzugeben
ist die Verwendung von Zahlenpaaren in der Audioausgabe. Dadurch wird zwar der
Recordingaufwand erhöht, da anstatt von 20 Ziffern (10 initial und 10 final) 200
Ziffern aufgenommen werden müssen. Aber auch hier ist das Ergebnis deutlich
natürlicher.
Besonderes Augenmerk sollte auch auf das richtige Timing und die Betonung der zu
konkatenierten Audiofiles gelegt werden. Eine wirkliche Herausforderung, grade bei
der Aufnahme im Tonstudio mit dem Voice Talent. Nur wirklich gute Sprecher sind
erfahrungsgemäß in der Lage, dieser hohen Anforderung gerecht zu werden. Es
verlangt viel Disziplin und Können hunderte von Audiodaten gleichmäßig zu betonen
- ohne Schwankungen in der Stimmung und ohne Timingverlust. Doch es geht!
Damit aber noch nicht genug. Besonders im Editingprozess (Schnitt und
Bearbeitung) der Audiodateien muss beachtet werden, wie die einzelnen Audiofiles
untereinander zusammenpassen. Denn eine gute Betonung und eine saubere
Aufnahme erzeugen noch keinen natürlich klingenden Satz. Grade der gezielte
Einsatz von Pausen im Editingprozess schafft erst eine natürliche Satzmelodie.

Fazit
Einen natürlich klingenden Gesprächspartner zu kreieren ist meiner Meinung nach
derzeit zwar noch eine große Herausforderung, aber nicht unlösbar. Programmierer,
Dialog-Designer und Tonstudio müssen einfach schon frühzeitig im Projektablauf
gewerkeübergreifend zusammenarbeiten, um konzeptionell festzulegen, wie die
höchstmögliche Natürlichkeit in der Audioausgabe zu realisieren ist.

Christian Schneider
Sounddesigner und Multimediaproduzent, dynamic audio
Der Sounddesigner und Multimediaproduzent Christian Schneider
ist Mitgründer von dynamic audio - dem Full Service Spezialisten
für Audioproduktionen im Multimediabereich. Gemeinsam mit dem
Projektmanager und Audio Engineer Jonathan Buttmann bilden
sie das Kernteam des Unternehmens. Unterstützt wird das Team
durch ein breites Spektrum an freien Sprechern, Sounddesignern,
Textern, Konzeptern und Linguisten. dynamic audio verfügt über
ein professionell ausgestattetes Tonstudio, eine umfangreiche
Soundlibary sowie einen großen, mehrsprachigen Sprecherpool.
© VOICE Community 2011 - Alle Rechte vorbehaltenWeitere Infos zu dieser Pressemeldung:

http://www.dynamicaudio.de

Themen in dieser Pressemitteilung:

sprachaufnahmen

voicerecording

tonstudio

sprecher

native-speaker

dynamic-audio-berlin

Unternehmensinformation / Kurzprofil:

dynamic audio berlin
Fullservice-Audioagentur mit integriertem Tonstudio
dynamic audio versteht sich als Full Service Spezialist für Audioproduktionen im
Multimediabereich. Die Spezialität des Unternehmens sind angepasste
Audioproduktionen für den Wiedergabekanal Telefon, sowie die Planung und
Durchführung von konkatenierten Audioelementen (aus verschiedenen Bestandteilen
zusammengefügte Audiofiles). Neben Sprachaufnahmen und Sounddesign für
Telefonsysteme produziert dynamic audio auch individuell auf Unternehmen
zugeschnittene Klangwelten, Firmenmusiken, Audiologos und Radiospots. Das
Unternehmen vereint Kompetenzen aus den Bereichen Audio Engineering,
Sounddesign, Persona, Text und Konzeption, Linguistik, Sprachaufnahmen und
Sprachregie.
Das Kernteam des Unternehmens bilden der Projektmanager und Audio Engineer
Jonathan Buttmann und der Sounddesigner und Multimediaproduzent Christian
Schneider. Christian Schneider und Jonathan Buttmann arbeiten seit über 10
Jahren im Bereich der Vertonung von verschiedenen Multimediaprodukten. 2003
beschlossen sie gemeinsam die Firma dynamic audio zu gründen. Unterstützt wird
das Team durch ein breites Spektrum an freien Sprechern, Sounddesignern,
Textern, Konzeptern und Linguisten. dynamic audio verfügt über ein professionell
ausgestattetes Tonstudio, eine umfangreiche Soundlibary sowie einen großen,
mehrsprachigen Sprecherpool.
Zu den Kunden zählen unter anderen die BSMO, NH-Hotels, sowie die Kross
Werbeagentur. Zudem ist dynamic audio Partner der Mundwerk/Excelsis AG einem
der führenden Anbieter für Sprachdialogsysteme im deutschsprachigen Raum.

messestand.de Facebook Aktion – Online und Offline miteinander verbinden

CeMAT 2014 (19. bis 23. Mai): CeMAT, Weltleitmesse für Intralogistik, formiert sich neu

Bereitgestellt von Benutzer: dynamicaudio
Datum: 23.05.2012 - 16:00 Uhr
Sprache: Deutsch
News-ID 644659
Anzahl Zeichen: 10097

Kontakt-Informationen:

Kategorie:

Marketing & Werbung

Meldungsart: Produktinformation
Versandart: Veröffentlichung
Freigabedatum: 23.05.2012

Diese Pressemitteilung wurde bisher 383 mal aufgerufen.

Die Pressemitteilung mit dem Titel:
"Der natürliche Gesprächspartner "
steht unter der journalistisch-redaktionellen Verantwortung von

dynamicaudio berlin (Nachricht senden)

Beachten Sie bitte die weiteren Informationen zum Haftungsauschluß (gemäß TMG - TeleMedianGesetz) und dem Datenschutz (gemäß der DSGVO).

PresseMitteilung löschen Pressemitteilung ändern PresseMitteilung beanstanden

10 Jahre dynamic audio berlin, es hat sich viel getan! ...
Zu seinem 10 jährigen Jubiläum präsentiert sich die Audioagentur dynamic audio berlin in neuem Gewand. Die neue Website http://www.dynamicaudio.de bietet jetzt noch mehr Service für die Umsetzung von Sprachaufnahmen, Sounddesign, Voiceover und Audioproduktion. Mit ihrem internationalen Sprecherp

Audiodesign für Sprachanwendungen ...
Audiodesign für Sprachanwendungen Das Thema Sprachanwendungen hat in den letzten Jahren enorm an Bedeutung gewonnen. Auf der Auftraggeberseite finden wir zunehmend bedeutende Unternehmen, die Teile ihres Call Centers entlasten oder gar komplette Servicebereiche durch Sprachdialogsysteme

Audioproduktionen für Sprachdialogsysteme ...
Audioproduktionen für Sprachdialogsysteme Interview mit Jonathan Buttmann und Christian Schneider, dynamic audio VOICE Community: Welche Services bietet dynamic audio? Was sind Ihre Aufgaben? Christian Schneider: dynamic audio ist eine Fullservice-Audioagentur mit integriertem Tonstud

Weitere Mitteilungen von dynamicaudio berlin

messestand.de Facebook Aktion – Online und Offline miteinander verbinden ...
messestand.de ist die Onlineplattform rund um den mobilen Messeauftritt. Als Anbieter von mobilen Messesystemen ist die Verknüpfung des online sowie offline Auftrittes enorm wichtig. Gerade im Online-Bereich wird der Fokus jedoch allzu gerne nur auf den Online-Auftritt oder die Online Kommunikation

Wie Sie mit Social Media Marketing erfolgreich Kunden gewinnen ...
Facebook, das größte soziale Netzwerk mit über 800 Millionen Nutzern, ist mittlerweile an der Börse vertreten und zählt auch in Deutschland seit einiger Zeit zu den beliebtesten Medien mit über 20 Millionen angemeldeten Mitgliedern. Eine immer höhere Bedeutung erlangt somit aufgrund dieser En

"Werbung in eigener Sache"- Hilfe vom Bewerbungscoach ...
Als ausgebildete Bürofachwirtin im Personal- und Rechnungswesen mit reichem Erfahrungsschatz bietet Sandra Katemann von der Agentur Text-Style24.de eine umfassende Unterstützung rund um das Thema "Bewerbungen". Bewerbungen - individuell und auffallend gut Personalchefs entscheiden beim

Neue OCTAwall Systeme auf messestand.de ...
messestand.de ist die Plattform rund um den Messeauftritt. Mit den vier mobilen Messesystem-Marken kann für jeden Anlass das passende System gefunden werden. Die OCTAwall Systeme zeichnen sich durch eine plakative Werbefläche aus, die schnell und leicht gewechselt werden kann. Das rahmenlose Desig

Der natürliche Gesprächspartner

sprachaufnahmen

voicerecording

tonstudio

sprecher

native-speaker

dynamic-audio-berlin

Marketing & Werbung

Weitere Mitteilungen von dynamicaudio berlin

Neu hier ?

Werbung

Community

Sponsoren

Firmenverzeichniss