
Alexa, Google Assistant, Siri & Co. sind in vielen Schweizer Haushalten heimisch geworden. Die Zeit zu Hause in den eigenen vier Wänden während der Pandemie hat diese Entwicklung unterstützt. Das Suchen über Sprache, der Konsum von Audio-Inhalten und das Nutzen standardisierter Befehle wird zusehends Bestandteil des Schweizer Alltags und verändert das Nutzungsverhalten von Kundinnen und Kunden. Sprachassistenten (Voice Bots) sind gekommen, um zu bleiben und somit auch Thema für Schweizer Unternehmen.

Verena E. Huber
Verena E. Huber haucht als Strategin für Markenkommunikation wertorientierten Brands Leben ein.
LinkedIn Profil
Interaktion von Mensch und Maschine: ungeskriptet echt!
Dialogfähige künstliche Intelligenz (KI) (Conversational AI) schafft eine neue Art von Benutzeroberfläche (User Interface). Menschen und digitale Systeme interagieren durch das gesprochene Wort oder ungescriptete Text Chats. Dialogfähige KI hat sich zu einem variantenreichen, digitalen Assistenten für die breite Öffentlichkeit gewandelt. Doch es gibt Unterschiede. Richten sich dialogfähige KI Assistenten wie Alexa, Google Assistant, Siri & Co. an die breite Öffentlichkeit, so sind dialogfähige KI-Agenten auf den Unternehmenskontext ausgerichtet. Eine profunde Absichtserkennung (Intent Recognition), das Verstehen natürlicher Sprache (Natural Language Understanding) und selbstgesteuerte Transaktionsfähigkeiten sind Anforderungen an dialogfähige KI-Agenten im Unternehmenskontext. Geskriptete Bots (Chatbots, Email Bots und Voice Bots) können meist die ganze Palette an Transaktionen ohne ein gewisses Mass an menschlicher Interaktion nicht leisten.
Unbegrenzte Aufgaben korrekt priorisiert: KI kann
Echte dialogfähige KI-Agenten erkennen die Benutzerabsicht aus einem breiten Spektrum menschlicher Äusserungen, verstehen natürliche Sprache (NLP) und sprechen in zusammenhängenden, menschenähnlichen Sätzen. Ein klares Unterscheidungsmerkmal zwischen dialogfähige KI und Chatbots ist die komplexe Absichtserkennung, die Triage von Prozessen und die Varianz im Dialog. Nehmen wir an: Eine Kundin meldet sich bei ihrer Bank und teilt mit: «Ich möchte gern auf papierlose Bankgeschäfte umstellen, aber ich habe meine Bankkarte gestern in Bern verloren, und es kann sein, dass betrügerische Abbuchungen auf meiner Karte getätigt wurden.» Die dialogfähige KI prüft zuerst die Bankkarte auf betrügerische Abbuchungen, bestellt im zweiten Schritt eine neue Karte und stellt die Kundeninteraktion zuletzt auf papierfrei um. Dialogfähige KI kann eine unbegrenzte Anzahl an Aufgaben erledigen, ist zu menschlichem Dialog fähig, und erkennt klar die Priorisierung der Aufgaben.1
Dialogfähige AI – ganz ohne Code
Nicht jedes Unternehmen verfügt über die finanziellen Ressourcen zur Implementierung von dialogfähigen KI Modellen. KI Systeme ohne Code erlauben Unternehmen mit moderaten technologischen Fähigkeiten ihre eigenen digitalen Assistenten zu bauen. Diese Form der Systeme arbeiten mit Anwendungsprogrammierschnittstellen (API: Application Programming Interface) und robotergestützter Prozessautomatisierung (RPA: Robotic Process Automation) über dialoggeführte, assistentengestützte Entwurfsprozesse (conversational wizard-assisted design processes). Dialogfähige KI ohne Code schafft beschleunigte Wertschöpfung, verkürzte Testzeiten und eine raschere Rendite der Investition (ROI: Return on Investment). Die schnelle Implementierung vieler Machbarkeitsnachweise (Proofs of Concept) sorgt für eine erhöhte Akzeptanz. Der Fokus liegt hierbei auf einfachen Anwendungsfällen mit klarem Mehrwert für den Kunden und nicht auf einer Kostensenkung.1
Warum sich Sprachanwendungen durchsetzen
Im digitalen Ökosystem werden Voice Anwendungen als Benutzeroberfläche für Nutzerinteraktion und nicht als Stand-Alone Lösung (Website, App) verstanden.5 Als häufigster Grund für die Verwendung von Sprachassistenten wird die handfreie Interaktion genannt. Neben den Händen werden auch die Augen entlastet. Sprachtechnologie (Voice Technologie) ermöglicht Multitasking. Vor allem aber ist Sprache die natürlichste Art und Weise zu kommunizieren. Scot und Susan Westwater von Pragmatic Digital, einer Voice Beratungsagentur in den USA, beobachten, dass die USA im Vergleich zu Europa rund 9 bis 12 Monate voraus ist in der jungen und sich rasch entwickelnden Sprachtechnologie. Viel mehr handelt es sich jedoch um ein technologisches Ping-Pong, denn in Europa geniesst man den Vorteil, aus den Fehlern der Amerikaner zu lernen, und kurbelt die Lernkurve reziprok an.
Im DACH Raum orientiert sich die Voice Community am grossen Nachbarn Deutschland. Dieser sorgt für eine solide Datengrundlage rund um das Thema Sprachtechnologie im deutschsprechenden Raum.
Ein Blick nach Deutschland
2019 auf 2020 ist der Anteil von aktiven Voice-Nutzenden von 38% auf 44% gestiegen. Aktuell verwenden rund 23% der Deutschen täglich einen digitalen Sprachassistenten. Im Ranking der Nutzung von Sprachassistenten liegt Google Assistant vor Siri, was unter anderem darauf zurückzuführen ist, dass Google das Produkt im Jahr 2019 stark beworben hat. Auch, wenn viele Deutsche in der Nutzung von digitalen Sprachassistenten noch ausgeprägte Bedenken betreffend ihrer Privatsphäre haben, so zeigt sich, dass sich bei steigender Nutzungsintensität eine sorgenfreierer und bewusstere Nutzung einstellt. Zunehmend sind Nutzende bereit für die Vorteile von Voice ihre Privatsphäre ein Stück weit aufzugeben.
Ende März 2020 nutzte in Deutschland jede zweite einen digitalen Sprachassistenten aktiv, das heisst mindestens wöchentlich. Rund 84% der Voice-Nutzenden interagieren mit Voice auf ihrem Smartphone. Wer Voice intensiv nutzt, tut dies auch häufig über Smart Speaker. Bereits 2019 verfügen 30% der deutschen Smart Speaker Haushalte durchschnittlich zwei Smart Speaker, mit einer klaren Tendenz zu Smart Speakern mit Display.
Obschon sich die Sprach-Benutzererfahrung (Voice User Experience) in den letzten Jahren nicht signifikant verbessert hat, etabliert sich Voice als Touchpoint mit situativ passenden Services, vor allem Content, Information und Unterhaltung. Smart Speaker treiben die verstärkte Konsumation von Audio Content (Musik-Streaming, Podcasts) an. Nutzende haben sich an die Sprachsteuerung zur Konsumation von Content gewöhnt. Sie sind bereit für die Aktivierung über Audio wie z.B. durch interaktive Werbung und neue Audio-Formate.2
Smart Speaker mit Display
Jeder vierte Smart Speaker in Deutschland verfügt bereits über einen Display, ein Trend der sich zukünftig fortsetzen wird. Während die Stimme das Eingabemedium ist, dient das Display als visuelles Feedback in Verbindung mit Sprachsteuerung. Displays haben einen signifikanten Einfluss auf Voice-Nutzung als Ausgabemedium. Die Kombination von Stimme und Display trägt dem Faktum Rechnung, dass Voice im Vergleich zur haptischen Tastatur um das dreifach schneller ist und das visuelle Display eine multisensorische Informationsaufnahme ermöglicht. Es ist davon auszugehen, dass die visuelle Rückmeldung über Displays sich positiv auf Voice-Commerce auswirkt.2
Der Voice First Barometer5 ist die erste repräsentative Marktstudie zur Erfassung von Beobachtung der Verbreitung von Sprach-Benutzeroberflächen (VUI: Voice User Interfaces) in der Schweiz, durchgeführt vom Institut für Marketing & Analytics der Universität Luzern, der Kommunikationsagentur Farner Consulting AG und Swisscom.
Schweizer Voice First Barometer
Im Jahr 2020 nutzten 47% der Schweizerinnen und Schweizer digitale Sprachassistenten. Kantonal betrachtet erwiesen sich das Tessin mit 58%, Basel-Landschaft mit 56% und Fribourg mit 53% als Top-Nutzende von digitalen Sprachassistenten. Sprachlich fühlten sich Walliser, St. Galler und Tessiner dialekt-bedingt von digitalen Sprachassistenten am schlechtesten verstanden.
Im Vergleich zum Vorjahr 2019 verzeichnete Voice Commerce einen 40% Zuwachs. Nutzende delegierten zunehmend Entscheidungen an digitale Sprachassistenten. Hierbei gebrauchten 30% der Schweizerinnen und Schweizer Sprach-Benutzeroberflächen indirekt im Kaufprozess und 7% direkt beim Kauf eines Produktes. Im Voice Commerce liegt der Fokus auf Lebensmitteln und Kleidungsstücken, mit einem Median der gekauften Produkte von CHF 90.
Zu den beliebtesten Funktionen gehören: Informationen abrufen (Nachrichten, Wetter), Navigieren (von A nach B mit Auto, Velo, zu Fuss), Befehle geben (jemanden anrufen, Timer setzen) und Lokalisieren (nächste Post-Filiale in Basel), Einkaufen (Eier und Salat auf die Einkaufsliste setzen).4 Mit 39% werden digitale Sprachassistenten in der Schweiz am häufigsten über das Smartphone genutzt. Weiters folgen Sprach-Benutzeroberflächen im Auto (14%), über das TV-Gerät (10%) und über Smart Speaker (3%). An dieser Stelle gilt es anzumerken, dass Smart Speaker erst seit Oktober 2019 offiziell in der Schweiz verfügbar sind. Es ist zu erwarten, dass die Nutzung von Smart Speakern zukünftig deutlich gewinnt.
Im Durchschnitt 43 Jahr alt, sind 45% der Nutzerinnen weiblich und 55% der Nutzer männlich. Mit einem Blick auf die Sprachregion sind 69% deutschsprachig, 23% französischsprachig und 8% italienischsprachig. 3
Nutzertypen und Motivation
Es gilt: Wer Voice intensiv nutzt, tut dies unabhängig vom Gerät. Wurde in der Vergangenheit in der Voice Nutzung nach Gerät unterschieden, konsolidiert sich das Bild, welches nicht das Endgerät sondern die Nutzungsintensität von digitalen Sprachassistenten in den Vordergrund stellt. Unterschieden wird hierbei in Intensivnutzer, Gelegenheitsnutzer, und Nichtnutzer. Je intensiver die Nutzung ausfällt, umso natürlicher gestaltet sich die Integration in den Alltag. Die wichtigsten drei Gründe für eine reibungslosere Nutzung von digitalen Sprachassistenten liegen in der Verbesserung der Spracherkennung, einer einfacheren User Experience (UX) sowie eines erweiterten Funktionsumfangs innerhalb von Voice-Apps.2
In Anlehnung an die Studie von Gartners «Hype of Cycle for Emerging Technologies» spricht OMD2 von drei Phasen der Nutzungsintensität von Smart Speakern innerhalb eines Jahres. Es geht deutlich hervor, dass die Nutzungsintensität eines Smart Speakers und die Dauer des Besitzes aufeinander Einfluss nehmen. Der sogenannte «Honeymoon-Moment», das initiale neugierige Ausprobieren und Nutzen der Technologie geht mit einer abflachenden Nutzung im weiteren Verlauf einher.
Phase 1: Ausprobieren
In den ersten beiden Monaten entdecken 80% der Nutzerinnen und Nutzer Smart Speaker täglich und testen Möglichkeiten aus.
Phase 2: Gewöhnung
Die Intensität der Nutzung nimmt ab. Eine Ernüchterung der (sehr) hohen Erwartungen an die Technologie tritt ein. Gartner spricht in diesem Kontext von «Trought of Dillusionment».
Phase 3: Alltag
Die Nutzung steigt an, pendelt sich auf ein Normal-Niveau ein, nach Gartner «Plateau of Productivity». Es bleibt abzuwarten, auf welchem Niveau sich die Alltagsnutzung von Smart Speakern einpendelt. 2
Fazit und Ausblick
Voice Touchpoints mit passender Markenstimme rücken für Marketingverantwortliche als Thema ins Blickfeld. Sprach-Benutzeroberflächen entwickeln sich zu einem ernstzunehmenden Kontaktmedium zwischen Marke und Nutzenden in der Form von Content, Dialogmedium, als Service oder zur Besetzung neuer Produktthemen. Voice Marketing ist Teil der integrierten Marketingstrategie von Unternehmen, welche mit Inspiration und Audio-Inhalten punkten wollen. Sprachtechnologie ist zweifelsfrei im Mainstream angekommen.
Als sanfter Einstieg lohnt es sich mit dem Thema vertraut zu machen und auf das Einpflegen strukturierter Daten über Branchenregister sowie über klassisches SEO zu achten. Denn was für die Suchmaschine gut auffindbar ist, kann auch über Sprachsuche erfolgreich ausgegeben werden. In einem weiteren Schritt schaffen Skills und Actions (Voice-Apps) individuelle Voice Erlebnisse für Marken und Unternehmen, ob als Touchpoint für Kundenservice oder als Verkaufsstelle (Point of Sale) über Voice Commerce.
Dennoch stehen Sprach-Benutzeroberflächen in der Ausschöpfung des Technologie-Potenzials noch am Anfang. Aktuell werden Sprachassistenten den hohen Erwartungen als Nutzersicht meist nicht gerecht. Es gilt durch überzeugende Use Cases einfache Anwendungen aufzuzeigen, welche im Alltag einen klaren Mehrwert generieren, Zeit sparen, Abläufe einfacher gestalten, Hilfestellungen anbieten und unterhalten. Einfach, intuitiv und systemkompatibel.
Unternehmen sind aufgefordert sich zu überlegen wie Sprachsteuerung intelligent und mehrwertstiftend in das bestehende Kommunikationsökosystem integriert werden kann. Besonderes Augenmerk gilt hierbei der gerätunabhängigen bzw. kontextorientierten Nutzung, z.B. für Smart Speaker mit oder ohne Display.
Voice Marketing mit Sprachtechnologie ist kein exklusives Privileg grosser Unternehmen. Wer frühzeitig beginnt und mit der Technologie wächst, hat die Nase vorne, auch Unternehmende und KMUs. Denn, wer als erstes kommt, mahlt zuerst bzw. wird von Alexa, Google Assistant, Siri und Co. über Sprachsuche gefunden.
Über die Autorin
Verena E. Huber haucht als Strategin für Markenkommunikation wertorientierten Brands Leben ein. Sie klärt, berät und setzt um, solo sowie gemeinsam mit ihrem Netzwerk. Seit 2020 befasst sich Verena mit dem Thema dialogfähige künstliche Intelligenz. Mit V^Voice, Agentur für Voice Search und Content, berät sie Unternehmende und KMUs zu Sprachsuche mit Sprachassistenten und erarbeitet Anwendungsfälle (Use Cases) für Sprachtechnologie nach Mass. Aktuell befasst sie sich mit dem Thema Conversational Design, dem Verfassen ansprechender Dialoge für Bots. «Better conversations for bots» verfolgt den Anspruch Dialoge zu konzipieren, welche dem künstlichen Gehirn der Bots mit strukturierten Daten und dem menschlichen Gehirn mit natürlicher Spracherkennung und Empathie die Brücke bauen.
Am besten ist Verena über LinkedIn zu erreichen.
Referenzen:
1. Amelia IPsoft Company (n.d.). The Essential Guide to Digital Employees: A Beginner’s Guide to Conversational AI. Whitepaper.
2. ODM Germany (2020). The Age of Voice 2.0. Voice Assistants in Deutschland: Nutzer, Content und neue Nutzungssituationen.Aufgerufen unter: https://www.omd.com/news/the-age-of-voice-2-0/
3. Universität Luzern, Institute für Marketing & Analytics, Farner AG, Swisscom (2020). Voice First Barometer Schweiz 2020. Top 7 Insights. Aufgerufen unter: https://www.unilu.ch/fileadmin/fakultaeten/wf/Dekanat/Dok/Studien/Voice_Barometer/Voice_Barometer_2020_Top_Insights.pdf
4. Farner News (2020, 29. April). Studie: Das rasante Wachstum von digitalen Sprachassistenten schafft neue Konsumentenbedürfnisse. Aufgerufen von https://www.farner.ch/2020/04/voicefirstbarometer2019/
5. Hürlimann, B. (2021, Februar 21). Voice First Barometer: Eine Studie zur Nutzung von Sprachassistenten in der Schweiz, Aufgerufen von https://www.horizont.net/schweiz/nachrichten/voice-first-barometer-eine-studie-ueber-die-nutzung-von-sprachassistenten-in-der-schweiz-189298
Antworten