Voice za rogiem

Voice za rogiem
O autorze
6 min czytania 2021-04-01

Jakiś czas temu miałam możliwość podzielić się swoją opinią na temat złowieszczo przepowiadanej śmierci tekstów pisanych. I choć jestem entuzjastką #voice, próba obiektywnego spojrzenia na rzeczywistość każe mi twierdzić, że to, że tak szybko zbliżamy się do upowszechnienia tej technologii w naszej codzienności, nie oznacza, że łatwość poznawcza i obsługowa wykreśli z naszych wyborów tradycyjne kanały interakcji cyfrowych. Postanowiłam jednak przyjrzeć się temu krajobrazowi nieco bliżej. A voice wziąć pod lupę.

Dwie strony medalu

Voice pozwala nam wracać do korzeni, korzystać z tego, co jest naturalne i wrodzone – z naszej mowy. Idzie za tym szalenie ważna rzecz – inkluzywność. Jakiś czas temu instruowałam bliską mi osobę, jak korzystać ze smartfona. Dla niej poznanie technologii, sposobów jej obsługi oznaczało konieczność pokonania wielu barier, nauczenia się nowego świata i jego zasad. W pewnym momencie zapytała mnie, czy jeśli przyciśnie ten mikrofon i po prostu to powie, to to się zadzieje. Tak! Właśnie o to chodzi – voice sprawia, że obsługa staje się seamless. Coś, o co jako projektanci na co dzień walczymy i staramy się dostarczyć użytkownikom. Aby nie natrafiali na przeszkody, tylko bezboleśnie i sprawnie robili to, czego chcą. Silversi mogą być fantastycznymi beneficjentami technologii voice. Ale to samo dotyczy dzieci, które instynktownie robią to, co wymaga od nich mniejszego wysiłku lub… jest bardziej dostępne, bo nie wymaga znajomości pisma! Jako ilustrację podać tu można z kolei anegdotę, którą opowiadał Karol Stryja, przytaczając historię dziecka, które zapytane, czemu korzysta z voice, zapytało o powód, dla którego miałoby pisać, skoro mówienie jest wygodniejsze. A zatem inkluzywność.

Zanim jednak popadniemy w zbytni entuzjazm, przypominam, że perspektywa inkluzywności ma jeszcze drugą stronę medalu. Czy voice będzie lekiem na całe zło? To byłoby zbyt piękne… Audio również wyklucza niektóre grupy społeczne, jak osoby słabo lub niesłyszące.

Czy przyszłość standardów WCAG będzie taka, że poszerzą się o aspekty dobrej dykcji, poprawnej artykulacji? Mówię o WCAG z przymrużeniem oka, ale to tylko dlatego, żeby zasygnalizować, że nie ma sensu obrażać się na tekst i porzucać go w ciemnej piwnicy, mówiąc „Już mi nie jesteś potrzebny”. Wciąż musimy dbać o jednostki, o grupy mniejszościowe, brać je pod uwagę, zapewniając komunikację w formach dla nich akceptowalnych.

Kolejny aspekt to to, o czym każdy z wypowiadających się w artykule Trendbook NowegoMarketingu (1/2021). Trend II. Śmierć słowa pisanego wspomniał. Każda z form – czy tekstowa, czy audio, czy wideo ma swoje walory i cechy pretendujące ją do opcji pierwszego wyboru w zależności od naszych potrzeb. Potrzeb wyrażonych z punktu widzenia użytkownika, ale też z punktu widzenia biznesu. A więc na jakie potrzeby odpowiada nam forma pisana? Grzegorz Miłkowski słusznie przywołał tu motyw intymności. Do tego dochodzi łatwość i szybkość nawigacyjna (podatność na skanowanie wzrokiem). Audio daje z kolei szerokie możliwości multitaskingu. Gwarantuje wytchnienie od ekranów, których chyba wszyscy mamy już delikatnie dość od marca 2020… Wideo – idealne do celów rozrywkowych, choć krzywdzącym byłoby poprzestanie na tym. Tu też jest aspekt precyzyjności przekazu (instruktaże, porady, wizualizacje), identyfikowalności za pomocą zmysłu wzroku, bez pozostawiania przestrzeni na domysły lub nietrafione interpretacje. Oczywiście to tylko kilka potrzeb i okoliczności, które determinować mogą wybór, po co sięgamy. Ale są też potrzeby, co do których ten wybór nie będzie już jednoznaczny. Emocje. One – obok cech takich jak pobudzanie wyobraźni, stymulowanie kreatywności – są dla mnie obszarem, na który żaden z kanałów – wideo, audio czy tekst – nie mają monopolu. Im dłużej się nad tym zastanawiam, tym bardziej mnie to cieszy. Bo nadal dostarczać możemy przyszłym pokoleniom te wartości, nie narzucając formy, z którą mają obcować.

LinkedIn logo
Na LinkedInie obserwuje nas ponad 100 tys. osób. Jesteś tam z nami?
Obserwuj

Tekst jako fundament?

Myśląc o prowokacyjnie deklarowanej przez media dominacji audio i wideo wciąż miałam w głowie fundament, na którym oparty jest dziś świat cyfrowy. Teksty. Frazy kluczowe. SEO. Wyszukiwanie tekstowe. Jak by powiedział Hamlet: „Słowa, słowa, słowa…” 🙂 Ba! Biorąc pod lupę voice również mówimy o TTS, czyli zmianie tekstu na mowę oraz ASR, czyli zmianie mowy na tekst. Ale technologia zmienia się w błyskawicznym tempie. Być może za 10 lat ten pośrednik będzie zbędny? Przecież już teraz uczymy się pomijać te wszystkie wytwory i komunikować na linii mózg-komputer. Bez słów, bez komend głosowych, tekstowych czy innych. Tylko przez impuls. Myśl. Fascynująco opowiadała o tym Jowita Michalska podczas VoiceFest – Festiwalu Asystentów Głosowych i Chatbotów. Dlatego technologia to nie przeszkoda, by zrezygnować z tekstu pisanego. Gdzie i czy jest zatem realna przeszkoda?

Voice, czyli co?

Mam wrażenie, że w wielu debatach na temat voice panuje chaos poznawczy i mieszanie pojęć, o których mowa. Voice to bowiem kilka rzeczy naraz. To jednocześnie interfejs, to też kanał komunikacyjny, a zarazem technologia. Inspirujące rozważania na ten temat toczy Maarten Lens-FitzGerald w swoim artykule Is Voice about Voice technology or is it about Voice as a channel? A zatem pomyślmy o tym niezależnie, czyli o voice jako VUI (voice user interface) oraz voice jako kanale – z czego oba zasilane są technologią, która jest tu wspólnym mianownikiem.

Słuchaj podcastu NowyMarketing

VUI – jeszcze nie tak dawno pieśń przyszłości – dziś wdziera się na salony, roztaczając przed nami obiecującą przyszłość, w której bez absorbowania rąk czy wzroku wydajemy komendy, na które odpowiadają lub które realizują urządzenia.

NowyMarketing logo
Mamy newsletter, który rozwija marketing w Polsce. A Ty czytasz?
Rozwijaj się

Voice user interface jest dla mnie fascynujący chociażby z tego powodu, że brak graficznego odpowiednika interfejsu wymaga nie lada precyzji komunikacyjnej i genialnego przewidywania ruchów użytkownika, aby zabezpieczyć go przed frustracją nietrafionych domysłów w interakcji z technologią. Tu kłania się ogromne wyzwanie i ekscytująca przygoda dla projektantów interfejsów głosowych.

Tak jak mobile zmienił naszą rzeczywistość, czyniąc smartfon technologią niemal przyspawaną do naszej ręki, dostępną w każdej chwili i miejscu, tak przypuszczam, że VUI będzie kolejnym krokiem ku przyspieszeniu. Komendy głosowe – łatwiejsze i szybsze do wydania – mogą z łatwością zdominować naszą rzeczywistość. Rezygnacja z interfejsu głosowego dotyczyć może szczególnych okoliczności, jak np. przy niesprzyjających warunkach audio/akustycznych czy w sytuacji, gdy szczególnie zależeć będzie nam na prywatności.

Voice rozumiany jako kanał to z kolei materia zupełnie innej natury. Nie mówimy tu o interakcji z technologią, ale o formie przyswajania podawanej treści. Podcasty to jedno z jej wcieleń. Społecznościówki typu Clubhouse czy pokoje głosowe na Discord – kolejna z odsłon. Jak to z nowym kanałem bywa – nie dziwi entuzjazm i wznosząca się fala popularności. Czy to znaczy jednak, że ten kanał wyeliminuje pozostałe? Nie sądzę. Owszem, może zamieszać i wpłynąć na zmianę szyków, ale nie przekreśli pozostałych form. Uważam, że realną przeszkodą do przejęcia władzy i zapanowania niepodzielnie w krajobrazie różnych kanałów będzie po prostu potrzeba różnorodności. Jako ludzie lubimy mieć wybór.

W 2020 roku Polacy chętniej sięgali po książki. Zmęczeni monitorami i powszechną „cyfrozą”, uciekaliśmy do papieru. Sama po około 9 h przed komputerem w czasie lockdownu przerzucałam się na podcasty po to, by wieczorem do poduszki poczytać książkę papierową. Gdybym była zmuszona przyswoić przez jeden kanał treści, które przyswoiłam przez ten cały dzień… hmmm… obawiam się, że moje możliwości poznawcze mogłyby się szybko wyczerpać… Podcasty są dla mnie w tym scenariuszu idealną formułą, która pozwala pogodzić kilka czynności naraz. Książka papierowa zaś jest relaksem i wyciszeniem umysłu po całodziennym ostrzale technologicznym.

Potrzeba różnorodności, która pozwala trwać, dotyczy mnóstwa wynalazków naszej cywilizacji. One wciąż są ostoją, drogą do równowagi. I choć może nie wszystkie są w mainstreamie, to wciąż istnieją, a nawet – jak słusznie zauważył Karol Stryja – otrzymują nowe formy życia i nowoczesne wcielenia (przykładowo Instagram Stories to serial reality show w naszych telefonach). Kanał audio staje się zatem kolejną alternatywą, a coraz częściej zauważam jego symbiozę z innymi kanałami np. podcasty, w ramach których jako notatka pisemna z boku odsyła się słuchacza do materiałów dodatkowych online lub osiągalnych w tradycyjnej formie.

Voice jako nośnik danych

Interfejs, kanał, technologia. Czy może być coś jeszcze? Tak – nośnik danych, który pozwala wykorzystywać każdy z tych aspektów i dobrodziejstw, jakie przynosi nam voice.

Podczas II Wojny Światowej Niemcy analizowali dźwięki nadawane przez BBC w ich programach informacyjnych. Analiza odgłosu wybijanej godziny z Big Bena pozwoliła niemieckim fizykom odczytywać, jaka pogoda aktualnie panuje nad Londynem. Stąd było już niedaleko do cennej informacji dla Luftwaffe. Brytyjskie tajne służby rozprawiły się z problemem – BBC zastąpiło dźwięk na żywo, powtarzanym jednym i tym samym nagraniem Big Bena.

Dźwięk jako marker, jako wyznacznik, przekaźnik danych – niekoniecznie tych intencjonalnie wyartykułowanych. To już nie abstrakcja. Jak można to wykorzystać? Z pomysłem przyszła Sonde Health – mobilna aplikacja, która na bazie 6 sekund głosu pacjenta potrafi zdiagnozować jego problemy oddechowe (jak astma czy choroba płuc). Aplikacja nie została oficjalnie uznana za produkt medyczny, choć jej skuteczność wykrywania problemów oddechowych została określona jako trafna w 70%. Kilka firm w U.S. korzysta z niej obecnie w celu monitorowania stanu zdrowia swoich pracowników. Aplikacja, bazując na algorytmach, porównuje nasz głos do tysięcy innych, szacując poziom ryzyka choroby. Oczywiście twórcy przestrzegają, że aplikacja nie zastąpi diagnozy klinicznej, niemniej jest dobrym rozwiązaniem na stały monitoring zdrowia oraz budowanie nawyków jego regularnej kontroli.

Nie jest to zupełnie nowy koncept. Już w 2017 roku doktor Carlos Ramirez z Madrytu ogłosił swoją aplikację Voice Clinical Systems narzędziem akustycznej diagnozy, wspierającym pracę specjalistów medycznych. 3 typy raportów udostępnianych przez aplikację dają możliwość weryfikacji zarówno patologii funkcjonalnych, jak i organicznych. Innymi słowy: aplikacja jest zdolna wykryć zarówno chorobę, jak i defekt funkcjonalny, wymagający rehabilitacji. Co ciekawe: aplikacja pomaga wykryć również nieprawidłowości w głosie, które mogą być pierwszymi objawami choroby Parkinsona.

Symbioza i synergia

Tak – voice jest tuż za rogiem, a obszary, w jakich może być nam pomocny są ciągle do odkrycia. Choć wielu z nas poznało go już dość konkretnie i namacalnie, to jego prawdziwy rozkwit i popularność jest wciąż przed nami. Wierzę, że jego natura pozwoli nam cieszyć się intuicyjnością i dostępnością technologii w jeszcze większym stopniu niż dotychczas sobie to wyobrażaliśmy. Wierzę też, że w synergii z innymi możliwościami naszej cywilizacji, pozwoli nam znaleźć oraz stworzyć dużo dobra w czasach, w których żyjemy i dla kolejnych pokoleń.