Początek każdego roku to dobry czas na przyjrzenie się trendom. Niewątpliwie, rok 2019 może być zdominowany w Polsce przez technologie i asystentów głosowych. I to nie tylko dzięki polskiej premierze Google Assistant.

Kilka tygodni temu Kasia Ryniak i Rafał Cymerys zostali zaproszeni przez Krzysztofa Kempińskiego do podcastu Porozmawiajmy o IT. Głównym celem rozmowy było wprowadzenie do tematu asystentów głosowych oraz VUI (Voice User Interfaces) w kontekście branży IT.

Na jakie pytania znajdziesz odpowiedź w podcaście?

  • Czym w ogóle są technogie i asystenci głosowi?
  • W jakich branżach się je najczęściej wykorzystuje?
  • Jakie firmy i marki są obecnie najpopularniejsze jeśli chodzi o sprzęt i technologie?
  • Jaką rolę odgrywa Siri?
  • Jakie jest powiązanie z uczeniem maszynowym?
  • Jaką rolę odgrywają smartphone’y?
  • Czym są inteligentne głośniki smart speakers?
  • Jak od strony programistycznej tworzy się aplikacje na platformy głosowe?
  • Jakie języki programowania się w nich wykorzystuje?
  • Jak wygląda proces dodawania takiej aplikacji do sklepu?
  • Z czego składa się development kit Amazon Alexa i Google Assistant?
  • Jak rynek i rozwój technologii głosowych wygląda w Polsce?
  • Jakie są obecnie problemy, wyzwania i ograniczenia tych technologii?
  • W jakim kierunku zmierzają?

Porozmawiajmy o IT: Technologie Głosowe

Krzysztof: Cześć! Dzisiaj mam dwóch gości. Jest to co-funder, a właściwie co-founderka i CTO tejże samej firmy. A ta firma to Upside, która specjalizuje się w technologiach głosowych. I właśnie o tym nowym trendzie technologicznym dzisiaj porozmawiamy. Moimi gośćmi są Kasia Ryniak i Rafał Cymerys. Witam was bardzo serdecznie. Cieszę się, że będę miał okazję z wami porozmawiać i fajnie, że zgodziliście się przyjąć zaproszenie do podcastu.

Kasia: Cześć!

Rafał: Cześć!

Krzysztof: Bardzo się cieszę. Ja zawsze zaczynam od takiego wprowadzającego pytania na rozluźnienie, mianowicie: czy słuchacie podcastów, a jeśli tak, to jeśli moglibyście podzielić się takimi swoimi ulubionymi podcastami?

Kasia: To jest mój temat, więc ja zacznę. Jestem uzależniona od podcastów, słucham ich codziennie. Zaczynam dzień od podcastów. Jak wracam do tych pierwszych, których słuchałam, to był to „Tim Ferriss Show” jako jeden z najbardziej popularnych, jeszcze parę lat temu. Lubłam też podcasty, które opowiadały historię i często to były to kryminalne opowieści, czyli np. „Alice Isn’t Dead”. Później moje zainteresowanie powędrowało do bardziej biznesowych podcastów np. „HBR Ideacast” i „Biznes w IT” Piotrka Buckiego.

Rafał: Ja podcastów słucham trochę mniej, natomiast staram się wybierać te, które są naprawdę super i tak jeszcze do tego, co Kasia wymieniła dodałbym „99% Invisible”, który porusza tematy designu i biznesu, i odpowiada na wiele bardzo ciekawych pytań, np. skąd bierze się kształt pociągów w Japonii? Naprawdę ciekawa perspektywa na świat. Warto poszerzać horyzonty w tą stronę też.

Krzysztof: Bardzo ciekawe podcasty. Postaram się też podlinkować w opisie tego odcinka i cieszę się, że nie tylko ja jestem uzależniony od słuchania podcastów. Fajnie. Ok, to wobec tego rozpocznijmy od takiego dosyć ogólnego pytania, ponieważ nie wszyscy słuchacze mogą wiedzieć, czym są technologie głosowe? Bardzo bym was prosił o odpowiedź właśnie na to pytanie, czym są technologie głosowe?

Asystenci głosowi rosną w siłę

Kasia: W ogóle spotykamy się w bardzo ciekawym momencie, bo jesteśmy dosłownie parę dni po premierze Google Assistant w Polsce, po polsku, więc myślę, że powoli rośnie nam świadomość, czym są technologie głosowe. Technologie głosowe w tym momencie – w funkcji dostępnej dla nas jako do użytkowników – to głównie asystenci głosowi. Asystenci głosowi, zasilani sztuczną inteligencją, pomagają nam realizować proste akcje i umożliwiają skróty do wielu produktów i serwisów. To co jest w nich najwspanialsze, to fakt, że nie potrzebujemy ekranów, żeby się z nimi komunikować. Nie potrzebujemy interfejsów graficznych, ale możemy używać tego, co jest dla nas jako dla ludzi najbardziej naturalne – głosu i mowy.

Krzysztof: Jasne. Fajnie. Dzięki za tą odpowiedź. Ja też mam takie wrażenie, że to jest dopiero początek tych technologii, które kreują de facto inny interfejs albo interfejs, który przez pewien czas nie był tak mocno używany, jest jednocześnie bardzo naturalnym interfejsem, a z drugiej strony jako podcaster nie mogę chyba nie cieszyć się z racji na to, że tym bardziej technologie głosowe szerzej wchodzą do użycia.

Kasia: Dokładnie.

Najciekawsze case study

Krzysztof: A właśnie, wobec tego w jakich branżach najczęściej wykorzystuje się te technologie głosowe? Czy to jest tylko rynek B2C? Rynek taki e-commerce’owy? Czy też może jakoś szerzej możemy obecnie mówić o wykorzystaniu technologii głosowych?

Rafał: Wiesz co, B2C, to jest to z czym najprawdopodobniej większość z nas będzie miała styczność albo już miała styczność właśnie jako konsument. Większość z nas kojarzy Siri, która rozpoczęła trend asystentów głosowych, bodajże w 2011 roku była premiera pierwszej wersji Siri, na początku trochę z niej się podśmiewywali, ale koniec końców popchnęła temat do przodu. W tym momencie mamy Google Assistant i Alexę, które też są szeroko spopularyzowane.

Z asystentami głosowi mamy styczność przez smartphony i smart speakery, o których pewnie za chwilę będziemy rozmawiać. Natomiast same technologie głosowe, to jest trochę szersza perspektywa – asystenci głosowi, to jest tak naprawdę konsekwencja tego, że mamy rozpoznawanie głosu, które działa całkiem dobrze, ma gdzieś około 95% dokładności. Jest to naprawdę dobrym wynikiem. Co jest też bardzo ciekawe, to, że same te technologie, o ile my je widzimy na rynku B2C, one mają trochę zastosowań przemysłowych i te zastosowania rosną.

Myślę, że jednym z najciekawszych case study zastosowania przemysłowego, to jest to, co zrobił McDonald ze wsparciem pracy McDrive z wykorzystaniem rozpoznawania głosu i przetwarzania języka naturalnego. O ile w Polsce obsługa McDrive jest względnie prosta, o tyle w Stanach wielość akcentów sprawia, że staje się to skomplikowane. Poprzez dodanie komponentu rozpoznawania głosu połączonego z Machine Learning pomiędzy osobę zamawiającą a pracownika McDrive zmniejszono ilość pomyłek przy zamówieniach oraz zoptymalizowano cały proces. Było to duże zwycięstwo dla McDonald.

Giganci technologiczni inwestują w voice

Krzysztof: Padły tutaj jakieś nazwy, marki producentów, marki sprzętu, marki technologii. Chciałem was zapytać jakie firmy obecnie są zaangażowane w tworzenie takich technologii głosowych od strony technologii, od strony sprzętu? Ja przyznam szczerze, że kojarzę dwóch głównych gracz, czyli Google i Amazon, Siri, tak jak Rafał tutaj wspomniał, być może trochę wyśmiewane, ale jednak gdzieś tam się przepycha i pewnie pójdzie jeszcze bardziej do przodu, czyli te dwie, trzy, powiedzmy dwóch, trzech producentów jest takich najbardziej rozpoznawalnych, najbardziej znanych. Czy ktoś jeszcze tutaj na tym rynku się liczy?

Kasia: Jak patrzymy na rynek, to widzimy, że coraz więcej firm zaczyna się interesować tworzeniem własnych technologii głosowych i mamy np. Samsunga, który wypuścił Bixbi, swoją własną platformę. Jest też Facebook, który tworzy własny system rozpoznawania mowy i też wprowadza coraz więcej tych funkcji głosowych do swoich produktów. Co więcej, ostatnio miały miejsce targi CES w Las Vegas, największe targi komercyjnych technologii w Stanach Zjednoczonych – były one zdominowane przez firmy, które zarówno tworzą swoje własne platformy, ale również wykorzystają przetwarzanie mowy i wsparcie asystentów głosowych w swoich produktach.

Krzysztof: Pewnie. Należy przypuszczać, że coraz więcej takich graczy będzie wchodziło na rynek. Myślę, że coraz więcej firm, o których może nawet nie słyszymy, albo niektórych nie kojarzymy z tymi technologiami, będzie chciało kawałek tego tortu dla siebie zabrać, a przynajmniej mam taką nadzieję, że tak się będzie działo. Porozmawiajmy chwilę o Siri. Podchodzi się do tej technologii z pewnym żartem, ja nawet gdzieś tam słyszałem, że tak de facto technologia, która stoi za Siri, to jest po prostu gdzieś tam taka sieć „if-ów”, które mają za zadanie rozpoznawanie tego, co chcemy przekazać. To oczywiście jest pewien żart, ale ta technologia jeszcze powiedzmy nie jest aż tak dojrzała, jak inni konkurenci.

Rola Siri i Apple w grze o voice

Krzysztof: Chciałem was zapytać, jaką rolę na scenie technologii głosowych odgrywa obecnie Siri? Dużo się mówi o zastosowaniu uczenia maszynowego, z drugiej strony są też głosy, że to Siri niekoniecznie musi być to uczenie maszynowe być bardzo mocno zaimplementowane, że być może są to jakieś inne rozwiązania, typu drzewa decyzyjne, z drugiej strony ilość sprzętu Apple, które wspiera Siri jest tak duża, że po prostu się nie da tej technologii gdzieś tam pominąć, dlatego chciałem was zapytać o wasze zdanie, o waszą opinię. Jaką rolę obecnie odgrywa Siri, jeśli mówimy o technologiach głosowych?

Rafał: Tak jak wspominałeś, Siri była pierwszym mainstreamowym asystentem głosowym. W 2011 roku naprawdę zrobiła dużo szumu wokół samej technologii i przyciągnęła uwagę użytkowników. Czytałem kiedyś blog posta pisanego przez byłego inżyniera Appla, który właśnie opowiadał o tym, jak wyglądała pierwsza wersja Siri. To rzeczywiście była technologia rozpoznawania głosu plus cała masa „if-ów” i wyrażeń regularnych, które próbowały dopasować to, co powie człowiek i do konkretnej akcji, którą Siri potrafiła wykonać. Natomiast to były wczesne wersje. Część ludzi, która pamięta jak to działało wie, że doświadczenie nie było takie gładkie jak teraz. W tym momencie Siri zrobiła duży postęp, natomiast coś co widzimy jest ciągle do tyłu względem konkurencji – przez konkurencje rozumiejąc Amazona i Alexę, jak również Googla z Assistant’em. Coś, co ma w szczególności Google, to bardzo fajna integracja asystenta z całym ekosystemem Googla.

Zarówno Amazon jak i Google są również otwarte na customowe rozwiązania. Oznacza to, że możemy budować aplikacje głosowe, które są dostepne dla wszystkich użytkowników tych platform. Prowadzi to do sytuacji, że asystent głosowy staje się o wiele ciekawszy, bo potrafi realizować więcej funkcji niż to, co zostało dostarczone przez producenta.

Apple stosunkowo niedawno udostępnił możliwość budowania customowych aplikacji voice’owych. Natomiast ciągle działamy w bardzo ograinczonej strefie kilku use case’ów zdefiniowanych przez Apple. Takie limity nie pozwalają na pełne rozwinięcie skrzydeł Siri.

Natomiast, co jest też ciekawe, w ostatnich miesiącach Apple wrzucił dużo ofert pracy dla designerów i developerów związanych z światem konwersacyjnych interfejsów, w szczególności interfejsów głosowych. Obstawiamy, że Apple próbuje nadrobić straty.

Co wiecej, Apple około dwóch lat temu wypuścił własny Smart Speaker (Homepod) – trochę w odpowiedzi na to, co zrobił Amazon z Eco z Alexą i Google z Home. Nie udało mu się jednak zebrać dużej porcji rynku, jednak niedawno wyszła informacja, że Homepod bedzie dostępny w dystrubucji w Chinach. Bardzo czekamy na kolejne ogłoszenia od Apple.

Machine Learning

Krzysztof: Ja jestem ciekawy właśnie jak to będzie wyglądało. Wspomnieliśmy tutaj o uczeniu maszynowym, jeżeli chodzi o takie podstawy technologiczne, chociażby z rozpoznawaniem właśnie mowy, czy później w jakimś budowaniu odpowiedzi na to, co chcemy właśnie od Asystenta, od Siri, czy od Alexy. Zastanawiam się, czy technologie głosowe mają obecnie bardzo duże powiązanie z uczeniem maszynowym? Jak ten wpływ się przedstawia? Jak ten wpływ wkomponowuje się uczenie maszynowe w cały ten stuck technologiczny, który stoi za technologiami głosowymi?

Rafał: Zanim zrobimy cokolwiek z komendą użytkownika, musimy ją najpierw przetłumaczyć z fal dźwiękowych na tekst, który możemy sobie potem obrobić w automatyczny sposób i wyciągnąć z niego intencję użytkownika i ją zrealizować. Pierwszym krokiem, który tutaj się pojawia, to jest właśnie rozpoznawanie mowy. I tak naprawdę moment, w którym rozpoznawanie mowy doszło do dobrego poziomu, to był moment, w którym te technologie zaczęły się bardzo mocno rozwijać.

Drugą sprawą jest samo przetwarzanie języka naturalnego. Tam uczenie maszynowe ma swój wkład, chociażby na to w jaki sposób jesteśmy w stanie analizować zdania. W momencie, w którym Machine Learning doszedł do zaawansowanego stanu, zobaczyliśmy skok jakościowy w przetwarzaniu języka naturalnego.

Czytaj i słuchaj dalej na: https://porozmawiajmyoit.pl/poit-029-technologie-glosowe/