Profesor Jan Nouza uczy komputery ludzkiej mowy. Rozmowa z założycielem Laboratorium Komputerowego Przetwarzania Mowy

Czy zastanawialiście się kiedyś jak tak naprawdę działa przetwarzanie mowy na tekst? Systemy aplikacji Beey są oparte na technologii opracowanej na Uniwersytecie Technicznym w Libercu, jednym z naszych wieloletnich partnerów. Założyciel i członek pierwszego zespołu pracującego w Laboratorium Komputerowego Przetwarzania Mowy (SpeechLab), prof. dr inż. Jan Nouza udzielił na platformie informacyjnej iDNES.cz wywiadu, podczas którego szczegółowo opisuje jak działa ich system automatycznego rozpoznawania mowy. Poniżej możecie przeczytać fragment tej rozmowy, w którym profesor tłumaczy jaki był jego udział w procesie tworzenia całego systemu.

Prawdopodobnie wszyscy są w stanie wyobrazić sobie z jakimi problemami zmagają się osoby zajmujące się komputerowym przetwarzaniem mowy. Chcielibyśmy jednak spytać do czego i gdzie używa się obecnie systemów przetwarzania mowy na tekst?

Używa się go wszędzie tam, gdzie dominuje język mówiony, ale równocześnie do potrzeb przechowywania lub analizy potrzebny jest tekst. Tak właśnie jest w przypadku m.in. dyktowania dokumentów, monitoringu audycji radiowych i telewizyjnych lub przetwarzania ogromnych archiwów z zapisami mowy. Na przykład Czeskie Radio dysponuje gigantycznym archiwum, które powstaje od czasów pierwszych audycji w Czechosłowacji i każdego dnia dodawane są do niego zapisy dziesiątków godzin bieżących audycji. Nasz program pozwala na szybkie przeszukiwanie takich archiwów i natychmiastowe odsłuchiwanie tego, co zostało powiedziane. Podobnymi bazami danych dysponują obecnie również m.in. telefoniczne centra obsługi klienta i sądy.

Jan Nouza, vysokoškolský profesor na Technické univerzitě v Liberci.
Prof. Ing. Jan Nouza, CSc.
Profesor na Uniwersytecie Technicznym w Libercu i założyciel SpeechLab – laboratorium komputerowego przetwarzania mowy w Instytucie Technologii Informatycznych i Elektroniki.

Naszym systemem interesują się również służby bezpieczeństwa, które mogą wykorzystać go do m.in. identyfikowania wiadomości pozyskanych z przechwyconych rozmów telefonicznych. Nasza technologia pomaga również osobom z niepełnosprawnościami, które nie są w stanie korzystać z komputera przy pomocy rąk i zamiast tego wykorzystują komendy głosowe. Mogą oni m.in. głosowo sterować myszą, dyktować maile lub przeszukiwać Internet.

Wasza technologia okazała się również niezwykle przydatna podczas pandemii. Dlaczego?

Szczególnie na początku pandemii, Newton Technologies używał naszej technologii do błyskawicznego tworzenia napisów pojawiających się w telewizji pod ważnymi wiadomościami lub konferencjami prasowymi, co było szczególnie pomocne dla osób głuchych i głuchoniemych. Udało im się uruchomić tę usługę w zaledwie parę dni, co było wtedy wyjątkowo ważne.

Wiemy, że Pański system wspiera kilkanaście języków. Jak trudne jest dodawanie kolejnych?

Dwadzieścia lub trzydzieści lat temu systemy rozpoznawania mowy trzeba było tworzyć osobno dla każdego języka. Jednakże stopniowo rozwój technologii osiągnął poziom, na którym rdzeń systemu pozostaje ten sam, dodaje się tylko do niego cechy charakterystyczne dla danego języka takie, jak słownictwo, indywidualne fonemy i model językowy. Pracę nad innymi językami rozpoczęliśmy około piętnastu lat temu po tym, jak w pełni opracowaliśmy czeski. Najpierw skupiliśmy się na grupie najbliższej nam językowo, czyli na językach słowiańskich. Mniej więcej dwa lata pracowaliśmy nad słowackim, lecz stopniowo udawało nam się ulepszać cały proces, więc już praca nad następnym językiem – polskim – trwała tylko rok. Później zaczęliśmy dodawać kolejne języki dzięki naszej współpracy z firmą Newton Technologies, która skontaktowała się z nami, by przekazać nam swoje sugestie. W tej chwili jesteśmy w stanie prowadzić  transkrypcje w dwudziestu językach.

Czy cały ten proces wymaga wsparcia native speakerów?

W obecnych czasach opieramy się raczej na sieciach neuronowych i systemach uczących się – właśnie dzięki temu nowoczesne algorytmy są takie inteligentne. Najbardziej zaawansowane sieci neuronowe są nawet w stanie nauczyć się rozpoznawania słów, których nie ma w słowniku. Uczą się na swoich błędach, które stopniowo eliminują i w rezultacie nie potrzebujemy już native speakerów, czy językoznawców. To, czego potrzebujemy, to duża ilość danych. Im więcej dostarczymy ich do algorytmów, tym szybciej będą się one uczyć.

Oryginalna, pełna rozmowa przeprowadzona z prof. Nouzą przez Gabrielę Volną-Garbovą została opublikowana na portalu iDNES.cz.

Scroll to Top