Zastosowanie najdokładniejszego dostępnego na rynku programu do rozpoznawania mowy w aplikacji Beey

9 maja, 2022 in Aktualności



Zastosowanie najdokładniejszego dostępnego na rynku programu do rozpoznawania mowy w aplikacji Beey

Na rynku pojawiła się nowa generacja oprogramowania do automatycznego rozpoznawania mowy (ASR), stworzonego przez Newton Technologies we współpracy ze SpeechLab (Uniwersytet Techniczny w Libercu). Oprogramowanie Speech to Text (zamiana mowy na tekst) jest wykorzystane w aplikacji internetowej Beey, której można następnie użyć do edycji nagrania w formie tekstowej.  

Nowy typ oprogramowania do rozpoznawania głosu nie opiera się na konkretnych danych zapisanych w słowniku, dzięki czemu potrafi rozpoznawać i transkrybować nawet takie słowa, które nie są ujęte w jego bazie danych. Wszelkiego rodzaju nieścisłości czy różnice w pisowni są widoczne po zastosowaniu automatycznego korektora pisowni, który natychmiast wychwytuje i zaznacza potencjalnie problematyczne dla edytora fragmenty. Oprogramowanie radzi sobie również lepiej z nagraniami o niżej jakości lub z nowymi słowami.  

Nowy model to poprawa jakości do nawet 10%

Sprawdzenie jakości transkrypcji przy użyciu nowego modelu ASR w porównaniu z poprzednią wersją jest stosunkowo proste – wymaga jedynie przetestowania kilku różnych plików dźwiękowych, takich jak audycje radiowe, nagrania rozmów telefonicznych, filmy z YouTube, nagrania z obrad parlamentu oraz rządu, wiadomości telewizyjne i reportaże. Automatyczną transkrypcję nagrań porównuje się z ręcznie sporządzonymi stenogramami.

Jednak im większy wzrost dokładności wyników rozpoznawania, tym coraz trudniej jest uzyskać znaczące zmiany. Właśnie dlatego nawet niewielkie ulepszenia są istotnym postępem. Wyniki testów przerosły najśmielsze oczekiwania: średnia trafność transkrypcji starego modelu ASR wynosiła 83,60%, natomiast nowy model ASR okazał się o ponad 9% lepszy i osiągnął dokładność na poziomie 92,65%. Wynik ten oznacza mniej więcej jeden błąd na każde 10 słów!

Beey kontra Microsoft i Google 

Interesujące jest również to, jak Beey wypada na tle konkurencji. Większość zagranicznych technologii ASR nie obsługuje języka czeskiego, dlatego w tym porównaniu wykorzystano tylko najczęściej używane narzędzia do transkrypcji: programy do rozpoznawania mowy firm Google i Microsoft. Wyniki ponownie okazały się zaskakujące: przy użyciu tych samych danych, oprogramowanie Beey osiągnęło trafność na poziomie 92,65%, Microsoft – 90,07%, natomiast Google jedynie 78,74%, czyli mniej niż starsze oprogramowanie Beey. Co więcej, próbki nie były idealnymi studyjnymi nagraniami pozbawionymi szumów w tle, a jedynie publicznymi nagraniami z czeskich mediów. Biorąc pod uwagę wielkość zespołów i budżet przeznaczony na rozwój tych międzynarodowych przedsiębiorstw, wynik małej czeskiej firmy można uznać za niezwykły sukces. Jest to skutek nie tylko ogromnej pasji, ale także ponad 15 lat badań i ogromnej ilości zebranych danych przez Newton Technologies w tym czasie.

Od czasu, gdy Beey jest dostępny również poza granicami czeskiego rynku, następnym oczywistym krokiem stało się sprawdzenie, jak oprogramowanie radzi sobie z transkrypcją innych języków. Przetestowano je na nagraniach o podobnym stopniu zróżnicowania jakości w języku angielskim i niemieckim. Różnica między tymi wynikami nie była już tak widoczna. W przypadku języka angielskiego ogólna dokładność programu ASR od Microsoft okazała się nieco lepsza niż programu Beey – 92,93% w porównaniu z 92,24%, zatem różnica nie przekroczyła 1%! W języku niemieckim, w którym liczba użytkowników wzrosła w ostatnim czasie, czeski program prezentuje się korzystniej niż międzynarodowy gigant. Beey osiągnął dokładność na poziomie 92.93%, a Microsoft 86,88%, co daje wynik lepszy o ponad 5%.  Pomimo ostatniej aktualizacji, usługa Google nie osiągnęła lepszych wyników – w języku niemieckim uzyskała 80,18% dokładności, a w angielskim jedynie 77,51%.

Beey nie ustępuje międzynarodowej konkurencji! Razem ze Speech Lab (Uniwersytet Techniczny w Libercu) aktywnie pracuje nad rozwojem nowego modelu rozpoznawania opartego na sieci neuronowej w większej ilości języków: na ten moment jest on dostępny dla języka norweskiego, rosyjskiego, słowackiego, a już niebawem polskiego. Chwilowo, w pozostałych językach wykorzystuje się poprzednią wersję ASR, jednak cały czas trwają prace nad unowocześnieniami.

Wykorzystanie Beey

Aplikacja Beey ma już ponad 8 tysięcy użytkowników. Cieszy się popularnością wśród dziennikarzy, którzy transkrybują wywiady i archiwizują nagrania. Wykorzystuje się ją również do monitoringu mediów, tak jak robi to na przykład austriacka agencja prasowa APA. Beey dostarcza napisy dla telewizji online – DVTV i Seznam TV. Profesjonalni korektorzy za jej pomocą przygotowują wysokiej jakości napisy dla telewizji NOVA i Prima. Pośród użytkowników Beey znajdują się również niektóre urzędy miejskie, samorządy i biura administracji państwowej.

Chcesz wypróbować automatyczną transkrypcję oferowaną przez Beey i porównać ją z innymi usługami? Napisz na adres feedback@beey.io, aby uzyskać dostęp do aplikacji i nagrań testowych.