Ten Głos Brzmi Znajomo! Automatyczne Rozpoznawanie Mówcy w Beey

Czy kiedykolwiek zdarzyło Wam się usłyszeć w radiu lub telewizji znajomy głos, ale nie mogliście przypomnieć sobie do kogo należy? Procesy podobne tym, które zachodziły wówczas w Waszych mózgach są teraz w zasięgu naszej Sztucznej Inteligencji (SI). Poprzez połączenie przetwarzania języka naturalnego (ang. NLP) oraz uczenia maszynowego (ang. ML) nasza SI jest w stanie ocenić, czy system napotkał głos, który słyszał już wcześniej i zidentyfikować mówcę, oszczędzając w ten sposób Wasz czas.

Rozpoznawanie, identyfikacja i weryfikacja mówcy nie jest nowym zagadnieniem. Od lat dziewięćdziesiątych naukowcy publikowali badania poświęcone nowym sposobom na identyfikowanie poszczególnych osób w oparciu tylko o ich głos, niezależnie od wymawianych słów. Nasz system SpeakerID jest oparty na działaniu konwolucyjnych sieci neuronowych (ang. CNN), które potrafią wyizolować potrzebne elementy danych akustycznych z nawet bardzo krótkiego nagrania głosowego, aby stworzyć próbkę głosu określonego mówcy.

Ze stworzoną w ten sposób bazą danych porównuje się następnie każde nowe nagranie audio. Każda próbka jest trzykrotnie sprawdzana pod kątem podobieństwa, aby potwierdzić poprawność pozytywnej identyfikacji głosu. Imię rozpoznanego mówcy jest następnie automatycznie wpisywane do projektu wraz z zapisanym wcześniej przez użytkownika opisem (np. „prowadzący program”, „minister”, „dziennikarz” itp. Jeżeli dane rozpoznanie nie jest do końca pewne lub próbka jest zbyt podobna do kilku głosów zapisanych w bazie danych, system nie uzupełni automatycznie imienia mówcy aby uniknąć błędnej identyfikacji.

Baza danych zawierająca modele głosów jest za każdym razem dopasowywana do potrzeb klienta; informacje dotyczące mówców pozostają poufne, a my nie publikujemy żadnych informacji dotyczących próbek głosu. Regularnie aktualizujemy jednak bazę danych jako, że głos określonej osoby może zmieniać się z biegiem lat tak samo, jak zmienia się technologia służąca do jego nagrywania. Dlatego też dodawanie nowych próbek do tych już posiadanych zwiększy szanse na poprawne rozpoznanie głosu w przyszłości.

Co może dla Ciebie zrobić SpeakerID?

Automatyczne dodawanie imienia mówcy do nagrania ma wiele zalet takich, jak m.in. zwiększenie dokładności transkrypcji. W większości przypadków ręczna identyfikacja może wymagać czasochłonnego wyszukiwania imienia autora chyba, że chodzi o bardzo charakterystyczny głos. Często sprawę utrudnia jeszcze bardziej skomplikowana pisownia imienia lub nazwiska. Korzystanie ze SpeakerID pozwala na uniknięcie ryzyka błędnego zapisania imienia mówcy i pomyłek w przypadku podobnych nazwisk jako, że są one zawsze sprawdzane w bazie danych, a ich rola lub pełniona funkcja są na bieżąco aktualizowane. Na przykład podczas transkrybowania wywiadu z politykiem, który kilkanaście razy zmieniał stanowisko w swojej partii, automatycznie wpisane zostanie tylko to najnowsze.

Co więcej, SpeakerID może pomóc w sytuacji, gdy transkrybowany jest jedynie fragment danej audycji, czy nagrania i nie ma możliwości potwierdzenia tożsamości jednego z uczestników. Przyspiesza też pracę osoby poprawiającej transkrypcję poprzez wpisanie imienia przy każdej wypowiedzi danej osoby, nie tylko tej pierwszej.

Ta technologia jest niezwykle przydatna dla osób planujących oprzeć się wyłącznie na automatycznej transkrypcji bez ręcznej korekty. W takim wypadku bardzo przydatny jest dostęp do usługi automatycznie identyfikującej mówców i wpisującej w odpowiednie miejsca ich imiona. Dzięki technologii rozpoznawania głosu automat nie musi już polegać wyłącznie na imionach pojawiających się w samym tekście.

Technologia SpeakerID jest obecnie wykorzystywana przez naszą siostrzaną firmę Newton Media. Dzięki niej jest ona w stanie oszczędzić znaczne ilości czasu podczas codziennej edycji zapisów transkrypcji. Pracujący w branży monitoringu mediów edytorzy mają do czynienia z określoną liczbą powtarzających się mówców: prezenterów telewizyjnych, znanych osobowości ze świata polityki i show-biznesu, rzeczników i przedstawicieli dużych firm. Do tej pory każdy występ takiej osoby mógł spowodować przestój związany z koniecznością wyszukania jej nazwiska. Teraz jednak większość głosów takich osób jest już dostępna w bazie danych i SpeakerID automatycznie wpisuje ich imię, nazwisko i funkcję.

„Jesteśmy niezwykle zadowoleni z pracy ze SpeakerID. Wdrożenie tej technologii przebiegło szybko i bezproblemowo, a pozytywne rezultaty były widoczne praktycznie od zaraz. Nasi edytorzy odczuli spadek natężenia pracy i w ich opinii nowe narzędzie jest bardzo precyzyjne. Nie otrzymaliśmy do tej pory żadnych skarg ze strony użytkowników, czy klientów” – potwierdza Václav Trunec, ekspert ds.Obsługi Klienta i Innowacji w Newton Media. W oparciu o ich doświadczenia naszą technologią zaczęły interesować się inne firmy – zagraniczne i krajowe, a my będziemy teraz w stanie w oparciu o przekazane przez nie dane ulepszać nasz model tak, by rozpoznawał jeszcze większą liczbę osób.

„W związku z pozytywnym odzewem i popytem na tę usługę, skupiamy się obecnie na stworzeniu bazy danych osób obecnych w Słoweńskich i Austriackich mediach. Jesteśmy jednak w stanie stworzyć bazę dla dowolnego kraju i dowolnej branży o ile tylko otrzymamy odpowiednią ilość danych” – podkreśla Martin Španěl, nasz dyrektor ds. Badań i Rozwoju.

SpeakerID funkcjonuje niezależnie od wybranego języka i dostępnego tekstu, ale – w obecnej wersji – dany model musi zostać przypisany do jednego z dostępnych języków, by mógł działać w Beey. Każda wersja oprogramowania identyfikacyjnego ma własną, prywatną bazę danych przypisaną do konkretnego klienta i oczywiście żadna z zawartych tam informacji nie jest dostępna na zewnątrz, aby zapewnić maksymalne bezpieczeństwo i poufność.

Czy słyszeliście wcześniej o tego typu technologii? Czy chcielibyście dowiedzieć się więcej? Napiszcie do nas na adres [email protected]!