Data: 3 grudnia (wtorek), godz. 11:00 – 12:00
Miejsce: B1-7/8
Prelegent: mgr inż. Michał Junczyk (UAM)
Streszczenie: Na seminarium wygłoszę próbnie prezentację na obronę rozprawy doktorskiej. Praca dotyczy zastosowania metod zarządzania zbiorami nagrań mowy do oceny jakości systemów automatycznego rozpoznawania mowy (ang. ASR – Automatic Speech Recognition) dla języka polskiego. Celem rozprawy była poprawa użyteczności dostępnych zbiorów danych mowy oraz ich wykorzystanie do oceny jakości systemów ASR dla języka polskiego. Pierwsze zadanie polegało na rozwiązaniu problemów związanych z dostępnością i interoperacyjnością tych zbiorów. W tym celu stworzono przekrojowy katalog polskich danych mowy ASR, obejmujący 53 zbiory opisane za pomocą 66 atrybutów. Katalog ten umożliwił zidentyfikowanie zbiorów nagrań mowy dostępnych na otwartych licencjach. Wybrane zbiory danych zostały zorganizowane w sposób ułatwiający ich wykorzystanie przez praktyków zajmujących się rozwojem systemów ASR. Zorganizowane zbiory danych zostały nazwane “BIGOS (Benchmark Intended Grouping of Open Speech)” oraz “PELCRA for BIGOS”, gdzie PELCRA to nazwa grupy badawczej z Uniwersytetu Łódzkiego, która zgodziła się udostępnić swoje zbiory na potrzeby badania i otwartego wyzwania dla społeczności. Zbiory łącznie zawierają ponad 800 godzin nagrań i niemal 400 000 nagrań od 5 000 mówców. Wybrane nagrania z obu uporządkowanych zbiorów zostały wykorzystane do oceny jakości 25 modeli ASR na 24 podzbiorach o zróżnicowanych charakterystykach, co było największym tego typu badaniem dla języka polskiego. W celu zwiększenia wiarygodności analiz oraz ułatwienia replikacji wyników stworzono i udostępniono system do przeprowadzania testów, oraz analizy wyników. Przeprowadzone prace miały także na celu promocję standardowych metod oceny jakości systemów ASR dla języka polskiego. Cel ten zrealizowano poprzez publiczne udostępnienie wyników badań na platformie Hugging Face (Polish ASR leaderboard) i organizację otwartego konkursu w ramach programu PolEval (Task 3: Polish ASR challenge).