Data: wtorek, 12.07.2022, godz. 11:00-12:00
Prelegent: Michał Junczyk
Abstrakt: Podczas seminarium przedstawię wyniki przeglądu informacji z domeny publicznej dot. korpusów mowy ASR dla języka polskiego. Dostępne meta-dane opisujące zawartość zbiorów (np. ilość i rodzaj nagrań, rodzaj licencji, dostępność danych etc.) zostały uporządkowane wedle taksonomii inspirowanej przypadkami użycia w przemyśle. W rezultacie powstał największy do tej pory katalog danych nt. zbiorów nagrań mowy ASR dla jęz. polskiego. Na seminarium przedstawię wnioski nt. stanu danych oparte o analizę informacji z katalogu, jak również jego znaczenie w pracach nad zwiększeniem praktycznej użyteczności dostępnych danych na potrzeby ewaluacji systemów ASR dla języka polskiego.
Miejsce: B1-7/8 oraz online