Data wydarzenia:

Laniqo: Omówienie problemu formalności języka i wykorzystania metody Minimum Bayes Risk do poprawy jakości tłumaczenia maszynowego

Data i godzina: wtorek, 28 maja 11:00 – 12:00

Prelegent: Artur Nowakowski (UAM/Laniqo)

Streszczenie:
Podczas seminarium zostaną przedstawione 2 artykuły dotyczące tematyki tłumaczenia maszynowego, które zostały zaakceptowane do zaprezentowania w trakcie konferencji EAMT 2024 (24-27 czerwca 2024, Sheffield, UK).
"Chasing COMET: Leveraging Minimum Bayes Risk Decoding for Self-Improving Machine Translation" (Kamil Guttmann, Mikołaj Pokrywka, Adrian Charkiewicz, Artur Nowakowski) -
https://arxiv.org/abs/2405.11937
Badania nad metodami dekodowania dla zadań generowania języka naturalnego (NLG) wykazały, że dekodowanie maximum a posteriori (MAP) nie jest optymalne, ponieważ prawdopodobieństwa tokenów generowane przez model nie zawsze pokrywają się z preferencjami ludzi. W tłumaczeniu maszynowym, zamiast dekodowania MAP, często wykorzystywane są alternatywne metody dekodowania, takie jak dekodowanie MBR (Minimum Bayes Risk), które dotychczas były mocno ograniczane przez szybkość działania.
Podczas seminarium zaprezentujemy wyniki badań nad samodoskonalącymi się modelami tłumaczenia maszynowego. W naszej pracy wykorzystaliśmy połączenie dekodowania MBR z metryką COMET do generowania syntetycznego zbioru uczącego. Może on być wykorzystany w dostrajaniu modelu bazowego na wysokiej jakości danych, prowadząc do znaczącej poprawy jakości tłumaczenia bez negatywnego wpływu na szybkość inferencji modelu.
"FAME-MT Dataset: Formality Awareness Made Easy for Machine Translation Purposes" (Dawid Wiśniewski, Zofia Rostek, Artur Nowakowski) -
https://arxiv.org/abs/2405.11942
Język naturalny niesie ze sobą informacje, które mogą być przekazywane na wiele różnych sposobów. W wielu językach można wyróżnić poziomy formalności, służące m. in. okazywaniu szacunku drugiej osobie, jednak tłumaczenie maszynowe często nie potrafi wykorzystać tych aspektów języka.
W naszej prezentacji przedstawiamy zbiór FAME-MT wspierający 15 języków europejskich, który może być wykorzystany do dostrajania modeli tłumaczenia maszynowego, aby podążały za zadanym poziomem formalności. W naszym wystąpieniu opowiemy o procesie powstawania zbioru, modelach proof-of-concept oraz analizie jakości FAME-MT.

Miejsce: B1-7/8 oraz online