Współautorka benchmarku OneRuler: nie pokazaliśmy wcale, że język polski jest najlepszy do promptowania

Fot. Adobe Stock
Fot. Adobe Stock

Media obiegła niedawno wiadomość, że „język polski jest najlepszy do promptowania”. To nie jest wniosek z naszych badań – dementuje Marzena Karpińska z Microsoft, współautorka pracy, z której polskie media zbyt pochopnie wyciągnęły taki wniosek.

OneRuler to wielojęzyczny benchmark (zestaw testów) służący do oceny, jak dobrze modele językowe radzą sobie z przetwarzaniem bardzo długich tekstów. Porównano w nim, jak różne modele AI radzą sobie z wyszukiwaniem informacji w 26 różnych językach.

Wprawdzie, średnio rzecz biorąc, w benchmarku modele AI najlepiej radziły sobie z językiem polskim, różnice te jednak nie były znaczne pomiędzy językiem polskim a angielskim, a wynik nie został przez autorów pracy wyjaśniony. W polskojęzycznych mediach podsumowujących te analizy pochopnie wyciągnięto z tych badań wnioski, że „język polski jest najlepszy do promptowania”.

Marzena Karpińska z Microsoft, współautorka badania, zapytana przez PAP, czy to prawda, że według tej pracy polski język jest najlepszy do promptowania, odpowiedziała: – Nie. Wcale tego nie badaliśmy. Stworzyliśmy narzędzie do diagnozowania modeli językowych, sprawdzające, jak dobrze są one w stanie wydobyć informacje z bardzo długich tekstów.

Wyjaśniła, że zadanie, jakie otrzymywały różne modele w ramach benchmarku, polegało na czymś w rodzaju odszukania igły w stogu siana: w książkę w danym języku włożono jakieś zdanie z informacją. A model – poinstruowany w tym samym języku – musiał właśnie to zdanie wskazać jako prawidłową odpowiedź. W edytorach tekstowych czy przeglądarkach z tego typu zadaniem radzi sobie zwykła funkcja CTRL+F (znajdź w dokumencie). Modele AI jednak nie mają jej wbudowanej.

Inne zadanie w ramach benchmarku polegało na opracowaniu listy najpopularniejszych słów z książki.

– Spodziewaliśmy się, że modele w wielu językach będą miały 100 proc. skuteczności. Nie miały. Zauważyliśmy, że modele zaczynają błądzić zwłaszcza wtedy, kiedy w instrukcji przypominaliśmy, że odpowiedź może nie być zawarta w wyszukiwanym tekście. A wtedy model powinien napisać, że odpowiedzi brak – powiedziała współautorka badania. Na tym zadaniu skuteczność znacznie spadała zapewne dlatego, że wymagało ono użycia całego kontekstu, a nie tylko przeszukania książki.

Tym, co mogło zaważyć na tym, jaki język wypadł w benchmarku najlepiej, mogła być metodologia, a konkretnie – dobór lektur wykorzystywanych w próbach. Dla każdego języka wykorzystywano bowiem inną książkę. I tak np. dla języka polskiego – informacje były wyszukiwane w 3. tomie książki „Noce i dnie”, dla języka hiszpańskiego - w „Don Kichocie”, dla angielskiego – w „Małych kobietkach”, a dla niemieckiego w „Czarodziejskiej Górze”. Nie były to więc te same teksty przetłumaczone na różne języki, ale zupełnie inne książki z różnych okresów historycznych. Możliwe więc, że to wcale nie język polski okazał się w czymś lepszy niż angielski, ale „Noce i dnie” okazały dla modeli z jakiegoś powodu łatwiejsze do przeczesania niż „Małe kobietki”.

Badaczka wyjaśniła, że taki dobór książek wynikał z konieczności wyboru tekstów w każdym języku, do których prawa autorskie już wygasły.

– W badaniu tym jest tak dużo różnych czynników, że na pewno nie możemy na jego podstawie stwierdzić, że polski jest najlepszym językiem do „promptowania” – zapewniła Karpińska.

Zdaniem rozmówczyni PAP to, że żaden z modeli nie osiągnął 100 proc. skuteczności w tak prostym zadaniu, powinno być przestrogą dla wszystkich użytkowników modeli językowych. - Ludzie ładują do chata GPT całe góry dokumentów i zadają pytania o te treści. A trzeba pamiętać, że modele językowe ciągle jeszcze mają bardzo ograniczone zdolności przetwarzania tekstu. Czasami są niesamowicie dobre, a chwilę później – popełniają ogromne błędy. Trzeba pytać drugi raz, upewniać się w innym modelu. No i przede wszystkim trzeba uważać, jakie dokumenty się do modeli ładuje, szczególnie jeśli chodzi o treści wrażliwe i prywatność – zakończyła badaczka.

Praca OneRuler została zrecenzowana i zaprezentowana w październiku br. na konferencji naukowej CoLM (Conference on Language Modeling).

Nauka w Polsce, Ludwika Tomala 

lt/ bar/

Fundacja PAP zezwala na bezpłatny przedruk artykułów z Serwisu Nauka w Polsce pod warunkiem mailowego poinformowania nas raz w miesiącu o fakcie korzystania z serwisu oraz podania źródła artykułu. W portalach i serwisach internetowych prosimy o zamieszczenie podlinkowanego adresu: Źródło: naukawpolsce.pl, a w czasopismach adnotacji: Źródło: Serwis Nauka w Polsce - naukawpolsce.pl. Powyższe zezwolenie nie dotyczy: informacji z kategorii "Świat" oraz wszelkich fotografii i materiałów wideo.

Czytaj także

  • Fot. Adobe Stock

    Rzeszów/ Uniwersytet Rzeszowski pożegna osoby, które oddały ciała dla nauki

  • Fot. Adobe Stock

    Raport OPI PIB: w UE wciąż za mało działań na rzecz równości płci w nauce

Przed dodaniem komentarza prosimy o zapoznanie z Regulaminem forum serwisu Nauka w Polsce.

newsletter

Zapraszamy do zapisania się do naszego newslettera