
Modele językowe PLLuM trenowano na polskich tekstach, strojono na rodzimych instrukcjach i wychowano na preferencjach polskich użytkowników. Dzięki temu, oprócz gotowych modeli, powstała “polska czapka”, którą można nałożyć na dowolny model językowy - powiedział PAP ekspert dr Jan Kocoń.
PLLuM (Polish Large Language Universal Model) to rodzina dużych polskich modeli językowych. Tego typu programy sztucznej inteligencji (AI) umożliwiają generowanie tekstu oraz przetwarzanie języka naturalnego. Dzięki nim komunikacja z maszyną nie wymaga od użytkownika stosowania sztywnych kodów i mechanicznych poleceń, ale przypominać może dialog z człowiekiem.
W odróżnieniu od komercyjnych modeli LLM (takich jak ChatGPT, Claude czy Gemini), modele PLLuM wyspecjalizowane są w języku polskim, choć do ich trenowania używano również tekstów w innych językach słowiańskich, bałtyckich oraz oczywiście w języku angielskim. Te dane treningowe mogą być uznane za dostosowaną do naszej kultury "nakładkę" na model.
W ramach projektu Ministerstwo Cyfryzacji udostępniło 18 modeli PLLuM - w różnych wersjach. “Myślę jednak, że te gotowe modele są mniej cennym zasobem niż zbiory polskich tekstów, instrukcji, dialogów, które zostały zebrane lub powstały w ramach projektu. Te zbiory, to jest taka +polska czapka+, którą możemy +włożyć+ właściwie na dowolny kolejny otwarty model językowy” - ocenił dr Jan Kocoń z Politechniki Wrocławskiej, kierownik naukowy projektu PLLuM.
“Chcieliśmy stworzyć od zera dobry model językowy bazując jedynie na polskich tekstach, ale okazało się, że zbiór polskich tekstów, korpus językowy, jest zbyt mały, by to się udało. Jakość takiego modelu byłaby zbyt niska. Budżet projektu nie był zaś wystarczający, by od zera trenować model na danych wielojęzycznych” - wyjaśnił dr Kocoń.
Na rynku są otwarte modele językowe mówiące już m.in. po polsku: Llama - wydana przez amerykańską firmę Meta AI i zbudowany przez Francuzów Mistral. Badacze w ramach projektu PLLuM postanowili więc zaadaptować te modele do języka polskiego; tak aby lepiej mówiły po polsku, lepiej orientowały się w polskich realiach i lepiej odpowiadały na potrzeby polskich użytkowników.
Modele językowe, bazując na ogromnych zbiorach dokumentów, muszą nauczyć się przewidywać kolejne słowo w danym ciągu. Rozpracowują więc rozkłady prawdopodobieństwa wystąpienia różnych słów w danym kontekście.
W fazie pretreningu wzięto więc te gotowe otwarte modele i kontynuowano ich uczenie z wykorzystaniem zgromadzonej w projekcie polskiej bazy tekstów. W wersji modelu, która będzie mogła być używana komercyjnie, przez prywatne firmy, korpus zawierał 22 mld słów (ok. 28 mld tokenów); musiały to być teksty dostępne na otwartych licencjach lub przekazane przez wydawców, którzy wyrazili na to zgodę. Z kolei model do użytku niekomercyjnego trenowany był na znacznie większym korpusie tekstów, składającym się z ok. 100 mld słów (150 mld tokenów).
W ten sposób uzyskano model dobrze pojmujący język polski i jego niuanse. Model ten jednak ciągle nie był “dostrojony” do dialogów - nie wiedział, czego się od niego oczekuje w czasie rozmowy; np. nie znał konwencji, w jakiej odpowiada się na różnego rodzaju pytania. Nie rozumiał też polskiej kultury i nie wiedział, jakie odpowiedzi są kulturalne, a jakie pytania zbywać suchą formułką.
Kolejną fazą było strojenie modelu na instrukcjach. Te instrukcje przypominają - w wielkim skrócie - pary pytanie i odpowiedź lub dialogi. Badacze nakarmili więc model przygotowaną przez siebie bazą przykładowych pytań i wzorcowych odpowiedzi, jakich oczekują. Było 40 tys. takich par, w tym 3,5 tys. dłuższych dialogów. Model więc nie tylko więc rozumiał już język, ale i nauczył się aktywnie go używać. “W ten sposób wlaliśmy w model polską duszę” - zażartował dr Kocoń.
Kolejnym etapem pracy nad modelem było jego wychowanie na preferencjach polskich użytkowników. Na tym etapie model generował więc na jedno pytanie po kilka różnych odpowiedzi, a polscy eksperci wskazywali, która z nich im najbardziej odpowiada i wskazywali ewentualne błędy. Eksperci manipulowali tzw. temperaturą odpowiedzi (w skrócie kreatywnością, z jaką model używa języka). Na tym etapie model był nauczany specyficznych aspektów języka polskiego, takich jak idiomy, slang czy konteksty kulturowe. Model dowiadywał się też, na które tematy nie powinien się wypowiadać, żeby np. nie pomóc użytkownikom w łamaniu prawa.
“Model czasem jeszcze daje się wprowadzić w maliny, ale znacznie rzadziej niż na początku. Na początku odpowiadał na 60 proc. +zakazanych pytań+, a teraz nabiera się już tylko na 7 proc. takich tzw. jailbrake’ów” - zrelacjonował badacz.
Od kiedy udostępniono PLLuM, użytkownicy zaczęli z niego korzystać, a naukowcy zyskali dostęp do kilkuset tysięcy rozmów Polaków z czatem. Dzięki temu lepiej poznają specyfikę korzystania z AI przez polskich użytkowników i będą mogli w przyszłości poprawiać nasze polskie modele.
Ludwika Tomala (PAP)
lt/ bar/ mhr/
Fundacja PAP zezwala na bezpłatny przedruk artykułów z Serwisu Nauka w Polsce pod warunkiem mailowego poinformowania nas raz w miesiącu o fakcie korzystania z serwisu oraz podania źródła artykułu. W portalach i serwisach internetowych prosimy o zamieszczenie podlinkowanego adresu: Źródło: naukawpolsce.pl, a w czasopismach adnotacji: Źródło: Serwis Nauka w Polsce - naukawpolsce.pl. Powyższe zezwolenie nie dotyczy: informacji z kategorii "Świat" oraz wszelkich fotografii i materiałów wideo.