Instytut Badawczy OPI udostępnia publicznie neuronowe modele języka

adobeStock
adobeStock

Ośrodek Przetwarzania Informacji rozwija „neuronowe modele języka” na co dzień wykorzystywane do wychwytywania spamu lub jako system antyplagiatowy. W tym roku oddali do użytku dwa kolejne – Polish RoBERTa v2 oraz przeznaczony do zadań związanych z generowaniem tekstu model GPT-2 .

W ciągu ostatnich kilu lat znacznie wzrosła popularność neuronowych modeli języka. Obserwuje się też bardzo szybki wzrost ich rozmiaru (liczby parametrów). Wykorzystywane są one powszechnie, jednak niewiele osób zdaje sobie z tego sprawę. To właśnie dzięki nim użytkownicy internetu mają dostęp do usług tłumaczenia tekstu na różne języki, możliwe jest wykrywanie spamu, realizowane są badania nastrojów społecznych w sieci, a także z ich pomocą każdy ma dostęp do automatycznej korekty tekstu czy też może porozmawiać z chatbotem - przypomniano w informacji prasowej Ośrodka Przetwarzania Informacji – Państwowego Instytutu Badawczego (OPI PIB), przesłanej PAP.

Prace nad rozwojem neuronowych modeli języka trwają w wielu ośrodkach informatycznych i firmach na całym świecie. Branża IT już od dłuższego czasu dostrzega w nich duży potencjał. Mają one coraz większe zastosowanie w życiu każdego użytkownika internetu. Opracowanie nowych modeli neuronowych wymaga jednak dużych mocy obliczeniowych i specjalistycznej infrastruktury. Niemożliwe jest ich wytrenowanie przez pojedyncze osoby lub małe organizacje. Dodatkowo niezbędne są duże ilości danych. Tak jak w przypadku innych narzędzi opartych na sztucznej inteligencji (SI) – im większy zbiór danych został wykorzystany do wytrenowania modelu, tym będzie on bardziej precyzyjny.

Większość tych modeli opracowywanych jest jednak dla języka angielskiego. Dlatego naukowcy z OPI PIB rozwijają i udostępniają innym polskojęzyczne modele. W tym roku oddali oni do użytku dwa kolejne – Polish RoBERTa v2 oraz GPT-2.

„Dane modele mogą być np. stosowane do badań nad wykrywaniem i klasyfikowaniem hejtu w mediach społecznościowych czy też fake newsów. Modele w języku polskim są niezbędne do analizy polskiego internetu, nie da się badać danych zjawisk używając narzędzi obcojęzycznych” – czytamy w komunikacie dla mediów.

Część bazową korpusu danych modeli stanowią wysokiej jakości teksty (wikipedia, dokumenty polskiego parlamentu, wypowiedzi z mediów społecznościowych, książki, artykuły, dłuższe formy pisane). Z kolei część internetowa korpusu to ekstrakty ze stron internetowych (projekt CommonCrawl), które wcześniej zostały odfiltrowane i odpowiednio wyczyszczone.

„Modele udostępnione przez OPI PIB oparte są na sieciach transformer. Architektura ta jest stosunkowo nowa – stosowana jest od 2017 roku. Sieci typu transformer nie opierają się na sekwencyjnym przetwarzaniu danych, zamiast tego przetwarzają je w sposób jednoczesny” – mówi cytowany w komunikacie Sławomir Dadas, zastępca kierownika Laboratorium Inteligentnych Systemów Informatycznych w OPI PIB.

Trenowanie jednego modelu zajmuje ekspertom ok. 3-4 miesiące. Wszystkie swoje neuronowe modele języka OPI PIB przetestował z wykorzystaniem Kompleksowej Listy Ewaluacji Językowych (KLEJ benchmark) opracowanej przez Allegro. Umożliwia ona ocenę działania modelu na podstawie dziewięciu zadań, takich jak np. analiza sentymentu lub badanie semantycznego podobieństwa tekstów. (PAP)

uka/ zan/

Fundacja PAP zezwala na bezpłatny przedruk artykułów z Serwisu Nauka w Polsce pod warunkiem mailowego poinformowania nas raz w miesiącu o fakcie korzystania z serwisu oraz podania źródła artykułu. W portalach i serwisach internetowych prosimy o zamieszczenie podlinkowanego adresu: Źródło: naukawpolsce.pl, a w czasopismach adnotacji: Źródło: Serwis Nauka w Polsce - naukawpolsce.pl. Powyższe zezwolenie nie dotyczy: informacji z kategorii "Świat" oraz wszelkich fotografii i materiałów wideo.

Czytaj także

  • Fot. Adobe Stock

    Chwytak Politechniki Wrocławskiej pomyślnie przeszedł test w kosmosie

  • Katowice, 14.11.2024. Minister funduszy i polityki regionalnej Katarzyna Pełczyńska-Nałęcz. PAP/Jarek Praszkiewicz

    Pełczyńska-Nałęcz: kolejna „Ścieżka SMART” będzie oceniana dwa razy szybciej

Przed dodaniem komentarza prosimy o zapoznanie z Regulaminem forum serwisu Nauka w Polsce.

newsletter

Zapraszamy do zapisania się do naszego newslettera