Twórcy Bielika: zakładamy, że biznes odpowiedzialnie skorzysta z naszej AI

14.09.2024 aktualizacja: 23.09.2024

4 minuty czytania

Read the English version of this article

Źródło: Adobe Stock

Przygotowanie tłumaczeń polsko-angielskich, kategoryzowanie treści, przeszukiwanie dokumentów i wyciąganie z nich istotnych informacji - polskie przedsiębiorstwa mogą wiele zyskać, jeśli umiejętnie wesprą się Bielikiem - uważają jego twórcy. Bielik to bezpłatny otwarty model językowy wytrenowany na języku polskim.

Fundacja SpeakLeash (czytaj: Spichlerz) udostępniła pod koniec sierpnia drugą wersję polskiego modelu językowego (LLM) Bielik. Ten model językowy powstał jako efekt jednego z największych tego typu projektów w Polsce. Model opracowali wolontariusze fundacji przy wsparciu mocy obliczeniowej największych polskich superkomputerów AGH (Cyfronet).

Bielik jest modelem specjalizującym się w języku polskim, trenowanym na gigantycznych zbiorach polskich danych (40 mln dokumentów tekstowych). Przechodził on też dostrajanie na instrukcjach w języku polskim, a jego styl doszlifowany został za pomocą metod uczenia wzmacnianego, co było unikatowym podejściem w naszym kraju.

Na stronie fundacji dostępna jest wersja demo polskiego czatu, a programiści mogą ściągnąć darmową wersję programu działającą offline.

"Bielik to stosunkowo niewielki model językowy z 11 mld parametrów. Takie modele są wysoce dostępne" - tłumaczy Remigiusz Kinas ze SpeakLeasha. Aby wykorzystać cały potencjał Bielika, wystarczy komputer z kartą graficzną 24 GB. SpeakLeash udostępnił również bardzo dużą liczbę wersji kwantyzowanych (o zmniejszonej precyzji obliczeniowej), co jeszcze bardziej ułatwia stosowanie takich modeli z wykorzystaniem sprzętu o niewielkiej mocy obliczeniowej.

BIELIK TO NIE DRUGI CHATGPT

Bielik z założenia nie ma bezpośrednio konkurować z ChatemGPT, bo to inna klasa modeli AI. Remigiusz Kinas tłumaczy, że wykorzystanie dużych, komercyjnych modeli językowych, jak ChatGPT czy Gemini, w bardzo wielu zastosowaniach biznesowych jest niemożliwe. Poufne dane, np. dotyczące klientów czy niejawnych dokumentów spółki (choćby ze względu na ochronę danych osobowych), nie mogą trafiać na serwery dużych przedsiębiorstw.

Duże modele nie mają zwykle otwartego kodu źródłowego, a prace nad nimi nie są transparentne, więc nigdy do końca nie wiadomo, czy producenci nie użyją danych pozyskanych od użytkowników do dalszego trenowania swojej AI.

Na świecie powstaje więc wiele otwartych systemów AI, które działać mogą offline - przetwarzają dane wykorzystując jedynie moc obliczeniową danego komputera, dzięki czemu można korzystać z możliwości AI nie dając jej nawet dostępu do internetu.

Takim modelem jest właśnie Bielik. Może nie tworzy tak perfekcyjnych tekstów jak modele firm komercyjnych, gdzie na trenowanie modeli przeznacza się miliardy dolarów, a jego baza wiedzy nie jest na bieżąco aktualizowana, ale za to jest kompaktowy, szybki, zwinny, sprawnie operujący językiem polskim i polskim kontekstem kulturowym. Dzięki temu - jak mają nadzieję jego twórcy - pomoże polskim użytkownikom w pracy z dokumentami w języku polskim.

CO MOŻE POLSKI ORZEŁ?

Jak podaje przykłady Remigiusz Kinas, Bielikiem można się wspomóc w przeszukiwaniu i porządkowaniu treści maili, dokumentów, analizowaniu treści, kategoryzowaniu plików, konstruowaniu półautomatycznej korespondencji z klientami, korekcie językowej - a wszystko to przy zachowaniu poufności danych.

“Bielik zaskakująco dobrze spisuje się też w tłumaczeniu tekstów z języka polskiego na angielski i z angielskiego na polski” - uważa Kinas. I ocenia, że polska AI działa lepiej niż większość dostępnych online translatorów dla naszego języka.

Kolejna sprawa to “cenzura”. I tak np. ChatGPT wymiga się od wykonania niektórych zadań, które uzna za niestosowne lub kontrowersyjne. Na niektóre pytania czat od OpenAI odpisuje, że nie może pomóc w nielegalnych działaniach. Bielik tymczasem na to samo, nawet kontrowersyjne pytanie - po drobnym wstępie o tym, że to nielegalne - odpowiada w miarę szczegółowo (czy prawidłowo, to już osobna kwestia).

Remigiusz Kinas tłumaczy, że Bielik celowo nie zapewnia ochrony użytkowników przed dostępem do kontrowersyjnych treści. “Piszemy w regulaminie korzystania z modelu, że to model bez cenzury (zresztą jest to przyjęty standard w świecie modeli otwartych). W Bieliku nie dochodzi do wycinania contentu, bo to osłabiłoby model” - tłumaczy Remigiusz Kinas. I dodaje, że dzięki temu, że treści nie są filtrowane, AI jest “mądrzejsza”, pozwalająca na wykorzystanie w szerszym kontekście biznesowym.

“Nasz model nie był szkolony na tajnych dokumentach - odpowiada na podstawie wiedzy, która jest dostępna w internecie, więc każdy, kto by chciał znaleźć taką informację, i tak by ją znalazł. Wychodzimy z założenia, że biznes odpowiedzialnie będzie korzystał z modeli językowych” - mówi Kinas.

Kinas dodaje, że w kolejnych wersji Bielika fundacja planuje dołożenie tzw. safe-guarda, czyli wtyczki, która wytnie nieodpowiednie treści. Ale czy ją stosować, czy nie - zależeć będzie od użytkownika.

Bielik nie jest jedynym otwartym polskim modelem językowym. Nad swoim modelem pracuje również konsorcjum PLLuM, które tworzy sześć spośród wiodących w Polsce jednostek naukowych z obszaru sztucznej inteligencji i językoznawstwa. Remigiusz Kinas nie chce jednak, by traktować inne polskie modele jako konkurencję dla Bielika. “Moim marzeniem jest to, by SpeakLeash i PLLuM połączyły swoje siły, aby powstał nowoczesny, jak najlepszy polski model językowy” - mówi.

LEĆ NASZ ORLE W GÓRNYM PĘDZIE

Tłumaczy, że Bielik powstawał bez zewnętrznego finansowania, dzięki zaangażowaniu interdyscyplinarnego zespołu wolontariuszy, którzy pracowali nad polskim modelem językowym po godzinach.

“My robiliśmy Bielika za darmo, wieczorami i w weekendy. Do dyspozycji mieliśmy moc obliczeniową 450 kart graficznych Cyfronetu. Tymczasem OpenAI robił swój Chat GPT przy gigantycznym budżecie, dziesiątkach geniuszy światowej klasy zatrudnionych na etatach, przy mocy obliczeniowej setek tysięcy kart graficznych. Schlebia nam więc, jeśli ktoś porównuje Bielika z ChatGPT. Bo Bielik, owszem, wymaga poprawek, ale już widzimy, jak wiele możemy sami zrobić. Jako Polacy powinniśmy być dumni z tego projektu” - kończy.(PAP)

Nauka w Polsce, Ludwika Tomala

lt/ bar/

Fundacja PAP zezwala na bezpłatny przedruk artykułów z Serwisu Nauka w Polsce pod warunkiem mailowego poinformowania nas raz w miesiącu o fakcie korzystania z serwisu oraz podania źródła artykułu. W portalach i serwisach internetowych prosimy o zamieszczenie podlinkowanego adresu: Źródło: naukawpolsce.pl, a w czasopismach adnotacji: Źródło: Serwis Nauka w Polsce - naukawpolsce.pl. Powyższe zezwolenie nie dotyczy: informacji z kategorii "Świat" oraz wszelkich fotografii i materiałów wideo.

Technologia

Powstała nowa rodzina polskich modeli językowych do wyszukiwania informacji
Innowacje

Raport: w Polsce nie brakuje patentów, ale wciąż zbyt mało jest wykorzystywanych komercyjnie

Przed dodaniem komentarza prosimy o zapoznanie z Regulaminem forum serwisu Nauka w Polsce.

Fizycy: powinniśmy zwracać większą uwagę na jakość relacji społecznych
Wielkopolskie/ Ostatnia szansa na uratowanie gnieźnieńskiej parowozowni - największej w Europie
Dr Kosiński: analiza tragedii na Giewoncie pomoże ratować ofiary piorunów na całym świecie
Warszawa/ Motyka i siekiera wykonane z poroża jelenia - neolityczne znaleziska w Wiśle
Kierunek lekarski najpopularniejszy na Politechnice Wrocławskiej, psychologia na Uniwersytecie Wrocławskim

Odkryto cząsteczkę, która działa na kilka mechanizmów choroby Alzheimera
USA/ Na aukcji w Nowym Jorku sprzedano szkielet tyranozaura za rekordową kwotę 50 mln dolarów
Naukowcy odkryli, dlaczego ćwiczenia hamują starzenie się mięśni
Picie alkoholu w celu rozładowania stresu może trwale zmieniać mózg
Zapach czekolady może ułatwiać trening siłowy

Technologia

Powstała nowa rodzina polskich modeli językowych do wyszukiwania informacji
Technologia

W ramach PLLuM powstała “polska czapka” na dowolny model językowy
Technologia

Bielik wylądował! Polski model językowy rozwinął skrzydła dzięki superkomputerom z AGH

Lublin, 08.06.2025. Pszczoła na facelii. PAP/Wojtek Jargiło

Przyszłość Europy zależy od zapylaczy. Eksperci przedstawili plan ich ochrony

Ograniczenie stosowania pestycydów, odbudowa siedlisk, rozwój monitoringu dzikich zapylaczy oraz uwzględnienie ich ochrony we wszystkich politykach Unii Europejskiej – to najważniejsze rekomendacje raportu przygotowanego przez międzynarodowy zespół naukowców.