Twórcy Bielika: zakładamy, że biznes odpowiedzialnie skorzysta z naszej AI

Źródło: Adobe Stock
Źródło: Adobe Stock

Przygotowanie tłumaczeń polsko-angielskich, kategoryzowanie treści, przeszukiwanie dokumentów i wyciąganie z nich istotnych informacji - polskie przedsiębiorstwa mogą wiele zyskać, jeśli umiejętnie wesprą się Bielikiem - uważają jego twórcy. Bielik to bezpłatny otwarty model językowy wytrenowany na języku polskim.

Fundacja SpeakLeash (czytaj: Spichlerz) udostępniła pod koniec sierpnia drugą wersję polskiego modelu językowego (LLM) Bielik. Ten model językowy powstał jako efekt jednego z największych tego typu projektów w Polsce. Model opracowali wolontariusze fundacji przy wsparciu mocy obliczeniowej największych polskich superkomputerów AGH (Cyfronet).

Bielik jest modelem specjalizującym się w języku polskim, trenowanym na gigantycznych zbiorach polskich danych (40 mln dokumentów tekstowych). Przechodził on też dostrajanie na instrukcjach w języku polskim, a jego styl doszlifowany został za pomocą metod uczenia wzmacnianego, co było unikatowym podejściem w naszym kraju.

Na stronie fundacji dostępna jest wersja demo polskiego czatu, a programiści mogą ściągnąć darmową wersję programu działającą offline.

"Bielik to stosunkowo niewielki model językowy z 11 mld parametrów. Takie modele są wysoce dostępne" - tłumaczy Remigiusz Kinas ze SpeakLeasha. Aby wykorzystać cały potencjał Bielika, wystarczy komputer z kartą graficzną 24 GB. SpeakLeash udostępnił również bardzo dużą liczbę wersji kwantyzowanych (o zmniejszonej precyzji obliczeniowej), co jeszcze bardziej ułatwia stosowanie takich modeli z wykorzystaniem sprzętu o niewielkiej mocy obliczeniowej.

BIELIK TO NIE DRUGI CHATGPT

Bielik z założenia nie ma bezpośrednio konkurować z ChatemGPT, bo to inna klasa modeli AI. Remigiusz Kinas tłumaczy, że wykorzystanie dużych, komercyjnych modeli językowych, jak ChatGPT czy Gemini, w bardzo wielu zastosowaniach biznesowych jest niemożliwe. Poufne dane, np. dotyczące klientów czy niejawnych dokumentów spółki (choćby ze względu na ochronę danych osobowych), nie mogą trafiać na serwery dużych przedsiębiorstw.

Duże modele nie mają zwykle otwartego kodu źródłowego, a prace nad nimi nie są transparentne, więc nigdy do końca nie wiadomo, czy producenci nie użyją danych pozyskanych od użytkowników do dalszego trenowania swojej AI.

Na świecie powstaje więc wiele otwartych systemów AI, które działać mogą offline - przetwarzają dane wykorzystując jedynie moc obliczeniową danego komputera, dzięki czemu można korzystać z możliwości AI nie dając jej nawet dostępu do internetu.

Takim modelem jest właśnie Bielik. Może nie tworzy tak perfekcyjnych tekstów jak modele firm komercyjnych, gdzie na trenowanie modeli przeznacza się miliardy dolarów, a jego baza wiedzy nie jest na bieżąco aktualizowana, ale za to jest kompaktowy, szybki, zwinny, sprawnie operujący językiem polskim i polskim kontekstem kulturowym. Dzięki temu - jak mają nadzieję jego twórcy - pomoże polskim użytkownikom w pracy z dokumentami w języku polskim.

CO MOŻE POLSKI ORZEŁ?

Jak podaje przykłady Remigiusz Kinas, Bielikiem można się wspomóc w przeszukiwaniu i porządkowaniu treści maili, dokumentów, analizowaniu treści, kategoryzowaniu plików, konstruowaniu półautomatycznej korespondencji z klientami, korekcie językowej - a wszystko to przy zachowaniu poufności danych.

“Bielik zaskakująco dobrze spisuje się też w tłumaczeniu tekstów z języka polskiego na angielski i z angielskiego na polski” - uważa Kinas. I ocenia, że polska AI działa lepiej niż większość dostępnych online translatorów dla naszego języka.

Kolejna sprawa to “cenzura”. I tak np. ChatGPT wymiga się od wykonania niektórych zadań, które uzna za niestosowne lub kontrowersyjne. Na niektóre pytania czat od OpenAI odpisuje, że nie może pomóc w nielegalnych działaniach. Bielik tymczasem na to samo, nawet kontrowersyjne pytanie - po drobnym wstępie o tym, że to nielegalne - odpowiada w miarę szczegółowo (czy prawidłowo, to już osobna kwestia).

Remigiusz Kinas tłumaczy, że Bielik celowo nie zapewnia ochrony użytkowników przed dostępem do kontrowersyjnych treści. “Piszemy w regulaminie korzystania z modelu, że to model bez cenzury (zresztą jest to przyjęty standard w świecie modeli otwartych). W Bieliku nie dochodzi do wycinania contentu, bo to osłabiłoby model” - tłumaczy Remigiusz Kinas. I dodaje, że dzięki temu, że treści nie są filtrowane, AI jest “mądrzejsza”, pozwalająca na wykorzystanie w szerszym kontekście biznesowym.

“Nasz model nie był szkolony na tajnych dokumentach - odpowiada na podstawie wiedzy, która jest dostępna w internecie, więc każdy, kto by chciał znaleźć taką informację, i tak by ją znalazł. Wychodzimy z założenia, że biznes odpowiedzialnie będzie korzystał z modeli językowych” - mówi Kinas.

Kinas dodaje, że w kolejnych wersji Bielika fundacja planuje dołożenie tzw. safe-guarda, czyli wtyczki, która wytnie nieodpowiednie treści. Ale czy ją stosować, czy nie - zależeć będzie od użytkownika.

Bielik nie jest jedynym otwartym polskim modelem językowym. Nad swoim modelem pracuje również konsorcjum PLLuM, które tworzy sześć spośród wiodących w Polsce jednostek naukowych z obszaru sztucznej inteligencji i językoznawstwa. Remigiusz Kinas nie chce jednak, by traktować inne polskie modele jako konkurencję dla Bielika. “Moim marzeniem jest to, by SpeakLeash i PLLuM połączyły swoje siły, aby powstał nowoczesny, jak najlepszy polski model językowy” - mówi.

LEĆ NASZ ORLE W GÓRNYM PĘDZIE

Tłumaczy, że Bielik powstawał bez zewnętrznego finansowania, dzięki zaangażowaniu interdyscyplinarnego zespołu wolontariuszy, którzy pracowali nad polskim modelem językowym po godzinach.

“My robiliśmy Bielika za darmo, wieczorami i w weekendy. Do dyspozycji mieliśmy moc obliczeniową 450 kart graficznych Cyfronetu. Tymczasem OpenAI robił swój Chat GPT przy gigantycznym budżecie, dziesiątkach geniuszy światowej klasy zatrudnionych na etatach, przy mocy obliczeniowej setek tysięcy kart graficznych. Schlebia nam więc, jeśli ktoś porównuje Bielika z ChatGPT. Bo Bielik, owszem, wymaga poprawek, ale już widzimy, jak wiele możemy sami zrobić. Jako Polacy powinniśmy być dumni z tego projektu” - kończy.(PAP)

Nauka w Polsce, Ludwika Tomala

lt/ bar/

Fundacja PAP zezwala na bezpłatny przedruk artykułów z Serwisu Nauka w Polsce pod warunkiem mailowego poinformowania nas raz w miesiącu o fakcie korzystania z serwisu oraz podania źródła artykułu. W portalach i serwisach internetowych prosimy o zamieszczenie podlinkowanego adresu: Źródło: naukawpolsce.pl, a w czasopismach adnotacji: Źródło: Serwis Nauka w Polsce - naukawpolsce.pl. Powyższe zezwolenie nie dotyczy: informacji z kategorii "Świat" oraz wszelkich fotografii i materiałów wideo.

Czytaj także

  • Fot. Adobe Stock

    Indie/ Dwa europejskie satelity wystrzelono z Centrum Kosmicznego Satish Dhawan

  • Fot. Adobe Stock

    Powstaje narzędzie do odwzorowania ludzkich organów

Przed dodaniem komentarza prosimy o zapoznanie z Regulaminem forum serwisu Nauka w Polsce.

newsletter

Zapraszamy do zapisania się do naszego newslettera