ChatGPT nieźle spisuje się w tworzeniu haseł do pewnego typu słowników, na razie języka angielskiego – pokazuje leksykograf prof. Robert Lew. Do czego jednak w czasach sztucznej inteligencji będą nam słowniki potrzebne?
Prof. Robert Lew z Wydziału Anglistyki UAM w niedawnej publikacji wskazuje, że ChatGPT – system sztucznej inteligencji generujący treść – nieźle radzi sobie z tworzeniem w języku angielskim haseł do pewnego typu słowników. Chodzi o słowniki dla osób uczących się języka angielskiego, które współcześnie tworzy się na podstawie analizy korpusów językowych. Pionierskim słownikiem tego typu był słownik COBUILD, który między innymi stosuje nowatorski format definicji ilustrujący użycie danego wyrazu w kontekście.
"Polskim odpowiednikiem słownika COBUILD jest 'Inny słownik języka polskiego' Mirosława Bańki. Zawarte tam definicje są łatwe do zrozumienia, konwersacyjne. Np. 'Kiedy mówimy, że coś się wlecze bez końca, to trwa za długo'" – podaje przykład prof. Lew.
Naukowiec tłumaczy, że opracowany w latach 80. XX w. słownik COBUILD był pierwszym słownikiem budowanym na bazie korpusów językowych. A korpusy to zbiory realnych tekstów reprezentujących użycie języka.
"Dawniej leksykografia była sztuką intuicji lub bazowała na kopiowaniu pomysłów ze starszych słowników. A pod koniec XX wieku pod wpływem korpusów językowych wiodąca leksykografia zaczęła być postępowaniem empirycznym, ściśle osadzonym w danych” – wyjaśnia badacz. W korpusie językowym sprawdzano więc, w jakich kontekstach rzeczywiście używane są najczęściej słowa. Na tej podstawie powstawał opis leksykograficzny języka, w tym definicje i przykłady użycia.
Korpus COBUILDa liczył kilkanaście milionów słów i zawierał nadreprezentację tekstów z gazet i czasopism. Dzisiejsze korpusy są o wiele bardziej złożone, zawierają próbki przeróżnych gatunków tekstów i liczą po setki miliardów słów.
Właśnie na takich ogromnych korpusach językowych trenowane są także systemy sztucznej inteligencji. Stąd pytanie badawcze, jak takie generatory treści sprawdzą się w tworzeniu słownikowych definicji. I rzeczywiście – dla języka angielskiego to na razie działa nieźle.
"Już teraz widać, że możemy częściowo zautomatyzować proces tworzenia słowników, tylko musimy mieć dobrze opracowane prompty (instrukcje dla bota). To jednak na razie stadium wczesnych eksperymentów. A wyniki są obiecujące dla języka angielskiego, ale już nie dla języka polskiego" – komentuje prof. Lew.
I dodaje: "Obecnie jednak przy tworzeniu słowników standardem i najlepszą praktyką jest nadal użycie dużych, zrównoważonych korpusów tekstów jako bazy empirycznej i zespołu profesjonalnych leksykografów. Dla języka polskiego mamy szczęście mieć nowoczesny słownik WSJP – tworzony według najlepszych współczesnych standardów. Jest on dostępny nieodpłatnie (dzięki wsparciu grantodawców) pod adresem wsjp.pl".
TRZY FUNKCJE
Czy jednak - kiedy sztuczna inteligencja jeszcze bardziej się rozwinie i na stałe zagości w naszych życiach - słowniki będą w ogóle potrzebne?
Leksykograf tłumaczy, że słowniki mają pomagać w komunikacji tam, gdzie ludzie nie dzielą ze sobą wspólnego języka. Słowniki – jak streszcza naukowiec z UAM – spełniają trzy główne funkcje. Pomagają poprawnie: rozumieć teksty, konstruować wypowiedzi i tłumaczyć je na inne języki.
Tymczasem ChatGPT już całkiem dobrze wspomaga użytkowników w zadaniach takich jak rozumienie tekstu, poszczególnych słów i szukaniu struktury składniowej. Do tego generatora tekstów można np. wkleić jakiś fragment tekstu i zapytać, co znaczy w tym kontekście jakieś sformułowanie. Można też poprosić bota, żeby napisał tekst, np. ułożył treść maila w jakiejś urzędowej sprawie. Albo szybko dostać tłumaczenie jednego tekstu na inny język. Dla języka angielskiego ChatGPT w tych rolach spisuje się już całkiem nieźle.
"Postrzegaliśmy dotąd język jako coś bardzo ludzkiego, wyjątkowego dla człowieka, coś, czego nikt nam nie zabierze. A tu udostępniono ChatGPT i mamy 'proof of the pudding' – pudding jest i każdy może go spróbować. Generatory tekstu już istnieją, umieją posługiwać się językiem i każdy może to sprawdzić. Dla angielskiego to już teraz działa, ale dla wielu języków – tak nie do końca" – zwraca uwagę prof. Lew.
Prof. Robert Lew to redaktor naczelny oksfordzkiego czasopisma ‘International Journal of Lexicography’, najważniejszego czasopisma naukowego o leksykografii. Badacz jest również współautorem słowników dla wydawnictw: Collins, Cambridge, Pearson-Longman oraz dla Fundacji Kościuszkowskiej.
Nauka w Polsce, Ludwika Tomala
lt/ bar/
Fundacja PAP zezwala na bezpłatny przedruk artykułów z Serwisu Nauka w Polsce pod warunkiem mailowego poinformowania nas raz w miesiącu o fakcie korzystania z serwisu oraz podania źródła artykułu. W portalach i serwisach internetowych prosimy o zamieszczenie podlinkowanego adresu: Źródło: naukawpolsce.pl, a w czasopismach adnotacji: Źródło: Serwis Nauka w Polsce - naukawpolsce.pl. Powyższe zezwolenie nie dotyczy: informacji z kategorii "Świat" oraz wszelkich fotografii i materiałów wideo.