ChatGPT nie dorównuje doktorom historii

Fot. Adobe Stock
Fot. Adobe Stock

ChatGPT-4 Turbo uzyskał 46 proc. punktów w teście sprawdzającym wiedzę i rozumienie historii – dużo mniej niż człowiek z tytułem doktora. Choć program zna wiele faktów, to słabo sobie radzi z ich interpretacją - wykazało nowe badanie.

Naukowcy z Complexity Science Hub (CSH) w Wiedniu (Austria), twórcy tworzonej od dekady bazy Seshat Global History Databank, postanowili sprawdzić, czy oparte na sztucznej inteligencji chatboty mogłyby pomóc historykom i archeologom w zbieraniu danych i lepszym zrozumieniu przeszłości.

Razem z międzynarodową grupą ekspertów ocenili różne wersje ChatGPT-4, Llama i Gemini.

„Duże modele językowe (LLMs), takie jak ChatGPT, odniosły ogromny sukces w niektórych dziedzinach — na przykład w dużej mierze zastąpiły asystentów prawnych. Jednak w kwestii oceniania cech dawnych społeczeństw, zwłaszcza tych spoza Ameryki Północnej i Europy Zachodniej, ich możliwości są znacznie bardziej ograniczone” – mówi prof. Peter Turchin z CSH, autor badania przedstawionego w trakcie konferencji NeurIPS.

„Jednym z zaskakujących wniosków, które wyłoniły się z tego badania, było to, że sprawdzone przez nas modele są bardzo słabe. Wynik pokazuje, że sztuczna inteligencja działa specyficznie dla danego obszaru. LLM-y radzą sobie dobrze w niektórych kontekstach, ale w innych wypadają bardzo źle w porównaniu z ludźmi” – dodaje.

GPT-4 Turbo, który osiągnął najlepsze wyniki, uzyskał 46 proc. w teście z pytaniami wielokrotnego wyboru.

Według prof. Turchina i jego zespołu, chociaż wynik ten stanowi poprawę w stosunku do bazowego poziomu 25 proc. wynikającego z losowego zgadywania, podkreśla on znaczące braki w rozumieniu wiedzy historycznej przez sztuczną inteligencję.

„Myślałam, że chatboty oparte na sztucznej inteligencji poradzą sobie znacznie lepiej. Historia często postrzegana jest jako zbiór faktów, ale czasami konieczna jest ich interpretacja, aby nadać im sens” – mówi współautorka eksperymentu prof. Maria del Rio-Chanona.

To pierwszy eksperyment tego rodzaju – informują naukowcy. Testowane systemy miały za zadanie odpowiadać na pytania na poziomie magisterskim i eksperckim, podobne do tych, na które udzielano odpowiedzi we wspomnianej bazie Seshat.

Badacze wykorzystali wiedzę zawartą w Seshat, aby sprawdzić dokładność odpowiedzi SI.

Seshat to potężna baza gromadząca wiedzę historyczną na temat 600 społeczeństw na całym świecie, obejmująca ponad 36 tys. punktów danych i ponad 2,7 tys. odniesień.

„Chcieliśmy ustalić punkt odniesienia do oceny zdolności dużych modeli językowych do radzenia sobie z wiedzą historyczną na poziomie eksperckim. Baza danych Seshat pozwala nam wyjść poza pytania dotyczące ogólnej wiedzy. Kluczowym elementem było to, że nie tylko sprawdzaliśmy, czy te modele potrafią zidentyfikować fakty, ale również wyraźnie pytaliśmy, czy dany fakt można udowodnić lub wywnioskować na podstawie dowodów pośrednich” – tłumaczy jeden z naukowców, Jakob Hauser.

Badanie ujawniło również inne istotne cechy zdolności obecnych chatbotów do rozumienia historii świata. Na przykład najtrafniejsze odpowiedzi dotyczyły pytań o historię starożytną, szczególnie z okresu od 8 tys. do 3 tys. p.n.e.

Jednak ich dokładność znacznie spadała w odniesieniu do bardziej współczesnych okresów, a największe braki w zrozumieniu dotyczyły wydarzeń od roku 1500 n.e. do współczesności.

Ponadto wyniki pokazały rozbieżności w wydajności modeli historii różnych regionów geograficznych. Modele OpenAI radziły sobie lepiej w przypadku Ameryki Łacińskiej i Karaibów, podczas gdy model Llama osiągnął najlepsze wyniki w Ameryce Północnej.

Wydajność modeli OpenAI i Llama była gorsza w przypadku Afryki Subsaharyjskiej, a Llama również słabo wypadł w przypadku Oceanii.

Wskazuje to na potencjalną tendencyjność danych treningowych, które mogą nadmiernie akcentować niektóre narracje historyczne, zaniedbując inne – uważają badacze.

Ukazały się również różnice w różnych kategoriach - modele najlepiej radziły sobie w kwestiach dotyczących systemów prawnych i złożoności społecznych, jednak miały trudności z tematami takimi jak dyskryminacja czy mobilność społeczna.

"Główna konkluzja z tego badania jest taka, że LLM, choć są imponujące, to wciąż brakuje im głębi zrozumienia wymaganej do zaawansowanej analizy historii. Są świetne w kwestiach podstawowych faktów, ale jeśli chodzi o bardziej subtelne badania historyczne prowadzone na poziomie doktoranckim, jeszcze nie sprostają temu zadaniu" - mówi prof. del Rio-Chanona.(PAP)

Marek Matacz

mat/ agt/

Fundacja PAP zezwala na bezpłatny przedruk artykułów z Serwisu Nauka w Polsce pod warunkiem mailowego poinformowania nas raz w miesiącu o fakcie korzystania z serwisu oraz podania źródła artykułu. W portalach i serwisach internetowych prosimy o zamieszczenie podlinkowanego adresu: Źródło: naukawpolsce.pl, a w czasopismach adnotacji: Źródło: Serwis Nauka w Polsce - naukawpolsce.pl. Powyższe zezwolenie nie dotyczy: informacji z kategorii "Świat" oraz wszelkich fotografii i materiałów wideo.

Czytaj także

  • Fot. Adobe Stock

    Szwecja/ Nowe dowody na skuteczność szczepionki przeciwko HPV

  • Fot. Adobe Stock

    Mniej niż 1 proc. badań klinicznych uwzględnia ciężarne uczestniczki

Przed dodaniem komentarza prosimy o zapoznanie z Regulaminem forum serwisu Nauka w Polsce.

newsletter

Zapraszamy do zapisania się do naszego newslettera