09.08.2023 aktualizacja 09.08.2023

GPT-3 rozumuje równie dobrze, jak student

Adobe Stock

Model językowy sztucznej inteligencji GPT-3 sprawdza się w rozwiązywaniu problemów logicznych równie dobrze, jak studenci - informuje czasopismo „Nature Human Behaviour”.

Psycholodzy z University of California w Los Angeles (UCLA) wykazali, że GPT-3 radzi sobie w standardowych testach na inteligencję i rozumowanie tak samo - a czasami nawet lepiej - niż większość studentów. Wyniki te skłaniają do rozważań, czy sztuczna inteligencja naśladuje ludzkie rozumowanie, czy też wykorzystuje jakiś nowy typ procesu poznawczego.

Jednak na razie, ze względu na brak dostępu do wewnętrznych mechanizmów GPT-3 zastrzeżonych przez firmę OpenAI, naukowcy nie są w stanie tego stwierdzić.

Ludzie mają zdolność radzenia sobie z zupełnie nowymi dla nich zagadnieniami i problemami, ponieważ odnoszą je do swoich poprzednich przeżyć i doświadczeń, wyciągają z nich wnioski i przenoszą na bieżące zagadnienie. Proces ten nazywa się rozumowaniem analogicznym i od dawna uważany jest za wyjątkową umiejętność człowieka.

Najnowsze badanie przeprowadzone na UCLA pokazuje, że model językowy sztucznej inteligencji GPT-3 radzi sobie mniej więcej tak samo dobrze, jak studenci college'u, jeśli chodzi o rozwiązywanie problemów wymagających rozumowania. Potwierdziły to zarówno testy na inteligencję, jak i standaryzowane testy typu SAT, będące odpowiednikiem polskiej matury.

„Nasze wyniki są imponujące, jednak trzeba pamiętać, że nadal system ten ma poważne ograniczenia - mówi dr Taylor Webb, główny autor badania. - Umie rozumować analogicznie, ale nie może robić rzeczy, które ludziom przychodzą z łatwością, np. dopasowywać narzędzi do rozwiązywania problemów związanych z przestrzenią fizyczną. Kiedy dawaliśmy mu tego typu zadania, z którymi bez problemu radzą sobie nawet dzieci, sugerował nam bezsensowne rozwiązania”.

Webb i jego współpracownicy „zlecili” modelowi AI rozwiązanie testu matryc Ravena, który wymaga od badanego przewidzenia następnego obrazu w skomplikowanym układzie kształtów. Aby umożliwić GPT-3 „zobaczenie” kształtów, obrazki przekonwertowano na format tekstowy, który model był w stanie przetworzyć. Takie podejście gwarantowało również, że sztuczna inteligencja nigdy wcześniej nie spotkała się z otrzymanymi pytaniami.

O rozwiązanie tego samego testu naukowcy poprosili również 40 studentów studiów licencjackich.

„Co zaskakujące, GPT-3 nie tylko poradził sobie równie dobrze jak ludzie, ale także popełniał podobne do nich błędy” – opowiada współautorka publikacji, prof. Hongjing Lu.

GPT-3 rozwiązał poprawnie 80 proc. problemów - znacznie powyżej średniego wyniku uzyskanego przez ludzi (ten wynosił nieco poniżej 60 proc.).

Następnie naukowcy poprosili sztuczną inteligencję o odpowiedzi na wybrane pytania z testu SAT. Warto podkreślić, że pytania te nigdy nie zostały opublikowane w internecie, co oznacza, że na pewno nie były częścią danych treningowych GPT-3. Zadania polegały m.in. na wybraniu par słów, które odnoszą się do tego samego zjawiska, np. dla słowa „kochać” parą jest „nienawidzić”, a dla „bogaty” rozwiązanie brzmi „biedny”.

Porównanie wyników GPT-3 z opublikowanymi wynikami kandydatów na studia ujawniło, że ten pierwszy poradził sobie lepiej niż większość ludzi.

W ostatnim eksperymencie naukowcy zlecili sztucznej inteligencji oraz studentom rozwiązanie analogii w oparciu o opowiadania. Należało przeczytać fragment tekstu, a następnie zidentyfikować inną historię, która ma ten sam morał (przesłanie). Tym razem technologia poradziła sobie gorzej niż ludzie. Badacze dodają jednak, że nowszy model językowy GPT-4 pokonał już te ograniczenia i w tym samym teście wypada znacznie lepiej niż GPT-3.

Badanie ujawniło także, że model sztucznej inteligencji nie radzi sobie zupełnie z rozwiązywaniem problemów wymagających zrozumienia przestrzeni fizycznej. Na przykład, jeśli GPT-3 otrzymał opis zestawu narzędzi - tekturowej tuby, nożyczek i taśmy, a jego zadaniem było opisanie, jak można je wykorzystać do przenoszenia gum do żucia z jednej miski do drugiej, proponował dziwne i nielogiczne rozwiązania.

Naukowcy bardzo chcieliby zbadać, czy modele SI rzeczywiście zaczynają „myśleć” jak ludzie, czy też ich rozumowanie jest czymś zupełnie innym, co jedynie naśladuje ludzkie myślenie. „Być może GPT-3 może myśleć jak człowiek - mówią. - Jednak z drugiej strony ludzie nie uczą się pochłaniając cały internet, więc metoda szkolenia siłą rzeczy jest zupełnie inna. Chcielibyśmy wiedzieć, jak się to naprawdę odbywa: czy tak jak u nas, czy też w zupełnie nowy, prawdziwie inteligentny sposób, co byłoby naprawdę niesamowite”.

Aby to stwierdzić, psycholodzy z UCLA musieliby mieć jednak dostęp do oprogramowania i danych wykorzystywanych do szkolenia modelu. „Byłoby to dla nas i innych badaczy bardzo przydatne” - mówią.

Katarzyna Czechowicz

kap/ bar/