
W ramach projektu FrontierMath, na potrzeby porównywania modeli sztucznej inteligencji, naukowcy opracowali egzamin z matematyki - ułożyli zestaw zadań, których nie byłby w stanie sam rozwiązać żaden matematyk. Uczestnik projektu dr Bartosz Naskręcki w jedno zadanie włożył wiedzę z 15 lat badań. Na razie AI rozwiązuje tylko kilka z tych pytań.
W ciągu ostatniego półrocza czołowe laboratoria, takie jak Google DeepMind czy OpenAI, wypuściły modele AI, które z łatwością radzą sobie z zadaniami matematycznymi na poziomie matury z matematyki. Dotychczasowe testy (tzw. benchmarki), służące do oceny zdolności matematycznych modeli, stały się więc bezużyteczne. Potrzebny był nowy, znacznie trudniejszy egzamin dla modeli LLM. Tak narodził się projekt FrontierMath, w którego tworzeniu wziął udział dr Naskręcki z UAM.
Projekt, koordynowany przez firmę Epoch AI, ma kilka poziomów trudności. Dr Naskręcki współtworzył najtrudniejszy z nich – Tier 4. Obecne modele AI są w stanie rozwiązać dopiero 4 z 50 przygotowanych tam problemów z pięciu obszarów matematyki.
- Zaproszono mnie do przygotowania zadania. Odpowiedzią miała być bardzo duża liczba, aby model nie mógł jej przypadkiem zgadnąć. Włożyłem w to zadanie całą moją wiedzę ekspercką zgromadzoną podczas wszystkich lat studiów i pracy – opowiadał PAP matematyk.
Tłumaczył, że miał on zaproponować kompletnie nowy problem, którego rozwiązanie nie mogło być dostępne w internecie. - W zasadzie jest to pogrzebana przeze mnie praca naukowa. Udokumentowane rozwiązanie zajęło 13 stron gęstego, matematycznego tekstu - wyjaśnił dr Naskręcki.
A poziom trudności każdego ze wspomnianych 50 zadań jest równie wysoki. Zdaniem dr. Naskręckiego ekspert z doktoratem - i to w danym obszarze matematyki - potrzebowałby co najmniej miesiąca, aby choćby zorientować się, jak podejść do rozwiązania.
- Nie sądzę, by na świecie istniał matematyk, który rozwiązałby wszystkie 50 problemów z tego zestawu – dodał.
Jak powstał ten „egzamin dla geniuszy”? Trzydziestu ekspertów z całego świata spotkało się na dwa dni w Berkeley. W małych grupach, podzieleni tematycznie (teoria liczb, topologia, kombinatoryka, analiza matematyczna, geometria algebraiczna), testowali fragmenty zadań na najpotężniejszych modelach AI (w trybie incognito, żeby modele nie mogły ich zapamiętać). I pracowali nad zadaniami, aby uczynić je jeszcze trudniejszymi. Wiele propozycji zadań odrzucono, bo modele zbyt szybko wpadały na trop dobrej odpowiedzi. Ostatecznie udało się stworzyć 50 supertrudnych wyzwań.
Teraz laboratoria AI, które chcą przeegzaminować swój model, mogą podłączyć się do infrastruktury Epoch AI i w kontrolowanych warunkach zdawać egzamin. Każdy testowany model ma przydzielone pewne limity - czyli powiedzmy, że aby rozwiązać jeden problem, może pracować przez trzy godziny i zużyć na to milion tokenów (czyli „cegiełek” tekstu, z których AI buduje swoje rozumienie i odpowiedzi).
Na razie najlepsze modele rozwiązały zaledwie kilka z tych zadań. Dr Naskręcki prognozuje jednak, że już za 2-3 lata AI „wysyci” ten benchmark - dawać będzie prawidłową odpowiedź na większość z pytań. - A wtedy będziemy mogli mówić, że mamy model, który jest naprawdę nieźle rozumującym matematykiem – uważa badacz.
Zaznacza jednak kluczowe ograniczenie: AI jest „genialna w ostrym kombinowaniu” i łączeniu istniejącej wiedzy, ale nie potrafi tworzyć nowych koncepcji. - Żaden aktualny model nie wpadnie na pomysł, jak udowodnić hipotezę Riemanna. Jeśli więc modele będą już rozwiązywać wszystkie przygotowane przez nas zadania, to ostatnią domeną, która pozostanie matematykom, będzie wpadać na nowe, szalone pomysły matematyczne – ocenił naukowiec.
Jego zdaniem rozwój AI to „młotek, który bije nas po głowie” i zmusza do rewolucji w myśleniu o pracy i edukacji.
- Musimy porzucić pruski model szkoły, który wychowywał posłusznych żołnierzy, którzy wykonają każdy rozkaz. Teraz potrzebujemy ludzi, którzy potrafią samodzielnie myśleć, ryzykować i budować coś nowego – podkreślił.
Jego zdaniem kluczowa staje się tzw. „płynna inteligencja” (fluid intelligence) – zdolność do kreatywnego rozwiązywania problemów. A także myślenie „wolne”, a nie „szybkie”. Tej umiejętności maszyny wciąż jeszcze nie posiadają.
Dr Naskręcki wychodzi z założenia, że kariera naukowca wciąż ma sens, ale jej charakter się zmienia. - Nie będzie już odcinania kuponów i dopisywania drobiazgów do istniejących teorii. Matematyka wróci do korzeni: będzie polegać na stawianiu odważnych pytań i proponowaniu nieoczywistych rozwiązań – uważa badacz z UAM.
Jak dodał, naszą przewagą nad AI pozostają unikalne doświadczenia – spacer, przeczytana książka, obejrzana sztuka. To z połączeń, jakie zachodzą w nieoczywistych dziedzinach, rodzą się pomysły, do których AI nie ma dostępu. Dlatego zdaniem badacza w nowej rzeczywistości naszą największą wartością będzie nie tyle poprawne wykonywanie rutynowych zadań, ale zdolność do zadawania pytań i generowania oryginalnych koncepcji.
Ludwika Tomala (PAP)
lt/ zan/ mow/
Fundacja PAP zezwala na bezpłatny przedruk artykułów z Serwisu Nauka w Polsce pod warunkiem mailowego poinformowania nas raz w miesiącu o fakcie korzystania z serwisu oraz podania źródła artykułu. W portalach i serwisach internetowych prosimy o zamieszczenie podlinkowanego adresu: Źródło: naukawpolsce.pl, a w czasopismach adnotacji: Źródło: Serwis Nauka w Polsce - naukawpolsce.pl. Powyższe zezwolenie nie dotyczy: informacji z kategorii "Świat" oraz wszelkich fotografii i materiałów wideo.