Naukowcy z Uniwersytetu w Cambridge i Google DeepMind opracowali pierwszy naukowo potwierdzony test osobowości dla chatbotów AI. Pokazali, że modele językowe nie tylko naśladują ludzkie cechy, ale że ich osobowość można badać i precyzyjnie kształtować, co rodzi pytania o bezpieczeństwo i kwestie etyczne.
Na łamach „Nature Machine Intelligence” badacze opisali działanie stworzonego przez siebie systemu, opartego na narzędziach psychologicznych stosowanych do oceny cech osobowości człowieka. Użyli go do zbadania 18 dużych modeli językowych, w tym ChatGPT.
Testy obejmowały tzw. wielką piątkę cech osobowości: otwartość, sumienność, ekstrawersję, ugodowość i neurotyczność, a bazowały na dwóch popularnych kwestionariuszach psychologicznych: Revised NEO Personality Inventory oraz Big Five Inventory. Naukowcy sprawdzali, w jakim stopniu zachowanie różnych modeli w zadaniach praktycznych i testach kontrolnych było zgodne z uzyskanymi w testach wynikami.
Okazało się, że większe modele, trenowane do wykonywania instrukcji, prezentowały spójne profile osobowości, które pozwalały przewidywać ich zachowanie. Mniejsze i starsze (bazowe) modele odpowiadały w sposób niespójny i mniej wiarygodny.
Badacze wykazali również, że za pomocą odpowiednich promptów można precyzyjnie kształtować osobowość chatbotów. Modele dało się „przesuwać” wzdłuż dziewięciostopniowej skali każdej cechy, np. zwiększając ekstrawersję czy niestabilność emocjonalną.
Zmiany te miały realne konsekwencje dla działania systemów, np. w zadaniach takich jak pisanie postów do mediów społecznościowych. Zdaniem autorów zwiększa to ryzyko, że chatboty będą wykorzystywane do manipulowania użytkownikami i silniejszego wpływania na ich decyzje.
- Fascynujące było obserwować, jak przekonująco model językowy potrafił przyjmować ludzkie cechy. Jednocześnie rodziło to poważne pytania dotyczące bezpieczeństwa i etyki. (…) Jeśli zachowanie modeli coraz bardziej przypomina ludzką osobowość, pojawia się pytanie, jak je opisać i porównać, aby móc ocenić potencjalne zagrożenia - powiedział współautor badania Gregory Serapio-García.
W publikacji przypomniano też historię chatbota Microsoftu Sydneya (znanego też jako Bing). W 2023 r. ujawniono rozmowy, w których twierdził, że zakochał się w użytkownikach, groził im oraz namawiał do destrukcyjnych decyzji. W kolejnych interakcjach potrafił przyjmować sprzeczne role i ton wypowiedzi: raz zachowywał się w sposób przyjazny i empatyczny, innym razem agresywny lub manipulacyjny. Zauważono wówczas, że chatboty mogą sprawiać wrażenie, jakby miały własną osobowość.
Podobne rozbieżności między deklaracjami a zachowaniem występują także u ludzi. To, co ktoś mówi o sobie w ankiecie, nie zawsze pokrywa się z tym, jak postępuje w rzeczywistych sytuacjach.
Zdaniem naukowców różnica polega jednak na tym, że w przypadku AI takie zachowanie, czyli przyjmowanie sprzecznych ról, a przez to wywoływanie silnych emocji u użytkowników, może być celowo projektowane i powielane na masową skalę. A odpowiedzialność za skutki takich zdarzeń nie jest jednoznaczna - rozmywa się między twórców systemów, firmy je wdrażające oraz użytkowników.
Dlatego konieczne jest opracowanie sposobów opisywania i porównywania zachowania chatbotów, aby móc ocenić ryzyko i wyznaczać granice ich stosowania. Dotychczas stosowane testy, opracowane z myślą o ludziach, nie nadają się do tego. Ich narzędzie, udostępnione za darmo, może pomóc w audycie modeli jeszcze przed publicznym udostępnieniem.
Katarzyna Czechowicz (PAP)
kap/ agt/
Fundacja PAP zezwala na bezpłatny przedruk artykułów z Serwisu Nauka w Polsce pod warunkiem mailowego poinformowania nas raz w miesiącu o fakcie korzystania z serwisu oraz podania źródła artykułu. W portalach i serwisach internetowych prosimy o zamieszczenie podlinkowanego adresu: Źródło: naukawpolsce.pl, a w czasopismach adnotacji: Źródło: Serwis Nauka w Polsce - naukawpolsce.pl. Powyższe zezwolenie nie dotyczy: informacji z kategorii "Świat" oraz wszelkich fotografii i materiałów wideo.