Po czym program komputerowy może poznać artykuły z Wikipedii o wysokiej jakości? Jak pomóc wikipedystom w szybszym wykrywaniu aktów wandalizmu na portalu? Jak firmy mogą zwiększyć wartość posiadanych informacji? Badacze z Uniwersytetu Ekonomicznego w Poznaniu tworzą modele, które pomogą w ocenie jakości informacji pozyskanych dzięki crowdsourcingowi.
Naukowcy z Uniwersytetu Ekonomicznego w Poznaniu we współpracy ze studentami opracują metody pomagające w ocenie jakości artykułów w tworzonej przez internautów encyklopedii online - Wikipedii.
"Zamierzamy ściągnąć wiele wersji językowych Wikipedii, przeanalizować poszczególne parametry artykułów i zbadać, jaki mają one związek z jakością artykułów" - opowiada kierownik grantu dr Krzysztof Węcel z Katedry Informatyki Ekonomicznej UEP. Przyznaje, że to spore wyzwanie. Angielska Wikipedia zawiera obecnie ponad 5 milionów artykułów, a sam tekst tych artykułów po spakowaniu zajmuje 13 GB. Do tego dochodzą strony z dyskusją o artykułach – w sumie 25 GB. Gdyby chcieć uwzględnić informacje o tym, kto i kiedy zmienił jaką stronę (bez samej treści zmian), to potrzebne jest kolejne 50 GB. A to tylko jeden język (obecnie działa ponad 270 wersji językowych Wikipedii). Badacze z UEP na swoje analizy potrzebować będą 15-20 TB. Obliczenia wykonywane będą w chmurze Azure i pomoże w tym grant z Microsoft Research.
"Na podstawie artykułu - jego treści i powiązań - będziemy w stanie automatycznie ocenić, czy jest on dobrej jakości" - opowiada dr Węcel. Do przygotowania modelu wykorzystywane będą algorytmy uczenia maszynowego (machine learning). Badacz wyjaśnia, że jeśli porówna się wystarczająco wiele artykułów - w tym docenionych przez wikipedystów "Artykułów na medal", można znaleźć pewne powtarzające się zależności - parametry cechujące takie najlepsze artykuły. Istotą modeli jest możliwość przewidywania, czy artykuły jeszcze nieocenione są dobrej jakości. Trzeba tylko dostarczyć algorytmowi odpowiednio wiele danych, by ten wypracował sobie metodę oceny jakości.
"W przypadku informacji - składowymi jakości są: aktualność, wiarygodność i kompletność" - wymienia naukowiec. Jeśli chodzi o aktualność artykułu w Wikipedii - algorytm może ją przeanalizować śledząc historię zmian w artykule. Wiarygodność może trochę trudniej maszynie ocenić, ale nie jest to niemożliwe. Dr Węcel wyjaśnia, że można np. przeanalizować referencje zawarte w artykule - odniesienia do literatury fachowej lub innych stron. W ocenie wiarygodności liczy się też autor - czy ten sam wikipedysta pisał inne artykuły dobrej jakości i czy pokazał do tej pory swoje kompetencje.
Trzecią cechą jest kompletność informacji. "My będziemy analizować infoboksy" - powiedział badacz z UEP. Chodzi o tabelki przy niektórych artykułach, w przejrzysty sposób podsumowujące najważniejsze informacje. Np. w przypadku osoby to miejsce i data jej urodzenia/śmierci, jej stanowisko, czy narodowość. Badacze z UEP chcą sprawdzać poprawność, aktualność i kompletność atrybutów, porównując je z infoboksami z innych wersji językowych. "Być może dzięki temu kiedyś braki w infoboksach moglibyśmy uzupełniać wartościami zaczerpniętymi z innych wersji językowych" - opisuje dr Węcel.
Rozmówca PAP dodaje, że jego zespół wykorzystuje obecnie ponad sto atrybutów, które mogą pomóc algorytmowi oceniać jakość artykułów. To nie tylko historia aktualizacji, autor, referencje czy dane z infoboksów. To również m.in. liczba znaków w artykule, liczba obrazków, liczba nagłówków, nacechowanie języka, czy gęstość faktów (a więc liczba informacji na liczbę słów). Algorytm musi się nauczyć, które z tych wskaźników mają jak najściślejszy związek z jakością.
Model oceny jakości informacji przyda się w przyszłości wikipedystom np. po to, by szybciej wykrywali oni akty wandalizmu w Wikipedii i reagowali na niekorzystne dla jakości "poprawki" w artykułach.
Efektami badań jego zespołu mogą zainteresować się również firmy, które korzystają w swoich działaniach z danych pozyskanych dzięki "sile tłumu", czyli crowdsourcingowi - np. przetwarzają takie dane i przygotowują na ich podstawie komercyjne produkty. Takie przedsiębiorstwa mogłyby dzięki nowym narzędziom lepiej oceniać jakość danych, z których korzystają. Istotnym wynikiem projektu będą zatem nie tylko same oceny jakości artykułów Wikipedii, ale także wypracowanie metod do oceny jakości.
Projekt „Data Science for improving the quality of crowdsourced information. The case of Wikipedia” wspierany jest w ramach programu Microsoft Azure for Research Award.
PAP - Nauka w Polsce, Ludwika Tomala
lt/ ekr/
Fundacja PAP zezwala na bezpłatny przedruk artykułów z Serwisu Nauka w Polsce pod warunkiem mailowego poinformowania nas raz w miesiącu o fakcie korzystania z serwisu oraz podania źródła artykułu. W portalach i serwisach internetowych prosimy o zamieszczenie podlinkowanego adresu: Źródło: naukawpolsce.pl, a w czasopismach adnotacji: Źródło: Serwis Nauka w Polsce - naukawpolsce.pl. Powyższe zezwolenie nie dotyczy: informacji z kategorii "Świat" oraz wszelkich fotografii i materiałów wideo.