Statystyka ukryta między słowami/ XVII Festiwal Nauki w Warszawie

25.09.2013 aktualizacja: 25.09.2013

2 minuty czytania

Czujemy, że pewne słowa pojawiają się w tekście zbyt często? Statystyka może nam pomóc zrozumieć, jak poprawniej budować dłuższe wypowiedzi. Była o tym mowa podczas wykładu dr Małgorzaty Kornackiej "Czy tekst można policzyć?" na Festiwalu Nauki w Warszawie.

Okazuje się, że językiem rządzą prawa, których nie musimy znać, ale do których nieświadomie się stosujemy. To dlatego nie podobają się nam np. teksty, w których jakieś słowo pojawia się zbyt często. Aby wypowiedź lepiej brzmiała, staramy się więc zastępować zbyt często pojawiające się wyrazy innymi. Np. w tekście o Janie Kochanowskim na Wikipedii nazwisko poety nie jest wymieniane w każdym zdaniu. Zamiast tego używa się zaimków (jego, dla niego, o nim) czy tzw. zera zaimkowego (np. Jan wyjechał do Włoch. Zwiedził tam okolice Padwy). Stosować można też hiperonimy (np. poeta) czy uciekać się do wyrazów bliskoznacznych.

Dr Małgorzata Kornacka z Wydziału Lingwistyki Stosowanej Uniwersytetu Warszawskiego wyjaśniła, że takie zabiegi językowe mają związek z prawem Zipfa. Aby je zrozumieć, ważna jest umiejętność liczenia w tekście tzw. leksemów. Za jeden leksem uważane są różne formy gramatyczne jednego wyrazu np. "czytam", "czytalibyśmy", "niech będzie czytany". Aby sprawdzić, czy prawo Zipfa jest spełnione, należy przygotować ranking najczęściej występujących w tekście leksemów. Miejsca w tym rankingu nazywane jest rangą. Prawo Zipfa zakłada, że iloczyn rangi danego leksemu i częstotliwości jego występowania w tekście (liczby wystąpień) powinien być stały.

Jeśli więc - przy zachowanym prawie Zipfa - najczęściej występujący w tekście leksem pojawia się 24 razy (ranga = 1, a częstotliwość = 24, 1x24=24), to kolejny najczęściej występujący powinien pojawić się ok. 12 razy (jego ranga = 2, częstotliwość = 12, 2x12=24), a trzeci w kolejności - ok. 8 razy. Kiedy proporcje nie są zachowane, odbiorca może mieć wrażenie, że coś z tekstem jest nie tak. "Wyczuwamy, że pewnych słów jest za dużo, że są nadreprezentowane i coś w tekście zgrzyta" - komentowała dr Kornacka.

Jak podała prelegentka, prawo Zipfa nie jest spełnione np. w wierszyku mnemotechnicznym:

"Bolesław Chrobry, Łokietek, Nero/ proszę to pisać wielką literą/ Piszcie tak samo poniższe słowa:/ Europejczyk, Murzyn i Słowak./ Karpaty, Gopło, Atlantyk, Śnieżka -/ w słowach tych wielka litera pierwsza./ Słów: Święto Lasu albo PKO -/ Przenigdy nie pisz literą małą. /Ponadto wielką literę wbuduj/ w „Przegląd Sportowy", w „Trybunę Ludu"./ Pisząc „Na przełaj" lub Wybór wierszy/ wielką literę wstaw w wyraz pierwszy! (...)

Tu leksemy: "litera", "słowo", czy "wielki" pojawiają się nieproporcjonalnie często i czytelnik to zauważa.

Prelegentka opowiadała też o innych wskaźnikach mających znaczenie w analizie statystycznej tekstów. Dzięki nim można np. ustalić, czy dany utwór rzeczywiście wyszedł spod ręki danego autora. Dzięki temu ustalano m.in., czy utwory Homera są dziełem jednej tylko osoby. Statystyka pomogła również w datowaniu tekstu Williama Szekspira.

PAP - Nauka w Polsce

lt/ agt/

Fundacja PAP zezwala na bezpłatny przedruk artykułów z Serwisu Nauka w Polsce pod warunkiem mailowego poinformowania nas raz w miesiącu o fakcie korzystania z serwisu oraz podania źródła artykułu. W portalach i serwisach internetowych prosimy o zamieszczenie podlinkowanego adresu: Źródło: naukawpolsce.pl, a w czasopismach adnotacji: Źródło: Serwis Nauka w Polsce - naukawpolsce.pl. Powyższe zezwolenie nie dotyczy: informacji z kategorii "Świat" oraz wszelkich fotografii i materiałów wideo.

Historia i kultura

55 lat temu pierwszy księżycowy przejazd łazika skonstruowanego przez Mieczysława Bekkera
Historia i kultura

Naukowcy zrekonstruowali dietę i nawyki żywieniowe mieszkańców dawnego Wrocławia

Przed dodaniem komentarza prosimy o zapoznanie z Regulaminem forum serwisu Nauka w Polsce.

Astrofizyk: naukowcy nie powinni odrzucać pozornie bezużytecznych wyników badań
Naukowcy: jedzmy powoli i nie do woli
Architekt: grzyby mogą pomóc w stawianiu budowli na Marsie i Księżycu
Matematyka może wskazać, kiedy związek wchodzi w strefę zagrożenia
Polska naukowczyni w ESA: kolejne mikroglony polecą na ISS

Naukowcy odkryli, co steruje podziałem pracy w ulu
Leczenie witaminą B3 może zatrzymać rzadką chorobę genetyczną
Tętnica na chipie pomaga przewidywać ryzyko udaru
Lek na zaparcia może poprawiać sprawność umysłową u osób z depresją
Globalna burza ogniowa mogła zakończyć erę dinozaurów

Motywacja odróżnia zaangażowanie w pracę od pracoholizmu

Poświęcanie na obowiązki zawodowe bardzo wielu godzin, nawet w czasie wolnym, może wynikać zarówno z silnego zaangażowania, jak i pracoholizmu. O tym, z którym zjawiskiem mamy do czynienia, decydują przede wszystkim motywacja i zdolność do odpoczynku - wskazują psycholożki z UJ.