Klasyczne sondaże odejdą do lamusa? Naukowcy mają coś lepszego

Ostatnia aktualizacja: 17.10.2015 17:19
Gigabajty danych sieciowych z wypowiedziami internautów i artykułami prasowymi stają się dziś bazą m.in. dla oceny preferencji wyborczych. Analiza sympatii politycznych przy użyciu Big Data może dostarczyć bardziej precyzyjnych wyników, niż klasyczne sondaże.
Big Data Scientist, czyli badacz danych, będzie jednym z najbardziej pożądanych zawodów w IT w ciągu najbliższej dekady
Big Data Scientist, czyli badacz danych, będzie jednym z najbardziej pożądanych zawodów w IT w ciągu najbliższej dekadyFoto: Glow Images/East News

Zespół badawczy kierowany przez prof. Włodzimierza Gogołka z Uniwersytetu Warszawskiego, od kilku lat stosuje tzw. rafinację danych Big Data, na podstawie której prognozuje m.in. wyniki wyborów parlamentarnych i prezydenckich.

- Wyłuskiwanie wartościowych informacji z Big Data wymaga kilku specjalistycznych narzędzi programowych. Ich działanie polega na zbieraniu wpisów - informacji z sieci (robią to roboty), wyszukiwaniu fraz zawierających określoną nazwę, np. firmy, nazwisko, które są w sąsiedztwie słów określanych jako sentyment. Np. "polityk Abacki jest dobrym ekonomistą". Zliczając liczby fraz z pozytywnymi i negatywnymi sentymentami (w przykładzie pozytywnym sentymentem jest "dobry") uzyskujemy opinię o Abackim, np. 100 tys. dobrych opinii 1000 złych - wyjaśnił Gogołek.

Profesor z zespołem stosował metodę rafinacji dużych zbiorów danych przy okazji wyborów prezydenckich i parlamentarnych w 2011 roku. Dowiodła ona wtedy swojej wysokiej wiarygodności. Podobną analizę przeprowadzono także podczas finału kampanii w tegorocznych wyborach prezydenckich.

- W wyborach parlamentarnych i prezydenckich w 2011 roku wyniki zostały przewidziane bezbłędnie. W ostatnich wyborach prezydenckich wymowna jest procentowa różnica (zaledwie 0,66 proc.) pomiędzy liczbami pozytywnych sentymentów dotyczących każdego z kandydatów, zgromadzonymi przez nasze narzędzia w przeddzień wyborów prezydenckich 2015, która wynosiła 2,44 proc., a rzeczywistą różnicą jaka dzieliła Andrzeja Dudę i Bronisława Komorowskiego - 3,10 proc. - wskazał profesor.

Ekspert wytłumaczył, że rafinacja dużych zbiorów danych stanowi wartościową alternatywę dla ilościowych badań sondażowych, zaś dzięki automatyzacji procesów, jej koszt w porównaniu do klasycznych metod jest o wiele mniejszy.

- Klasyczne badania opierają się na analizie, najczęściej skategoryzowanych, odpowiedzi na pytania, które zadawane są określonej reprezentatywnej liczbie, setek, rzadziej tysięcy, osób. Rafinacji poddawane są natomiast miliony wpisów. Np. w ostatnich badaniach dotyczących Jana Pawła II rafinacji poddaliśmy ok. 5 mln wpisów. O wiarygodności badań klasycznych stanowi reprezentatywność próby np. tysiąc osób, w rafinacji wiarygodność implikują wcześniej uzyskane wyniki - podkreślił.

- W stosunku do tradycyjnych badań koszty rafinacji są marginalne, szczególnie jeśli dysponuje się względnie wystandaryzowanymi narzędziami: roboty kolekcjonujące wpisy, identyfikacja sentymentów, obliczanie krotności sentymentów - zauważył profesor.

Rafinacji Big Data nie należy rozpatrywać jako badawczego eksperymentu. Gogłek przekonuje, że to i podobne narzędzie znajdują zastosowania komercyjne.

- Rafinacja obejmuje bardzo szerokie spektrum możliwych badań m.in.: monitoring marki - identyfikacja bieżących zagrożeń pozytywnego obrazu marki, możliwości zbierania sentymentów dotyczących notowań spółek giełdowych. Podobnie do badań marki łatwe jest, korzystając z rafinacji, monitorowanie notowań organizacji, partii i poszczególnych osób. Identyfikacja zagrożeń: przestępstwa, wady masowych produktów itp. - powiedział.

Badanie przeprowadzone w tym roku przez IBM Institute for Business Value wśród kadry kierowniczej globalnych przedsiębiorstw dowiodło silnej potrzeby wprowadzania różnego typu analityki danych do codziennych praktyk funkcjonowania przedsiębiorstw i organizacji.

Według Hala Variana, głównego ekonomisty Google, Big Data Scientist, czyli badacz danych, będzie jednym z najbardziej pożądanych zawodów w IT w ciągu najbliższej dekady. Szacuje się, że już do 2020 roku sieć rozrośnie się do poziomu 45 zetabajtów. Do tego czasu luka na rynku pracy w USA wyniesie już ponad 1,5 mln wolnych stanowisk, czekających na obsadzenie przez specjalistów od Big Data.

PAP, kk

Ten artykuł nie ma jeszcze komentarzy, możesz być pierwszy!
aby dodać komentarz
brak

Czytaj także

Jak trafnie przewidzieć wynik wyborów parlamentarnych?

Ostatnia aktualizacja: 16.10.2015 13:01
25 października w Polsce odbędą się wybory parlamentarne. Na zlecenie stacji telewizyjnych, badania exit poll przeprowadzi agencja badawcza Ipsos.
rozwiń zwiń