Big data via social media onbetrouwbaar

How to lie with statistics?

Facebook en Twitter worden gebruikt door wetenschappers om data te verzamelen voor hun onderzoek. Er is een artikel gepubliceerd waarin wordt gesteld dat deze data als bron niet geschikt is. De data is onbetrouwbaar en eenzijdig.

Wetenschappers van de Carnegie Mellon University en McGill University in Montreal waarschuwen dat de sociale netwerksites vooral worden gebruikt door een klein deel van de samenleving. Het is niet de echte wereld. Er zijn tal van onderzoeken (124000 hits via Google Scholar voor alleen 2014) die gebruik maken van deze sociale netwerksites om informatie te verzamelen over het menselijk gedrag. In de onderzoeken wordt te weinig gecorrigeerd voor demografische factoren.

Jonge twitteraars, oude LinkedIn-gebruikers

Onder tieners zijn relatief meer twitteraars dan LinkedIn-gebruikers. En oudere internetters hebben vaker een LinkedIn-profiel. In onderstaand figuur is dit geïllustreerd op basis van data uit de VS voor de maand oktober 2013.

Dewey defeats Truman

Het onderzoek refereert naar een onderzoek uit 1948 waarin de Chicago Tribune een dag na de door Truman gewonnen presidentverkiezing de krant opende met “Dewey Defeats Truman”. Op basis van telefonische interviews kwam de krant tot de conclusie dat Dewey zou gaan winnen. Een staking bij de drukker zorgde voor tijdsdruk en dus werd besloten dat de favoriet van de krant werd uitgeroepen tot winnaar.

  • De eerste fout was dat de selectie van ondervraagden was gebaseerd op abonnees van de Chicago Tribune die grotendeels op de Republikeinen stemden.
  • Een tweede fout was dat er telefonisch informatie werd verzameld. De Dewey-stemmers hadden vaker een telefoon dan de Truman-stemmers.
  • De derde fout was dat er een quotum werd gebruikt in plaats van een aselecte steekproef, hierdoor was er een te eenzijdig beeld ontstaan.

De makkelijke dataset

Het gebruiken van de data van social mediasites door wetenschappers blijft plaatsvinden, want de data is snel beschikbaar. Een dataset wordt makkelijk samengesteld, ondanks dat wetenschappers weten dat het eenzijdige informatie is. Een ander aspect is dat het gedrag op sociale netwerksites verschilt van hoe iemand zich offline gedraagt. In het onderzoek wordt ook gesteld dat veel documenten, papers, rapporten en publicaties worden gebruikt om het publiek te informeren en beslissingen te rechtvaardigen. Onderzoek is vaak te subjectief en te veel gesimplificeerd volgens de onderzoekers.

Met de vijftien vragen om statistiek in het nieuws beter te snappen is er hier duidelijk dat veel onderzoeken niet generaliseerbaar zijn.

tl;dr

Big data via social media onbetrouwbaar

Big data via social media onbetrouwbaar

via
Big data via social media onbetrouwbaar

Advertenties

Over Marijn Krijger

Marijn Krijger is marketeer, blogger en webautochtoon. Specialist in: Strategie, Online marketing, CRM, Content en Analytics.
Dit bericht werd geplaatst in Via MarijnKrijger.nl en getagged met , , . Maak dit favoriet permalink.

Geef een reactie

Vul je gegevens in of klik op een icoon om in te loggen.

WordPress.com logo

Je reageert onder je WordPress.com account. Log uit / Bijwerken )

Twitter-afbeelding

Je reageert onder je Twitter account. Log uit / Bijwerken )

Facebook foto

Je reageert onder je Facebook account. Log uit / Bijwerken )

Google+ photo

Je reageert onder je Google+ account. Log uit / Bijwerken )

Verbinden met %s