Det varnas för en övertro på big data - att det är en hajp som inte motsvarar verkligheten. Men big data går att göra pålitliga. Det menar dataanalytikern Ida Bodén som här ger oss sin syn på hur.
Computer Sweden publicerade nyligen en artikel som lyfter fram åtta begränsningar med big data. Bakom begränsningarna står de amerikanska forskarna Ernest Davis och Gary Marcus som också konstaterar att big data är en hajp som inte motsvarar verkligheten.
För mig är det självklart att big data inte motsvarar verkligheten. Big data ger oss möjligheten att skapa modeller av verkligheten - men de är endast modeller. Modellerna kan mer eller mindre efterlikna verkligheten men dessa innehåller faktorer som vi antingen inte känner till eller som inte riktigt visar på det som de är tänkta att visa på. Detta ger en diskrepans mellan modellen och verkligheten.
Hajpen runt big data har gjort att många beslutsfattare litar blint på allt som kommer ut ur dem och har en övertro på vad som de kan ge. Eller så känner de sig så skeptiska till det att de helt enkelt låter bli att skapa modeller från sina data. Båda sätten är lika förödande.
Nedan följer de första fyra av Ernest Davis och Gary Marcus åtta begränsningar med big data, som sammanfattade av Computer Sweden, samt mina personliga reflektioner på hur vi kan överkomma dem. Resterande kan du läsa om i del 2 av denna artikel.
1. Det är enkelt att hitta korrelationer men det innebär inte att det går att utläsa om det finns något orsakssamband.
Med en korrekt analys och förståelse för de ingående faktorerna går det absolut att avgöra om ett bevisat samband endast är en slumpmässigt signifikant korrelation, eller om det är ett adekvat orsakssamband. Användandet av så kallade ”black box”-analyser, där man blint litar på algoritmerna, är boven i detta drama. Man lägger in många olika faktorer och funderar inte på vad de egentligen har att göra med frågeställningen och den typ av svar man önskar få från analysen. Med kemometriska projektionsmetoder såsom Partial Least Square analys (PLS), där de ingående faktorerna får samverka, är det lätt att avgöra vilka faktorer som är relevanta och att se hur faktorerna samverkar.
2. Det går inte att lösa naturvetenskapliga problem enbart med hjälp av big data. Även om det kan vara ett bra verktyg så krävs det att man alltid börjar med en analys som bygger på en förståelse för exempelvis fysik eller kemi.
Ingen människa är en ö och det är inte heller big data. För att kunna lösa naturvetenskapliga problem behövs stora datamängder, big data, som beskriver naturlagarna. Datan måste samlas in från just naturvetenskapliga experiment. De modeller som sedan byggs från experimentens resultat skall verifieras mot verkligheten, benchmarkas. Detta gäller alla modeller oavsett vilka problem de skall lösa. Om man inte verifierar modellen kan man aldrig heller veta hur väl man kan förlita sig på modellen.
3. En del big data-verktyg är enkla att överlista. Exempelvis finns program som bedömer studentuppsatser baserat på meningslängd och vilken typ av ord som används på ett sätt som överensstämmer med de bedömningar som gjorts av människor. Men när studenterna förstår mekanismerna så är risken stor att de bara anpassar sitt skrivande efter det.
Det är detta som kallas evolution. Än så länge är människan smartare än maskinerna och verktygens algoritmer utvecklas inte automatiskt. Men modeller är till för att ständigt förbättras. Allteftersom hackers ständigt försöker överlista säkerhetssystem så blir säkerhetssystemen bättre. På samma sätt måste även modellerna inom big data hela tiden förbättras där de överlistas.
4. Analyser som till en början ser ut att vara väldigt stabila håller inte alltid över tid.
Exakt så är det. Per definition är big data något strömmande som ständigt förändras. Data ändrar betydelse och kvalitén på data skiftar över tid. Att tro blint på en analysmodell över tid är förödande. Man måste känna sina data, förstå sina modeller och ständigt utvärdera dem och jämföra dem med verkligheten.
Text: Ida Bodén
Ida Bodén är affärsdataanalytiker och grundare av företaget iViDA. Med en bakgrund som filosofie doktor inom kirurgi och biofysikalisk kemi med inriktning mot multivariat dataanalys hjälper hon forskare, organisationer och företag att skapa nya insikter ur befintliga eller nya data. Ida håller också kursen Dataanalys i praktiken på DF Kompetens.