Så brug dog mine (big) data, Google!

Denne blogpost blev siden bragt som kronik i Information, i redigeret form.

Big data er årets ord i 2013. Ikke mindst på grund af Snowden’s afsløringer af NSA’s systematiske aflytning af verdens borgere. Men om ganske få år vil vi ikke være skræmte over at stater og virksomheder indsamler og bruger data om os. Vi vil forlange det – og droppe de tjenester der ikke gør det som håbløst gammeldags.

Big data

Hver gang du logger på Facebook, søger på Google, bruger din gratis Google navigation eller lytter til en sang på Spotify, bliver der afsat et spor i en database. Alle disse firmaer logger nemlig hvad klokken var, da du loggede ind, hvor du klikkede ind fra og hvad du foretog dig – og også meget gerne hvor du var henne da du gjorde det og hvem du var sammen med. Og hvis man følger en gennemsnitlig netbruger i løbet af et år, bliver det til rigtigt mange små stumper brugerdata, som stables sammen i store databaser, sammen med data fra en hel masse andre brugere. Når disse dataspor indsamles kaldes resultatet ofte for “big data”. “Big data” er ikke en præcis betegnelse. Ingen kan f.eks. helt fortælle hvor store data skal være for at være “big” (en poppet definition er “når data ikke kan være i Excel”). I stedet handler “big data” om en ny måde at arbejde med data på og om de muligheder de giver for at forstå og forudsige menneskers adfærd.

En helt ny tilgang til dataanalyse

Det nye er at “store” brugerdata ikke er data som er indhentet specifikt med det formål at afdække en bestemt problemstilling eller besvare et enkelt spørgsmål. Ved “traditionelle” brugerundersøgelser vil man f.eks. ønske at undersøge problem X og derefter give sig til at indhente data Y ved spørgeskemaer, observationer etc. Ved “big data”, kommer data før problemstillingerne. De er indsamlet uden en specifik hypotese – men udelukkende fordi man kan. Man kan vel egentlig sige at disse akkumulerede brugerdata er en slags naturfænomener, som man derefter – ved hjælp af “data mining” kan give sig til at grave ned og forsøge at se mønstre og sammenhænge i.

Den moderne måde at håndtere brugerdata på handler altså om at indsamle alt hvad man kan få fat i og derefter forsøge at finde mønstre i disse data. De samme data kan indgå i mange forskellige sammenhænge og, jo flere andre data de kombineres med, blive stadigt mere sigende og værdifulde. Dette rummer store potentialer for f.eks. medicinsk forskning, hvor man f.eks. kan sætte nogle algoritmer til at kigge efter sammenhænge i gigantiske datasæt og opdage sammenhæn imellem nogle syptomer og årsager, man ikke selv ville have gættet på. Når “big data” imidlertid har fået et dårligt rygte, er det fordi netop dette nye “big data”-paradigme også er blevet en central del af efterretningstjenesternes måde at holde udkig efter terrorister på.

Derfor bruger NSA en “big data”-tilgang

Efter de store terrorangreb i forrige årti, blev der som bekendt lagt et kolossalt pres på den vestlige verdens efterretningstjenester for at bruge alle midler for at undgå at religiøse ekstremister bomber flere tog, fly eller markedspladser i fremtiden. Men da disse “religiøse” terrorister ofte, indtil de begår deres terror, er tidligere ustraffede og “pæne” samfundsborgere, er de i sagens natur meget svære at få øje på. Og en af de eneste måder efterretningstjenesterne kan holde udkig efter en fjende der ikke har identificeret sig på, er ved at indhente alle data de kan få fat på og derefter forsøge at finde mønstre, der kan afsløre at der måske er en adfærd et sted, som man bør se nærmere på. For den enkelte, der i teorien kan have fået sine data befamlet af en søgealgoritme hos NSA, kan det naturligvis føles dybt krænkende. Men jeg påstår at hvis du var ansat til at forsøge at forebygge terrorisme, ville du nok også have meget svært ved at sige nej til at datamine “almindelige” borgeres brug af internetkommunikation.  For det vil nemlig ofte være din eneste chance for at fange religiøse terrorister, som ikke tidligere har været kriminelle eller i myndighedernes søgelys. Jeg siger ikke at det er godt eller dårligt – blot at jeg sagtens kan forstå at sikkerhedstjenesterne vælger den tilgang.

“Big data” er kommet for at blive

Men lige meget om du så er enig i at en analyse af “store brugerdata” er nødvendig for at sikre imod terror, så har sikkerhedstjenesterne ikke patent på at forsøge at grave sammenhænge ud af store og “tilfældigt” indsamlede brugerdata, for at sige noget om menneskers adfærd. Når DR’s medianalanytikere f.eks. laver analyse af seernes adfærd, så arbejder de også med gigantiske mængder af bruger-logs, som de derefter forsøger at skabe mening i. Big data er ikke et overvågningsredskab, det er en konsekvens af at vores menneskelige adfærd sætter spor, som kan samles og findes sammenhænge i. Og det vil få en kæmpe betydning i de kommende år. Nettjenesterne selv bruger nemlig også dine brugerdata og de deler dem med andre tjenester for at skabe et mere fuldkomment billede af din adfærd. Og netop at disse tjenester bruger data “bag din ryg” til f.eks.at sælge dig annoncer, er også i mange år blevet set som lettere suspekt (selvom det unægteligt er kommet til at se lidt mindre farligt ud, i lyset af de seneste oplysninger om NSA’s overvågning). Men at dine nettjenester indhenter og bruger dine data, vil du om ganske få år ikke bare acceptere. Du vil tage det for givet. Ja, du vil faktisk skrotte tjenester der ikke gør det, som defekte og gammeldags.

Du vil snart kræve at virksomheder bruger “big data”

For nutidens nettjenester kræver oftest mange indtastninger, scrolninger, søgninger og konfiguration. Man kan sige at mange nettjenester er så hjælpeløse og dumme at de var blevet fyret, hvis de var vores menneskelige assistenter. Og selv de af vores tjenester der foregiver at optræde “intelligent” bruger som regel utroligt dumme analyser af nøgleord eller tid/sted-korrelation, når de skal forsøge at optræde “smart”. Hvor mange smarte tjenester, som virker, kender du egentlig?  Hvorfor skal jeg f.eks. selv søge på Google maps efter en benzintank, når jeg er ved at løbe tør for benzin i Nordsjælland, når Google både ved hvornår jeg sidst har været på en tankstation og hvor mange km min bil plejer at køre på en optakning? I mange år har futurister savlende fantaseret om digitale “intelligente agenter” som kunne gøre vores liv lettere. Men hvad er en sådan agent andet end et program der bruger alle de spor du afsætter, til at forsøge at gøre noget at det digitale knoklearbejde for dig? Så hvis de internettjenester du bruger skal begynde at opføre sig mere “intelligent”, så kræver det faktisk en langt mere sofistikeret forarbejdning af vore brugerdata, end vi har i dag.

Skal jeg så slet ikke være bekymret for overvågning, Anders?

Jo – der er bestemt grund til at være bekymret for “big data”-baseret overvågning. Den slags overvågning kan jo slet ikke udføres af mennesker (datamængderne er alt for gigantiske) og foregår istedet ved hjælp af algoritmer, små programmer som automatisk reagerer på suspekt adfærd og som derfor kan komme til at stemple dig som potentiel terrorist, hvis du tilfældigvis kommer til at udvise en adfærd de er programmeret til at reagere på. Lidt som software også engang kunne få aktiemarkeder til at nedsmelte, fordi de begyndte at sælge aktier helt automatisk. Og hvis du først er registreret som potentiel terrorist – også selvom det ikke kan begrundes eller bevises – er det oplagt at næste skridt (for en sikkerheds skyld, såklart) kan blive at nægte dig indrejsetilladelse i nogle lande osv. At den overvågning som terrorlovgivning åbner for, meget nemt kan vise sig at blive anvendt til andre formål også (nu vi alligevel har overvåget dig for rigets sikkerhed, så synes vi da lige at skattevæsenet skal vide at du arbejder sort), er også et meget nærliggende og stor problem.

Derfor vil risikoen for datamisbrug ikke få stor betydning

Men faktum er at disse problemer ikke vil spille en stor rolle for ret mange i praksis. Vi kan jo se hvor mange der er holdt op med at bruge Facebook eller mobiltelefoner, efter det blev afsløret at NSA foretager systematiske overvågninger og logning af brugernes adfærd. Ikke ret mange,vel? Ikke dig, i hvert fald. Til gengæld diskuteres emnet flittigt – på Facebook! Det skyldes en nytte/risikoanalyse, de fleste af os foretager automatisk og mere eller mindre ubevidst:

  • Nytte: Sandsynligheden for at opleve en positiv effekt af at bruge Facebook etc vil de fleste opleve som stor og meget kontant. Jeg får f.eks. likes, når jeg poster et foto. Forsvandt jeg fra Facebook, forsvandt nytten omgående.
  • Risiko: Sandsynligheden for at overvågningen skaber problemer for os oplever de fleste nok som utroligt lille og diffus. For det første er sandsynligheden for at nogen overhovedet lægger mærke til os, statistisk set ret beskeden. Dertil kommer at risikoen for at det alligevel skulle få negative konsekvenser for os at vi bliver overvåget, også nok opleves som lille, da vi jo ikke foretager os noget  ret der er ret interessant for efterretningstjenester.

Når man sætter en helt konkret nytteværdi over for en fjern og diffus risiko, vil nytteværdien vinde, hvis nytten er stor nok. Derfor vil fremtiden byde på mange opfindsomme anvendelser af data, til at gøre vores hverdag nemmere – og vi vil elske dem og bruge dem som sindssyge, hvis de bare er smarte nok. Også selvom de afsætter en masse dataspor som virksomheder kan bruge kommercielt. For sandheden er at de fleste af os slet ikke har nået grænsen for hvor meget privatliv vi vil afgive, for at få gjort vores liv nemmere og sjovere. Og hvis værdien er stor nok, finder vi som regel også en måde at forklare os selv at de data i virkeligheden ikke behøver at være private. En kan jo være at staten jo i virkeligheden altid har kunnet overvåge os, hvis den ville.

Hvilken forklaring bruger du f.eks. selv for at retfærdiggøre at fortsætte med at bruge Facebook?

Share Button
2 replies
  1. Jonas Heide Smith
    Jonas Heide Smith says:

    Interessant og velskrevet indlæg. Jeg ser dog fremtiden for big data og digitale tjenester som mere mudret. Nogle enkelte har tydeligvis fat i en rigtig ende (selvom min personlige “nytte” af diverse anbefalelses-systemer er nærmest ikke-eksisterende).
    Men i mange sammenhænge giver det mere sådan en lidt kafkask uklarhed om hvorfor en eller anden halvdum algoritme præsenterer en mærkelig sammenkogt ret.
    Så: Jeg tror der vil være en stærk (parallel) bevægelse væk fra den slags. Gennemskuelighed vil – i nogle sammenhænge – blive en UX-dyd og det betyder mindre “personlig assistent” og mere “vi giver dig – hurtigt og smertefrit – det du beder om”.
    Mange vil netop _ikke_ håbe/forvente at digitale tjenester prøver at kende os og vores kontekst.

    Mvh,
    Jonas

    Svar
  2. Anders Colding-Jørgensen
    Anders Colding-Jørgensen says:

    Ja, diskussionen om transparens versus underlige digitale agenter, er jo klassisk. Jeg tror også helt klart at antropomorfe agenter (som Word’s paper clip) en tid endnu, har et stærkt begrænset potentiale – uden for spilverdenen i hvert fald. Men mon ikke vi snart når et niveau af kompleksitet, hvor transparens ikke giver mening længere?

    Der er i hvert fald ingen tvivl om at hvad vi mangler nu er et par kvantespring i design af de algoritmer, som forsøger at forudsige vores adfærd og give os noget vi ikke selv har bedt om endnu. Problemet er jo at mange algoritmer enten bruger data vi selv har indtastet eller en meget simpel logning af vores adfærd.

    Svar

Skriv en kommentar

Want to join the discussion?
Feel free to contribute!

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *