AI och webben: en kamp om öppenhet och kontroll

v.44

2023-11-02 AI & Cool stuff Fördjupning Strategi

Publicerar ni innehåll på internet? Grattis, då är ni förmodligen också med och bidrar till utvecklingen av AI-tjänster som ChatGPT. AI-revolutionen bygger helt på det öppna Internet och människors vilja att dela information med varandra. Men alla är inte lika nöjda med AI-företagens sätt att hämta in data. Vilken strategi ska man egentligen ha kring AI och öppen data?

Väldigt många företag frågar sig idag hur de kan använda AI för att bli bättre och effektivare – helst före konkurrenterna. Men det är inte lika många som tänkt på att man också bidrar till att bygga upp de stora AI-modeller som används av företag som Open AI (ChatGPT) och Google (Bard) – bara genom att finnas på nätet.

AI-företagen dammsuger ständigt nätet efter data som de kan träna sina modeller på. Deras botar går igenom allt innehåll de kan hitta, ungefär på samma sätt som sökmotorer alltid har gjort för att indexera innehållet på webben. Skillnaden är att nu använder man datan för att bygga upp det innehåll som AI-tjänsten själv levererar, istället för att använda den som ett sökindex för att sedan skicka tillbaka användarna till ursprungskällan.

Kritiken mot botarna

Det är lätt att se det här som ett övertramp eller rentav ett rättighetsintrång, och bland andra Google har fått kritik för detta. Det man bör vara medveten om är att det är inte är fråga om att innehållet återpubliceras någonstans – utan det används som grund i ett komplicerat system där information från miljontals källor vävs samman och bildar ny information.

Juridiken kring det hela är oklar och sista ordet är inte sagt. Men oavsett det bör varje företag som publicerar sig på Internet i någon form ställa sig frågan om det ligger i företagets intresse att dela med sig av innehållet till AI-företagen eller inte.

Det optimistiska sättet att se på det är att genom att bidra med sitt innehåll är man med och påverkar den världsbild som förmedlas via AI, nu och i framtiden. Vi publicerar ju vårt innehåll på nätet för att vi vill sprida det, och om det kan påverka AI-tjänsterna så är det bara till fördel för oss. Det är ett synsätt som passar för webbplatser som har öppen data som grundsyfte, eller som ägnar sig åt marknadsföring, opinionsbildning och liknande.

Men man kan också förhålla sig mer skeptiskt till att låta AI-företagen använda informationen gratis med tanke på det värde de håller på att bygga upp. Och exakt hur de använder datan är det oftast svårt att veta. Därför är det många, särskilt medier som ju lever på sitt innehåll, som valt att blockera AI-tjänsterna från sina webbplatser.

AI-botarna följer nämligen (påstår de i alla fall) samma regler som de gamla hederliga sökmotor-botarna (eller “spindlarna”) som vi har haft sedan Internet var ungt. Den vedertagna standarden robots.txt kan användas för att styra vilka botar som får tillåtelse att “crawla” (genomsöka) en webbplats, och vad de får se.

Hur gör alla andra?

Hur väljer då företag i Sverige och utomlands att hantera detta?

Vi har granskat ett antal robots.txt-filer hos svenska och utländska webbplatser. Ett tydligt resultat är att samtliga större privatägda medier i Sverige – utom Svenska Dagbladet – blockerar AI-botar. Public Service-tjänsterna SR och SVT gör det inte.

Denna artikel i Aftonbladet talar om ett sorts “kallt krig” som pågår mellan medier och AI-företagen. Produktchefen Moa Gårdh säger såhär:

I dagsläget bedömer vi att vi har lite att vinna på att låta chatbottar ”crawla” vårt innehåll då vi saknar både transparens och regelverk kring dessa frågor. Vi vill ha kontroll över vår journalistik och vi är beroende av annons- och abonnemangsintäkter för att finansiera den. Som affärsmodellerna för de stora kommersiella AI-aktörerna ser ut nu finns det inga direkta fördelar för oss att dela vårt innehåll i dagsläget.

Men vad innebär det här för hur AI-tjänsterna kommer att fungera på sikt, när många av de mest etablerade rösterna saknas?

Tittar man vidare på mer rena digitala medier som Omni och Breakit så blockerar de inte AI-botarna. Inte heller diskussionsforumet Flashback eller stora företag som Volvo och Skanska.

Även utomlands blockeras AI-botar av stora mediehus som BBC, NYT och NPR. Microsoft Learn, som är en dokumentationsbank, är öppen, men inte den mycket populära fråga/svar-databasen StackOverflow. (De sistnämnda påstås ha fått säga upp anställda på grund av AI, och har också nyligen lanserat sin egen AI-baserade tjänst.) Och för att låta biltillverkare representera större företag utomlands kan vi se att GM blockerar AI-botar, medan Chrysler, Volkswagen och Toyota inte gör det.

En strategi för öppen data

Det är alltså ganska blandat hur företag i och utanför Sverige hanterar frågan med AI-botar. Det går inte att ge en entydig rekommendation kring hur man som ägare av en webbplats ska göra, men det är nog klokt att ha en strategi kring hur man som organisation ska agera med sin öppna data i allmänhet.

Syftar innehållet till att sprida kunskap, stärka ett varumärke, marknadsföra en produkt eller bilda opinion har man kanske mindre skäl att oroa sig för AI-botarna (åtminstone ur den här aspekten). Publicerar man däremot exklusivt innehåll som man tjänar pengar på är det närmre till hands att se botarna mer som ett hot – hur befogat eller obefogat det nu än är. Just medier har kanske det knepigaste valet – är det viktigast att nå ut med journalistiken eller att skydda den från gratisläsning?

Fakta: Lilla bot-skolan

Hur kan man identifiera de botar som används av AI-företagen? Här är exempel som vi hittade i de robots.txt-filer vi granskade. Tänk på att bara blockera botar då det är befogat, eftersom ni annars riskerar att hindra spridningen av ert innehåll.

GPTBot och ChatGTP-User: används av ChatGPT – den ena är en spindel/crawler och den andra en bot som hanterar direkta användarfrågor
Google-Extended: AI-tjänsten Bard
anthropic-ai och Claude-Web: AI-tjänsten Anthropic
CCBot: Common Crawl – en öppen datakälla som sannolikt används av flera olika AI-aktörer, men också av forskare, journalister m fl.
Omgilibot: Webz.io – säljer insamlad data.
FacebookBot: Facebook speech recognition AI
magpie-crawler: Brandwatch
008, voltron: 80legs, crawler-tjänst
Bytespider: kinesiska ByteDance, bl a TikTok
Amazonbot: Alexa mm
ia_archiver: Internet Archive, en viktig arkivtjänst som inte bör blockeras från öppet innehåll