Utviklingstrekk på Wikipedia

search
jeblad

finnes det en «dugnadskonstant»?

John Erling Blad

28/05/10 28/05/10

Enkle analyser indikerer at det kan finnes en internasjonal «dugnadskonstant» som slår gjennom brukermassen til nettleksikonet. Slike dugnadskonstanter vil sette en nedre grense for hvor små språkene kan være om de skal danne fungerende nettsamfunn som produserer leksikon. Språkene vil ikke ha tilstrekkelig mange brukere som kan gå inn i rollen som skribenter, noe som igjen setter en grense for når det oppstår et nettsamfunn med tilstrekkelig produksjonskapasitet.

Artikkelen ble først publisert på sonen Nettdugnad til Origo. Nettstedet ble stengt for redigering i oktober 2016, og endelig nedlagt i juni 2019.⁽¹⁾ Noen av artiklene migreres over til dette nettstedet, men dessverre kan ikke kommentarer flyttes.

Det har kommet mange påstander om hvordan brukermassen utvikler seg på Wikipedia og da spesielt den delen som gjelder de aktive skribentene. Disse er sentrale for å opprettholde veksten og kvaliteten på Wikipedia. Hvis det finnes begrensende faktorer som påvirker disse så har det betydning både for fremtidig utvikling og for hva slags prosjekter som fungerer.

Trender kan indikere at det finnes begrensende faktorer på flere av Wikipedia-prosjektene. Slike begrensende faktorer opptrer også på bokmål og nynorsk Wikipedia. Slike dugnadskonstanter kan gjøre det umulig å få til Wikipedia og Wikipedia-lignende prosjekt for små språk slik som samisk.

I denne artikkelen vil det bare ses på enkelte trender i brukermassen for nettsamfunnet. Det er også aktuelt å se på nettsamfunnet i relasjon til det totale tekstkorpus. Dette vil hele tiden akkumulere og hvis skribentmassen forblir stabil så vil dette i seg selv representere et økende vedlikeholdsproblem. Vi kommer ikke til å gå inn på dette problemområdet.

Trender i prosjektene

I disse analysene støtter vi oss på Erik Zachtes statistikker om Wikipedia. Vi bruker tabellene Wikipedia statistikk – alle sprog og og Wikipedia statistikk – engelsk. Fra disse tabellene henter vi kolonnene for nye skribenter (kolonne B), skribenter med mer enn 5 bidrag (kolonne C) og de med mer enn hundre bidrag (kolonne D). Bokstavene i parentes viser til Zachtes merking av kolonner i tabellene.

Dataene plottes sammen med en differanse for alle andre prosjekter i en felles figur, og vi lar de gå fra april 2001 til venstre i figuren og til januar 2010 til høyre i figuren. Sagt på en annen måte så går grafene fra tidenes morgen i Wikipedia og frem til nåtiden med en oppløsning på en måling for hvert kvartal.

Figuren viser trender på Wikipedia for engelsk vs the world; Nye og faste brukere for grupper av brukere.

Figuren viser nye skribenter, skribenter med mer enn fem bidrag og skribenter med mer enn hundre bidrag for hele Wikipedia, den engelske utgaven og summen av andre utgaver. Underlagsdata kommer fra Erik Zachtes statistikk over totaler for Wikipedia.

Innhold skrives av et stort antall mer eller mindre sporadiske skribenter. Noen av disse er innom for å rette litt, eller legge til et par opplysninger, men er ikke involvert i prosjektenes daglige drift. Typisk vil de ha færre enn fem bidrag i måneden. Denne gruppen skribenter er svært stor og er ikke tatt med blant grafene. Til denne gruppen hører også typiske vandaler.

Samtidig finnes det en gruppe skribenter som er tungt inne i den daglige driften, men disse har nokså sterke bindinger til prosjektet og endringer er i mindre grad synlig. Typisk har disse mer enn 100 bidrag i måneden. Gruppen er for en stor del administratorer som jobber med vedlikehold. En av administratorene på bokmålsutgaven mente at han hadde vært sløv den siste tiden, han hadde knapt 500 bidrag i februar! Skribenter fra denne gruppen er vist med mørk grønn, lys grønn og fiolett graf. Den fiolette er den eneste som er noe dominerende og den er for skribenter i hele Wikipedia.

Nye bidragsytere er slike som ikke tidligere er observert. De er vist med gul, mellom blå og rød graf. I denne analysen er nye brukere ikke så interessant, for de tar ikke nødvendigvis del i innholdsproduksjonen. Antall nye brukere som redigerer viser et svakt fall, men dette kommer muligens av at de aktuelle skribentene beholder sine kontoer etter småredigeringer. Det totale antall registrerte kontoer akkumulerer hele tiden da det ikke skjer noen opprydding i gamle og tilsynelatende døde kontoer. Fordi antall nye kontoer faller såvidt raskt så er det mer enn bare akkumulering som driver fallet, muligens kan årsaken ligge i fremvekst av prosjekter på lokalt språk i kombinasjon med globale kontoer og at dette senker behovet for registrering på flere språk.

Bidragsytere med mer enn fem bidrag hver måned er en viktig gruppe bidragsytere på Wikipedia for disse skribentene skriver nokså mange av artiklene. Senere tar vi utgangspunkt i disse brukerne når vi ser på trender mellom prosjektene. Grafene er i mellomgrønn, brun og lys blå. Gjennom året er det noe fluktuasjoner, selv om sommerperioden ikke er så utpreget når en ser på totalprosjektet som på enkelte av språkprosjektene. Dette er naturlig da det er et stort antall skribenter på begge halvkuler. Det er likevel en overvekt på den nordlige halvkule og dermed faller antall skribenter noe gjennom sommerperioden.

Grafene som viser antall bidragsytere er relativt stabile for både nye, bidragsytere med mer enn 5 bidrag og bidragsytere med mer enn 100 bidrag. Hva mer er, disse har vært stabile over flere år. Hvert målepunkt (rad) fra tabellen representerer et kvartal, dermed har trendene vært stabile i rundt regnet tre år. I januar 2007 var det totalt 95370 skribenter og i april samme år når totalen 98028 skribenter.

Det engelskspråklige prosjektet er det som får desidert mest fokus på Wikipedia. Engelsk Wikipedia hadde en voldsom utvikling når skribentmassen først begynte å øke, i en periode fra oktober 2005 og til januar 2006 økte antall skribenter med 10593 fra 14811 og til 25404. I april 2007 nådde engelsk Wikipedia 53380 skribenter i intervallet over fem bidrag og færre enn hundre per måned. Denne utviklingen kan vi følge som den grønne grafen. Etter perioden med voldsom vekst stoppet økningen på engelsk Wikipedia og falt noe tilbake. I samme periode opprettholdt Wikipedia totalaktiviteten. Dette ser vi av den lyseblå grafen. Samtidig med fallet på engelsk voks de andre prosjektene frem, noe som er synlig i den brune grafen som krysser den grønne.

Skribenter på engelsk Wikipedia er ikke bare personer med engelsk som morsmål. Etter hvert som prosjekter på deres egne språk har tatt av så migrerer mange over til disse. De nye språkene kan sies å kannibalisere skribentmassen i det engelske prosjektet. En slik utvikling vil vedvare for det engelske prosjektet inntil det når en mer naturlig balanse mellom tilvekst og tap av skribenter til andre språk.

Samtidig som lekkasjen fra engelsk og til de lokale språkene representerer en belastning for engelsk Wikipedia, om enn nokså moderat, så medfører de lokale språkene at lokalstoff fra de aktuelle landene øker i engelsk Wikipedia og de andre store språkene. Det er påvist at stoff beveger seg fra de lokale språkene og inn i de store språkene, for derfra å spre seg ut i alle de andre små språkene. Slik kan innhold over noen år propagere til språk talt på lokaliteter som er nokså fjernt fra der stoffet opprinnelig ble beskrevet.

Skribenter og antall internettbrukere

Internettbruk er i voldsom endring. For å normalisere tallene for de enkelte språkprosjektene har vi brukt tall fra OECD Broadband Portal – Broadband penetration, historical time series (Juni 2009) Vi mangler gode tall for antall internettbrukere og deres morsmål, spesielt i enkelte land hvor det finnes flere offisielle språk, og derfor må vi gjøre et mindre utvalg enn ønskelig.

Figuren viser trender for internettbruk i forskjellige land; Antall internettabonnenter per 100 innbyggere.

Figuren viser trendene til bredbåndspenetrering i et utvalg land. Fordi tallene følger antall abonnenter og det er en usikkerhet knyttet til hvor mange som faktisk bruker hvert abonnement, så kan den reelle dekningsgraden være høyere. Dette tallet vil også påvirkes av familiestørrelse i de enkelte landene. Underlagsdata kommer fra statistikk på OECD Broadband portal.

Fordi det er en økning i antall internettbrukere over tid så vil dette gi et fall i de normaliserte grafene. I tillegg vil ikke nye internettbrukere i samme grad som de etablerte være villige til å involvere seg i større prosjekter.

Når vi senere omtaler «brukere» så er dette egentlig definert fra OECDs «subscribers». Vi gjør dermed en overforenkling ved at vi snakker om en udefinert normalhusholdning og ikke en enkelt person. Dette kan være en av grunnene til at vi får noe avvikende tall i land sør for Sentral-Europa, familiene er rett og slett større enn i Nord-Europa. Tallene er ikke korrigert for dette.

Når vi normaliserer tallene til Erik Zachte, disse er språkspesifikke, mot OECD sine tall for bredbåndsabonnenter i de enkelte landene, så får vi et tall for hvor sannsynlig det er at en internettbruker på et språk bidrar til Wikipedia på dette språket. Fordi OECD-tallene avslutter før våre tall har vi fremskrevet tallene lineært for å dekke hele Zachtes statistikk.

Figuren viser antall skribenter med mer enn fem bidrag per måned; Antall internettabonnenter gruppert for land

Figuren viser antall skribenter med mer enn fem bidrag for Wikipedia på et lite utvalg språk, men normalisert mot antall internettbrukere i aktuelle land. Underlagsdata kommer fra Erik Zachtes statistikk for Wikipedia på disse språkene og fra OECD Broadband Portal.

I en slik normalisert statistikk så viser det seg at mange av språkprosjektene kommer ut med tilnærmet samme forhold mellom antall skribenter og antall internettbrukere – det finnes en slags dugnadskonstant. Dette viser at det finnes et forventet antall skribenter innen en språkgruppe. Hvis noen av de mer uvanlige språkene holdes utenfor så er typiske tall 0,2 til 0,5 skribenter per 1000 internettabonnenter i gruppen med mer enn fem bidrag per måned. De mest uvanlige språkene er fortsatt i vekst og har ikke nådd et stabilt nivå, mens noen land har flere språk og tallene er derfor usikre. I noen tilfeller burde også folkegrupper i andre land tas med, men vår modellering er kun en tilnærming og som sådan er den tilstrekkelig.

Merk at det kan se ut som om tidsbruk på sosiale nettsteder er avvikende i enkelte land. Dette vil komme i tillegg til hvem som har tilgang til bredbånd. Justeres det for dette så vil for eksempel japansk Wikipedia komme midt blant resten. Se Medie Norge: Sosiale medier – et overblikk, side 10, Gjennomsnittlig tid brukt på sosiale medier i april 2010. (Oppdatert 2010-09-29)

Vi er spesielt interessert i bokmål og nynorsk, men vi mangler separate tall for disse. For å få noen omtrentlige tall så splitter vi norske internettbrukere i en gruppe for nynorsk (13%) og en for bokmål (87%). Tallene kommer fra diskusjoner med nynorskbrukere og ligger innenfor intervallet oppgitt i Wikipedias artikkel om nynorsk Tall fra Wikipedias egen statistikk for aktive skribenter indikerer at 9,5% og 90,5% ville være riktigere. Da ville nynorsk få en vesentlig høyere dugnadskonstant enn bokmål. Det kan synes som om små språk generelt får en noe høyere dugnadskonstant enn større språk, men det er ikke gjort noen grundigere analyser av dette da det er relativt få fungerende prosjekter på slike språk.

For Wikipedia betyr dette at vi må slå sammen prosjekter sammen om språkene blir for små, eller at vi må bruke andre virkemidler. I fremtiden kan det vise seg at maskinoversettelser kan brukes for å slå sammen prosjekter for små språk slik at vi får større og levedyktige nettsamfunn.

Ser vi på samisk og antar at en andel på 34% har internett blant den samiske befolkningen (OECD-tall for Norge), av dette snakker en tredjedel samisk (ikke alle samer kan samisk), så gir et tall på 60 000 samer at vi ender på 1,36 til 3,4 brukere i den aktuelle gruppen. Tallene kan være noe verre da ikke alle samer behersker den nye skriftnormen for nordsamisk. Midler vi over siste år så finner vi at det er 3,7 brukere i gruppen fra Zachtes statistikker, nokså tett på det forventede intervallet.

Dette er helt klart for lite til å etablere et stabilt og fungerende nettsamfunn. Kanskje er det mulig å påvirke brukere slik at de er mer villige til å forme et stabilt nettsamfunn, men anslagene tyder på nettsamfunnet er for lite. Et fungerende nettsamfunn ville gi en graf som lå helt i overkant av figuren, helst langt over, noe som ikke virker sannsynlig fra dette datagrunnlaget. Det er også viktig at virkemidler for å løse problemet med små nettsamfunn ikke må forutsette et fungerende nettsamfunn av en for stor størrelse før de kan stimulere til ekstra vekst.

Oppsummering

Det synes som om gjennomgangen underbygger at det finnes en «dugnadskonstant» som tilsynelatende er av samme størrelsesorden for alle språkprosjektene. Noen av prosjektene har en stabil og høy dugnadskonstant og det vil være av stor nytte både for Wikipedia og andre lignende prosjekter om årsaken kan identifiseres. Det kan synes som om det er en motivasjonsfaktor involvert, spesielt når gruppene blir mindre og mer homogene. Generelt er det antatt at både sosiale, kulturelle, moralske og økonomiske virkemidler kan brukes for å øke interessen rundt et nettsamfunn og at økonomiske virkemidler nok ikke er av de viktigste.

Andre wikier har klart å lage fungerende nettsamfunn selv om det aktuelle rekrutteringsgrunnlaget er vesentlig mindre enn språkgruppen for samisk. En slik wiki er Lokalhistoriewiki fra Norsk Lokalhistorisk Institutt som på flere områder kan sammenlignes med nynorsk Wikipedia. Muligens kan dette ha sammenheng med at nettsamfunnet allerede er etablert fra brukernes behov i andre sammenhenger, det vil si at de har en interesse for lokalhistorie. Dette skaper et interessefellesskap, men samtidig skaper interessen en begrensing som gir et særdeles dårlig rekrutteringsgrunnlag. Interessefellesskapet er da en motivasjonsfaktor som veier opp for begrensingen i rekrutteringsgrunnlaget. Tilsvarende kan en også se på Store norske leksikon som et sterkt begrenset nettsamfunn. I dette tilfellet er det ønske om markante redaktører med en sterk faglig bakgrunn som skaper begrensingen. Hvorvidt det finnes noen reell motivasjonsfaktor utover økonomiske incentiver i denne gruppen er uklart.

Det kan se ut som om skribentmassen på engelsk Wikipedia var større enn de engelskspråklige landene alene kunne understøtte. Fra en meget god start faller prosjektet noe tilbake og nærmer seg en verdi som stemmer godt med mange av de andre prosjektene. Tilsvarende effekter er observert på enkelte andre språk, slik som finsk, som også faller tilbake på et mer normalt nivå. Noen av språkene som er med i analysen virker det som fortsatt er iferd med å konsolidere brukermassen. Det er verd å merke seg at det er først de siste årene at editorer for skriftspråk med ideografiske tegn har fungert tilfredsstillende og fortsatt er det tildels store uløste tekniske problemer.

blog comments powered by Disqus