Hva om alfabetet var ordnet etter hvor ofte bokstaver var brukt?


Jeg måtte bare sjekke noe etter en samtale jeg hadde med en kollega på jobb idag. Samtalen vår handlet om at alfabetet vårt ikke er tilfeldig ordnet, men alfabetisk, og hva om alfabetet istedenfor var ordnet etter hvor ofte bokstaver var brukt? Hvordan finner vi ut av det da?

Her kommer programmering til nytte og jeg satte sammen et Python-script som kunne tygge seg gjennom en tekstfil. Scriptet kan lastes ned og brukes direkte, men jeg skal forklare et par ting det gjør:

Slik funker dataprogrammet

Scriptet spør etter en tekstfil som kan leses inn av programmet. Hele alfabetet er på starten definert som en liste. Programmet leser inn teksten fra en fil, linje for linje, tegn for tegn. Hvert tegn sjekkes mot alfabetet og dersom det er en gyldig bokstav, telles det som et tilfelle av bokstaven. Altså, for hver gang en gyldig bokstav blir lest inn, telles en en gang til. Dette gjøres bare på bokstavene a-å. Etter at alt er innlest, vil programmet sitte igjen med en oversikt over hvor mange ganger enkeltbokstaver har bitt innlest. Denne oversikten blir så skrevet ut i synkende rekkefølge; begynner med den bokstaven som har blitt brukt flest ganger i teksten, til den som har blitt brukt minst.

alfabet = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'z', 'æ', 'ø', 'å']

try:
  filename = sys.argv[1]
except:
  filename = input('Skriv inn navnet på en fil: ')

bokstaver = {}
with open(filename, 'r') as file:
  for line in file:
    for char in line:
      if char.lower() in alfabet:
        bokstaver[char.lower()] = bokstaver.get(char.lower(), 0) + 1

bokstaver_sortert=dict(reversed(sorted(bokstaver.items(),key= lambda x:x[1])))
print(bokstaver_sortert)

if len(bokstaver_sortert) == 29:
  print("\nTeksten inneholder alle alfebetets 29 bokstaver\n")

for b in bokstaver_sortert.keys():
  print(b, end=" ")

Det er nok vanskelig å gå gjennom alle tekster skrevet på norsk, men vi kan gjøre et lite utvalg.

Bokstaver brukt i gamle bøker

Første test var på en gammel bok av Henrik Ibsen, Villanden. Bokstavene etter hyppighet blir slik:

e r n t d a i s g o l k m h v u f å j b p æ ø y c w x q z

Etter å ha analysert fem av bøkene til Ibsen:

Legger jeg merke til at alle er mer eller mindre lik i bokstavdistribusjon. Mulighens en gjenkjennbar signatur?

e r n t d i s a l g o m v h u k f b j æ y å ø p c w x q z
e r n t d a i s g o l k m h v u f å j b p æ ø y c w x q z
e r n t d i s g a o l m u k h v f å b j p æ y c ø w x q z
e r t n d i s a g o l m v k h u f å j b æ p ø y c w z x q
e r n t d s i a o g l m k v h u f å b j p æ ø y c w x q z

På tide å prøve andre norske forfattere. Sigrid Undset er et fint alternativ og hennes bøker Jenny og Våren:

e a n t r d i s g l o k m v h u f p j b ø y æ c w x z q å 
e a t n r d s i g l o k m h v u f b p j ø æ y c z å w x q 

Som du kan se, er den litt annerledes enn bøkene til Ibsen. Hva med Knut Hamsen?

e a n t r d i s g o l k m h v u f p j b æ ø y c w x q z
e a r n t d i s o l g k m h v u f p b j æ ø y c w x q z
e n t d g r i a s o l m k v h f u j å p b æ ø y c w x q z

Ved første øyekast ser Hamsun ut som en kombinasjon av Undset og Ibsen, uten at det trenger å bety noe som helst. Legg også merke til at i Markens Grøde bøkene er ikke bokstaven å brukt. Han har brukt aa som i Blaabærlyng.

Hva betyr dette? Jeg vet ikke, men det var morsomt å se på hvilke bokstaver som blir brukt oftest i en tekst. Disse tre forfatterne skrev bøkene sine på 1800-tallet, begynnelsen av 1900-tallet. En ting jeg legger merke til er at bokstaven a ikke er så hyppig brukt av Ibsen som av Hamsun og Undset:

Nyere bøker, artikler og andre tekster

Hva med forfattere i dag? Her er en ungdomsbok av nyere dato:

Det magiske skjoldet (Alvedronningens riddere #1) av Peter Gotthardt:

e n t r a s l o g i d k m v h u å p f b j ø y æ w

Forfatteren bruker ikke bokstaven z noen gang i boken.

Hva med andre typer tekster, slik som artikler i nettaviser? La oss se på en slik. https://www.nrk.no/sport/roiseland-matte-endre-ol-planen-etter-vm-nedturen-1.15837660

Der ser vi at enkelte bokstaver ikke er brukt i artikkelen:

e t r n s l i a d g o k u m v å p h f b ø j y æ c z

Jeg forsøker en masteroppgave som handler om skjønnlitteratur i skolen: Eksisterer det en skjult skjønnlitterær kanon i den norske videregående skolen? En kvalitativ studie av fire norsklæreres bakgrunn for tekstutvalg

e t r n s a i l o d k g m v å u f p j h b ø y æ c w x z q

Jeg vet ikke helt hva jeg skal gjøre med dette, men det var morro å grave seg litt inn i dette. Kanskje ulike språk har ulike preferanser på hvilke bokstaver som er mest brukte i tekster?

Villanden av Ibsen på engelsk og norsk, side om side:

e t o a i n r s h l d u m g y c f w p b v k j x q z
e r n t d a i s g o l k m h v u f å j b p æ ø y c w x q z

Etter en samtale med en språknerd, fikk jeg et par lenker som omtaler dette:


OPPDATERING 13. feb: Jeg oppdaget at jeg glemte å sjekke store og små bokstaver i tekstene, så scriptet er oppdatert til å tvinge alt i små bokstaver ved innsjekking. Det utgjør nok en bitteliten forskjell i resultatet, men likevel.