Statistik Bogstavfordeling

Her først en lille tabel, og så længere nede en hel del om, hvad vi kan lære af tabellen.

Wordfeud. Bogstav fordelingen i dansk Wordfeud

I Tabel 1 har vi talt bogstaverne i samtlige gyldige ord i Wordfeud-databasen. (P. S. Vi snyder lidt og har brugt en computer). Der er i alt 198.598 ord med i alt 2.220.194 bogstaver. For fuldstændigheden skyld har vi medtaget “Q” og “W” selvom bogstaverne ikke er med i Wordfeud, og som du kan se af tabellen er der heller ikke ret mange ord med “Q” og “W”, men det er dog interessant, at der er flere ord med “W” end med “X”, som er med i Wordfeud.

De to procent-kolonner viser, hvordan andelen af de forskellige bogstaver fordeler sig. Et eksempel; der er 0.02% af bogstaverne i databasen, der er “X”-er, men 0.98% af bogstaverne i Wordfeud er “X”-er, så der er et klart misforhold. Hvis man fordelte bogstaverne i Wordfeud efter samme fordeling som i databasen; skulle du, hver gang du bruger et “X” i posen, lægge 668 “E-”er i posen. Der er så lidt kompensation, da “X” jo til gengæld giver flere point. I sidste kolonne kan du se, hvordan det påvirker fordelingen. Høje tal i sidste kolonne er svære bogstaver; lave tal er lette bogstaver.

Man kan også bemærke, at “Z” giver 9 point, men der er faktisk over dobbelt så mange ord med “Z” som med “X”, som til gengæld kun giver 8 point.

Kolonnen “Relativ forskel” fortæller, hvor mange bogstaver, der er i Wordfeud i forhold til databasen. Hvis tallet er større end 1, er der flere af det pågældende bogstav i Wordfeud end i databasen, så bogstavet er relativt svært at bruge. Er tallet mindre en 1, er der færre af det pågældende bogstav i Wordfeud end i databasen, så bogstavet er relativt let at bruge.