Wikisanakirja:Wikipedia-korpus

Wikisanakirjasta

Suomenkielisestä Wikipediasta poimitut sanat. Käytetty tietokantadumppia kesäkuulta 2014. Sanaluettelot on tuotettu artikkeli-nimiavaruudesta (namespace 0) ja puhdistamalla artikkeleiden sisältö niin, että on jäänyt jäljelle vain leipäteksti (kuitenkin wikilinkkien näkyvä osa säilytetty). Esimerkiksi mallineet, url-linkit, luokkalinkit, tiedostolinkit ja kuvatekstit, otsikot, taulukot eivät kuulu aineistoon. Täsmennyssivut ja uudelleenohjaukset eivät kuulu aineistoon. Leipätekstistä sanojen esiintyvyyttä on laskettu siten, että kaikki sanat on ensin muunnettu pienikirjaimisiksi eli ei ole eroa sanoilla "Suomen" ja "suomen". Tämän vuoksi listoissa esiintyy sellaisia sanoja kuin "jenny" ja "egypti". Joistain sanoista puuttuu piste (esim. "s.") tai kaksoispiste (esim. YK:ssa). Sanaliitto "suomen kieli" ei ole tuossa muodossa, vaan jakaantuu esiintymiin "suomen" ja "kieli". Tästä hyvänä esimerkkinä on "muun muassa", joka jakautuu esiintymiin "muun" ja "muassa".

Luettelot[muokkaa]

Katso myös[muokkaa]