[an error occurred while processing this directive] [an error occurred while processing this directive][an error occurred while processing this directive] [an error occurred while processing this directive] [an error occurred while processing this directive] [an error occurred while processing this directive] (none) [an error occurred while processing this directive] [an error occurred while processing this directive] [an error occurred while processing this directive] [an error occurred while processing this directive] [an error occurred while processing this directive][an error occurred while processing this directive] [an error occurred while processing this directive][an error occurred while processing this directive] [an error occurred while processing this directive][an error occurred while processing this directive] [an error occurred while processing this directive] [an error occurred while processing this directive] [an error occurred while processing this directive] (none) [an error occurred while processing this directive] [an error occurred while processing this directive] [an error occurred while processing this directive][an error occurred while processing this directive]
 
[an error occurred while processing this directive] [an error occurred while processing this directive]
Skåne Sjælland Linux User Group - http://www.sslug.dk Home   Subscribe   Mail Archive   Forum   Calendar   Search
MhonArc Date: [Date Prev] [Date Index] [Date Next]   Thread: [Date Prev] [Thread Index] [Date Next]   MhonArc
 

Re: Ordfrekvenser



Quoting Lars Aronsson <sslug@sslug>:


Jag gjorde ett experiment här om dagen, med att sammanställa ordfrekvenslistor ur Projekt Runeberg. Som provskott använde jag bara de norska texterna, som inte är så många. Om det finns intresse skulle jag kunna göra något liknande för svenska och

Ja, jag är mycket intresserad av sådana frekvenslistor för svenska. Tanken är att använda dem som hjälpmedel för att införa stöd för äldre texter i DSSO (http://dsso.se).

Formatet på listorna är utmärkt.
En lista per år är lagom, det är ju lätt att slå samman listorna
till en längre period om man så önskar med ett litet skript.

Naturligtvis hade det varit bättre om man sluppit punkter som
markerar slutet av mening i listorna, samt att versaler konverterats
till gemen för ord som inte är namn, men jag förstår att det skulle
kräva en manuell genomgång. Då materialet är autogenererat är det
dock bra att man inte "chansar" och exempelvis plockar bort punkter
eller konverterar till gemener.
(En sidoanmärkning: om man gör en XML-uppmärkning av texterna i
Projekt Runebergs samling, så går det att skilja på exempelvis vad som
är egennamn respektive ord som inleds med versal enbart pga att det
står först i en mening. Ett populärt format för sådan uppmärkning är
TEI, som används t.ex. av Kungl. Biblioteket.)

--
Göran




 
Home   Subscribe   Mail Archive   Index   Calendar   Search

 
 
Questions about the web-pages to <www_admin>. Last modified 2007-02-01, 02:02 CET [an error occurred while processing this directive]
This page is maintained by [an error occurred while processing this directive]MHonArc [an error occurred while processing this directive] # [an error occurred while processing this directive] *