Hallo Marco,
Dit is een geweldig project !!
Ik ben daar min of meer ook mee bezig geweest.
- Ik heb een heel aantal leerboeken voor het NT2 (nederlands als tweede taal) onderwijs gescand. (o.a. Code Plus Takenboek deel 1-4) en daar OCR op los gelaten.
- Ik heb hier alle losse woorden uitgehaald.
- Deze losse woorden heb ik gealfabetiseerd en de woordfrequenties bepaald.
- Daarna heb ik alle 'verkeerd' gespelde woorden er uitgehaald (spellingscontrole van open office = de spellingschecker van open taal).
- De woorden heb ik tussen vierkante haakjes gezet en op een van mijn gebruikerspagina's gezet.
- Alle woorden die nog niet in het wikiwoordenboek staan worden dan rood.
- En daarna ben ik bezig geweest deze woorden in het wikiwoordenboek te zetten. Veel van de frequente rode 'woorden' waren cijfers (vandaar dat ik de cijfers heb ingevoerd). Veel van de frequente rode 'woorden' waren eigennamen (vandaar dat ik een hele rits jongens- en meisjenamen heb in gevoerd maar de creativiteit van ouders is dermate groot dat het haast ondoenlijk is deze lijst compleet te krijgen om nog maar te zwijgen over een lijst met (buitenlandse) familienamen). Veel van de rode 'woorden' zijn vervoegingen van naam- en werkwoorden (vandaar dat ik die nu in het wikiwoordenboek aan het zetten ben).
Een zelfde soort actie heb ik ook losgelaten op een corpus van NRC artikelen die ik zo in de jaren heb verzameld, en ook op de woordenlijsten voor Amsterdamse kinderen.
Maar er zit een addertje onder het gras ik mag wel zeggen een compleet slangennest! En dat slangennest heeft een naam nl. de Wet van Zipf ]. In niet wiskundige termen: Er zijn weinig woorden (enkele duizenden) die heel frequent zijn, maar er zijn wel heel veel woorden die weinig frequent zijn. In de praktijk houdt dit in dat ik in de corpora waar ik mee bezig ben geweest tot 50% van alle unieke woorden een hapax legomenon Hapax of een dis legomenon zijn (woorden die slechts eenmaal of tweemaal in een corpus voorkomen). In het voorbeeld grafiekje van Moby Dick dat bij Hapax staat op de wikipedia gaat het om 61% van de unieke woorden. Bij deze lage woordfrequenties is de gevonden waarde volgens mij niet meer statistisch relevant.
Ik ben ook aan het experimenteren geweest met een omgekeerde methode van 'missende woorden vinden'. Ik nam een tekst, zette om alle woorden vierkante haakjes, en dan maar zien op een van mijn gebruikerspagina's welke woorden ontbraken. Hierbij gebruikte ik voornamelijk boekjes die gebruikt woorden bij NT2 onderwijs en boekjes gemaakt voor laaggeletterden. Behalve eigennamen leverde dat een bijna 100% score op: al die woorden staan wel in het wikiwoordenboek. NRC artikelen die ik gebruik bij hogeropgeleide NT2 cursisten staan (uiteraard) vol met rode (dus missende) woorden. Voor deze hogeropgeleide NT2 cursisten bestaat een van Dale woordenboek: van Dale pocketwoordenboek Nederlands als tweede taal (NT2) steekproefsgewijs heb ik dat vergeleken met het wikiwoordenboek: het wikiwoordenboek lijkt redelijk compleet.
In het NT2 onderwijs aan lager opgeleide cursisten (inburgeringsexamen) wordt gebruik gemaakt van een woordenlijst van 2000 woorden WikiWoordenboek:Woordenschat ERK-A2. Deze lijst is (uiteraard) helemaal blauw: het wikiwoordenboek is wat dat betreft compleet, maar kan altijd verbeterd worden met mooie voorbeeldzinnen.
En last but not least:
Er zijn meerdere gratis woordenboeken in Nederland bijvoorbeeld synoniemen.net, woorden.org, encyclo.nl die doorverwijzen naar het wikiwoordenboek (als het lemma niet bij hen zelf te vinden is). Misschien is onze meerwaarde juist gelegen in die woorden die juist niet zo frequent zijn ..........
Groetjes Marcel Marcel coenders (overleg) 28 apr 2016 16:12 (CEST)
Hallo Marco,
Nog even gekeken in paragraaf 5.2 Woordselectie van het handboek Nederlands als tweede taal: - De selectie van te leren woorden is slechts gedeeltelijk gebaseerd op hoe frequent een woord voorkomt in taaluitingen. De omgeving is ook van groot belang 'chondrodermatitis nodularis helicis' is voor een kno-arts en dermatoloog van belang maar voor een advocaat toch een stuk minder.
- Je zou een woord zeker 7 keer moeten tegenkomen voordat je het leert. Stel dat je 4 uur lang luistert per dag met een tempo van 145 woorden per minuut dan hoor je rond de 12 miljoen woorden per jaar (dit verzin ik hier ter plaatse). Belangrijke woorden zouden dus in een corpus van ongeveer 10 miljoen woorden 7 of meer keer moeten voorkomen. Om maar eens een poging te doen tot een opzetje. En dan heb ik het over woordenboekvormen en niet over alle verschillende vervoegingen.
Welke woorden van belang zijn is dus afhankelijk van de gebruiker
=> Bij woorden.org zou men ook bijhouden naar welke woorden vergeefs gezocht werd en dat als leidraad gebruiken voor het uitbreiden van het woordenboek. Ik weet niet of deze gegevens beschikbaar zouden kunnen gemaakt worden voor het wikiwoordenboek.
Bij de zoek functie van de NRC kun je zien in hoeveel artikelen een woord voorkomt in het NRC maar dat is natuurlijk geen open bron.
En wat betreft je IPA-weergaves lijkt me een heel goed plan maar misschien is daar weer een ander criterium van belang namelijk hoe 'moeilijk' is een woord uit te spreken en wat zouden mogelijke uitspraak varianten kunnen zijn (motor en moter) om maar eens een voorbeeld te noemen. Het uitspraak woordenboek van Josée Heemskerk en Wim Zonneveld ISBN 90.274.4482x is misschien interessant voor je (80.000 woorden in IPA-weergave)
Titel:Uitspraakwoordenboek Auteur:Heemskerk, Josée S. ISBN:978-90-274-4482-0
Groetjes Marcel Marcel coenders (overleg) 28 apr 2016 19:31 (CEST)