Hallo zusammen,
ich habe mal in dieser Test-Vorlage eine Erweiterung eingebaut, mit der wir die deutschsprachigen Grundform-Einträge kategorisieren und damit dann auch von der Anzahl her wesentlich genauer erfassen könnten. Bisher gibt es verschiedene Berechnungen dafür, die aber jeweils um einige 10.000 Einträge differieren.
Eingebaut habe ich (direkt nach dem {{#if:{{NAMESPACE}}||
) folgendes (siehe Diff):
…{{#ifeq: {{{2}}} | Deutsch | {{#switch: {{{1}}}
| Abkürzung
| Adjektiv
| Adverb
| Affix
| Antwortpartikel
| Artikel
| Buchstabe
| Demonstrativpronomen
| Eigenname
| Fokuspartikel
| Formel
| Gebundenes Lexem
| Geflügeltes Wort
| Gradpartikel
| Grußformel
| Indefinitpronomen
| Interjektion
| Interrogativadverb
| Interrogativpronomen
| Konjunktion
| Konjunktionaladverb
| Kontraktion
| Lokaladverb
| Merkspruch
| Modaladverb
| Modalpartikel
| Nachname
| Negationspartikel
| Numerale
| Onomatopoetikum
| Ortsnamengrundwort
| Partikel
| Personalpronomen
| Possessivpronomen
| Postposition
| Pronomen
| Pronominaladverb
| Präfix
| Präfixoid
| Präposition
| Pseudopartizip
| Redewendung
| Reflexivpronomen
| Relativpronomen
| Reziprokpronomen
| Sprichwort
| Straßenname
| Subjunktion
| Substantiv
| Suffix
| Suffixoid
| Temporaladverb
| Toponym
| Verb
| Vergleichspartikel
| Vorname
| Wiederholungszahlwort
| Wortverbindung
| Zahlklassifikator
| Zahlzeichen
| Zirkumposition = ]
| #default =
}} | }}…
Gibt es evtl. Wortarten, die Eurer Meinung da nicht mit reingehören würden oder fehlen ggf. noch welche?
Die Kategorie:Grundformeintrag (Deutsch) habe ich bereits angelegt und diese Test-Vorlage in 3 Einträge eingebaut.
Ich pinge mal ganz speziell @Formatierer, @Alexander, @Betterknower und @Gelbrot an. Es dürfen aber natürlich auch alle anderen Stellung dazu nehmen.
Gruß --Udo T. (Diskussion) 16:04, 1. Apr. 2019 (MESZ)
Hallo Betterknower, ja könnte man schon, aber...: Wer garantiert denn, dass nicht irgendwann mal jemand Einträge mit Straßennamen anlegt und dabei "vergisst", die Wortart Eigenname in der Ebene-3-Überschrift anzugeben? Bis jetzt mag es mit 40 Straßennamen noch überschaubar sein, aber das kann sich im Laufe der Zeit stark ändern. Es schadet ja nicht, wenn im obigen Quell-Text beide (also Wortart Straßenname und Eigenname) drin sind, denn ein Eintrag mit beiden wird natürlich immer nur einmal kategorisiert. So gesehen hätte man ohne Schaden auch das "Hilfsverb" drinlassen können, aber viel mehr wie die bisherigen 4 Hilfsverben werden es wohl kaum werden. Der primäre Zweck dieser Kategorie soll ja letztendlich sein, die Anzahl der deutschsprachigen Grundformeinträge so genau wie nur möglich zu ermitteln. Gruß --Udo T. (Diskussion) 23:10, 1. Apr. 2019 (MESZ)
Nachtrag: Jetzt sehe ich gerade, dass noch ein paar Wortarten (3?) fehlen, da diese nicht direkt in Kategorie:Deutsch eingebunden sind, sondern in Kategorie:Eigenname (Deutsch):
Ich glaube, ich muss mich da nochmal ganz gezielt durch den Kategorien-Baum "hangeln"...
Gruß --Udo T. (Diskussion) 23:33, 1. Apr. 2019 (MESZ)
Info: Ich habe natürlich auch auf die Profilingdaten des Parsers geachtet: Die leichten Erhöhungen bei 4 bis 5 Parametern sind marginal und liegen alle noch ganz weit im grünen Bereich. Gruß --Udo T. (Diskussion) 00:15, 2. Apr. 2019 (MESZ)
Ok, ist nun in Vorlage:Wortart aktiviert. Es wird natürlich eine Weile dauern, bis die Mediawiki-Software die Kategorisierung abgeschlossen hat. Gruß --Udo T. (Diskussion) 19:30, 2. Apr. 2019 (MESZ)
So wie es aussieht, ist die Kategorisierung nun abgeschlossen. Derzeit gibt es demnach 110.872 Grundformeinträge, was erfreulich nahe an dem ist, was ich bisher aufgrund eines früheren Vorschlags von Formatierer verwendet habe; danach wären es derzeit 111.011. Auf Wiktionary:Deutsch werden (derzeit) aber 121.235 angezeigt. Dort werde ich im Anschluss gleich mal mittels {{PAGESINCATEGORY:Grundformeintrag (Deutsch)}}
die korrekte Anzahl einbauen.
Wenn wir wollen, könnten wir diese Info auch auf der Hauptseite an geeignter Stelle fest einbauen...
Gruß --Udo T. (Diskussion) 11:06, 3. Apr. 2019 (MESZ)
Hallo Alexander, mit dem DB-Scanner vom AWB habe ich noch die 2 Einträge „-“ und „´“ gefunden. Sie enthalten als Wortart „Symbol“ und stecken in der roten Kat Kategorie:Symbol (Deutsch), die früher schon gelöscht wurde. Wie sollen wir mit diesen beiden Einträgen verfahren? Ich würde ja meinen, dass diese beiden Einträge eher in die Sprache „International“ (und damit auch bei der Wortart) umgewandelt werden sollten, denn sie sind ja nicht (typisch) Deutsch. Was meinst Du dazu?
Ansonsten hatte ich noch die 3 Einträge „dessentwegen“, „Befeuchten“ und „Entwässern“ gefunden, die ich aber vorhin entsprechend korrigiert habe. Somit hätten wir m. E. (bis auf die noch fragliche Wortart „Symbol“ bei Sprache „Deutsch“) alle Wortarten erfasst und in Vorlage:Wortart eingebaut. Gruß --Udo T. (Diskussion) 20:49, 4. Apr. 2019 (MESZ)