Wiktionnaire:Actualités est un journal mensuel sur le Wiktionnaire, les dictionnaires et les mots. Il est publié en ligne depuis avril 2015. Son écriture est ouverte à toutes les bonnes volontés. Vous pouvez recevoir un avis lors de la publication des prochains numéros, consulter les anciens numéros et participer au brouillon de la prochaine édition. Vous pouvez lire aussi les Regards sur l’actualité de la Wikimedia. Pour les commentaires, critiques ou suggestions, voir la page de discussion.
Comme chaque année, l’équipe chargée de développer pour la communauté sollicite des propositions et organise un vote pour diriger son travail pour l’année suivante. Pour la première fois, l’équipe propose pour 2020 de ne lui faire des propositions qu’en rapport avec les projets qui ne bénéficient pas habituellement de développements. Voici les 20 propositions concernant le Wiktionnaire, sur un total de 72. Les 5 plus soutenues sont retenues et les votes se sont terminés le 2 décembre (donc le tableau a été actualisé après publication des Actualités) !
Une proposition a été retenue ! Il s’agira d’un nouvel outil permettant d’explorer plus facilement le contenu de Wikisource pour y trouver des exemples utiles pour illustrer le sens des mots. Les quatre autres propositions retenues concernent toutes Wikisource, qui sort gagnant de cette opération.
Les propositions non retenues demeurent ouvertes pour toute personne qui souhaiterait soutenir le Wiktionnaire, bénévolement ou sous la forme d’un projet externe à la Wikimedia Foundation, avec un financement dédié pour la durée du développement.
+ 19 293 entrées et 93 langues modifiées pour atteindre 3 838 513 entrées et 1 158 langues avec au moins cinq entrées.
+ 2 600 entrées en français pour atteindre 376 438 lemmes et 565 573 définitions.
Les trois langues qui ont le plus avancé outre le français sont le same du Nord (+ 12 007 entrées), l’espagnol (+ 1 314 entrées) et l’anglais (+ 1 093 entrées).
+ 8 nouvelles langues pour un total de 4 832 langues : le lambya, le chenchu, le kuturmi, le kaningdon-nindem, le kalanga, le hmong blanc, le juray et le ndali.
+ 3 424 citations ou exemples en français pour atteindre 403 802.
+ 1 826 prononciations (dont 1 297 pour le français) pour atteindre 176 035 prononciations audios pour 117 langues (dont 73 693 pour le français).
+ 365 médias d’illustrations (images et vidéos) dans les articles du Wiktionnaire, pour atteindre 47 885.
+ 9 thésaurus pour atteindre 622 thésaurus dans 56 langues dont 448 thésaurus en langue française ! Les nouveaux thésaurus sont : le cerveau par Lepticed7 ; le militantisme par WikiLucas00 ; le cinéma (art), le maquillage, le genre (cinéma), l’œil et le visage par Lepticed7 et Jpgibert lors d’une journée de contribution à la cinémathèque de Toulouse ; la porte par Otourly, les droits humains, la prévention et la sexualité par Noé ; la voie ferrée par Darmo117.
Wikiscan et Wikistats donnent chaque mois accès à beaucoup de mesures, dont la liste des pages les plus consultées et des pages modifiées par le plus de personnes.
Les 30 mots proposés ce mois-ci ont tous été créés. Bravo à tous !
+ 3 domaines sémantiques : le curling, l’art urbain, l’industrie de l’énergie.
La rubrique Wiktionnaire:Questions sur les mots (WT:QM) a enregistré 47 questions en novembre contre 61 questions en octobre et 36 en septembre.
Un article annonce même la maîtrise de la grammaire française par la machine, avec 99 % de réussite. Ceci grâce à un programme nommé « CamemBERT », basé sur un autre baptisé « RoBERTa », lui-même améliorant « BERT », un programme open-source développé par Google et révolutionnaire dans son domaine.
Le principe de base de l’ensemble de ces algorithmes, comme on a pu le voir pour les machines gagnant systématiquement au jeu d’échecs, au jeu de go et dernièrement à StarCraft 2, consiste à faire jouer à un réseau de neurones artificiels le plus de parties possibles, et c’est tout ! Dans notre cas, CamemBERT a lu des millions de pages, ou l’équivalent de 130 Go de texte, tout simplement ou presque. En comparaison, la totalité du texte de Wikipédia en français tient dans moins de 6 Go.
Après un tel entraînement (qui peut prendre seulement deux jours si vous disposez de 256 cartes graphiques !), il est possible d’analyser n’importe quel texte, en identifiant par exemple les verbes et les sujets. CamemBERT est téléchargeable pour faire des tests. L’exemple fourni avec le logiciel donne en entrée une phrase avec un mot à compléter : « Le camembert est ? :) » (note : le smiley est important, il préfère qu’on lui parle gentiment). On obtient alors, en sortie, une liste des meilleures réponses correspondant à l’apprentissage : délicieux (49 %), excellent (11 %), succulent (3,5 %).
L’ensemble des pages lues par ce bot un peu spécial viennent aussi d’internet, essayons donc avec « Le Wiktionnaire est ? :) » : disponible (16 %), arrivé (7,8 %), gratuit (7 %), terminé (4 %) .
Et « Un dictionnaire c’est ? :) » : génial (12 %), bien (11,5 %), indispensable (10 %), quoi (4 %) .
Mais la question la plus importante : « Mon fromage préféré est le ? » : chèvre (14 %), comté (11 %), Cantal (10 %), parmesan (6 %)… — une chronique par RomainbeharL’auteur Théodore Robertson, de son vrai nom Pierre Charles Théodore Lafforgue (1803-1871), donne, dans l’introduction, le but d’un tel dictionnaire ; en substance il écrit :
Autant les dictionnaires ordinaires ont pour objet de trouver la signification d’un mot ou l’idée qu’il représente, autant ce dictionnaire idéologique doit offrir la solution inverse : Une idée étant donnée, il convient de trouver le mot qui l’exprime le plus convenablement. À cet effet, les mots et les phrases de la langue sont classés dans ce dictionnaire, non selon leur prononciation ou leur orthographe, mais strictement selon leur signification.
Ce projet dépasse les dictionnaires de synonymes, où les mots sont groupés selon leur signification. Cet arrangement, s’il est propre à faire connaître la valeur précise des équivalents, ne permet en rien de choisir le mot le plus adapté à l’idée que l’on veut exprimer. Dans ce dictionnaire idéologique, le vocabulaire est disposé de telle façon qu’on y trouve, groupés dans la même colonne ou dans la même page, tous les mots et toutes les locutions ayant rapport à l’idée qu'il veut rendre.
Le Dictionnaire idéologique est l’application à la langue française du plan développé dans le Thesaurus of English words and phrases de Peter Mark Roget (1779-1869), et l’auteur français revendique l’autorisation de l’auteur anglais. Les idées y sont distribuées, sur les 313 premières pages, en six grandes classes, qui se subdivisent en ordres, en familles, en genres et en espèces, de manière que l’esprit puisse descendre successivement des généralités aux particularités dans mille sous-catégories. Un index de 166 pages (pages 314 à 480) répertorie les mots décrits et les affecte à l’une des mille sous-catégories.
Nous tenons là, dans nos mains émues, le premier thésaurus de la langue française et l’on peut remarquer que, aux liens hypertextes près, nous suivons, dans notre thésaurus du Wiktionnaire, une démarche qui en découle.
Actuellement ce dictionnaire est lisible en ligne et il semble qu’il fût réédité chez l’éditeur BookSurge Publishing en l’an 2000. Que ceux qui pourraient avoir la possibilité de consulter, dans une bibliothèque, l’édition de 1859 s’offrent le plaisir sensuel d’en toucher le papier. — une chronique par François GOGLINS
Quelques émissions audio ou vidéos sur la lexicographie, la linguistique et la langue française sorties ou découvertes ce mois-ci.
Impulsées par le Fantastique groupe d’utilisateurs et d’utilisatrices de Wiktionnaire, les LexiSessions proposent des thèmes mensuels pour dynamiser l’ensemble des Wiktionnaires simultanément. Les thèmes sont suggérés en amont sur Meta et annoncés chaque mois sur la Wikidémie, l’espace principal de discussion. La LexiSession de novembre était le militantisme et il a donné lieu à la création d’un thésaurus. Pour le mois de décembre, les thèmes proposés sont la fête et la famille.