Wiktionnaire:Actualités est un journal mensuel sur le Wiktionnaire, les dictionnaires et les mots. Il est publié en ligne depuis avril 2015. Son écriture est ouverte à toutes les bonnes volontés. Vous pouvez recevoir un avis lors de la publication des prochains numéros, consulter les anciens numéros et participer au brouillon de la prochaine édition. Vous pouvez lire aussi les Regards sur l’actualité de la Wikimedia. Pour les commentaires, critiques ou suggestions, voir la page de discussion.
Les 17 et 18 novembre auront lieu à Lyon deux journées d’études sur la création de dictionnaire. La première journée permettra d’échanger sur les méthodes et les pratiques avec une session dédiée au Wiktionnaire. La deuxième journée sera participative avec une formation collective à l’écriture de dictionnaire dans le Wiktionnaire, centré sur les dix mots de la francophonie. Et c’est co-organisé par Lyokoï et Noé, deux rédacteurs des Actualités !
Les pages de statistiques externes permettent de connaître :
Une prise de décision a amené à diviser des thésaurus existants dont le titre était ambigu et a entraîné la création de : cirque (naturel) et cirque (spectacle) ; langue (anatomie) et langue (linguistique) ; paresseux (animal) et paresseux (personne) ; assimilation culturelle et assimilation (biologie) ; racine (végétale), racine (odontologie), racine (linguistique), racine (informatique), racine (géologie), racine (figuré et sociologique)
Par ailleurs, Assassas77 a continué la création de thésaurus en tagalog, en en créant six de plus !
Au 31 octobre 2017, le Wiktionnaire atteint donc 317 thèmes de thésaurus, dont 300 thésaurus en langue française et un total de 452 thésaurus pour 54 langues !
23 nouveaux thésaurus ce mois-ci dont 5 en français : punition, peine de mort, prison (première création de thésaurus par Classiccardinal !), armure et tissage
En traitement automatique du langage, plusieurs opérations permettent de produire des outils autour d’une langue. Richard Khoury et Francesca Spasford se sont essayés à la création d’un outil de désuffixation du latin à partir du Wiktionnaire anglophone, qu’ils rapportent dans leur article « Latin word stemming using Wiktionary » (dans Digital Scholarship in the Humanities, volume 31, numéro 2, juin 2016, pages 368–373). Leur démarche pilote a consisté en une exploitation de la base de données et des liens entre les pages qui sont spécifiés dans des modèles de déclinaisons très précis afin de rattacher les racines aux terminaisons pour les verbes et aux suffixes pour les noms. À partir d’une copie de la base de mai 2015, ils ont procédé à trois étapes de nettoyage puis ont obtenu 655 434 formes de mots pour 32 860 racines.
Le meilleur outil avant leur expérimentation, le Schinke Stemmer, fonctionnait sur un principe différent puisqu’il s’agissait d’un ensemble de règles qui permettait de désuffixer automatiquement en créant des racines hypothétiques, qui n’étaient pas forcément des mots mais qui permettaient néanmoins de réduire l’inventaire de mots d’un texte, et facilitait la recherche dans un moteur de recherche par exemple.
En comparant les deux outils, ils observent que celui basé sur le Wiktionnaire rate les mots qu’il ne connait pas, mais qu’il réduit néanmoins le vocabulaire d’un texte bien plus efficacement. De plus, il permet d’accéder par la suite à un dictionnaire de définition directement, ce que ne permettait pas l’outil précédent. Ils envisagent même d’améliorer leur exploitation de la base de données du Wiktionnaire afin d’intégrer les catégories grammaticales des entrées pour produire un outil supplémentaire permettant l’étiquetage morpho-syntaxique d’un corpus.
Ces usages montrent que les wiktionnaires contiennent des données qui sont non seulement utilisables comme un dictionnaire, mais qui permettent également, grâce à leurs structures régulières, la réexploitation par des machines afin de créer des outils nouveaux. — une recension par Noé
Quelques précisions sur le rôle des patrouilleurs :
Les patrouilleurs sont des contributeurs qui consentent à passer une partie de leur temps à relire les contributions faites sur le wiktionnaire.
Ils disposent pour les aider d’un outil qui leur indiquent les contributions qui restent à patrouiller. Seules les contributions de personnes anonymes ou inscrites mais n'ayant pas le statut de contributeurs auto-patrouillés sont à relire.
Après relecture, ils peuvent alors marquer une contribution comme étant patrouillée.
Par patrouillée, il faut comprendre exempte de vandalisme au sens très large, ce qui conduit à :
Voilà les actions de bases du patrouilleur. Ils peuvent, dans ce cadre, s’ils ne sont pas administrateurs, être amenés à demander le masquage par ces derniers des contributions qui contiennent des diffamations, des renseignements personnels et des violations de copyright.
Ensuite, le patrouilleur peut, s’il le souhaite, aller plus loin en opérant sur la présentation différentes actions supplémentaires éventuelles telles que :
Enfin, et c’est de loin le plus intéressant, il peut s’attaquer au fond, en s’assurant de l’exactitude d’une contribution, voire en apportant des compléments d’informations ou des corrections.
Il faut bien le dire, cette partie est de très loin la plus chronophage et également la moins aisée.
Ainsi, il peut :
Pour ce dernier point, il lui faut disposer d’une certaine compétence en linguistique, d’un très riche matériel sur une grande quantité de langues et de connaissance de la grammaire de plusieurs langues — ce qui n’est pas le cas de tout un chacun.
Les erreurs de traduction sont en effet nombreuses bien que faites de bonne foi, souvent de par le fait que les processus de métonymie, pierre d’achoppement du lexicographe, ne sont pas les mêmes pour toutes les langues. Ce qui fait qu’il est parfois funeste de recopier une traduction trouvée ailleurs (dictionnaire, wikipédia, etc.)
Par exemple, beaucoup de langues distinguent par des noms différents l’action de son résultat, le contenant du contenu, le bâtiment de l’institution, etc., là où le français ne le fait pas forcément. Ainsi, en finnois : chargement (l’action) : kuormaus / chargement (ce qui est chargé) : kuormitus ; la mairie (le bâtiment) : kaupungintalo / la mairie (l’administration) : pormestarin
Et bien sûr, on trouve le même problème dans le sens contraire finnois / français.
Il est par contre assez rare de rencontrer de véritables contre-sens. Je me souviens d’un, il y a plusieurs années sur le wiktionnaire anglais qui m’avait amusé :
intrigué par le fait que je trouvais plusieurs pages sur le net donnant pour chauve-souris le mot anaullaut en inuktitut, et sachant que ce mot voulait dire bâton je trouvais, après quelques recherches, que l’origine était qu’un contributeur avait trouvé dans un dictionnaire inuktitut/anglais : anaullaut : bat et avait créé cette entrée sur le wiktionnaire anglais en précisant Catégorie:Animal ce qui fut ensuite repris et traduit en français par d’autres sites.
Mais, hélas pour lui, c’était bien le mot anglais bat mais dans son sens de batte — par exemple de baseball — et non de chauve-souris dont il s’agissait…
Si vous aussi avez noté quelques contributions déjantées ou cocasses, n’hésitez pas à les rapporter ici dans une prochaine publication. — une chronique par Unsui
Que se passe-t-il lorsque le Wiktionnaire devient une référence malgré lui ? Lorsqu’on discute des sources de notre projet, on s’aperçoit qu’elles ne se structurent absolument pas comme Wikipédia, que nous n'avons pas du tout le même rapport face au travail inédit et que peut-être, nous pouvons servir de source. Bon. En fait, on le fait déjà. Et j’en veux la preuve dans le petit dico du mois. Un ouvrage de poche, qui donne un aperçu du « Vocabulaire français emprunté au gaulois, au breton et aux langues celtiques ». Yann Lukas nous fait découvrir des mots que l’on connaît et d’autres dont on ne soupçonnait pas l'origine celtique. Il propose plusieurs fois des alternatives celtiques à des mots d’argot dont les dictionnaires courant sont souvent complètement à la ramasse sur le sujet : à dache, loufer, morfal et j’en passe.
Mais à la page 62, nous découvrons une bien drôle de phrase : Tamis : bien que contesté, l’étymologie gauloise du tamis est séduisante. Dans son Dictionnaire des étymologies obscures (Payot, 1982), Pierre Guiraud opte pour une origine latine, avec stamen, chaîne de tissage, qui a aussi donné étamine. Le Wiktionnaire privilégie le bas vieux-francique tamisa (qui donne le néerlandais vieilli teems). Ainsi, à côté d'un ponte de l'étymologie actuelle, nous sommes cités. Et notre hypothèse pour tamis n’est pas très solide. En effet, elle a été fournie par une IP sans sources, et les gens ont construit dessus. Pour autant, elle n’est pas à jeter, puisqu’un étymologiste en a reconnu une certaine solidité.
Outre cette petite apparition qui nous apporte gloire (ou pas) et reconnaissance (ou presque), ce petit dictionnaire des mots celtiques est constellé d’anecdotes sur les langues celtiques qui nous permettent de mieux les comprendre et les appréhender dans notre monde aujourd'hui mais aussi d’halluciner un peu sur les affres de la langue bretonne qui s’est retrouvée avec des mots qui ne lui appartiennent pas : menhir (les Bretons disaient peulvan), dolmen (ils disaient lichaven), kermesse (qui vient du flamand kerkmisse) ou encore triskèle (qui lui vient du grec et qu’on écrit triskell pour faire plus celtique). — une chronique par Lyokoï
Cette rubrique vous propose de faire une revue des vidéos sur la linguistique et la langue française du mois, n’hésitez pas à ajouter les vidéos que vous découvrez !
Impulsées par le Fantastique Groupe d’utilisateurs et d’utilisatrices de Wiktionnaire, les LexiSessions visent à proposer des thèmes mensuels pour dynamiser l’ensemble des Wiktionnaires simultanément. Les thèmes sont suggérés en amont sur Meta et annoncés chaque mois sur la Wikidémie, l’espace principal de discussion.
La LexiSession d’octobre était sur le thème de la punition et il a permis la création de trois thésaurus !
Pour le mois de novembre, il est proposé de s’intéresser aux toilettes !Trois jours de rencontres ne furent pas de trop pour discuter avec la belle centaine de personnes venues échanger sur leurs projets, que ce soit leurs contributions personnelles comme les dynamiques collectives qui se développent partout dans le monde. L’équipe des Actualités du Wiktionnaire était sur place, à Strasbourg, pour couvrir l’évènement et rapporter de quoi remplir les numéros à venir, et bien sûr pour faire la promotion du Wiktionnaire dans toutes les conversations ! Le Wiktionnaire figurait en bonne position parmi les nombreuses présentations de qualité, avec pas moins de deux présentations et d’une rencontre autour du projet ! Mentionnons quelques thèmes qui furent abordées par les contributeurs au Wiktionnaire qui s’y trouvaient : inclusion des langues d’Afrique, accompagnement des nouveaux participants, enregistrements audios avec Lingua Libre, organisation de journées participatives et vivacité des initiatives collectives. Ce fut également l’occasion de rencontrer deux chercheurs du projet Logoscope, qui s’engagent dans une coopération avec le Wiktionnaire, ce dont nous reparlerons très bientôt !
Parmi les six grandes fonctions du langage définies par Roman Jackobson, la fonction phatique correspond à ce qui permet de s’assurer que le canal de communication fonctionne bien. Ce sont d’abord tous les mots ou expressions comme « tu vois » ou « tu me suis ? » mais aussi les mots utilisés lors de l’initiation d’une communication téléphonique comme « allô ? ». Marina Yaguello étend l’analyse à tous les discours mondains qui n’ont que pour but de maintenir la conversation, sans pour autant servir à partager quoi que ce soit. En restant au niveau des phrases et des mots, c’est un enjeu délicat pour un dictionnaire que de décrire ces usages. D’une part car il existe de grandes variations dans les termes employés, et que trouver des attestations écrites n’est pas toujours évident. D’autre part car il est difficile de bien expliquer la fonction de ces termes. Ce sont souvent des phrases entières, comportant un verbe, mais qui sont vidées de leur sens, pour avoir seulement une fonction communicationnelle. — une chronique par Noé