Exposé réalisé dans le cadre d'un cours de lexicologie. J'ai choisi d'aborder le Wiktionnaire d'un point de vue métalexicographique (étude de la façon dont sont rédigés les dictionnaires) et de me limiter à sa macrostructure (uniquement la construction globale et la nomenclature, pas le contenu même des articles) parce que c'est déjà un sujet très vaste. Soyez conscient que ce n'est qu'un brouillon : je présente ça oralement, donc j'ajouterai probablement des éléments. D'autre part, je suis obligé de reprendre tout depuis le début vu que prof ne connait ni Wikipédia, ni le Wiktionnaire. Ca m'oblige aussi à faire certains raccourcis. Je présenterai ça le 19 janvier 2005.
Le Wiktionnaire est un dictionnaire :
En 2001 a été lancé par deux Américains (Jimmy Wales et Larry Sanger) le site/projet Wikipédia, avec comme objectif de créer une encyclopédie libre collaborative. Le projet se base sur deux éléments essentiels :
Wikipédia se veut en outre d'emblée plurilingue : le site est lancé en anglais mais ouvre la perspective à toute personne de lancer une Wikipédia dans sa langue. Quatre ans plus tard, Wikipédia existe en env. 150 langues, dont 54 avec plus de 1000 articles (chaque langue étant autonome, avec sa propre communauté - il ne s'agit pas de traductions des pages d'une version 'originale'). A titre d'information, la version anglaise totalise plus de 430 000 articles et la version française plus de 70 000.
Dès ses premiers pas, Wikipédia se présente explicitement comme une encyclopédie, par opposition à un dictionnaire. Au fur et à mesure que l'encyclopédie grandit, la nécessité se fait sentir de créer un projet sœur, un dictionnaire, où l'on puisse parler des mots plutôt que des choses. C'est à cette fin qu'a été créé le Wiktionnaire (Wiktionary en anglais), qui reprend les mêmes caractéristiques que Wikipédia, mais avec l'objectif de créer un dictionnaire de langue. Il a été créé en décembre 2002 en anglais et est apparu en mars 2003 dans sa version française. Une nouveauté qui explique l'état peu avancé du travail : 1900 articles.
Cette parenté de l'encyclopédie sur le dictionnaire est particulière. Le Wiktionnaire n'est pas né d'une volonté d'enregistrer avec une visée normative le vocabulaire de la langue (Académie), ni de faire une description complète de la langue (même si cet objectif est évoqué). Il est plutôt apparu du besoin de transmettre un savoir sur la langue, comme l'encyclopédie est née de la conviction que rassembler le savoir universel aiderait à le diffuser, avec une foi dans le pouvoir de la raison, de l'éducation et de la science.
Le Wiktionnaire est alors ballotté entre deux influences contradictoires :
La principale spécificité du Wiktionnaire est donc son fonctionnement collaboratif ouvert à tous.
C'est tout d'abord décisif pour l'organisation et la présentation du Wiktionnaire lui-même. Il n'y a pas de principes de structuration fixés à priori. Tout se décide collectivement par consensus. Il n'existe donc pas de norme de présentation préalable, si ce n'est - et elle est importante - la référence aux dictionnaires existants.
Chacun a donc commencé à rédiger ses premiers articles avec une certaine idée de la façon dont devrait être présenté un dictionnaire. Par la suite, d'autres personnes ont retravaillé les articles créés, puis des discussions sont intervenues pour décider des conventions à imposer en matière de style et de structure interne des articles.
Et, j'y reviendrai, c'est le premier problème pour celui qui cherche à avoir une vue d'ensemble du Wiktionnaire : à l'exception des quelques conventions qui ont été décidées, il y a très peu de principes établissant la façon de travailler. Et en ce qui concerne la macrostructure, la nomenclature, il n'y en a aucun (du moins dans la version française).
Quand on consulte le Wiktionnaire ou Wikipédia pour y chercher une information, on doit savoir qu'il s'agit de textes réalisés progressivement, collectivement, par des gens qui ne sont pas forcément spécialistes de la question. La première réaction que cela suscite est de se dire qu'on ne peut pas faire confiance à ce qui est dit.
En réalité, cela rappelle instinctivement au lecteur qu'il doit toujours exercer son esprit critique. Il s'agit d'un rapport plus sain au texte qui témoigne d'un savoir car les articles sont mouvants, jamais figés dans un état définitif. Le lecteur a affaire à un savoir en formation.
Pour un dictionnaire, c'est une opportunité. On sait que la langue évolue sans cesse. Le dictionnaire papier inamovible et transformé en référence absolue est donc en inadéquation avec l'objet qu'il décrit. Il donne une apparence de stabilité et de fixité qui ne reflète pas la réalité de la langue. Le Wiktionnaire par contre ne fige jamais la langue dans un usage précis. Tout est mobile.
La faculté qu'a toute personne de modifier le texte qu'elle voit engendre également un rapport différent à l'écrit. Si l'on estime que le texte est critiquable, on a l'opportunité de le corriger. Cette faculté devient même une sorte de nécessité morale : si l'on peut corriger une erreur, on devrait le faire. Tout lecteur est un auteur potentiel.
On dépasse ici les distinctions faites par Jean Pruvost sur l'extension du champ d'action du lecteur. Le lecteur, d'abord intensif, puis extensif et finalement actif (« marque son empreinte sur le texte et l'adapte à ses besoins »), devient cette fois lecteur-auteur, il contribue lui-même à l'élaboration du texte commun.
L'exactitude et la fiabilité du contenu viennent alors de la multiplicité des auteurs. Certains diront que le problème de Wikipédia ou du Wiktionnaire est qu'il n'y a pas de contrôle. Or, il y a bien un contrôle, même un contrôle des pairs, mais la notion de pair prend ici un sens plus large puisque tous les utilisateurs sont sur un pied d'égalité. Le contrôle se fait donc par les utilisateurs eux-mêmes, de façon immédiate (des chercheurs d'IBM ont montré que les actes de vandalisme étaient corrigés en moyenne après 5 minutes).
Andrew Lih, dans une conférence sur le journalisme participatif, a montré que la rigueur et la diversité des articles de Wikipédia augmentaient parallèlement à leur reconnaissance dans la presse. Dans une étude récente, Susan Herring a démontré que le principe de l'édition plurielle des articles de Wikipédia les conduisait à atteindre une forme semblable à celle des encyclopédies traditionnelles.
Dans le cadre du Wiktionnaire, le fait que la participation soit ouverte à tous, et pas seulement à des lexicologues témoigne d'une certaine foi dans la conscience linguistique de chacun.
Dès les premiers instants du Wiktionnaire, le projet était clairement de réaliser un dictionnaire « total ». Sa parenté encyclopédique n'y est pas pour rien : il s'agissait ici de réaliser la même somme encyclopédique, mais cette fois du point de vue unique de la langue et des mots.
Les premières conversations au sujet du Wiktionnaire évoquent la nécessité de traiter tous les mots de toutes les langues. Il s'agit d'une ambition énorme, qui apparait comme utopique. On veut décrire, commenter, témoigner de chaque mot du plus grand nombre possible de langues, en en donnant des traductions. Et ce, à partir de chaque langue de référence. C'est-à-dire qu'un groupe de participants anglophones va réaliser cela en anglais, un groupe de francophone va faire la même chose, mais en français, et ainsi de suite.
En temps normal, personne n'oserait imaginer pareil projet. Cependant, cette ambition démesurée repose sur deux constats : la presque infinité de contenu qu'autorise le support informatique et l'énorme potentiel productif de la collaboration.
Quant à l'exhaustivité de la nomenclature et à la profondeur des articles, il est explicitement fait référence, sur une des pages de consignes de l'édition anglophone, à l'Oxford English Dictionary (« a comprehensive dictionary that would be comparable to the O.E.D. »).
L'unité absolue de segmentation du Wiktionnaire est la page. La page est, sur la Toile, un document de longueur variable accessible à une adresse unique (URL). Chaque page du Wiktionnaire fonde sa cohérence autour d'un titre, qui décrit son objet.
Les pages les plus importantes sont évidemment celles qui correspondent à un article du Wiktionnaire. Le nom de chaque page (qui est partie intégrante de son URL, de son adresse unique) est identique au titre de celle-ci. Le nom de la page a ainsi remplacé l'entrée de dictionnaire et son titre a remplacé la vedette.
La conséquence de cette correspondance de la page et de l'article est que, lorsqu'on consulte un article, on n'a aucune idée des articles qui précèdent ou suivent dans le classement choisi (alphabétique ou autre).
En outre, le nom d'une page est unique et absolu. Ainsi, on ne peut pas avoir plusieurs pages-articles pour des homographes. La description d'homographes doit donc se faire sur la même page, quelle que soit leur proximité sémantique.
Autre conséquence : il faut obligatoirement choisir une graphie unique pour le nom d'un article. Il existe toutefois une possibilité de rediriger un autre nom de page vers une page existante, ce qui permet de conduire au bon endroit les requêtes faites sur une graphie alternative d'un mot par exemple. Cependant, le nom de la page existante sera toujours prioritaire sur le nom de la redirection. De plus, depuis quelques mois, le logiciel distingue les titres commençant avec une majuscule des titres commençant avec une minuscule. Ainsi, français au sens de langue et Français au sens d'habitant de la France font l'objet de deux articles différents. Ceci amène également diverses complications dans le traitement de mots à l'initiale de phrase.
Outre les pages articles, il existe des pages qui classent de façon semi-automatique les mots selon certains critères. Ce peuvent être des critères linguistiques (tous les mots français p.ex.), grammaticaux (noms communs, adjectifs, prépositions, interjections…), thématiques (fruits, couleurs, langues, jours de la semaine, animaux, métiers…) ou terminologiques (lexique de l'anatomie, de l'histoire, des religions…). Ces catégories peuvent aisément être multipliées, complétées, sous-catégorisées, ce qui en fait un outil très appréciable pour le classement des mots. J'y reviendrai.
Il existe enfin des espaces permettant soit de convenir et d'exposer les principes généraux présidant à l'élaboration du Wiktionnaire, soit de discuter d'un article. Chaque page-article est ainsi liée à une page de discussion qui lui est propre permettant de régler des litiges entre participants sur certains points.
Comme la plupart des formes de dictionnaires accessibles en ligne, le Wiktionnaire privilégie, dans sa conception, la recherche ponctuelle : le visiteur cherche le sens ou d'autres données sur un mot précis. Il se rapproche en cela du concept de dictionnaire-outil. (On peut ainsi directement accéder à l'article d'un mot ou rechercher ce mot en texte intégral.)
Sur la page d'accueil, exception faite du champ de recherche, on ne trouve pratiquement aucun lien direct vers un article. Tous les liens mènent à différents index de mots. C'est ce qui fait le principal intérêt des dictionnaires informatisés et des dictionnaires en ligne : ils permettent la coexistence de plusieurs classements et de plusieurs index.
Ainsi, on peut accéder à différentes listes alphabétiques de mots. Outre l'accès à la totalité des mots via des index par lettre initiale, on trouve des regroupements par thème, par catégorie grammaticale et par domaine, qui peuvent ensuite être combinés avec des regroupements par langue. Bien sûr, ces listes catégorisées permettent qu'un mot se retrouve dans plusieurs index. On peut par exemple accéder au lexique français des termes de linguistique ou à la liste des noms d'animaux.
Cet accès aux mots, d'un type nouveau, ouvre le champ d'utilisation d'un tel dictionnaire en ligne. Son utilité est à la fois structurante et didactique. D'une part, il permet pour celui qui s'interroge sur la langue d'avoir une vision globale de certains champs du lexique. D'autre part, il permet l'apprentissage ou la découverte de nouveaux mots d'une façon plus abordable que ce que ne permettait un dictionnaire papier classé alphabétiquement.
En conclusion, le Wiktionnaire privilégie deux approches des mots en lecture :
Ainsi que cela a été expliqué, l'établissement des normes d'organisation se fait de façon collective, progressive et consensuelle. Dans la mesure où le projet n'en est encore qu'à ses balbutiements, peu de principes de lexicalisation ont été fixés, et encore le sont-ils pour la plupart uniquement sur la version en anglais. Les consignes à respecter dans l'établissement de la nomenclature sont donc relativement floues, voire inexistantes.
Il n'y a pas, à fortiori, une nomenclature préexistante ou un corpus dont il faudrait définir l'ensemble des mots. Des propositions ont pourtant été faites dans ce sens antérieurement. Robert Michel, un participant allemand, avait ainsi proposé de collecter automatiquement des mots sur l'ensemble du Web afin d'établir une gigantesque base de mots à décrire. Cependant, cette proposition n'a pas été retenue, ou du moins pas été mise en application. Il est certain que cela exigerait d'abord un dispositif technique puissant et ensuite un filtrage très important, afin de mettre de côté les graphies erronées, les noms propres, etc. Cependant, un simple classement par nombre d'occurrence permettrait un premier élagage, tout en définissant un ordre de priorité pour la description des mots.
Les mots sont donc petit à petit lexicalisés selon le bon vouloir des participants. Cela conduit à une nomenclature limitée dans les faits à des mots considérés comme intéressants (et possibles) à décrire. J'y reviendrai.
On peut douter qu'un tel mode de lexicalisation libre ait seulement une chance d'aboutir un jour à une nomenclature relativement exhaustive. Il est donc nécessaire d'envisager des directives plus précises sur la façon de lexicaliser les mots, voire une collecte automatique de mots sur un vaste corpus.
Le Wiktionnaire se veut un dictionnaire francophone, et non français. Il n'a donc aucune réticence à lexicaliser des régionalismes divers (bien qu'aucune norme n'ait été édictée pour réglementer ce point).
Il offre alors l'opportunité aux francophones du Québec, de Suisse, de Belgique, d'enregistrer et de définir les termes qui leur sont propres dans un dictionnaire non normatif ou critique vis-à-vis de ces régionalismes (comme le sont la plupart des "dictionnaires de belgicismes"). On retrouve des québécismes (sloche), des helvétismes (grimpion), des belgicismes (septante).
Il est intéressant de remarquer que, parmi les différentes versions linguistiques du projet Wiktionnaire, la troisième plus importante en nombre d'article est la version en galicien ! Ce n'est pas anodin : il semble qu'il y ait un manque de dictionnaires galiciens, ce qui suscite un plus grand intérêt des Galiciens pour le projet. En retournant l'argument, on peut supposer que le nombre exceptionnellement important de dictionnaires français décourage le travail sur le Wiktionnaire francophone.
Les termes sociolectaux (argot, jargon…) trouvent également un certain lieu d'épanouissement en le Wiktionnaire, pour les mêmes raisons que les régionalismes : il ne s'agit pas d'un dictionnaire normatif, qui critiquerait implicitement certains usages.
Il est vrai que cet engouement pour les régionalismes et les termes sociolectaux est également à mettre en parallèle avec un certain gout de l'exotisme linguistique. Il apparait alors comme amusant d'enregistrer des termes peu connus. On doit donc à la fois prendre en compte des tendances ludiques et identitaires pour comprendre ce phénomène.
Il existe quelques consignes sur le traitement des néologismes sur la version anglaise. Les néologismes sont là tout à fait acceptés. Par contre, les néologismes dits instables, également appelés protologismes (qui ne sont pas utilisés à une relativement large échelle, la presse par exemple), ne doivent pas être dans des articles propres. Il est cependant suggéré de les définir brièvement en les présentant sous forme de liste alphabétique sur une page unique.
L'enregistrement des néologismes est très important pour le Wiktionnaire, qui a comme atout de pouvoir être sans cesse mis à jour.
Dans les faits, on retrouve un grand nombre de néologismes dans la nomenclature. Certains sont des néologismes tout à fait reconnus, lexicalisés par certains dictionnaires et/ou acceptés par les instances officielles (courriel; ascien). D'autres sont couramment utilisés dans la presse e.a. et sont liés à l'actualité (homophobie).
Quelques néologismes par contre appartiennent à cette catégorie de néologismes instables, ou protologismes, dont seul un petit groupe de gens a la connaissance (jipeterie). Le fait que certaines personnes cherchent à introduire dans le Wiktionnaire des protologismes de leur crû témoigne de la conception actuelle du dictionnaire : lexicaliser un terme serait une façon de l'officialiser, de le faire (re)connaître.
Outre les néologismes, on retrouve dans la nomenclature actuelle un très grand nombre de mots savants, pour certains pratiquement inconnus (amphiscien, myrmicéen, hommasse…). De cette abondance ressort clairement la visée didactique qui anime le Wiktionnaire. Les auteurs de ces articles cherchent manifestement à faire découvrir des mots peu connus (ou éventuellement à mettre en avant leur savoir lexicologique).
Globalement, on remarque que les néologismes, régionalismes et mots savants sont anormalement nombreux. Il est manifeste que la totale liberté dans l'élaboration de la nomenclature, qui laisse à chacun le choix des articles qu'il souhaite créer, conduit les participants à se concentrer sur des mots qu'ils jugent dignes d'intérêt, soit parce que peu connus (mots savants), soit parce que non lexicalisés dans les dictionnaires traditionnels (régionalismes, néologismes). On a donc une nomenclature relativement arbitraire, voire biaisée, limitée à certains champs du lexique, rendant mal compte du lexique dans son ensemble.
Une particularité de la nomenclature du Wiktionnaire est que l'on y retrouve en vedette des formes non canoniques, qui jouissent d'un article autonome (et pas simplement d'une redirection vers l'article consacré à la forme canonique).
Tout d'abord, on retrouve certaines formes fléchies. C'est le cas de la première personne du présent du verbe être, suis, qui dispose d'une entrée propre. Cette pratique est implicitement justifiée par l'extrême différence entre cette forme et son infinitif. Il est presque certain (mais de nouveau, les principes ne sont pas explicités) que personne n'ira lexicaliser un pluriel régulier par ex., mais la possibilité existe, entre autre du fait que le support électronique ne limite pas la quantité de données autorisées et que cela ne risque pas d'encombrer une liste alphabétique puisque les listes non catégorisées sont de toute façon d'utilité presque nulle.
Une autre justification implicite, qui apparait bien dans le cas de suis, est le fait que des mots d'autres langues peuvent être homographiques. Dès lors, l'article permet de distinguer le français suis du néerlandais suis p.ex..
Deuxième cas particulier : sont lexicalisées un certain nombre d'abréviations, dl par exemple. Cela pourrait sembler superflu, dans la mesure où il suffirait de créer une redirection vers le mot abrégé. Cependant, il apparait que de nombreuses abréviations ont plusieurs sens, peuvent renvoyer à différents signifiants : dl = décilitre, mais aussi développement limité (math) ou dose léthale (épidémiologie). (Autre ex : dico.)
La nomenclature du Wiktionnaire pose le problème de l'enregistrement des noms propres. On peut distinguer deux catégories de noms propres : les noms propres collectifs et les noms personnels (qui s'appliquent à une personne physique ou morale unique). Il est clair qu'un dictionnaire de langue (ce que le Wiktionnaire est par définition, puisqu'il a été créé par distinction avec une encyclopédie) ne lexicalisera pas les noms personnels.
En ce qui concerne les collectifs par contre, la décision est plus délicate. Parmi ceux-ci, on retrouve des gentilés, des noms désignant les habitants d'un pays (Français), les membres d'une certaine race (Noir), religion, les prénoms (Delphine), etc.
La plupart des dictionnaires traditionnels enregistrent certains types de noms propres collectifs. La question n'a pas été tranchée sur le Wiktionnaire, et dans la pratique, la tendance serait à l'enregistrement de tous les noms propres, y compris certains noms personnels. Néanmoins, la question est capitale pour le Wiktionnaire. D'une part, tout article trop "encyclopédique" peut trouver sa place sur l'encyclopédie sœur : la décision n'étant plus d'exclure, mais de déplacer, elle est plus délicate. En outre, d'après le principe du caractère absolu du nom des pages, deux pages peuvent différer seulement par une majuscule. L'article consacré au français comme langue et à l'adjectif français est donc différent de celui consacré aux habitants de France.
Il apparait de la consultation du Wiktionnaire que le projet n'en est encore qu'à ses débuts. La nomenclature est ridiculement petite (or un dictionnaire n'est utile que s'il tend à l'exhaustivité) et le traitement de la microstructure très superficiel. En outre, contrairement au projet d'encyclopédie, le Wiktionnaire connait un intérêt plus faible, ce qui limite sa rapidité d'expansion.
Au niveau tant qualitatif que quantitatif, le constat est donc relativement négatif.
Une des raisons de ce manque de qualité est probablement l'absence de systématicité. Si dans une encyclopédie, l'hétérogénéité des articles peut être positive, il n'en va pas de même avec un dictionnaire (cf. J. Pruvost). C'est la première erreur du Wiktionnaire : les concepteurs ont lancé le projet sans réaliser à quel point l'entreprise lexicographique pouvait être différente de l'encyclopédisme.
Je pense dès lors qu'une réflexion en profondeur est un préalable nécessaire à la poursuite du projet dans de bonnes conditions. Cette réflexion doit être menée tant sur la macrostructure que sur la microstructure à adopter. Le concours de linguistes dans cette réflexion est essentielle. Certes, les participants, même néophytes en matière lexicrographique, comprennent progressivement les tenants et aboutissants de la lexicographie, mais l'expérience d'un linguiste permettrait d'éviter une dure et longue expérience d'essais-erreurs dans l'élaboration d'un outil efficace. L'absence actuelle de linguistes dans les participants du projet francophone est probablement très négative au bon déroulement du projet.
Si l'idée de réaliser un dictionnaire totalement multilingue est louable, il est nécessaire de se donner les moyens d'y arriver. Il est inconcevable que chaque groupe linguistique réalise son propre dictionnaire à propos de toutes les langues. Il serait par contre beaucoup plus intéressant de conjuguer les élans participatifs du monde entier pour réaliser un ensemble de dictionnaires monolingues étroitement liés entre eux de façon à faire de l'hypertexte le lieu même du multilinguisme. Chaque groupe s'attacherait à décrire les mots de sa langue, après quoi les sens seraient indviduellement reliés entre les signifiants des différentes langues.
(A mettre en rapport avec une souhaitable adaptation de MediaWiki à un contenu beaucoup plus structuré, cf. XML p.ex., qui donnerait l'avantage supplémentaire au contenu de pouvoir être traité automatiquement.)
Il semble également qu'une description exhaustive de la langue ne puisse se réaliser sans recours au dépouillement d'un corpus. En l'état, les mots sont lexicalisés au hasard des envies des participants. Il n'y a aucune chance d'arriver un jour à une nomenclature complète de cette façon.
Le traitement automatique des corpus est aujourd'hui très facile et les corpus numérisés sont légions, en particulier si l'on considère le Web comme un corpus digne d'attention. L'extraction automatique d'une base de vocabulaire à décrire serait très utile pour le Wiktionnaire. Fixer une nomenclature préexistante à décrire est un autre aspect de la systématicité que doit acquérir le projet.
En 2000, Jean Pruvost se prenait « à rêver d'un dictionnaire en ligne qui résulterait d'un permanent dialogue préalable avec ses utilisateurs, les experts négociant en quelque sorte le contenu de la langue avec ceux-là même qui en sont les porteurs ». Le Wiktionnaire va plus loin, trop loin diront certains - et il est vrai que la totale absence de linguistes pour l'instant sur la version francophone est préjudiciable, mais elle n'est pas définitive -, le Wiktionnaire donc va plus loin en mettant la description de la langue dans les mains des locuteurs eux-mêmes.
Si, dans son état actuel, le Wiktionnaire n'en est qu'à l'étape des balbutiements, il ouvre néanmoins à la lexicographie des pistes de renouvellement et d'amélioration qui ne devraient pas être négligées. Le potentiel d'un tel projet est énorme s'il peut être canalisé correctement.