Bonjour, vous êtes venu ici pour chercher la signification du mot Discussion Projet:Coopération/Logoscope. Dans DICTIOUS, vous trouverez non seulement toutes les significations du dictionnaire pour le mot Discussion Projet:Coopération/Logoscope, mais vous apprendrez également son étymologie, ses caractéristiques et comment dire Discussion Projet:Coopération/Logoscope au singulier et au pluriel. Tout ce que vous devez savoir sur le mot Discussion Projet:Coopération/Logoscope est ici. La définition du mot Discussion Projet:Coopération/Logoscope vous aidera à être plus précis et correct lorsque vous parlerez ou écrirez vos textes. Connaître la définition deDiscussion Projet:Coopération/Logoscope, ainsi que celles d'autres mots, enrichit votre vocabulaire et vous fournit des ressources linguistiques plus nombreuses et de meilleure qualité.
Discussion liminaire
Dernier commentaire : il y a 8 ans15 commentaires8 participants à la discussion
Point principal de la discussion précédente : le Logoscope accepte de modifier ses Mentions légales pour une réutilisation de ses données par le Wiktionnaire. Reste à discuter des contributeurs : si nous fournissons les listes de candidats-néologismes (qu'il faut trier et annoter) et leurs contextes (ainsi que notre méthode), quels (combien ?) contributeurs seraient intéressés ? --Logoscope-Unistra (discussion) 8 juillet 2016 à 13:31 (UTC)Répondre
@Logoscope-Unistra : franchement le plus simple c’est que vous publiiez vos données sous licence CC by-sa au minimum. Comme il s’agit de la même licence que le Wiktionnaire, ça veut dire qu’on peut importer les données de logoscope et vice-versa (à condition de citer le nom de l’auteur). Par contre, il faut bien comprendre de votre côté que cela implique une possible réutilisation commerciale de vos données aux seules conditions de citer les auteurs et de publier la travail commercial sous la même licence. Pamputt18 juillet 2016 à 21:47 (UTC)Répondre
Je vais en parler au service juridique de notre université. Concernant la réutilisation commerciale (qui est le seul point qui nous rend soucieux), est-ce que le wiktionnaire en fait déjà l'objet ? Pourriez-vous me donner un exemple pour que je vois mieux de quoi il s'agit ? --Logoscope-Unistra (discussion) 19 juillet 2016 à 06:20 (UTC)Répondre
Bonjour Logoscope-Unistra, concernant la réutilisation commerciale, si la question porte sur le fait de savoir si le contenu du Wiktionnaire aurait déjà été utilisé pour une utilisation commerciale alors la réponse est oui. Après ça dépend de ce que l’on entend par « commercial ». Le cas auquel je pense concerne tous les sites miroirs du Wiktionnaire qui récupère le contenu du Wiktionnaire sans valeur ajoutée et qui ajoute de la publicité. Pour des utilisations commerciales plus poussées (vente de dictionnaires français-autres langues à partir des données du Wiktinnaire par exemple), je n’en ai pas connaissance. Pamputt19 juillet 2016 à 06:42 (UTC)Répondre
J'ai déjà vu des articles copiés sur des blogs, et le wiktionnaire est lu dans plusieurs chaînes youtube (avec de la pub donc). Néanmoins, avec l’augmentation en qualité du projet, il n’est pas impossible de voir apparaître prochainement un réusage commercial sous la forme de dictionnaire, en même temps c’est normal, de plus en plus de gens s'intéresse au projet. --— Lyokoï (Parlons) 19 juillet 2016 à 06:54 (UTC)Répondre
Bonjour à tous. Je reviens vers vous après les éclaircissements de notre service juridique : le Logoscope http://logoscope.unistra.fr est désormais doté du logo CC-BY-SA, comme vous le souhaitiez. Quelle serait désormais la prochaine étape pour notre collaboration ? Est-il possible de joindre un responsable par téléphone ou téléconférence ? --Logoscope-Unistra (discussion) 22 novembre 2016 à 20:47 (UTC)Répondre
Bonjour et merci de revenir nous voir ! Plusieurs personnes pourraient être adéquates pour vous répondre, notamment Darkdadaah, JackPotte, Lyokoï ou moi. Cependant, je lis encore sur la page des Mentions légales le texte suivant : « Toute extraction, par transfert permanent ou temporaire, de la totalité ou d’une partie qualitativement ou quantitativement substantielle du contenu du site Logoscope.unistra.fr sur un autre support, par tout moyen ou sous toute forme que ce soit, ainsi que la réutilisation, par la mise à disposition du public de la totalité ou d’une partie qualitativement ou quantitativement substantielle du contenu du site, quelle qu'en soit la forme, est illicite. » ce qui contrevient à ce que vous écrivez ci-dessus. Mais peut-être que le site n’a pas encore pu être mis à jour ? J’espère que cette collaboration pourra se mettre en place le plus vite possible car elle m’enthousiasme Noé22 novembre 2016 à 21:22 (UTC)Répondre
Bonjour Noé En effet. Pourriez-vous préciser si, dans ce texte des Mentions légales, c'est la partie "extraction" ou la partie "réutilisation" qui pose problème ? Il me semble que vos collaborateurs ne procéderont pas à une extraction de données chez nous :) Désolé pour ces nouvelles complications... --82.83.187.24323 novembre 2016 à 08:06 (UTC)Répondre
@Logoscope-Unistra : Si je comprends correctement la remarque de Noé, c’est jusque que ce qui est indiqué sur votre site ne reflète absolument pas le fait que la licence soit CC-by-sa comme vous l’indiquez ci-dessus. En résumé les phrases présentes signifient même plutôt l’inverse ; le contenu du site n’est clairement pas sous licence CC by-sa car cette licence autorise explicitement la réutilisation des données avec pour seules conditions la publication sous la même licence de tout travail qu’il soit conforme ou que ce soit un travail dérivé (CC by-sa) et citer l’auteur des données (donc vous dans ce cas présent). Bref le logo est une chose (c’est très bien) mais il faut aussi changer le texte sur la propriété et les conditions d’utilisation pour qu’il soit en adéquation avec la licence CC by-sa. Pamputt23 novembre 2016 à 11:03 (UTC)Répondre
Bonjour Pamputt : nous allons modifier nos Mentions légales avec le texte qui suit (lundi ou mardi la chose devrait être visible sur le site) : "Toute extraction, par transfert permanent ou temporaire, de la totalité ou d'une partie qualitativement ou quantitativement substantielle du contenu du site Logoscope.unistra.fr sur un autre support, par tout moyen ou sous toute forme que ce soit, ainsi que la réutilisation, par la mise à disposition du public de la totalité ou d'une partie qualitativement ou quantitativement substantielle du contenu du site, quelle qu'en soit la forme, doit être expressément décrite, conformément à la licence Creative Commons en application sur ce site. " J'espère qu'après cela nous pourrions engager la discussion sur la collaboration :) --88.66.145.24826 novembre 2016 à 13:37 (UTC)Répondre
Je ne suis clairement pas juriste et ça me semble inutilement compliqué pour dire que le contenu du site est publié sous licence Creative Commons by-sa mais pourquoi pas. Cependant, je pense que la version de la licence Creative Commons devrait a minima être indiquée. En effet, il en existe plusieurs et celle du Wiktionnaire et la votre est la CC by-sa (paternité - partage à l’identique) version 3.0 ou 4.0. Pamputt27 novembre 2016 à 21:25 (UTC)Répondre
@Logoscope-Unistra : oui je pense que c’est parfait au niveau de la section « Propriété ». Par contre, je ne comprends pas l’utilité de la section « Conditions d’utilisation ». Actuellement ce qui est indiqué dans cette section est moins restrictif que ce qui est indiqué dans la section du dessus. En effet, on peut y lire « Sous réserve de citer le travail des auteurs du projet Logoscope , l’utilisateur a le droit de publier les données affichées sur le site Logoscope.unistra.fr et les données affichées et/ou téléchargeables à partir du serveur hors ligne Logoscope_Offline. ». En fait la licence CC by-sa 3.0 oblige a citer l’auteur ainsi qu’à publier le travail, qu’il soit une simple copie ou un travail dérivé, sous la même licence (CC by-sa en l’occurrence). Cette deuxième condition est donc un gage supplémentaire pour empêcher une « privatisation » des données. Cela étant dit, c’est out à fait compatible avec la licence du Wiktionnaire donc vous pouvez laisser comme cela si vous le voulez. Pamputt1 décembre 2016 à 17:43 (UTC)Répondre
Collaborons ! :)
Dernier commentaire : il y a 8 ans11 commentaires6 participants à la discussion
Étant donné que le Logoscope vient de changer de licence afin d’être compatible avec la nôtre, nous pouvons parler technique. Je commencerai par une petite série de questions :
Concrètement, que voulez-vous faire sur le projet ?
Je rajouterais, qu’est ce que vous attendez de nous ? Vous nous fournissez des citations et on se charge d’ajouter les définitions ou c’est plus large que ça (ce que j’imagine) ? Pamputt1 décembre 2016 à 17:43 (UTC)Répondre
Bonjour Pamputt et Lyokoï. Merci pour la petite série de questions. Voici ma série de réponses :
Concrètement, que voulez-vous faire sur le projet ? Le Logoscope souhaite échanger des données néologiques (mots nouveaux détectés + contextes + courbes de suivi historique d’usage de ces mots) contre une contribution à la sélection et à l’étiquetage (a) catégorie syntaxique ; b) mode de formation du mot) des mots-candidats relevés chaque jour dans la presse quotidienne. Par ex. sélectionner les bon néologismes dans une liste de ce type, qui contient du bruit et aussi des mots connus :
32890,brexiters,0,
27796,minibalise,0,
24650,Lapins-Morts,0,
29491,orienté-action,0,
21973,hurla-telle,0,
28797,sublétales,0,
Je pense qu’il n’y a aucun soucis pour qu’on vous aide à cela. Des tas de contributeurs font ça régulièrement .
Que voulez-vous importer chez nous ? La réponse à cette question est aussi à apporter par le Wiktionnaire (quels sont vos besoins, intérêts). De mon côté, je dirais : les mots nouveaux que vos contributeurs jugeront utiles pour le Wiktionnaire. Et, concernant un mot en particulier, l’importation implique son ou ses contextes illustrants l’usage, sa courbe de fréquence d’usage, les thèmes privilégiés où se mots est utilisé.
La réponse est assez simple pour le Wiktionnaire. On a vocation à incorporer tous les mots donc à partir du moment où un mot a été détecté plus qu’une fois chez vous, on peut considérer qu’il est utilisé et qu’il fait donc parti du vocabulaire du français.
Comment ? C’est la grande question. Concernant les néologismes déjà présents dans la base et visibles depuis le site Logoscope, les contributeurs au Wiktionnaire pourraient simplement aller se servir et sélectionner les mots utiles au moyen des outils de recherche (par exemple l’onglet fréquence). Concernant, les mots-candidats présents dans les listes journalières (où il faut sélectionner et annoter les bons néologismes), le mieux serait de passer par une interface de validation. On pourrait mettre en place un accès à Moodle-unistra en utilisant un module Moodle approprié, soit Atelier, Glossaire, Test, etc.
En effet c’est la question centrale une fois qu’on est d’accord sur la mission.
Sur combien temps ? La période est a priori indéfinie, mais une période de test devrait être fixée.
Parfait.
De quoi avez-vous besoin ? De personnes motivées, éventuellement d’un soutien informatique pour la mise en place de l’interface d’accès à nos données non-encore traitées (les néologismes-candidats).
Une fois l’infrastructure en place, il faudra voir comment ça fonctionne. Les contributeurs ici sont tous bénévoles et personne n’est forcé à rien donc pour la motivation et le nombre de personne on verra ce que ça donne. Mais je suis plutôt confiant sur le fait que ça intéressera des contributeurs.
Qu’est ce que vous attendez de nous ? De l'aide pour traiter les listes comme celles ci-dessus. Il faut savoir que chaque jour nous récupérons une liste de 300 néologismes-candidats…
Où peut-on se procurer ces listes ? C’est relatif au Moddle-unistra dont il est question plus haut ?
Bonjour. Je voudrais poursuivre la discussion sur les deux volets de notre collaboration.
Concernant tout d'abord les mots déjà visibles sur le site du Logoscope vous pouvez donc dès aujourd'hui ouvrir des pages wiktionnaires sur les mots qui vous intéressent. Attention toutefois concernant la fréquence, ce n'est parce qu'un mot à deux occurrences qu'il est entre dans la langue française, loin de là. Je vous conseille donc en priorité d'utiliser l'outil Fréquence d'emplois (http://logoscope.unistra.fr/ParFrequence.html) pour cibler des mots beaucoup plus susceptibles d'être en voie de diffusion.
Question 1 : dès lors qu'un contributeur ouvre une page wiki à partir d'un mot documenté sur le Logoscope comment allez-vous nous mentionner ?
Le plus simple techniquement est certainement d’utiliser un modèle. J’ai créé {{Import:Logoscope}} avec un texte en exemple qu’on peut sûrement amélioré. L’avantage du modèle c’est qu’on a juste à l’appeler et le rendu sera identique sur toutes les pages qui l’utilisent. Si on veut changer le texte du modèle, le changement sera effectif instantanément sur toutes ces pages. Le texte actuel est certainement à améliorer car il faudrait préciser que votre contenu est disponible sous licence CC by-sa a minima par rapport au texte actuel. Si vous voulez reformuler ou ajouter des informations, n’hésitez pas à modifier {{Import:Logoscope}}.
Question 2 : comment pourrions savoir que des pages wiki son texte ouvertes nous mentionnant ?
Un autre avantage du modèle, c’est qu’il est possible de lister toutes les pages l’incorporant. Pour le modèle ci-dessus, la liste des pages l’utilisant est disponible ici.
Concernant ensuite l'annotation de nos listes de néologismes candidats, nous pourrions procéder à un test sur une semaine de données, par exemple. Les problèmes étant :
1) comment vous les transmettre (en effet Moodle n'est en fait pas une bonne idée car c'est un service universitaire qui n'est ouverts qu'au personnel et aux étudiants) ? Connaissez-vous un espace numérique où déposer un fichier csv qui, une fois annoté, pourra être facilement récupérable par nous ?
Sur ce point là, je ne connais pas trop la meilleure manière de procéder. Peut-être que JackPotte, Darkdadaah ou Automatik ont une idée sur la question.
2) Vos contributeurs doivent suivre quelques recommandations concernant la sélection des bons néologismes et leur annotation syntaxique. Comment procéder à leur formation ?
Comme indiqué dans une précédente discussion, les contributeurs du Wiktionnaire sont tous bénévoles et ne contribuent que sur ce qui les intéressent. Ici, personne n’est obligé à rien. Cela implique que personne ne reçoit de formation pour quoi que ce soit. Le contrôle se fait de manière communautaire. Les contributeurs anciens savent faire le tri entre les néologismes et les erreurs/fautes d’orthographe. Concernant les nouveaux contributeurs qui seraient intéressés par ce projet, toutes leurs modifications sont relues et validées par des contributeurs plus expérimentés.
Au-delà mettons-nous en place une convention ? Prévoyons-nous une réunion en présentiel ?
a très bientôt, --92.74.252.83 décembre 2016 à 13:02 (UTC)
Bonjour Pamputt. Merci pour le modèle. Ca me semble très bien ainsi pour le moment. On verra si à l'usage une modification du texte est nécessaire.Répondre
Je posais la question de la formation des contributeurs, concernant l'annotation de nos listes, car la gestion de ces listes appelle quelques règles. Par exemple nous avons pour habitude de ne pas sélectionner certes les mots mal orthographiés, mais aussi les mots étrangers dans un phrase étrangère et au-delà nous ne prenons pas les mots qui ont plus que 2500 occurrences sur Google.fr, de
manière à ce que nos néologismes bénéficient encore d'une certaine fraîcheur. Quand le néologisme est retenu, nous indiquons "0" dans le fichiers CSV. A la suite su zéro, d'autres codes sont utilisés pour la catégorie grammaticale et le procédé de formation. Tout ce travail se fait sur la base d'une fichier HTML indiquant le contexte d'origine. J'ai essayé de téléviser des exemples de fichier CVS et HTML mais cela m'a été impossible :( En attente donc de solution technique pour partager ces fichiers essentiels. — message non signé de Logoscope-Unistra (d · c) du 4 décembre 2016 à 08:45
Connaitre les règles que vous appliquez semble suffisant. Mais le côté concret de ce que nous pouvons faire pour vous aider (et réciproquement) m’échappe encore. A noter que nous n’avons pas un nombre minimal d’occurrences pour accepter un mot sur le Wiktionnaire, il suffit de s’assurer que le mot existe réellement, c’est-à-dire est réellement utilisé dans la langue. Lmaltier (discussion) 4 décembre 2016 à 11:45 (UTC)Répondre
Pour les règles et conventions, tout cela peut être expliciter sur la page du projet qui ne demande qu’à être remplie . Pour le partage du fichier, en attendant d’avoir une méthode qui prenne directement en charge un fichier csv, on peut toujours importer la liste sur une page dédiée ici. Bien spur ça ne sera pas au format csv mais ça peut-être présenté sous forme de tableau. Je crois que l’éditeur visuelle fonctionne globalement correctement sur les tableaux. Vous pouvez me contacter par mail pour que je puisse récupérer le fichier csv et voir ce qu’il est possible de faire. Pamputt4 décembre 2016 à 18:25 (UTC)Répondre
Dernier commentaire : il y a 8 ans10 commentaires5 participants à la discussion
Le logoscope dit : « nous ne prenons pas les mots qui ont plus que 2500 occurrences sur Google.fr, de manière à ce que nos néologismes bénéficient encore d'une certaine fraîcheur ». Et quand il intègre un néologiste (qui a moins de 2500 occurrences), il le sort lorsqu’il a ensuite plus de 2500 occurrences ?
Pour le moment nous continuons à les documenter pour des raisons scientifiques (observation linguistique de la diffusion de ces mots.) Mais dans le Logoscope ces mots sont rares : il s'agit des mots qui, au sein de notre base de textes collectés dans la presse, atteignent plus de 30 d'emplois ex. Emplois fréquents
La question des domaines où classer les mots est épineuses : nous avons élaboré une catégorisation en thèmes assez couvrante qui tâche de refléter l'ensemble des pratiques sociales (thèmes du Logoscope). Dans le Logoscope, nos néologismes sont automatiquement liés aux trois thèmes dominants du texte où ils apparaissent. Il est sans doute pertinent que les créateurs de pages Wiktionnaire, à partir de nos données, s'en inspire pour donner un nom de domaine au mot concerné, en plus de la définition, etc.--92.75.151.2485 décembre 2016 à 10:07 (UTC)Répondre
C'est une excellente question, cruciale à mo avis pour la qualité du Wiktionnaire. De mon point de vue de spécialiste, je vous conseillerais de ne pas intégérer les néologismes appelés occasionnalisme si wiktionnaire doit rimer avec dictionnaire, c'est-à-dire un outil censé refléter l'usage et pas des créations isolées. C'est pourquoi je vous ai plutôt incité à privilégier, du moins dans un premier temps de manière à aller à l'essentiel, les mots qui chez nous bénéficient d'une fréquence supérieure à 2 (ce qui ne signifie pas que ces mots ont deux occurrences sur Google, ils en ont généralement plus), en allant vérifier sur google.fr ou une autre base de donnée leur fréquence d'emploi. Par ailleurs, je crois que le Wiktionnaire gagnerait en valeur ajoutée (et en quantité d'information pour l'utilisateur) si on ajoutait une icône (nommée par ex. Voir courbe d'usage) représentant un graphique qui renverrait à nos courbes d'usage (ex. courbe). --92.75.151.2485 décembre 2016 à 08:50 (UTC)Répondre
J’ai été jeter un coup d’oeil. Apparemment, il n’y a pas de tri ? Nous n’allons évidemment pas créer de pages pour des choses du genre benzema-valbuena, tout simplement parce que ça ne peut pas être considéré comme un mot. Ce n’est pas un néologisme. Il n’y a donc pas de tri sur le Logoscope ??? Et pour les mots du genre décarbonner, qui semblent des fautes d’orthographe évidentes, vous les incluez sans problème ? En tout cas, le Logoscope peut vraiment être une mine pour nous. Ce n’est pas tellement la fréquence qui compte pour nous, mais la certitude que le mot est vraiment utilisé, et que c’est vraiment un mot (pas une coquille, une faute d’orthographe, une variation d’écriture expressive, genre rrrrrrrrrronfler…). Mais rajouter des courbes de fréquence (ou des liens vers vos courbes) serait vraiment un énorme plus ici. A noter qu’un contributeur du Wiktionnaire a aussi fait une application pour détecter dans différents journaux tous les mots absents d’ici, en précisant le nombre d’occurrences du mot détectées ce jour-là (c’est automatique, donc les coquilles sont aussi incluses dans les listes résultantes). Lmaltier (discussion) 5 décembre 2016 à 21:55 (UTC)Répondre
Je plussoie Lmaltier, notre définition de l’usage est neutre, qu'ils soient une création rarissime ou bien un borborygme de banlieu, l’important pour nous est surtout de se poser la question : « Est-ce que des gens utilisent ce mot entre eux ? » Lorsque la réponse est oui, le nombre d'occurrence importe peu, sachant qu’on a aucune limite de corpus, du moment que l’on peut attester de son usage. — Lyokoï (Discutons) 5 décembre 2016 à 22:14 (UTC)Répondre
Ouais, on prend tout ce qu’on trouve, de partout, à l’écrit (car pour l’oral, on ne peut pas sourcer), tous les mots les plus improbables qu’ils soient utilisés dans les blogs et les forums ou ailleurs, car une langue ça vit. On n’a pas de borne, pas de limite, c’est à ça qu’on nous reconnaît, car on a la place. Par contre on rejette avec la plus grande fermeté les mots inventés par des gens pour des raisons bassement mercantiles, pour se faire de la publicité, pour inventer un concept nouveau… On en a eu qui ont essayé. Ils se sont fait virer vite fait bien fait. Ici on est sérieux, on contrôle de près pour pas se faire avoir par des petits malins, on a des règles d’acceptation des mots(des entrées) très précises.--Rapaloux (discussion) 5 décembre 2016 à 22:56 (UTC)Répondre
Bonjour à tous et merci pour vos remarques. Il est clair que la définition du "néologisme" varie en fonction du point de vue : un Académicien, un rédacteur du Robert, un terminologue, un écrivain, un linguiste, etc. donneront évidement un contenu différent à l'objet "néologisme". Il en va de même pour le Logoscope : oui nous trions nos données (décarbonner est une erreur, nobodys perfect :) ; on va le retirer de la base) mais d'une autre manière que Wikipédia, car ce qui nous intéresse c'est la créativité lexicale en générale, que ce soit des créations expressives/rhétoriques, des noms de marques, et bien entendu aussi des mots quotidiens (sans censure concernant le bon usage : régionalismes et argot sont bienvenus, même si très rares en corpus journalistique). Toute création lexicale est pour nous (et la plupart des linguistes..) néologique. Il se trouve donc que les hapax sont nombreux dans le Logoscope. Quoi qu'il en soit, il serait sans doute utile de formuler la politique néologique du Wiktionnaire, sur une page dédiée ou sur la page du projet Projet:Coopération/Logoscope. Une question que je me pose est : comment mesurez/prouvez-vous le "vraiment utilisé", "l'usage" ? --Logoscope-Unistra (discussion) 6 décembre 2016 à 11:48 (UTC)Répondre
Le vraiment utilisé, c’est ce qui est utilisé de façon réelle, pas de façon artificielle pour nous faire croire qu’un mot existe alors qu'il n’existe pas (ça peut arriver, mais c’est en général facile de s’en rendre compte). On ne mesure pas l’usage, mais le bon sens compte énormément. Si quelqu'un fait un site personnel sur les chevaux, et qu'il s’amuse à remplacer tous les emplois du mot cheval par tefrichtyut, il est bien évident que ce n’est pas un mot à intégrer ici pour autant, ce n’est pas un mot de la langue. La norme est donc d’avoir plusieurs utilisations, sauf dans certains cas : mot formé par un procédé systématique, mot ancien dont on ne peut espérer trouvé une autre attestation, mot ayant un usage officiel ou trouve dans un texte officiel, mot officiellement recommandé (aucune attestation nécessaire dans ce dernier cas)… Mais cela n’est pas toujours appliqué, car la règle fondamentale qui dépasse toutes les autres est tous les mots de toutes les langues. Lmaltier (discussion) 11 décembre 2016 à 18:20 (UTC)Répondre
Merci pour ces éclaircissements et pour le texte sur la page du projet. Je vais de mon côté résumer le contenu spécifique du Logoscope. Je vais aussi proposer un tableau où on verra des exemples de ce que le Logoscope prend et tu pourras ainsi, dans une colonne adjacente indiquer si le Wiktionnaire prend ou non et pourquoi. On peut déjà puiser dans le site du Logoscope pour créer des entrées dans le Wiki (4 pour le moment : microdon, crowdlending, twictée, goveur). Reste le problème de la collaboration sur les fichiers csv., c'est-à-dire le tri et l'annotation dans ces fichiers directement sortis du traitement automatique. Ce sont ces fichiers triés et annotés qui nourrissent notre base. Je crois que Pamputt résout actuellement le problème technique de la mise à disposition de ces fichiers à la communauté. --Logoscope-Unistra (discussion) 11 décembre 2016 à 19:01 (UTC)Répondre
Concernant le point ci-dessus, pour faciliter l'exploitation du Logoscope par les contributeurs du Wiktionnaire, j'ai ajouté dans le projet un titre "Quels néologismes du Logoscope pour le Wiktionnaire ?", à détailler par exemple par Lyokoï, Lmaltier , etc.
Import du csv
Dernier commentaire : il y a 7 ans6 commentaires3 participants à la discussion
Bonjour, j’ai écrit un programme en c++ qui permet de transformer les données csv et html fournies par le Logoscope en code wiki. La page de rendu actuel est disponible ici. Pour le moment c’est écrit en c++ mais ça pourrait être traduit en python pour une plus grande facilité de lancement. Mais comme c’est le langage avec lequel je suis le plus à l’aise, je le fait comme ça en attendant que le rendu soit plus ou moins figé. Quelques questions. Tout d’abord pour les utilisateurs, est ce que vous trouvez ça ergonomique ? Que faut-il modifier/améliorer/… ? A noter que l’éditeur visuel prend ici tout son intérêt car éditer un tableau par son intermédiaire est beaucoup plus aisé qu’en wikicode. Pour Logoscope-Unistra, est ce que c’est facile pour vous de refaire un csv à partir de mon tableau ? En particulier je pense au petit « (exemple d'utilisation) » qui sera dans votre fichier. Pour plus de simplicité, je peux le mettre dans une autre case comme ça lord de l’import en csv, il faudra juste supprimer la dernière case. Pamputt11 décembre 2016 à 22:02 (UTC)Répondre
Bonjour. Je trouve la solution très bonne : cliquer sur l'exemple d'utilisation est pratique, et le tableau est clair. Quand ce sera au point on pourrait ouvrir pour chaque mois ( voir en bas de la page projet) une page contenant les jours du mois, et en cliquant sur le jour, ouvrir une page comme celle-ci (). Pour ne pas se perdre dans tous ces jours, il serait utile d'indiquer à la suite du mois et du jour, entre parenthèses, quelque chose comme "complété" ou "à compléter".--Logoscope-Unistra (discussion) 12 décembre 2016 à 10:18 (UTC)Répondre
Quelques remarques : au moment de l'import du csv, il faudra passer la colonne "0" à "rien", car sinon on n'a pas de moyen de savoir qu'un contributeur à jugé que le mot est "0". Et du coup on n'a pas le moyen de savoir si le jour concerné a été entièrement traité. Quoi qu'il en soit, un critère important pour le tri et la décision de 0 ou 1 est un nombre d'occurrences du mots inférieur à 2500 sur Google, le mot étant mis entre guillemets : je mettrais volontiers cette indication dans la case "Existe". C'est important d'indiquer aussi que pour ce travail de tri, qui concerne le Logoscope, toute forme nouvelle est prise (même les ex-X, etc.). Je sais que c'est une grande différence avec le Wiktionnaire, mais le Logoscope vise un grand éventail de communautés d'utilisateurs (dont les morphologues linguistes...). Là aussi il faudra être clair, mais je vais y travailler sur la page du projet : sans doute qu'un schéma explicitant les liens auto-nourrissants entre le Logoscope et Wiktionnaire serait utile. Concernant la colonne "Informations complémentaires" (que je propose de renommer "Procédé de création"), il convient d'ajouter au moins trois sous-colonnes car un néologisme peut être par exemple formé par emprunt + dérivé + autre chose, etc. Concernant l'annotation en général, nous disposons d'une notice de validation qu'il faudra importer sur la page du projet (Pamputt, je te l'ai envoyée par mail). A ce sujet, il faudrait profiter du tableau pour poser un lien renvoyant le contributeur vers cette notice.--Logoscope-Unistra (discussion) 12 décembre 2016 à 10:18 (UTC)Répondre
Les vacances étant passées par là, je me remets à travailler sur ce projet doucement. Avec l’aide de Darkdadaah, j’ai amélioré le tableau qui tient également compte de tes remarques Logoscope-Unistra. Si j’ai oublié quelque chose, n’hésite pas à le signaler. Concernant la notice, je l’ai importé ici ; il ne reste plus qu’à créer des liens vers celle-ci. Pour le reste, peut-on avoir un état des lieux de ce qui marche et de ce qu’il reste à faire car j’ai sûrement oublié des choses. Pamputt27 janvier 2017 à 21:42 (UTC)Répondre
Merci Pamputt et Darkdadaah de reprendre le développement ! Je suis persuadé que ça peut devenir un outil très utile : la présence des contextes sous les mots est vraiment très pratique et j'ai testé l'annotation par modification directe du tableau ; là aussi c'est parfait, il me semble. Je conseillerais toutefois de ne pas mettre "rien" dans la première colonne, mais de laisser les cases vides (en fait, bien entendu, c'est tout le tableau qui doit être vide). Je conseillerais aussi de modifier la dénomination des colonnes : 1) l'étiquette "existe" peut porter à confusion, car un mot peut exister à 1 occurrence et aussi à 200000 occurrences... Je crois, comme la détection de mots nouveaux est le but, qu'il vaut mieux indiquer "Nouveau ? 0 : oui 1 - : non", ou quelque chose comme ça ; 2) ne pas forcément mettre NOM, ADJ, VERBE car les catégories grammaticales sont plus nombreuses et l'annotateur peut penser qu'il n'a que ces catégories à sa disposition (du reste nous annotons la catégorie verbe par un simple "V"). Voilà pour les remarques concernant l'interface d'annotation. Une très importante aide à la décision, concernant l'annotation, serait de pouvoir disposer d'une estimation du nombre d'occurrences de l'unité concernée dans une ressource actuelle et massive en français. D'habitude pour les annotations nous effectuons nos estimations sur Google en tapant le mot entre guillemets. Malheureusement nous devons faire ça à la main, car comme vous le savez le crawling ne fonctionne pas. Bref si vous avez une idée pour contourner cette contrainte de Google ou si vous avez une idée pour mesurer automatiquement le nombre d'occurrences sur une base de textes pertinente, ce serait vraiment génial ! --Logoscope-Unistra (discussion) 28 janvier 2017 à 08:56 (UTC)Répondre
Notice de validation
Dernier commentaire : il y a 8 ans1 commentaire1 participant à la discussion
fourniture par le Logoscope de données d’usage d’un terme en fonction du temps. La solution envisagée est un dépôt des données nécessaires à la génération des graphs sur Commons, et l’utilisation de ces données dans l’extension « graph ». Tout cela est géré par un modèle (module Lua ?) que l’on pourrait insérer dans la section étymologie sur la droite.
Données que le Logoscope va fournir et moyens technique d'échange de données
Dernier commentaire : il y a 7 ans5 commentaires2 participants à la discussion
Envoyer de la liste de tous les néologismes de la base.
Objectif Wiktionnaire : sélectionner parmi ces néologismes ceux qui soit
sont absents, soit ceux qui sont insuffisamment documentés (manque de citation, etc.).
+ Il y a aussi les mots récemment documentés sur le Wiktionnaire, mais sans
courbe alors que celle-ci est intéressante : voir "ait-right"
Demande technique : par quel moyen envoyer automatiquement au Wiktionnaire notre liste mensuelle de mots nouveaux ?
Pour commencer, je pense que vous pouvez m’envoyer les données sous formes de tableur. Dans un premier temps, je pense qu’on peut se contenter des mots (néologismes) et des phrases dans lesquels ils sont apparus Je me chargerai de mettre tout cela en forme pour que ce soit disponible ici. Vous pouvez aussi envoyer le tableur à Lyokoï et Noé que j’avais mis en copie dans le dernier courriel.
Demande technique : sous quel format faut-il communiquer les données des courbes ?
Dans l’idéal, le format de données doit être celui décrit ici. Un exemple existe. Bien sûr il faut adapter cet exemple à vos données. De même, il faut changer la licence de CC0-1.0 par CC-BY-SA-4.0.
Demande technique : par quel moyen peut-on savoir que nos néologismes sont dans le Wiktionnaire (de façon à l’indiquer à nos utilisateurs au moyen d’une icone Wiktionnaire) ?
La réponse technique est disponible ici (dernière réponse).
Demande technique : par quel moyen récupérer les données concernant la popularité des mots (pics de consultation) ?
L’adresse pour récupéré les données brutes et de la forme
Il faut remplacer « eau » par l’article qui vous intéresse. De même les deux « dates » à la fin sont la date de début et la date de fin des statistiques. Le format est AnnéeMoisJourHeure.
Merci pour ces réponses très rapides : en effet, j'a oublié de préciser que le contrat de notre ingénieur se termine le 31 octobre. Il ne reste donc que peu de temps pour mettre en place le nécessaire de notre côté... C'est la dure loi des financements universitaires ! --Logoscope-Unistra (discussion) 21 octobre 2017 à 10:20 (UTC)Répondre
@Logoscope-Unistra : j’ai répondu à tous les points je pense. J’ai essayé de donner les réponses les plus faciles à mettre en œuvre étant donné le temps qui presse. Si j’ai oublié quelque chose, merci de me le signaler Pamputt21 octobre 2017 à 14:09 (UTC)Répondre
Dernier commentaire : il y a 7 ans5 commentaires3 participants à la discussion
Bonjour à tous. Une bonne nouvelle, l'utilisateur a la possibilité de cliquer sur un bouton pour accéder aux pages du Wiktionnaire. Par ex. :
http://logoscope.unistra.fr/neologism/t/trumpisme/trumpisme_page1.html
Seule difficulté pour le moment : pour les noms propres (ex. Cherbourg-en-Cotentin), ça ne marche pas, parce que l'entrée dans le logoscope est en minuscules, alors que dans le wiktionnaire il y a les majuscules. Il faut que ce soit exactement la même forme pour être reconnu. Si vous avez une idée pour résoudre ce problème, elle sera la bienvenue, car notre ingénieur a fini son contrat hier...--Logoscope-Unistra (discussion) 1 novembre 2017 à 12:48 (UTC)Répondre
Bonjour. Très intéressant le lien vers le Wiktionnaire . Pour le problème de Cherbourg-en-Cotentin, j’ai bien peut qu’il n'y ait pas de solutions de notre côté. En effet, il peut arriver que nous ayons deux entrées différentes suivant que la première lettre soit une majuscule ou une minuscule (c’est par exemple le cas de Strasbourgeois et strasbourgeois et des gentilés en général). Donc il apparait difficile de ne pas tenir de la casse sur le Wiktionnaire sinon on pourrait renvoyer vers une page qui n’existe pas (exemple : Stransbougeois existe mais pas strasbourgois ou l’inverse). Donc la solution ne peut venir que de votre côté à mon avis. Quelle est la raison qui vous pousse à ne pas tenir compte de la casse et à conserver tous les mots en minuscules ? Pamputt1 novembre 2017 à 21:25 (UTC)Répondre
--Merci Pampuut! Je m'en doutais un peu. Concernant la raison, c'est obscur : un de nos anciens ingénieur en aura certainement vu la nécessité... IL nous faut
retrouver pourquoi. Mais c'est sans doute mineur.
Par ailleurs, nous sommes entrain d'intégrer l'historique des requêtes sur les pages du Wiktionnaire dans nos courbes ; quelque réglages restent à faire. --Logoscope-Unistra (discussion) 2 novembre 2017 à 07:59 (UTC)Répondre
Ayant auparavant fait un outil similaire, j'avais opté pour ignorer les mots en majuscule, car un certain nombre de mots ont leur première lettre en capitale, que ce soit en début de phrase ou arbitrairement en milieu de phrase : il devient du coup difficile de savoir s'ils doivent s'écrire avec une majuscule ou pas. Ce choix me permettait aussi d'éviter de lister les innombrables noms de personnes et de lieux (qui n'étaient pas ma cible).
Le choix d'ignorer la casse permet donc de lister tous les mots, même en début de phrase, au prix de l'absence de distinction des noms propres et gentilés. — Dakdada2 novembre 2017 à 10:37 (UTC)Répondre
Dernier commentaire : il y a 7 ans8 commentaires3 participants à la discussion
Bonjour à tous. Nous avons intégré sur notre site les données de consultations des pages wiki. et cela donne ceci : https://logoscope.unistra.fr/graphics/f/graphic_fintech.html
Concernant l'intégration des courbes sur les pages wiki, avez-vous avancé de votre côté ? Il me semble qu'une
double courbe est éclairante : elle indique à la fois l'évolution de l'usage à l'écrit et les vues d'une page
wiki montrent le caractère de nouveauté du mot : s'il y a affluence de lecteurs c'est que ces derniers cherchent
à se renseigner sur une signification qu'ils ne connaissent pas ou peu.
--Logoscope-Unistra (discussion) 16 novembre 2017 à 20:19 (UTC)Répondre
Merci Logoscope-Unistra pour ces nouvelles informations. Le résultat est en effet très intéressant et visuellement parlant. Par contre, j’ai un doute concernant les chiffres affichés dans fintech. En effet on peut lire
mai : 26
juin : 11
juillet : 9, etc.
Or si on regarde les stats pour cet article ici, on voit que d’une part, l’article a été créé le 5 juin 2017, donc les chiffres données pour mai sont étonnants. Il semble qu’il y ait un décalage d’un mois. Si on compte « à la main », on voit qu’il y a eu 26 visualisations en juin, 11 en juillet, …
Il pourrait également être intéressant d’ajouter sur votre graphique la date de création de l’article sur le Wiktionnaire afin que l’on comprenne directement pourquoi il n’y a pas de consultation avant mai-juin 2017.
En ce qui concerne le travail ici, j’avoue ne pas avoir avancer sur le sujet. Je vais essayer de regarder ça ce weekend. Pour rappel, il faut qu’ons se décide sur le format à utiliser pour ces données pour qu’on puisse les afficher en natif sur le Wiktionnaire et sans utiliser des graphiques sous forme d’images qui deviendraient obsolètes assez rapidement. Pour rappel également, les données brutes devraient être stockées sur des pages du Wiktionnaire et non sur Commons pour des raisons de licence (CC by-sa pour le Wiktionnaire et CC-0 (équivalent au domaine public) sur Commons). Peut-être que Ltrlg pourra apporter d’autres éléments de réponse. Pamputt17 novembre 2017 à 07:21 (UTC)Répondre
Merci à toi pour ton oeil de lynx ! Bon courage pour résoudre le problème. De notre côté, en effet, pour bien comprendre le graphique il faut signaler à quelle date le mot a été créé sur le Wik.--Logoscope-Unistra (discussion) 17 novembre 2017 à 08:57 (UTC)Répondre
@Logoscope-Unistra : Afin que je puisse avoir une solution qui s’ajuste au mieux sur les données que vous produisez, serait-il possible de recevoir par email les données pour un exemple (« fintech » par exemple) ? En gros, est ce que les données sont disponibles par mois, par jour ou autre ? Pamputt17 novembre 2017 à 19:49 (UTC)Répondre
Encore une remarque sur les graphiques de consultation du Wiktionnaire. Si vous voulez encore améliorer les choses, je pense qu’il serait plus intéressant de fournir, pour les formes fléchies, les statistiques de consultation pour le lemme principal. Par exemple, je pense qu’il serait préférable d’afficher pour « flexitariens », les stats de notre article flexitarien. Mais j’imagine que c’est moyennement simple à prendre en compte. Pamputt17 novembre 2017 à 20:17 (UTC)Répondre
@Logoscope-Unistra : j’ai réussi à bricoler un truc qui affiche ceci à partir d’une partie des données recopiée à la main de « fintech ».
En interne ça récupère les données qui sont stockées sur une autre page. Pour que ça fonctionne il faudrait que vous nous fournissiez les données sous la forme suivante :
Le format de la date peut être légèrement différent (ça dépend de comment il est stocké chez vous). C’est du format JSON donc c’est standard. Si votre outil sort vos données dans ce format, merci de m’en envoyer un exemplaire pour que je puisse adapter le code du graph afin qu’il le prenne en compte directement comme ça on n’aura pas besoin de retoucher aux données qui sortiront directement. On auta juste à les copier dans une page du genre Projet:Coopération/Logoscope/data/fintech pour qu’elle soit directement affichée par le graph. Pamputt18 novembre 2017 à 23:30 (UTC)Répondre
@Pamputt : Cela prend forme, c'est réjouissant. Concernant ton graphique, il vaudrait mieux indiquer "emploi" que "occurrence" car quand un mot apparaît plusieurs
fois dans un même texte nous ne le comptabilisons qu'une fois. De plus, je me demande si "occurrence" est connu du grand public. J'ai transmis ton commentaire à l'ingénieur. Il devrait répondre assez vite. Le dictionnaire Collins propose aussi ce genre de graphiques, mais pas sur les mots récents et avec des erreurs régulières en raison de leur corpus et de la non-prise en compte de la néologie sémantique (ex. burn-out est daté XVIIe...). C'est donc une belle avancée. Mais on pourra bientôt faire mieux : je suis en pourparlers pour qu'on puisse avoir une couverture de journaux dix fois plus grande--Logoscope-Unistra (discussion) 19 novembre 2017 à 08:37 (UTC)Répondre
C’est impressionnant, d’un côté comme de l’autre ! Je me réjouis de voir que c’est en train d’avancer à bonne allure ! Pour le lieu de stockage des données dans le Wiktionnaire, nous pourrions envisager une adresse plus courte, peut-être en zappant Coopération et data pour avoir quelque chose comme Projet:Logoscope/fintech. Mais c’est un détail, nous pourrons voir ça plus tard Noé19 novembre 2017 à 11:01 (UTC)Répondre
Réunion de travail : Logoscope-Wiktionnaire
Dernier commentaire : il y a 6 ans11 commentaires6 participants à la discussion
Je fais suite à un message de Lyokoï qui conseille d’organiser une première réunion
devant permettre d’y voir plus clair parmi les stratégies (discutées ce mois de septembre
par mail) qu’il serait possible d’emprunter pour développer la coopération Logoscope-Wiktionnaire.
L’objet de la réunion serait le suivant : quels moyens pour augmenter les sources textuelles de l’outil Logoscope, afin que ce dernier puisse livrer au Wiktionnaire : 1) des néologismes dont l’usage est attesté dans une large variété de sources, c’est-à-dire en particulier sans se limiter aux grands quotidiens nationaux français (on peut penser ici aussi à la francophonie) ; 2) des courbes graphiques d’usage de ces mots plus fidèles à la réalité (concernant le français écrit) ; 3) plus de néologismes que ce qui est livré actuellement chaque mois (https://fr.wiktionary.orghttps://dictious.com/fr/Projet:Coopération/Logoscope/liste).
Bah moi je ne me sens pas hyper compétent pour du développement informatique. Je peux bidouiller 2-3 trucs mais pour quelque chose en production, c’est autre chose. Et en plus, mes disponibilités sont lus que limitées d’ici la fin de l’année. Pamputt4 octobre 2018 à 11:10 (UTC)Répondre
Ça m'intéresse (cf mon vieux projet journal) mais je ne pourrais probablement pas me déplacer (je suis à Cambridge à présent). — Dakdada4 octobre 2018 à 11:17 (UTC)Répondre
@Darkdadaah : Si c’est une question de coût, on devrait pouvoir faire financer un A-R par la commission Micro-fi de WmFr, elle est là pour ce genre de besoin, surtout que c’est un projet important pour le Wiktionnaire. --— Lyokoï (Discutons) 4 octobre 2018 à 11:24 (UTC)Répondre
Je suis intéressé pour participer à une réunion, mais pas tout de suite. Je commence à travailler sur un projet proche de celui-ci et j’aurai probablement davantage de compétences d’ici quelques mois Noé4 octobre 2018 à 11:37 (UTC)Répondre
Bonjour à tous et merci pour ces onformations et la généreuse proposition de soutien financier de lyokoï. C'est dommage, mais sachez que je comprends parfaitement vos contraintes à tous, étant moi-même pris dans un flux de tâches diverses. J'en profite pour partager deux informations utiles : 1) le code du projet Néoveille (qui fouille 200 sources journalistiques françaises) sera dans deux mois en open-source, donc on pourra récupérer la partie du programme de gestion des sources qui se branche sur les flux RSS et qui traites les pages pour en faire des fichiers textes (bon, mais encore faudra-t-il trouver quelqu'un qui implémente ce morceau de code dans le Logoscope...). 2) je suis en contact avec Science Po et je saurais ce vendredi s'il y a la possibilité d'obtenir des "dump" mensuels de la presse française à partir de la plateforme Media-cloud, et là on aura peut-être quelqu'un pour nous aider à insérer ça dans le Logoscope. Bref, je continue à avoir espoir que la situation se débloque dans quelques mois et je serai extrêment content, comme vous le savez que le Wiktionnaire bénéficie de cet apport crucial et rare des courbes d'usage des mots.--Logoscope-Unistra (discussion) 17 octobre 2018 à 08:50 (UTC)Répondre
Autre chose : nous avons complément refondu notre détecteur automatique de thèmes (dans les textes journlistiques où apparaissent les néologismes repérés) : cela signifie qu'il est possible de vous livrer des informations sur les domaines où sont utilisés ces mots, ce que les dicos classiques notent BIO., ECON., etc. Nous disposons de 116 thèmes différents (politique, médecine, sport, mais aussi immigration, conflits sociaux, etc.) et donc d'une large palette pour étiqueter les néologismes selon leur contexte d'emploi : l'idée étant que dans l'usage des mots, en con-texte, il n'y jamais réduction à un seul domaine, comme on se le représente à tort avec l'habitude de consultation des dictionnaires classiques. Cyber-djihadisme devrait être au moins contextualisé avec les domaines Technologie, ConflitArmé et Religion. Voilà, j'espère que ces données pourront aussi apporter de la valeur ajoutée au Wiktionnaire.--Logoscope-Unistra (discussion) 17 octobre 2018 à 08:58 (UTC)Répondre
Exemple en image de détection : en bleu thème Informatique en jaune thème Langue-lettres