Aller au contenu

Wikipédia:RAW/2024-06-01

Une page de Wikipédia, l'encyclopédie libre.

L'édito de PAC2 — Ce numéro du est bien rempli avec beaucoup de brèves, le retour de la section « Focus » et surtout le retour de la section « Pages à créer du mois » (merci ElsaBester (d · c · b) 😉).

RAW a pour ambition d'être la gazette francophone du mouvement Wikimédia. N'hésitez pas à contribuer et surtout à parler de tous les projets du mouvement Wikimédia (Commons, LinguaLibre, Wikibooks, etc).

Sous-classe ou instance de ? Comprenons nous l'ontologie de Wikidata ? — L'ontologie de Wikidata repose sur la distinction entre des instances (P31) et des sous-classes (P279). Si la distinction peut sembler intuitive, elle prête aussi à beaucoup de confusion. Par exemple, quand on dit « elles conduisent la même voiture », est-ce qu'on dit qu'elles conduisent le même modèle ou exactement la même voiture ? On rencontre la même ambiguïté dans les graphes de connaissance comme Wikidata. C'est ce qu'expliquent les chercheurs Atílio Dadalto, João Paulo Almeida, Claudenir Fonseca et Giancarlob Guizzardi dans un article intitulé « Evidence of large-scale conceptual disarray in multi-level taxonomies in Wikidata (d) Voir avec Reasonator » dans la revue Semantic Web (en).

« Les problèmes ont été caractérisés par un certain nombre d'anti-modèles[1], c'est-à-dire des structures de modèle sujettes à des erreurs récurrentes ; nous revenons ici plus en détail sur deux de ces anti-modèles, après plusieurs années de changements dans Wikidata. La prévalence continue des problèmes dans les taxonomies multi-niveaux de Wikidata suggère que de nouvelles lignes directrices et de nouveaux outils sont nécessaires pour atténuer le désordre conceptuel à grande échelle[2]. »

Par exemple, Q150 (« français ») est une instance de Q34770 (« langue ») mais c'est aussi une sous-classe de Q85380120 (« langue d'Europe du Sud ») qui est lui-même une sous-classe de Q34770 (« langue »). On se retrouve donc dans la situation incohérente où Q150 (« français ») est à la fois une instance et une sous-classe de Q34770 (« langue »). Les auteurs proposent de résoudre cette incohérence en distinguant le français de France et le français comme classe de langues : « Pour séparer les deux facettes d'une langue, nous avons besoin de deux éléments : l'un représentant la langue (disons le français de France (Q3083196)) en tant qu'instance de langue (ou de dialecte), et l'autre en tant que sous-classe de langue (ou de dialecte) (se référant à la classe des variantes du français, dont les instances comprennent le français du Québec (Q979914), le français suisse (Q1480152), et le français de France)[3]. »

Dans l'article, les auteurs quantifient le nombre d'occurrences de ces incohérences. Ils montrent que c'est un phénomène majeur lié à l'ambiguïté des concepts dans Wikidata.

Pour prévenir ces situations, les auteurs ont développé un outil web qui permet de tester les incohérences liées à un concept. Par exemple, on peut tester l'outil WAPA avec la langue française[4]. L'outil permet aussi de tester si l'ajout d'une nouvelle déclaration ajouterait une incohérence à l'ontologie de Wikidata. Par exemple, on peut montrer qu'ajouter Q46525 (« prix Pulitzer ») comme sous classe de Q11448906 (« prix scientifique ») créerait une nouvelle incohérence[5].

Celles et ceux qui souhaitent creuser la question peuvent consulter le Wikiprojet Ontologie sur Wikidata.

Résidences wikimédiennes — Après une année à l'Unité régionale de formation à l'information scientifique et technique de Bordeaux, Pyb rempile pour une année en tant que wikimédien en résidence. Il sera cette fois à l'Unité régionale de formation à l'information scientifique et technique Méditerranée. Il travaillera à nouveau sous le pseudonyme Pyb en résidence[6].

La recherche Google évolue — Le 10 mai, Liz Reid, la nouvelle responsable du moteur de recherche Google[7] a annoncé une évolution majeure de la recherche Google avec l'intégration de l'intelligence artificielle générative dans les résultats de recherche à travers une fonctionnalité dénommée Search Generative Experience[8]. Dans le Washington Post, Gerrit De Vynck et Cat Zakrzewski soulignent que « Ce changement risque d'ébranler les fondements mêmes du web[9],[10]. » Jusqu'à maintenant, Google était en effet une source de trafic majeur pour les sites producteurs de contenu. Dans le même article, Selena Deckelman, la responsable technique et produit de la fondation Wikimedia partage la même inquiétude. Selon elle, « Nous sommes actuellement dans une période où je pense que les profits poussent les gens dans une direction dont je ne suis pas sûr qu'elle soit très sensée[11]. » Elle ajoute : « C'est le moment de faire le point et de se demander quel est l'internet que nous voulons vraiment[12]. »

On en parle sur le bistro du 15 mai. Pronoia est assez perplexe face à cette évolution : « Il y a quelques mois, j’étais plutôt optimiste, Google ayant l’habitude d’utiliser Wikipédia, notamment dans les encarts des vidéos Youtube. Aujourd’hui je suis un peu perplexe.... Rien n’indique que Wikipédia fera partie des fameux heureux élus affichés en haut de la page. ».

The Signpost revient sur le sondage sur la mention du deadname des personnes trans — Dans l'édition du 16 mai, The Signpost revient en détail sur le sondage du mois de février concernant la mention du deadname.

Un nouvel outil pour analyser la liste des articles créés par un contributeur ou une contributrice.Categories of created articles est le dernier né d'une série d'outils permettant d'analyser la liste des articles créés par un contributeur ou une contributrice[13]. En s'appuyant sur l'API de xtools sur les pages créées[14] et la bibliothèque logicielle JavaScript wtf_wikipedia[15], il récupère la liste des catégories et affiche les catégories les plus fréquentes. L'outil est intégré au modèle {{Menu contributeur}}.

Des statistiques genrées pour Wikidata — Depuis quelques temps, l'outil GenderStats permet d'analyser la liste des articles créés par un ou une contributeurice[16]. Il manquait le même outil pour les éléments créés sur Wikidata. Wikidata's GenderStats récupère la liste des éléments créés grâce à l'API de xtools et récupère les valeurs de la propriété P21 grâce à la bibliothèque logicielle wikibase-sdk.

Au passage, l'outil Created items a été réparé et mis à jour. Il permet de récupérer les libellés des articles créés par un ou une contributeurice[17].

Wikivisibility — On en parlait dans RAW dès le dernier (Wikipédia:RAW/2023-09-01#orphelins). Des chercheurs travaillent sur un outil permettant de trouver comment relier des articles orphelins au reste de l'encyclopédie en s'appuyant sur les articles dans d'autres langues[18].

Segmentation sémantique — L'Institute for Strategic Dialogue (ISD) publie une étude intitulée « Identifying Sock-Puppets on Wikipedia: A Semantic Clustering Approach » (Traduction en français : « Identifier les marionnettes sur Wikipédia : Une approche par la segmentation sémantique »). L'idée c'est d'essayer d'identifier des groupes (ie clusters) de contributeurs et contributrices à partir de la sémantique de leur contributions et détecter des groupes faisant des contributions suspectes.

Les auteurs s'intéressent à l'article sur la guerre en Ukraine dans la Wikipedia anglophone et à 48 articles reliés.

RAW encourage les membres de la communauté à s'exprimer sur différents enjeux liés à l'écosystème Wikimedia. N'hésitez pas à proposer vos textes pour cette section. N'hésitez pas non plus à réagir dans la section du courrier du lectorat.

Wikidata et les données manquantes : réflexions libres
par PAC2

« Aucun jeu de données, aucune analyse, aucune visualisation, aucun modèle ou algorithme n'est le résultat du travail d'une seule personne. Le féminisme des données peut nous rappeler qu'avant d'avoir des données, il y a des personnes - des personnes qui offrent leur expérience pour qu'elle soit comptée et analysée, des personnes qui effectuent ce comptage et cette analyse, des personnes qui visualisent les données et promeuvent les résultats d'un projet particulier, et des personnes qui utilisent le produit en fin de compte. Il y a aussi, toujours, des personnes qui ne sont pas comptées - pour le meilleur ou pour le pire.- D'Ignazio et Klein 2020[19]. »

Dans l'ouvrage Data Feminism (d) Voir avec Reasonator, Catherine D’Ignazio (d) Voir avec Reasonator et Lauren F. Klein (d) Voir avec Reasonator rappellent qu'il y a toujours des gens qui pour une bonne ou une mauvaise raison ne sont pas comptés. Wikidata est une base de données extraordinairement riche. Son modèle de données est particulièrement souple et bien pensé. Et pourtant, quand je travaille sur Wikidata, je pense toujours à cette réflexion de D'Ignazio et Klein : Qu'est ce qu'on ne compte pas dans Wikidata ? Qu'est-ce qui nous échappe ? Qu'est-ce qu'on n'arrive pas à « dataifier » ?

P21
A la recherche des cis

D'après la description, la propriété « Sexe ou genre  » (P21) accepte les modalités suivantes : masculin (Q6581097), féminin (Q6581072), intersexué (Q1097630), femme transgenre (Q1052281), homme transgenre (Q2449503), non-binaire (Q48270). De manière surprenante, on mélange l'identité de genre et la transidentité. Surtout, on traite de manière asymétrique les personnes cisgenres et les personnes transgenres.

En mai 2024, on trouve dans Wikidata 42 femme cisgenre (d) Voir avec Reasonator[20] et 23 homme cis (d) Voir avec Reasonator[21].

La cisidentité est conçue comme la situation par défaut et n'est quasiment pas renseignée dans Wikidata.

P6553
les pronoms manquants

La propriété:P6553 permet d'indiquer dans chaque langue le pronom avec lequel une personne se fait appeler. Globalement, cette propriété n'est presque pas renseignée en français. Au 6 mai 2024, on compte cette donnée pour 7 hommes, 7 femmes et 11 personnes non binaires[22]. En anglais, on compte à peine quelques milliers de déclarations de cette propriété[23].

P91 où sont les hétéros ?

La propriété P91 permet de modéliser l'orientation sexuelle d'une personne. La description de la propriété prévient qu'il faut être prudent sur l'usage : « orientation sexuelle de la personne — à utiliser SI ET SEULEMENT SI la personne en question l'a clairement indiqué elle-même ou si cela a été largement admis par les historiens après sa mort ».

En mai 2024, on ne trouve dans Wikidata que 352 êtres humains avec comme orientation sexuelle l'hétérosexualité[24].

Il n'y a pas de solutions simples à ces problèmes complexes. Les biais culturels encodés dans Wikidata reflètent les biais culturels de nos sociétés et s'expliquent largement par les biais des sources. On trouve généralement peu de sources pour expliquer qu'une personne est cisgenre, hétérosexuelle ou encore qu'elle préfère l'utilisation du pronom il ou elle. La symétrie de traitement entre cisgenres et transgenres ou entre l'hétérosexualité et homosexualité n'est sans doute pas tout à fait possible. Quoiqu'il en soit, quand on utilise ces données de manière statistique, par exemple pour faire des statistiques sur les articles créés par un contributeur ou une contributrice[25] ou encore pour analyser les personnes mentionnées dans un article[26], il faut toujours garder une grande prudence.

Pages à créer du mois

[modifier le code]

Le retour des pages à créer du mois ! Enfin, ce retour sera pérenne ou pas en fonction de votre réactivité Émoticône. En espérant que les sujets proposés vous inspireront. Davantage de propositions pour des créations sur les projets frères sont ajoutées.

Sur Wikipédia

[modifier le code]
un motif de damier
Damier (motif).

Sur le Wiktionnaire

[modifier le code]

Le Wiktionnaire décrit un peu plus de 200 couleurs en français, mais bien moins dans les autres langues ! Par exemple, seulement 18 en grec, 14 en breton et deux en fon !

De nouvelles traductions sont à documenter dans ce mois : Projet du mois/06 2024.

Sur Wikiquote

[modifier le code]
Clarisse au sol, le visage inquiet, dans une prise de judo.
Clarisse Agbégnénou, triple médaillée olympique avec un des plus beaux palmarès du Judo féminin français : Clarisse Agbégnénou (c'est rouge, cliquez !).

Sur Wikidata

[modifier le code]

Idéalement, cette catégorie devrait être vide !

La catégorie liste les articles appelant le module:Suivi des biographies mais sans entrée sur Wikidata.

Pour vider la liste, il faut créer l'entrée Wikidata de ces articles ou associer l'article à l'entrée existante.

Événements

[modifier le code]
La conférence Wikimania 2024 a lieu en Pologne.

Ailleurs dans le Wikiverse

[modifier le code]

La page Wikipédia:RAW/Découvrir recense les infolettres et blogs relatifs à Wikimedia.

Courrier du lectorat

[modifier le code]

(Il nous fera plaisir de lire les messages déposés ici et, si nécessaire, d'y répondre dans les plus brefs délais.)

Sur les questions de genre

[modifier le code]

« De manière surprenante, on mélange l'identité de genre et la transidentité » dit @PAC2, mais c'est l'inverse qui m'eut surpris : sait-on quel pourcentage des contributeurices a spontanément ces schémas de « genrage » en tête, avec des vocabulaires/catégories relativement nouvelles ?

Dans le corpus numérisé de Google books, le mot « cisgenre » n'apparaît que vers 2001, ce qui signifie que seules les jeunes générations ont pu l'entendre pendant la période de leur formation intellectuelle. Et si ce n'est pas enseigné à l'école, les bases mêmes ne seront connues que par l'environnement culturel/médiatique des personnes, et je ne parierais pas sur leur grande diffusion actuellement.

Parler de « biais » me semble sous-estimer ce qui est en jeu : c'est la redéfinition de l'ontologie même du genre, inscrite dans les représentations et le langage, qui est en question. Difficile d'avoir une symétrie avec un corpus où les concepts et les termes n'apparaissent que depuis 20-25 ans et de manière limitée. D'ailleurs, je me suis demandé si on ne devrait pas autoriser des doublons linguistiques d'articles plutôt que de chercher des normes universelles : un suffixe au titre pour qualifier le mode rédactionnel, un gadget en préférences pour rediriger automatiquement vers le mode voulu, et on laisse expérimenter les nouvelles formes de catégorie/langage. --Fabius Lector (discuter) 1 juin 2024 à 13:30 (CEST)[répondre]

Bonjour Fabius Lector. Je suis en effet séduit par la proposition à la fin de votre commentaire. Surtout que cela me rappelle ce qu'en disait récemment Arthur Perret dans ce billet (paragraphes 39 à 43) mentionné dans le RAW d'avril. À quand un Wikipédia multiformats ? J'avoue ne pas avoir réfléchi en profondeur sur le sujet mais j'ai l'impression que ça pourrait aider à éviter certains conflits ou faire avec certains cas comme ici. Cela violerait-il certains de nos PF et règles ? À creuser. Avons-nous déjà des exemples prometteurs (à part l'expérimentation d'Arthur Perret) sur le web ? --ElsaBester (discuter) 1 juin 2024 à 18:48 (CEST)[répondre]
Bonjour @ElsaBester, en fait, j'y ai pensé en découvrant cet ancien débat concernant le hockey avec des québecois contestant la prééminence du français de France. Peut-être y aurait-il un intérêt plus général à autoriser des doublons pour des variantes linguistiques ne pouvant ou ne voulant entretenir un Wiki complet (cf. notamment des créoles à base lexicale française avec un statut de langue à part entière mais pas forcément les moyens d'un Wiki). Et je n'ai pas cherché mais il se pourrait que ça ait été discuté au niveau international, p.e. pour les variantes de l'anglais, les arabes dialectaux etc. Fabius Lector (discuter) 1 juin 2024 à 19:48 (CEST)[répondre]
Bonjour Fabius Lector Émoticône. En ce qui concerne les doublons pour les variantes linguistiques, j'ai trouvé des discussions sur l'anglophone qui pourraient t'intéresser : w:en:Wikipedia:Village pump (idea lab)/Archive 12#English variants (dialects) et w:en:Wikipedia:Village pump (proposals)/Archive 65#Proposal for Wikipedia in American English. — ElsaBester (discuter) 9 juin 2024 à 09:48 (CEST)[répondre]

 –
Rédigé/traduit par PAC2, ElsaBester
Citations originales
Notes
Références
  1. F. Brasileiro, J.P.A. Almeida, V.A. Carvalho and G. Guizzardi, Applying a multi-level modeling theory to assess taxonomic hierarchies in Wikidata, in: Proc. 25th International Conference Companion on World Wide Web, WWW ’16 Companion, International World Wide Web Conferences Steering Committee, (2016) , pp. 975–980. doi:10.1145/2872518.2891117.
  2. « The problems were characterized in terms of a number of anti-patterns [5], i.e., recurrent error-prone model structures; we now revisit two of these anti-patterns here in further detail, following several years of changes in Wikidata. The continued prevalence of the problems in Wikidata’s multi-level taxonomies suggests that further guidelines and tools are required to mitigate the large-scale conceptual disarray. » Traduction avec l'aide de DeepL.
  3. Traduit avec l'aide de DeepL : « To separate the two facets of a language, we need two items: one representing the language (say French of France (Q3083196)) as an instance of language (or dialect), and another as a subclass of language (or dialect) (referring to the class of French variants, whose instances include Quebec French (Q979914), Swiss French (Q1480152), and French of France). »
  4. http://atilioa.me/WikidataAntiPatternAnalyzer/results.html?analysis-option=existent&inputEntity=Q150&inputNewProperty=&inputNewEntity=
  5. http://atilioa.me/WikidataAntiPatternAnalyzer/results.html?analysis-option=new&inputEntity=Q46525&inputNewProperty=P279&inputNewEntity=Q11448906
  6. https://mamot.fr/@Pyb/112434332243536193
  7. https://www.theverge.com/2024/3/19/24105705/google-liz-reid-search-ai-sge-gemini
  8. https://blog.google/products/search/generative-ai-search/
  9. Traduit avec Deepl de « The shift stands to shake the very foundations of the web. »
  10. (en) « Web publishers brace for carnage as Google adds AI answers », The Washington Post,‎ (lire en ligne).
  11. « Now, we’re just in this moment where I think that the profits are driving people in a direction that I’m not sure makes a ton of sense ».
  12. « This is a moment to take stock of that and say, ‘What is the internet we actually want? »
  13. https://observablehq.com/collection/@pac02/pages-created
  14. https://xtools.wmcloud.org/api#/User%20API/get_UserApiPagesCreated
  15. Lien vers le code source : https://github.com/spencermountain/wtf_wikipedia. On peut aussi regarder le notebook https://observablehq.com/@pac02/hello-what-the-f-wikipedia pour explorer les possibilités de wtf_wikipedia.
  16. https://observablehq.com/@pac02/user-level-gender-statistics-for-wikipedia
  17. https://observablehq.com/@pac02/wikidatas-list-of-created-items
  18. L'outil est intégré dans Utilisateur:PAC2/Chouette, ce qui permet d'avoir le lien en bas de chaque page sur téléphone portable.
  19. Traduit avec DeepL de « No dataset or analysis or visualization or model or algorithm is the result of one person working alone. Data feminism can help to remind us that before there are data, there are people—people who offer up their experience to be counted and analyzed, people who perform that counting and analysis, people who visualize the data and promote the findings of any particular project, and people who use the product in the end. There are also, always, people who go uncounted—for better or for worse. » in (en) Catherine D'Ignazio et Lauren F. Klein, « Introduction: Why Data Science Needs Feminism », dans Data Feminism, MIT Press, (lire en ligne)
  20. Requête effectuée le 11 mai : https://w.wiki/A3PC
  21. Requête effectuée le 11 mai 2024 : https://w.wiki/A3PJ
  22. Source : https://w.wiki/9zvV
  23. Décompte des prénoms par genre en anglais : https://w.wiki/9zvN
  24. Requete effectuée le 11 mai 2024 : https://w.wiki/A3PY
  25. https://observablehq.com/@pac02/look-at-your-list-of-created-articles-through-wikidata
  26. https://observablehq.com/@pac02/articles-wikilinks-inspector
  27. https://www.wikimedia.fr/la-france-accueillera-la-wikimania-en-2026/