MediaWiki + ChatGPT?

michaelstgelais · Avril 30, 2023, 1:22

Bonjour tout le monde,

Je suis nouveau à ce forum, alors n’hésitez pas à me faire part si je ne suis pas au bon endroit ou je suis hors propos.

Je m’appelle Michaël St-Gelais, médecin de famille, mais surtout président du CA d’une OBNL qui se nomme Wikimedica (CC-BY-SA).

Qu’est-ce que Wikimedica ? En bref, c’est une base de connaissance québécoise en libre accès et gratuite qui fonctionne sur Mediawiki dont l’objectif est de devenir LA référence documentaire pour les professionnels de la santé au chevet de leurs patients. Gros mandat !

Nous avons comme intérêt de développer un plug in pour permettre d’utiliser ChatGPT sur Mediawiki. Y a-t-il des intéressés ici ?

Il nous semble que ce développement est totalement censé : Mediawiki est utilisé par des entreprises également comme système de gestion de l’information… Les entreprises pourraient être intéressés à pouvoir utiliser ChatGPT en lien avec leur système de gestion de la connaissance pour le service à la clientèle, par exemple (enfin des bons chat bots!).

De notre côté, nous voyons un intérêt énorme pour le clinicien : imaginez-vous un médecin au chevet d’un patient qui pose une question à ChatGpt pour aller puiser dans une base de connaissance médicale : l’information serait disponible beaucoup plus rapidement pour le clinicien. C’est ça notre vision ! On pourrait aussi annexer un tel plug in à un dossier médical électronique pour que les professionnels de la santé puissent interroger une base de donnée médicale efficacement et rapidement.

S’il y a des intéressés à participer à ce développement, faites-moi signe !

jeff · Avril 30, 2023, 4:03

Bonjour Michel et bienvenue! Je vois que vous avez posté un autre fil de discussion pour présenter Wikimedica, intéressant… Je vais en parler à mes amis urgentologues, ils seront sûrement intéressés par ce site.

Si vous ne le connaissez pas déjà, je pense que vous devriez rencontrer Dr. @ReinerB, un passionné de logiciel libre dans le système de la santé!

Aussi, pour ce qui est du côté technologique: à ma compréhension, MediaWiki est une plateforme très agréable à utiliser, mais conçue pour répondre principalement aux besoins d’une encyclopédie (desservir les besoins techniques de Wikimedia pour Wikipedia) plutôt que d’être un système général hyper extensible. Je ne sais pas à quel point la feuille de route stratégique de MediaWiki est influençable de l’extérieur. Vous pourriez également être intéressé par Tiki (et les « Tiki Trackers », particulièrement). Ça nécessite des améliorations (j’ai rapporté pas mal de bugs du côté UX) mais ça se veut une boîte à outils qui peut tout faire. Je sais que @marclaporte (EvoluData) a des projets d’intégrer du machine learning et intelligence artificielle dans Tiki et technologies reliées, ça vaudrait sûrement la peine de parler avec lui également.

Déclaration de conflit d’intérêt: j’ai fait du travail de marketing et service conseil (cliquez sur mon profil pour les liens vers mes sites web) pour Marc en 2022, et je lui partage encore des nouvelles de mes contributions aux logiciels libres autour de GNOME. Cela dit, personne ne m’a incité à écrire ces lignes, et technologiquement parlant je ne vois pas trop quelle autre plateforme serait capable (et intéressée) à accomplir prochainement la trinité entre logiciel libre, wiki, intelligence artificielle. Je suspecte que vous auriez des objectifs tout à fait alignés. Pour ma part, il me ferait plaisir de travailler avec vous, mais ce ne sera pas moi qui ferai votre développement logiciel.

marclaporte · Avril 30, 2023, 5:43

Bonjour @michaelstgelais et @jeff

Pour tout projet en PHP (comme MediaWiki), je recommande https://github.com/RubixML/ML

Nous l’avons ajouté dans Tiki pour https://doc.tiki.org/Machine-Learning.

Et puis, nous venons de débuter un nouveau projet: Un chatbot avec de l’intelligence artificielle, qui va se nourrir d’infos dans Tiki (wiki et trackers). Il est trop tôt pour partager en détail les aspects techniques. Mais c’est certain que ça va mener à des améliorations à Rubix ML et tout sera des logiciels libres. La fin de cette phase du projet est décembre 2023. Et il est prévu d’avoir une phase 2 en 2024.

Au plaisir,

Marc

michaelstgelais · Avril 30, 2023, 8:09

Salut @jeff !
Merci pour ta réponse.
On connait très bien Reiner Banken et lui aussi nous connait bien
Pour MediaWiki, je ne suis pas certain que c’est tout à fait vrai de dire que personne dans l’univers MediaWiki ne serait intéressé à développer une extension d’intelligence artificielle. À titre d’exemple, Perplexity.AI permet de faire des requêtes avec une NLP seulement dans le contenu de Wikipédia. Nous avons tendu des perches du côté de Wikimedia Canada pour voir s’il y aurait de l’intérêt. Selon moi, Wikipédia aurait tout intérêt à développer une telle extension : imaginez l’impact que cela pourrait avoir sur l’éducation dans les pays moins nantis. Par ailleurs, MediaWiki est tout de même utilisé comme plateforme par de multiples entreprises.

Au final, Wikimedica est définitivement une encyclopédie à laquelle on veut ajouter des capacités d’intelligence artificielle.

michaelstgelais · Avril 30, 2023, 8:10

Merci Marc ! Je partage l’information à Antoine, mon collègue ! Intéressant RubixML.

michaelstgelais · Avril 30, 2023, 8:21

Qui sont ces amis urgentos ? Il y a quand même des chances non nulles qu’on soit déjà en contact. Patrick Archambault ? Matthieu Vincent ? L’équipe de EZdrips ? Julien Poitras ? La gang de l’Enfant-Jésus et TopMU ?

jeff · Avril 30, 2023, 9:03

Techniquement, je n’ai jamais dit cela.

Je ne sais juste pas si c’est partie intégrale de la feuille de route de la WMF, et à quel point les gens hors de la WMF ont une influence sur le développement de MediaWiki (si par hasard quelque chose sort du cadre de fonctionnalités destinées à la création d’encyclopédies, mettons). Surtout quand on pense que les LLMs comme ChatGPT sont essentiellement des algorithmes de devinette de « quel mot serait probable ensuite dans la phrase/réponse » (à ce que je comprends, globalement) et que, jusqu’à présent, ça fabule beaucoup de choses sans fournir de preuves et citations, alors que Wikipedia requiert des citations sérieuses à tour de bras pour justifier toute affirmation…

Cela dit, il semble y avoir un groupe d’intérêt pour l’apprentissage machine dans MediaWiki… je ne suis pas sûr s’il y a un projet particulier concernant ChatGPT spécifiquement, mais en cherchant dans leur tableau de tâches de travail, je trouve ceci et cela où on apprend l’existence d’une bebitte expérimentale nommée « WikiGPT »… qui sera l’objet d’une session de hackathon le mois prochain à Athènes un vendredi après-midi. Y’a plus qu’à enfourcher son vélo et s’y rendre!

francois.pelletier · Mai 1, 2023, 7:48

Un modèle de langage de type LLM comme ChatGPT n’est pas le bon moyen de trouver de l’information dans une base de connaissances. Encore moins dans un domaine spécifique où il y a relativement peu de données et un champ lexical restreint. Le risque de générer du « n’importe quoi crédible » est vraiment très élevé !

L’autre problème propre à ChatGPT et autres algorithmes privatifs c’est qu’on ne veut surtout pas leur partager des données confidentielles ou médicales parce qu’ils n’ont aucune garantie de protection des données. Il faudrait avoir un modèle autonome. Il y a d’ailleurs un modèle qui a été développé par PubMed et Stanford qui s’appelle BioMedLM

Je crois qu’il y a souvent une confusion entre un moteur de recherche (qu’on voudrait idéalement avoir avec une composante de web sémantique) et un générateur de contenus. Ils peuvent se complémenter pour générer des sommaires, mais la recherche de connaissances ne devrait pas se faire avec un LLM.

michaelstgelais · Mai 3, 2023, 2:03

Bonjour François !

En médecine, il y a des bases de connaissance médicales utilisées par les professionnels de la santé au chevet des patients (UpToDate, Dynamed, Medscape par exemple). Ce sont ni plus ni moins que des articles de synthèse bien référencés.

Par contre, pour le médecin pressé qui cherche une information, il s’agirait d’une amélioration notable que de poser une question en langage naturel (soit par la voix, soit par écrit) pour interroger les milliers de pages de ces bases de connaissance plutôt que de chercher manuellement la réponse. Ex. Quel est le traitement de première ligne de l’infection urinaire non compliquée chez la femme ? → Génération d’une réponse à partir d’une base de donnée bien définie (ex. Medscape) → Réponse fournie en langage naturel avec une référence clair à l’article correspondant de Medscape pour vérifier le output.

Un exemple d’une telle technologie utilisée à cet usage, c’est Glass, une initiative en IA. C’est tout bête ! C’est l’équivalent d’un Evernote + GPT. Mais c’est honnêtement impressionnant.

Selon nous, ce n’est qu’une question de temps avant que les grandes bases de données cliniques proposent une telle solution à leur utilisateur, ce qui sera immanquablement suivi par une augmentation des coûts.

Bref, nous voudrions, chez Wikimedica (CC-BY-SA et gratuit, rappelons-le), développer une technologie qui permettrait d’interroger SEULEMENT Wikimedica, de sorte qu’il est 100 % garantie que lorsqu’une réponse est disponible, elle provienne seulement de Wikimedica.

Les professionnels de la santé sont des gens qui prennent des précautions. Même un outil LLM qui interroge Pubmed au complet me semble plutôt hasardeux… La qualité des études présente dans Pubmed est hautement variable et les compagnies pharmaceutiques ont définitivement de l’influence sur le output de l’IA dans ce contexte.

Wikimedica est loin d’être complet. Nos articles sont tantôt géniaux, tantôt à retravailler. Mais au moins, on sait exactement ce qui s’y trouve.

Pour bien connaître les professionnels de la santé, je ne crois pas qu’ils feront confiance à un moteur de recherche « général » pour soigner des patients (ChatGPT). Ils voudront avoir une IA qui s’intègre à une base de donnée clinique déjà bien établie et dont la curation est assurée par des individus qui font la critique de la littérature (ChatGPT + base de connaissance établie).

francois.pelletier · Mai 3, 2023, 3:48

Le problème c’est le volume de données. La raison pour laquelle ChatGPT peut créer des phrases complètes est parce qu’il a vu des milliards d’exemples. Comme WikiMedica n’a pas des milliards d’entrées, tu ne peux pas faire un LLM avec. Si tu ajoutes WikiMedica à ChatGPT, tu vas juste noyer son contenu dans une mer de contenus variés.

Je crois qu’il y a souvent une confusion entre un moteur de recherche et un générateur de texte. ChatGPT ne fait aucune recherche, il aligne des mots selon des règles de probabilités. Un LLM ne peut pas « citer ses sources » ni référer à du contenu. Les quelques algorithmes qui font ça en ce moment, c’est juste de la frime, ils génèrent le contenu puis font des recherches Google avec des extraits pour « plugger » des citations, comme on faisait à veille d’une remise de devoir en secondaire 3 juste pour « prouver » qu’on avait pas copié notre ami.

michaelstgelais · Mai 3, 2023, 4:25

Définitif. On ne peut pas entrainer un GPT sur Wikimedica. On veut qu’un GPT bien entrainé puisse répondre à des questions en utilisant Wikimedica.

Un peu comme Perplexity.AI qui permet de faire des recherches en utilisant seulement le contenu de Wikipédia. Ça me semble être plus qu’un moteur de recherche glorifié…

Bref, peut-être que tu as raison. Je ne connais pas bien les IA.

francois.pelletier · Mai 3, 2023, 4:40

Perplexity ce n’est pas un moteur de recherche, c’est justement la frime dont je parle. Il invente un contenu puis trouve des sources qui ressemblent à ce qu’il a écrit. Quand tu prends le temps de jouer un peu avec tu arrives rapidement à la conclusion que ça ne fait aucun sens pour des sujets le moindrement technique.