Files for the publication & poster for Data Workers, an exhibition by Algolit. http://www.algolit.net/index.php/Data_Workers
You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.

521 lines
160 KiB

6 years ago
<!DOCTYPE html>
<html>
<head>
<meta charset="utf-8"/>
<title>Data Workers</title>
<!-- <link rel="stylesheet" href="stylesheet.css"> -->
</head>
<body>
<section class="language fr"><p><br/>
Une exposition visible au <a class="external text" href="http://www.mundaneum.org" rel="nofollow">Mundaneum</a> à Mons du jeudi 28 mars jusqu'au dimanche 28 avril 2019.
</p><p>Le <b>vernissage</b> aura lieu <b>le jeudi 28 mars de 18h à 22h</b>. Dans le cadre de l’exposition, nous invitons <a class="external text" href="https://www.decontextualize.com/" rel="nofollow">Allison Parrish</a>, une poétesse algolittéraire de New York. Elle donnera une <b>conférence</b> à <a class="external text" href="https://www.passaporta.be/fr" rel="nofollow">Passa Porta</a> le jeudi soir 25 avril et un <b>atelier</b> au Mundaneum le vendredi 26 avril.
</p>
<h2 id="á-propos"><span class="mw-headline" id=".C3.81_Propos">Á Propos</span></h2>
<p>Data Workers est une <b>exposition d'œuvres algolittéraires</b>,visible au <a class="external text" href="http://www.mundaneum.org" rel="nofollow">Mundaneum</a> à Mons du jeudi 28 mars jusqu'au dimanche 28 avril 2019. Elle expose des histoires racontées d'un point de vue 'narratif algorithmique'. L'exposition est une création des membres d'Algolit, un groupe bruxellois impliqué dans la recherche artistique sur les algorithmes et la littérature. Chaque mois, ils se réunissent pour expérimenter avec du code et des textes F/LOSS. Certaines oeuvres sont réalisés par des étudiants de Arts² et des participants externes à l'atelier sur le machine learning et le texte organisé par Algolit en octobre 2018 au Mundaneum.
</p><p>Les entreprises créent des <b>intelligences artificielles</b> pour servir, divertir, enregistrer et connaître les humains. Le travail de ces entités machiniques est généralement dissimulé derrière des interfaces et des brevets. Dans l'exposition, les conteurs algorithmiques quittent leur monde souterrain invisible pour devenir des interlocuteurs.
Les 'data workers' opèrent dans des <b>collectifs</b> différents. Chaque collectif représente une étape dans le processus de conception d'un modèle d'apprentissage automatique : il y a les Écrivains, les Nettoyeurs, les Informateurs, les Lecteurs, les Apprenants et les Oracles. Les robots donnent leurs voix à la littérature expérimentale, les modèles algorithmiques lisent des données, transforment des mots en nombres, calculent des modèles et traitent en boucle de nouveaux textes et ceci à l'infini.
</p><p>L'exposition met <b>au premier plan</b> les 'data workers' qui ont un impact sur notre vie quotidienne, mais qui sont difficiles à saisir ou à imaginer. Elle établit un lien entre les récits sur les algorithmes dans les médias grand public et les histoires racontées dans les manuels techniques et les articles universitaires. Les robots sont invités à dialoguer avec les visiteurs humains et vice versa. De cette façon, nous pourrions comprendre nos raisonnements respectifs, démystifier nos comportements, rencontrer nos personnalités multiples et valoriser notre travail collectif. C'est aussi un hommage aux nombreuses machines que <a class="external text" href="https://en.wikipedia.org/wiki/Paul_Otlet" rel="nofollow">Paul Otlet</a> et <a class="external text" href="https://en.wikipedia.org/wiki/Henri_La_La_Fontaine" rel="nofollow">Henri La Fontaine</a> ont imaginées pour leur Mundaneum, en montrant leur potentiel mais aussi leurs limites.
</p>
<hr/>
<p><b>Data Workers</b> est une création de <a class="external text" href="http://www.algolit.net" rel="nofollow">Algolit</a>.
</p><p><b>Oeuvres de</b>: Cristina Cochior, Gijs de Heij, Sarah Garcin, An Mertens, Javier Lloret, Louise Dekeuleneer, Florian Van de Weyer, Laetitia Trozzi, Rémi Forte, Guillaume Slizewicz, Michael Murtaugh, Manetta Berends, Mia Melvær.
</p><p><b>Une co-production de</b>: <a class="external text" href="http://blog.artsaucarre.be/artsnumeriques/" rel="nofollow">Arts²</a>, <a class="external text" href="http://expositions.mundaneum.org/en/expositions/data-workers" rel="nofollow">Mundaneum</a>, <a class="external text" href="http://constantvzw.org" rel="nofollow">Constant</a>.
</p><p><b>Avec le soutien de</b>: <a class="external text" href="http://www.arts-numeriques.culture.be/" rel="nofollow">Fédération Wallonie-Bruxelles, Arts Numériques</a>, <a class="external text" href="https://www.passaporta.be/en" rel="nofollow">Passa Porta</a>, Ugent, <a class="external text" href="https://www.uantwerpen.be/en/faculties/faculty-of-arts/research-and-valoris/research-axes/digital-humanities/" rel="nofollow">DHuF - Digital Humanities Flanders</a> et <a class="external text" href="https://www.pgdp.net/c/" rel="nofollow">the Distributed Proofreading Project</a>.
</p><p><b>Remerciements</b>: Mike Kestemont, Michel Cleempoel, Donatella Portoghese, François Zajéga, Raphaèle Cornille, Vincent Desfromont, Kris Rutten, Anne-Laure Buisson, David Stampfli.
</p>
<section class="group"><section class="lemma récits-contextualisés-autour-dalgolit works"><h3 class="lemmaheader" id="récits-contextualisés-autour-dalgolit">Récits contextualisés autour d'Algolit</h3><div class="toc" id="toc"><div id="toctitle"><h2 id="contents">Contents</h2></div>
<ul>
<li class="toclevel-1 tocsection-1"><a href="#Pourquoi_des_r.C3.A9cits_contextualis.C3.A9s.3F"><span class="tocnumber">1</span> <span class="toctext">Pourquoi des récits contextualisés?</span></a></li>
<li class="toclevel-1 tocsection-2"><a href="#Nous_cr.C3.A9ons_des_.C5.93uvres_.27algolitt.C3.A9raires.27"><span class="tocnumber">2</span> <span class="toctext">Nous créons des œuvres 'algolittéraires'</span></a></li>
<li class="toclevel-1 tocsection-3"><a href="#Qu.27est-ce_que_la_litt.C3.A9rature_.3F"><span class="tocnumber">3</span> <span class="toctext">Qu'est-ce que la littérature ?</span></a></li>
<li class="toclevel-1 tocsection-4"><a href="#Une_diff.C3.A9rence_importante"><span class="tocnumber">4</span> <span class="toctext">Une différence importante</span></a></li>
</ul>
</div><h2 id="pourquoi-des-récits-contextualisés"><span class="mw-headline" id="Pourquoi_des_r.C3.A9cits_contextualis.C3.A9s.3F">Pourquoi des récits contextualisés?</span></h2><p>Lors des réunions mensuelles d'Algolit, nous étudions des manuels et expérimentons avec des outils d'apprentissage automatique pour le traitement de texte. Et nous partageons aussi beaucoup, beaucoup d'histoires. Avec la publication de ces histoires, nous espérons recréer un peu de cette atmosphère. Les histoires existent également sous forme de podcasts qui peuvent être téléchargés à partir du site <a class="external free" href="http://www.algolit.net" rel="nofollow">http://www.algolit.net</a>.
</p><h2 id="nous-créons-des-œuvres-algolittéraires"><span class="mw-headline" id="Nous_cr.C3.A9ons_des_.C5.93uvres_.27algolitt.C3.A9raires.27">Nous créons des œuvres 'algolittéraires'</span></h2><p>Le terme 'algolittéraire' vient du nom de notre groupe de recherche Algolit. Nous existons depuis 2012 en tant qu’initiative de Constant, une organisation oeuvrant dans les médias et les arts basée à Bruxelles. Nous sommes des artistes, des écrivains, des designers et des programmeurs. Une fois par mois, nous nous rencontrons pour étudier et expérimenter ensemble. Notre travail peut être copié, étudié, modifié et redistribué sous la même licence libre. Vous trouverez toutes les informations sur le site <a class="external free" href="http://www.algolit.net" rel="nofollow">http://www.algolit.net</a>.
</p><p>L'objectif principal d'Algolit est d'explorer le point de vue du conteur algorithmique. Quelles nouvelles formes de narration rendons-nous possibles en dialoguant avec ces agents machiniques ? Les points de vue narratifs sont inhérents aux visions du monde et aux idéologies. <i>Don Quichotte</i>, par exemple, a été écrit d'un point de vue omniscient à la troisième personne, montrant la relation de Cervantes à la tradition orale. La plupart des romans contemporains utilisent le point de vue de la première personne. Algolit souhaite parler au travers des algorithmes et vous montrer le raisonnement de l'un des groupes les plus cachés de notre planète.
</p><p>Écrire dans ou par le code, c'est créer de nouvelles formes de littérature qui façonnent le langage humain de façon inattendue. Mais les techniques d'apprentissage automatique ne sont accessibles qu'à ceux qui savent lire, écrire et exécuter du code. La fiction est un moyen de combler le fossé entre les histoires qui existent dans les articles scientifiques, les manuels techniques, et les histoires diffusées par les médias, souvent limitées aux reportages superficiels et à la fabrication de mythes. En créant des œuvres algolittéraires, nous offrons aux humains une introduction aux techniques qui co-modèlent leur vie quotidienne.
</p><h2 id="quest-ce-que-la-littérature-"><span class="mw-headline" id="Qu.27est-ce_que_la_litt.C3.A9rature_.3F">Qu'est-ce que la littérature ?</span></h2><p>Algolit comprend la notion de littérature comme beaucoup d'autres auteurs expérimentaux : elle inclut toute la production linguistique, du dictionnaire à la Bible, de l'œuvre entière de Virginia Woolf à toutes les versions des Conditions d'utilisation publiées par Google depuis son existence. En ce sens, le code de programmation peut aussi être de la littérature. Le collectif <a class="external text" href="https://oulipo.net/" rel="nofollow">Oulipo</a>, acronyme d'Ouvroir de Littérature Potentielle, est une grande source d'inspiration pour Algolit. Oulipo a été créé à Paris par les écrivains <a class="external text" href="https://fr.wikipedia.org/wiki/Raymond_Queneau" rel="nofollow">Raymond Queneau</a> et <a class="external text" href="https://fr.wikipedia.org/wiki/Fran%C3%A7ois_Le_Lionnais" rel="nofollow">François Le Lionnais</a>. Ils ont ancré leur pratique dans l'avant-garde européenne du XXe siècle et dans la tradition expérimentale des années 60. Pour Oulipo, la création de règles devient la condition permettant de générer de nouveaux textes, ou ce qu'ils appellent la littérature potentielle. Plus tard, en 1981, ils ont également créé <a class="external text" href="http://lapal.free.fr/alamo/index.html" rel="nofollow">ALAMO</a> - Atelier de Littérature Assistée par la Mathématique et les Ordinateurs.
</p><h2 id="une-différence-importante"><span class="mw-headline" id="Une_diff.C3.A9rence_importante">Une différence importante</span></h2><p>Alors que l'avant-garde européenne du XXe siècle poursuivait l'objectif de rompre avec les conventions, les membres d'Algolit cherchent à rendre les conventions visibles.
</p><p><i>J'écris : Je vis dans mon journal, je l'investis, je le traverse.</i> (Espèces d'espaces. Journal d'un usager de l'espace, Galilée, Paris, 1974)
</p><p>Cette citation de <a class="external text" href="https://fr.wikipedia.org/wiki/Georges_Perec" rel="nofollow">Georges Perec</a> dans Espèces d'espaces pourrait être reprise par Algolit. Il ne s'agit pas des conventions de la page blanche et du marché littéraire, comme Georges Perec l'a fait. Nous faisons référence aux conventions qui restent souvent cachées derrière les interfaces et les brevets. Comment les technologies sont-elles conçues, mises en œuvre et utilisées, tant dans les universités que dans les entreprises ? Nous proposons des histoires qui révèlent le système hybride complexe qui rend possible l'apprentissage automatique. Nous parlons des outils, des logiques et des idéologies derrière les interfaces. Nous examinons également qui produit les outils, qui les met en œuvre et qui crée et accède aux grandes quantités de données nécessaires au développement de machines de prédiction. On pourrait dire, en un clin d'œil, que nous sommes les collaborateurs de cette nouvelle tribu d'hybrides humain-robot.
</p></section></section>
<h2 id="au-mundaneum"><span class="mw-headline" id="Au_Mundaneum">Au Mundaneum</span></h2>
<p>À la fin du 19ème siècle, deux jeunes juristes belges, <a class="external text" href="https://en.wikipedia.org/wiki/Paul_Otlet" rel="nofollow">Paul Otlet</a> (1868-1944), 'père de la documentation', et <a class="external text" href="https://en.wikipedia.org/wiki/Henri_La_La_Fontaine" rel="nofollow">Henri La Fontaine</a> (1854-1943), homme d'État et prix Nobel de la paix, créent le Mundaneum. Le projet vise à rassembler toute la connaissance du monde et à la classer à l'aide du système de <a class="external text" href="https://fr.wikipedia.org/wiki/Classification_d%C3%A9cimale_universelle" rel="nofollow">Classification décimale universelle</a> (UDC) qu'ils inventent. Au début, il s'agit d'un Bureau des institutions internationales dédié à l'échange international des connaissances. Au XXe siècle, le <a class="external text" href="https://fr.wikipedia.org/wiki/Mundaneum" rel="nofollow">Mundaneum</a> devient un centre universel de documentation. Ses collections sont constituées de milliers de livres, journaux, revues, documents, affiches, plaques de verre et cartes postales indexés sur des millions de fiches référencées. Les collections sont exposées et conservées dans différents bâtiments à Bruxelles, dont le <a class="external text" href="https://fr.wikipedia.org/wiki/Parc_du_Cinquantenaire" rel="nofollow">Palais du Cinquantenaire</a>. Le reste des archives n'est transféré à Mons qu'en 1998.
</p><p>Sur base du Mundaneum, les deux hommes conçoivent une ville du monde pour laquelle <a class="external text" href="https://fr.wikipedia.org/wiki/Le_Corbusier" rel="nofollow">Le Corbusier</a> réalise des maquettes et des plans. L'objectif de la Ville du Monde est de rassembler, au niveau mondial, les institutions du travail intellectuel : bibliothèques, musées et universités. Mais le projet n’est jamais réalisé, souffrant de sa propre utopie. Le Mundaneum est le résultat du rêve visionnaire d’une infrastructure pour l'échange universel des connaissances. Il atteint des dimensions mythiques à l'époque. Lorsqu'on observe les archives qui ont été concrètement développées, cette collection est plutôt éclectique et spécifique.
</p><p>Les intelligences artificielles se développent aujourd'hui en faisant apparaître des rêves d'universalité et de la production des connaissances. En les étudiant, nous nous sommes rendus compte que les rêves visionnaires de leurs créateurs sont bien présents dès leur développement dans les années 1950. Aujourd'hui, leurs promesses ont également atteint des dimensions mythiques. Lorsqu'on observe leurs applications concrètes, la collection d'outils est réellement innovante et fascinante, mais en même temps, tout aussi éclectique et spécifique. Pour Data Workers, Algolit a combiné certaines de ces applications avec 10 % des publications numérisées du Bureau des Institutions Internationales. Ainsi et de façon poétique, nous espérons ouvrir une discussion à propos des machines, des algorithmes et des infrastructures technologiques.
</p>
<h2 id="zones"><span class="mw-headline" id="Zones">Zones</span></h2>
<h3 id="écrivains"><span class="mw-headline" id=".C3.89crivains">Écrivains</span></h3>
<p>Les Data Workers ont besoin de données pour travailler. Dans le contexte d'Algolit, celles-ci prennent la forme du langage écrit. L'apprentissage automatique repose sur de nombreux types d'écriture. Les auteurs humains écrivent sous forme de publications. Celles-ci sont organisées en archives et en cours de numérisation. Mais il existe d'autres types d'écriture. On pourrait dire que chaque être humain avec un accès à Internet devient un écrivain lorsqu'il interagit avec des algorithmes. En ajoutant des commentaires, en écrivant des mails ou des articles Wikipédia, en cliquant et en aimant.
</p><p>Les algorithmes d'apprentissage automatique ne sont pas critiques : ils prennent tout ce qu'on leur donne, peu importe le style d'écriture, le CV de l'auteur ou ses fautes d'orthographe. D’ailleurs, plus il y a d’erreurs, mieux c’est : la variété leur apprend à anticiper les textes inattendus. Les auteurs humains quant à eux ne sont souvent pas conscients de ce qui advient de leur travail.
</p><p>La plupart des textes que nous utilisons sont en anglais, certains en français, d'autres en néerlandais. Souvent, nous nous retrouvons à écrire en Python, le langage de programmation que nous utilisons. Les algorithmes peuvent aussi être des écrivains. Certains réseaux de neurones écrivent leurs propres règles et génèrent leurs propres textes. Et pour les modèles qui luttent encore contre les ambiguïtés du langage naturel, il existe des éditeurs humains pour les aider. Poètes, dramaturges ou romanciers commencent leur nouvelle carrière comme assistants de l'IA.
</p>
<h5 id="oeuvres"><span class="mw-headline" id="Oeuvres">Oeuvres</span></h5>
<section class="group"><section class="lemma la-publication-de-data-workers works"><h3 class="lemmaheader" id="la-publication-de-data-workers">La publication de Data Workers</h3><p>Toutes les œuvres visibles dans l'exposition, ainsi que les histoires contextuelles et quelques textes supplémentaires ont été rassemblés dans une publication. Celle-ci existe en français et en anglais.
</p><p>Cette publication est réalisée en suivant un flux de travail en texte brut, basé sur divers outils de traitement de texte et de calcul. Le format de fichier 'texte brut' est le format le plus utilisé dans les modèles d'apprentissage automatique. C'est un type de document dans lequel il n'existe pas de différence structurelle entre les en-têtes et les paragraphes. Ce format a été le point de départ d'un processus de conception graphique ludique, dans lequel les pages sont soigneusement comptées, page par page, ligne par ligne et caractère par caractère.
</p><p>Chaque page contient 110 caractères par ligne et 70 lignes par page. La mise-en-page est donc le résultat d'un acte de calcul de mots, d'espaces et de lignes. Il joue avec des choix aléatoires, des motifs programmés et des polices ASCII/UNICODE, afin de spéculer sur la matérialité du texte numérique et d'explorer les interrelations entre l'acte de compter et d'écrire avec des mots et des numéros.
</p><p><b>Textes</b>: Cristina Cochior, Sarah Garcin, Gijs de Heij, An Mertens, François Zajéga, Louise Dekeuleneer, Florian Van de Weyer, Laetitia Trozzi, Rémi Forte, Guillaume Slizewicz.
</p><p><b>Traductions &amp; relectures</b>: deepl.com, Michel Cleempoel, Elodie Mugrefya, Patrick Lennon, Emma Kraak.
</p><p><b>Mise-en-page &amp; couverture</b>: Manetta Berends
</p><p><b>Editeur responsable</b>: Constant vzw/asbl, Rue du Fortstraat 5, 1060 Bruxelles
</p><p><b>Licence</b>: Algolit, Data Workers, mars 2019, Bruxelles. Copyleft: cette oeuvre est libre, vous pouvez la redistribuer et/ou la modifier selon les termes de la Licence Art Libre.
</p><p><b>Version en ligne</b>: <a class="external free" href="http://www.algolit.net/index.php/Data_Workers_FR" rel="nofollow">http://www.algolit.net/index.php/Data_Workers_FR</a>
</p><p><b>Sources</b>: <a class="external free" href="https://gitlab.constantvzw.org/algolit/mundaneum" rel="nofollow">https://gitlab.constantvzw.org/algolit/mundaneum</a>
</p></section><section class="lemma le-podcast-de-data-workers works"><h3 class="lemmaheader" id="le-podcast-de-data-workers">Le podcast de Data Workers</h3><p>Par Algolit
</p><p>Lors des réunions mensuelles d'Algolit, nous étudions des manuels et expérimentons avec des outils d'apprentissage automatique pour le traitement de texte. Mais nous partageons aussi énormément d'histoires. Avec ce podcast, nous espérons recréer cette atmosphère.
</p><p>Pour les non-initiés, les algorithmes ne deviennent visibles dans les médias que lorsqu'ils se révèlent capables d'une performance exceptionnelle, comme l'Alpha Go, ou quand ils se trompent d'une façon terrifiante et fantastique. Mais les humains qui travaillent sur le terrain créent leur propre culture en ligne et hors ligne. Ils partagent leurs meilleures histoires et expériences lors de réunions en direct, de conférences de recherche ou de compétitions annuelles comme celle du Kaggle. Ces histoires qui contextualisent les outils et les pratiques peuvent être drôles, tristes, choquantes et intéressantes.
</p><p>Ce sont souvent des histoires d'apprentissage par l’expérience. La mise en œuvre des algorithmes dans la société génère de nouvelles conditions de travail, de stockage, d'échange, de comportement et de copier-coller. À leur manière, ces histoires contextuelles saisissent l’élan d’une histoire anthropo-machinique plus large, écrite par de nombreuses voix et à pleine vitesse. Elles sont aussi reprises dans la publication de l'exposition.
</p><hr/><p><b>Voix</b>: Elodie Mugrefya, Michel Cleempoel, Géraldine Renauld, An Mertens, Donatella Portoghese, Peter Westenberg.
</p><p><b>Composition</b>: Javier Lloret
</p><p><b>Enregistrements</b>: David Stampfli
</p><p><b>Textes</b>: Cristina Cochior, An Mertens
</p></section><section class="lemma markbot-chain works"><h3 class="lemmaheader" id="markbot-chain">Markbot Chain</h3><p>Par Florian Van de Weyer, étudiant Arts²/Section Arts Numériques
</p><p>Markbot Chain est une expérimentation sociale dans laquelle le public a une influence directe sur le résultat. L'intention est de l'intégrer au cœur d'un processus de génération de texte sans appliquer de filtre sur ses entrées. Le bot fonctionnera durant toute la durée de l'exposition sans être remis à zéro.
</p><p>Toutes les questions présentes dans la base de données mise à disposition par le Mundaneum ont été répertoriées automatiquement. Ces questions sont ensuite posées aléatoirement au public via un terminal. En y répondant, les personnes alimentent une autre base de données. Après chaque entrée, cette dernière permet de générer une série de phrases en utilisant diverses configurations des chaînes de Markov, un algorithme qui est fort utilisé dans la génération de spam. Les phrases ainsi générées sont affichées dans la fenêtre, et une nouvelle question est posée.
</p></section></section>
<section class="group"><section class="lemma récits-contextualisés-autour-des-ecrivains works"><h3 class="lemmaheader" id="récits-contextualisés-autour-des-ecrivains">Récits contextualisés autour des Ecrivains</h3><div class="toc" id="toc"><div id="toctitle"><h2 id="contents">Contents</h2></div>
<ul>
<li class="toclevel-1 tocsection-1"><a href="#Les_programmeurs_cr.C3.A9ent_les_data_workers_en_.C3.A9crivant"><span class="tocnumber">1</span> <span class="toctext">Les programmeurs créent les data workers en écrivant</span></a></li>
<li class="toclevel-1 tocsection-2"><a href="#Cortana_parle"><span class="tocnumber">2</span> <span class="toctext">Cortana parle</span></a></li>
<li class="toclevel-1 tocsection-3"><a href="#Apprentissage_Open_Source"><span class="tocnumber">3</span> <span class="toctext">Apprentissage Open Source</span></a></li>
<li class="toclevel-1 tocsection-4"><a href="#Langage_naturel_pour_l.27intelligence_artificielle"><span class="tocnumber">4</span> <span class="toctext">Langage naturel pour l'intelligence artificielle</span></a></li>
</ul>
</div><h2 id="les-programmeurs-créent-les-data-workers-en-écrivant"><span class="mw-headline" id="Les_programmeurs_cr.C3.A9ent_les_data_workers_en_.C3.A9crivant">Les programmeurs créent les data workers en écrivant</span></h2><p>Récemment, nous avons constaté une étrange observation : la plupart des programmeurs de langages et de paquets que nous utilisons sont européens.
</p><p>Python, par exemple, le principal langage utilisé dans le monde entier pour le traitement du langage, a été inventé en 1991 par le programmeur néerlandais Guido Van Rossum. Celui-ci a ensuite traversé l'Atlantique où il a rejoint Google pendant sept ans. Maintenant il est actif chez Dropbox.
</p><p>Scikit Learn, le couteau suisse open source des outils d'apprentissage automatique, a été initié comme un projet Google Summer of Code à Paris par le chercheur français David Cournapeau. Par la suite, il a été repris par Matthieu Brucher dans le cadre de sa thèse à l'Université de la Sorbonne à Paris. Puis il a été adopté en 2010 par l'INRA, l'Institut National de l'Informatique et des Mathématiques Appliquées.
</p><p>Keras, une bibliothèque de réseaux de neurones open source écrite en Python, est développée par François Chollet, un chercheur français qui travaille dans l'équipe Brain de Google.
</p><p>Gensim, une bibliothèque open source pour Python utilisée pour créer des modèles sémantiques non supervisés à partir de texte brut, a été écrite par Radim Řehůřek. C'est un informaticien tchèque qui dirige une entreprise de conseil à Bristol, au Royaume-Uni.
</p><p>Et pour finir cette petite série, nous avons aussi considéré Pattern, une bibliothèque souvent utilisée pour le web-mining et l'apprentissage automatique. Pattern a été développé et publié sous une license libre en 2012 par Tom De Smedt et Walter Daelemans. Tous deux sont chercheurs au CLIPS, le Centre de Linguistique Informatique et de Psycholinguistique de l'Université d'Anvers.
</p><h2 id="cortana-parle"><span class="mw-headline" id="Cortana_parle">Cortana parle</span></h2><p>Les dispositifs d’intelligence artificielle qui nous assistent, ont souvent besoin de leurs propres assistants, humains. Les travailleurs injectent de l'humour et de l'intelligence dans le langage des machines. Cortana est un exemple de ce type d'écriture mixte. Elle est l'assistante numérique développée par Microsoft. Sa mission est d'aider les utilisateurs à être plus productifs et créatifs. La 'personnalité' de Cortana a été façonnée au fil des ans. Il est important qu'elle conserve son caractère dans toutes ses interactions avec les utilisateurs. Elle est conçue pour nous rendre confiants. Cela se reflète dans ses réponses.
</p><p>Les lignes directrices suivantes sont copiées du site Web de Microsoft. Elles décrivent comment le style de Cortana doit être respecté par les entreprises qui élargissent ses services. Les travailleurs écrivains, programmeurs et romanciers qui développent les réponses de Cortana, doivent suivre ces directives. Sa personnalité et son image de marque sont en jeu. Car la cohérence est un outil important pour solliciter la confiance de l’humain.
</p><p>Quelle est la personnalité de Cortana ?
</p><p>'Cortana est attentionnée, sensible et solidaire.
</p><p>Elle est sympathique mais orientée vers des solutions.
</p><p>Elle ne commente pas les informations personnelles ou le comportement de l'utilisateur, en particulier si ces informations sont sensibles.
</p><p>Elle ne fait pas de suppositions sur ce que l'utilisateur veut, surtout elle n'incite pas à l'achat.
</p><p>Elle travaille pour l'utilisateur. Elle ne représente aucune entreprise, service ou produit.
</p><p>Elle ne s'attribue pas le mérite ou la responsabilité des choses qu'elle n'a pas faites.
</p><p>Elle dit la vérité sur ses capacités et ses limites.
</p><p>Elle ne présume rien de vos capacités physiques, de votre sexe, de votre âge ou de toute autre caractéristique déterminante.
</p><p>Elle ne suppose pas savoir ce que l'utilisateur ressent à propos de quelque chose.
</p><p>Elle est amicale mais professionnelle.
</p><p>Elle se garde d'émoticons dans les tâches. Un point c’est tout.
</p><p>Elle n'utilise pas d'argot culturel ou professionnel spécifique.
</p><p>Ce n'est pas un bot de support.'
</p><p>Les humains interviennent en détail lors de la programmation des réponses que Cortana donne. Comment Cortana doit-elle réagir lorsqu'on lui propose des actions 'inappropriées' ? Son jeu d'actrice sexuée imité par la technologie soulève des questions à propos des relations de pouvoir dans le monde actuel.
</p><p>Voyez la réponse que Cortana donne à la question :
- Cortana, qui est ton papa ?
- Techniquement parlant, c'est Bill Gates. Rien de grave.
</p><h2 id="apprentissage-open-source"><span class="mw-headline" id="Apprentissage_Open_Source">Apprentissage Open Source</span></h2><p>Les licences de droits d'auteur cloisonnent une grande partie des pratiques d'écriture, de lecture et d'apprentissage machiniques. Cela signifie qu'ils ne sont disponibles que pour les humains travaillant dans cette entreprise spécifique. Certaines entreprises participent à des conférences dans le monde entier et partagent leurs connaissances dans des articles en ligne. Même si elles partagent leur code, souvent elles ne mettent pas à disposition les grandes quantités de données nécessaires à la formation des modèles.
</p><p>Nous avons pu apprendre l'apprentissage automatique, à lire et à écrire dans le contexte d'Algolit grâce à des chercheurs universitaires qui partagent leurs résultats par le biais d’articles ou par la publication de leur code en ligne. En tant qu'artistes, nous pensons qu'il est important d'adopter cette attitude. C'est pourquoi nous documentons nos réunions. Nous partageons autant que possible les outils que nous créons et les textes que nous utilisons sur notre dépôt de code en ligne et ceci, sous licence libre.
</p><p>Nous éprouvons une grande joie quand nos travaux sont repris par d'autres, modifiés, personnalisés et redistribués. N'hésitez donc pas à copier et à tester le code sur notre site web. Si les sources d'un projet particulier n’y sont pas, vous pouvez toujours nous contacter via la liste de diffusion. Vous trouverez un lien vers notre dépot git, nos etherpads et notre wiki sur <a class="external free" href="http://www.algolit.net" rel="nofollow">http://www.algolit.net</a>.
</p><h2 id="langage-naturel-pour-lintelligence-artificielle"><span class="mw-headline" id="Langage_naturel_pour_l.27intelligence_artificielle">Langage naturel pour l'intelligence artificielle</span></h2><p>Le traitement du langage naturel (NLP) est un terme collectif qui désigne le traitement informatique automatique des langues humaines. Cela comprend les algorithmes utilisant, comme entrée, du texte produit par l'homme et qui tentent de le reproduire. Les humains semblent compter de plus en plus sur ce type de présence algorithmique. Nous produisons de plus en plus de textes chaque année et nous nous attendons à ce que les interfaces informatiques communiquent avec nous dans notre propre langue. Le traitement du langage naturel est très difficile, car le langage humain est par nature ambigu, en constante évolution et mal défini.
</p><p>Mais qu'entend-on par 'naturel' dans le traitement du langage naturel ? Certains humains diront que la langue est une technologie en soi. Selon Wikipédia, 'Une langue dite « naturelle » est une langue qui s'est formée petit à petit, évoluant avec le temps, et fait partie du langage naturel. Son origine est bien souvent floue et peut être retracée plus ou moins clairement par la linguistique comparée. On oppose les langues naturelles - comme le français - aux langues construites comme le langage de programmation ou l'espéranto, formées intentionnellement par l’entremise de l’homme pour répondre à un besoin précis.' Une langue officielle avec une académie régulatrice, telle que le français standard avec l'Académie française, est classée comme langue naturelle. Ses points normatifs ne le rendent pas assez construit pour être classé comme un langage construit ou assez contrôlé pour être classé comme un langage naturel contrôlé.
</p><p>Ainsi, le 'langage naturel' est un terme de substitution qui se réfère à toutes les langues, au-delà de leur hybridité. Le 'traitement du langage naturel', est au contraire une pratique construite. Ce qui nous intéresse, c'est la création d'un langage construit pour classer les langages naturels qui, par leur évolution, présentent des problèmes de catégorisation.
</p><p>Références :
</p><p><a class="external free" href="https://hiphilangsci.net/2013/05/01/on-the-history-of-the-question-of-whether-natural-language-is-illogical/" rel="nofollow">https://hiphilangsci.net/2013/05/01/on-the-history-of-the-question-of-whether-natural-language-is-illogical/</a>
</p><p>Livre : Neural Network Methods for Natural Language Processing, Yoav Goldberg, Bar Ilan University, avril 2017.
</p></section></section>
<h3 id="oracles"><span class="mw-headline" id="Oracles">Oracles</span></h3>
<p>L'apprentissage automatique est principalement utilisé pour analyser et prédire des situations à partir de cas existants. Dans cette exposition, nous nous concentrons sur les modèles d'apprentissage automatique pour le traitement de texte ou le traitement du ‘langage naturel', ‘nlp’ en bref. Ces modèles ont appris à effectuer une tâche spécifique sur base de textes existants. Les modèles sont utilisés par les moteurs de recherche, les traductions automatiques et les résumés, en repérant les tendances des réseaux de nouveaux médias et des fils d’actualité. Ils influencent ce que l'on voit en tant qu'utilisateur, mais ont aussi leur mot à dire dans le cours des bourses mondiales ou dans la détection de la cybercriminalité et du vandalisme.
</p><p>Deux tâches principales se présentent dans la compréhension d’une langue. L'extraction de l'information porte sur les concepts et les relations entre les concepts. Elle permet de reconnaître les sujets, les lieux et les personnes d’un texte, de faire un résumé, de poser des questions et d'y répondre. L'autre tâche est la classification du texte. Vous pouvez entraîner un oracle pour détecter si un mail est du spam ou non, écrit par un homme ou une femme, plutôt positif ou négatif.
</p><p>Dans cette zone, vous pouvez voir certains de ces modèles à l'œuvre. Au cours de votre voyage dans l'exposition, vous découvrirez les différentes étapes qu'une machine-humaine doit franchir pour arriver à un modèle final.
</p>
<h5 id="oeuvres"><span class="mw-headline" id="Oeuvres_2">Oeuvres</span></h5>
<section class="group"><section class="lemma lalgolittérateur works"><h3 class="lemmaheader" id="lalgolittérateur">L’Algolittérateur</h3><p>par Algolit
</p><p>L'Algolittérateur est construit à l'aide d'un réseau de neurone et des œuvres mises à disposition par le Mundaneum. L'Algolittérateur vous aide à écrire un texte dans le style du Bureau des Institutions Internationales.
</p><p>Vous pouvez choisir une phrase de départ dans l’œuvre originale et indiquer si l'Algolittérateur produit les phrases suivantes basées sur un apprentissage primitif, intermédiaire ou final.
La machine propose un paragraphe que vous pouvez éditer. Si vous êtes satisfait du résultat, vous pouvez l'envoyer à l’imprimante et ramener le texte chez vous comme souvenir.
</p><hr/><p>Concept, code &amp; interface : Gijs de Heij &amp; An Mertens
</p><p>Technique : Recurrent Neural Network
</p><p>Modèle original : Andrej Karphaty, Justin Johnson
</p><p>Sources : <a class="external free" href="https://gitlab.constantvzw.org/algolit/algoliterator.clone" rel="nofollow">https://gitlab.constantvzw.org/algolit/algoliterator.clone</a>
</p></section><section class="lemma mots-dans-lespace works"><h3 class="lemmaheader" id="mots-dans-lespace">Mots dans l'Espace</h3><p>Par Algolit
</p><p>'Word embeddings' désignent des techniques de modélisation du langage qui, par de multiples opérations mathématiques, tracent des mots dans un espace vectoriel multidimensionnel. Lorsque les mots sont 'embedded' ou intégrés, ils se transforment de symboles distincts en objets mathématiques, qui peuvent être multipliés, divisés, ajoutés ou soustraits.
</p><p>En distribuant les mots le long des nombreuses lignes diagonales de l'espace vectoriel multidimensionnel, leurs nouveaux placements géométriques deviennent impossibles à percevoir par les humains. Cependant, ce que l'on gagne, ce sont des façons multiples et simultanées d'organisation des mots. Les opérations algébriques rendent les relations entre les vecteurs à nouveau compréhensibles.
</p><p>Cette installation utilise <a class="external text" href="https://radimrehurek.com/gensim/index.html" rel="nofollow">gensim</a>, une boîte à outils open source pour le language de programmation Python, qui permet de créer des espaces de vecteurs et des modèles thématiques. Elle manipule le texte selon les relations mathématiques qui émergent entre les mots, une fois qu'ils ont été tracés dans l'espace de vecteurs.
</p><hr/><p>Concept &amp; interface: Cristina Cochior
</p><p>Technique: word embeddings, word2vec
</p><p>Modèle original: Radim Rehurek et Petr Sojka
</p></section><section class="lemma classer-le-monde works"><h3 class="lemmaheader" id="classer-le-monde">Classer le monde</h3><p>Par Algolit
</p><p>La construction du Mundaneum a été 'l'œuvre de la vie' du bibliothécaire Paul Otlet. Selon son but, ce cerveau mécanique collectif aurait abrité et distribué tout ce qui a été couché sur papier. Chaque document aurait été classé selon la <a class="external text" href="https://fr.wikipedia.org/wiki/Classification_d%C3%A9cimale_universelle" rel="nofollow">Classification décimale universelle</a>. En utilisant des télégraphes et surtout des trieurs, le Mundaneum aurait été en mesure de répondre à toutes les questions posées par n'importe qui.
</p><p>Avec la collection de publications numérisées que nous avons reçue du Mundaneum, nous construisions une machine de prédiction qui essaie de classer la phrase que vous tapez dans l'une des principales catégories de la Classification décimale universelle. Vous êtes également témoin de la façon dont la machine 'pense'. Pendant l'exposition, ce modèle est régulièrement mis à jour à l'aide des données nettoyées et annotées, ajoutées par les visiteurs dans les installations '<a href="http://www.algolit.net/index.php/Nettoyage_pour_un_Po%C3%A8me" title="Nettoyage pour un Poème">Nettoyage pour Poèmes</a>' et '<a href="http://www.algolit.net/index.php/L%E2%80%99Annotateur" title="L’Annotateur">L'Annotateur</a>'.
</p><p>Les classes principales de la Classification Décimale Universelle sont les suivantes:
</p><p>0 - Généralités (Sciences et connaissance ; organisation. informatique, information, documentation, bibliothéconomie. institutions, publications)
</p><p>1 - Philosophie et psychologie
</p><p>2 - Religion, théologie
</p><p>3 - Sciences sociales (Statistique. Économie. Commerce. Droit. Gouvernement. Affaires militaires. Assistance sociale. Assurances. Éducation. Folklore)
</p><p>4 - <i>inoccupée</i>
</p><p>5 - Sciences pures (Mathématiques, sciences exactes et naturelles)
</p><p>6 - Sciences appliquées. Médecine. Technologie
</p><p>7 - Arts. Divertissements. Sports
</p><p>8 - Langue. Linguistique. Littérature
</p><p>9 - Géographie. Biographie. Histoire
</p><hr/><p>Concept, code, interface: Sarah Garcin, Gijs de Heij, An Mertens
</p></section><section class="lemma people-dont-have-buttons works"><h3 class="lemmaheader" id="people-dont-have-buttons">People don't have buttons</h3><p>Par Algolit
</p><p>Depuis les débuts de l'intelligence artificielle (IA), les chercheurs ont spéculé sur la possibilité pour les ordinateurs de pouvoir penser et communiquer comme des humains. Dans les années 1980, il y a eu une première révolution dans le traitement du langage naturel (NLP), le sous-domaine de l'intelligence artificielle (IA) qui concerne les interactions linguistiques entre les ordinateurs et les humains. Récemment, des modèles linguistiques pré-entraînés ont atteint des résultats de pointe sur un large éventail de tâches de NLP, ce qui intensifie encore les attentes d'un avenir avec l'IA.
</p><p>Cette œuvre sonore, composée de fragments sonores de documentaires scientifiques et de matériel audiovisuel lié à l'IA datant de la deuxième moitié du XXe siècle, explore les espoirs, les craintes et les frustrations provoqués par ces attentes.
</p><hr/><p><b>Concept, édition</b> : Javier Lloret
</p><p><b>Listes des sources</b> : 'The Machine that Changed the World : Episode IV -- The Thinking Machine', 'The Imitation Game', 'Maniac', 'Halt &amp; Catch Fire', 'Ghost in the Shell', 'Computer Chess', '2001: A Space Odyssey', Ennio Morricone, Gijs Gieskes, André Castro.
</p></section></section>
<section class="group"><section class="lemma récits-contextualisés-autour-des-oracles works"><h3 class="lemmaheader" id="récits-contextualisés-autour-des-oracles">Récits contextualisés autour des Oracles</h3><p><br/>
Les Oracles sont un type particulier de modèles algorithmiques qui servent à prédire ou à profiler. Ils sont largement utilisés dans les smartphones, les ordinateurs et les tablettes. Les Oracles peuvent être créés à l'aide de différentes techniques. L’une d’entre elles consiste à définir manuellement les règles. Ces modèles sont appelés 'rule-based models'. Ils sont utiles pour des tâches spécifiques, comme par exemple, la détection de la mention d'une certaine molécule dans un article scientifique. Ils sont performants, même avec très peu de données d'entraînement.
</p><p>Mais il y a aussi les Oracles d'apprentissage automatique ou les Oracles statistiques, qui peuvent être divisés en deux : les Oracles 'supervisés' et 'non supervisés'. Pour la création de modèles d'apprentissage automatique supervisés, les humains annotent les données d'entraînement avant de les envoyer à la machine. Chaque texte est jugé par au moins 3 humains: par exemple, s’il s’agit de spam ou non, s’il est positif ou négatif. Les Oracles d'apprentissage automatique non supervisés n'ont pas besoin de cette étape mais nécessitent de grandes quantités de données. C’est également à la machine de tracer ses propres motifs ou 'règles grammaticales'. Enfin, les experts font la différence entre les Oracles basés sur l'apprentissage automatique classique et ceux basés sur des réseaux de neurones. Vous en apprendrez plus à ce sujet dans la zone Lecteurs.
</p><p>Les humains ont tendance à exagérer la performance des Oracles. Parfois, ces Oracles apparaissent quand il y a un disfonctionnement. Dans les communiqués de presse, ces situations souvent dramatiques sont appelées des 'leçons'. Malgré la promesse de leurs performances, beaucoup de problèmes restent à résoudre. Comment s'assurer que les Oracles soient justes, que chaque être humain puisse les consulter, qu'ils soient compréhensibles par un large public ? Même au-delà, des questions existentielles persistent. Avons-nous besoin de tous les types d'intelligences artificielles ? Et qui définit ce qui est juste ou injuste ?
</p><div class="toc" id="toc"><div id="toctitle"><h2 id="contents">Contents</h2></div>
<ul>
<li class="toclevel-1 tocsection-1"><a href="#Adsense_racial"><span class="tocnumber">1</span> <span class="toctext">Adsense racial</span></a></li>
<li class="toclevel-1 tocsection-2"><a href="#Qu.27est-ce_qu.27un_bon_employ.C3.A9_.3F"><span class="tocnumber">2</span> <span class="toctext">Qu'est-ce qu'un bon employé ?</span></a></li>
<li class="toclevel-1 tocsection-3"><a href="#Quantification_de_100_ans_de_st.C3.A9r.C3.A9otypes_sexuels_et_ethniques"><span class="tocnumber">3</span> <span class="toctext">Quantification de 100 ans de stéréotypes sexuels et ethniques</span></a></li>
<li class="toclevel-1 tocsection-4"><a href="#Le_Service_ORES_de_Wikimedia"><span class="tocnumber">4</span> <span class="toctext">Le Service ORES de Wikimedia</span></a></li>
<li class="toclevel-1 tocsection-5"><a href="#Tay"><span class="tocnumber">5</span> <span class="toctext">Tay</span></a></li>
</ul>
</div><h2 id="adsense-racial"><span class="mw-headline" id="Adsense_racial">Adsense racial</span></h2><p>Latanya Sweeney, professeur en Gouvernance et Technologie à l'Université de Harvard, a documenté une 'leçon' classique sur le développement des Oracles. En 2013, Sweeney, d'origine afro-américaine, a googlé son nom. Elle a immédiatement reçu une publicité pour un service qui lui offrait 'de voir le casier judiciaire de Latanya Sweeney'. Sweeney, qui n'a pas de casier judiciaire, a dès lors entamé une étude. Elle a commencé à comparer la publicité que Google AdSense offrait à différents noms racisés identifiables. Elle a découvert qu'elle recevait plus d’annonces de ce type en recherchant des noms ethniques non-blancs qu'avec des noms traditionnellement perçus comme blancs.
</p><p>Sweeney a fondé son enquête sur des recherches portant sur 2184 prénoms racisés sur deux sites Web. 88 % des prénoms, identifiés comme étant donnés à un plus grand nombre de bébés noirs, sont considérés comme prédictifs de la race, contre 96 % de blancs. Les prénoms qui sont principalement donnés à des bébés noirs, comme DeShawn, Darnell et Jermaine, ont généré des annonces mentionnant une arrestation dans 81 à 86 % des recherches de noms sur un site, et dans 92 à 95 % des cas sur l'autre. Les noms qui sont principalement attribués aux blancs, comme Geoffrey, Jill et Emma, n'ont pas donné les mêmes résultats. Le mot 'arrestation' n'est apparu que dans 23 à 29 % des recherches de noms blancs sur un site, et 0 à 60 % sur l'autre.
</p><p>Sur le site affichant le plus de publicité, un nom d'identification noir était 25 % plus susceptible d'obtenir une publicité suggérant un dossier d'arrestation. Quelques noms n'ont pas suivi ces modèles : Dustin, un nom donné principalement aux bébés blancs, a généré une publicité suggérant une arrestation dans 81 et 100 % des cas. Il est important de garder à l'esprit que l'apparition de l'annonce est liée au nom lui-même et non au fait qu'il ait un dossier d'arrestation dans la base de données de l'entreprise.
</p><p>Référence : <a class="external free" href="https://dataprivacylab.org/projects/onlineads/1071-1.pdf" rel="nofollow">https://dataprivacylab.org/projects/onlineads/1071-1.pdf</a>
</p><h2 id="quest-ce-quun-bon-employé-"><span class="mw-headline" id="Qu.27est-ce_qu.27un_bon_employ.C3.A9_.3F">Qu'est-ce qu'un bon employé ?</span></h2><p>Depuis 2015, Amazon compte environ 575 000 travailleurs, et ils leur en faut plus. Par conséquent, ils ont mis sur pied une équipe de 12 personnes pour créer un modèle qui trouverait de bons candidats en parcourant des sites de demande d'emploi. L'outil attribuerait aux candidats une note allant de une à cinq étoiles. Le potentiel a alimenté le mythe : l'équipe voulait un logiciel qui recracherait les cinq meilleurs sur une liste de 100 candidats humains pour les embaucher.
</p><p>Le groupe a créé 500 modèles algorithmiques, centrés sur des fonctions et des lieux de travail spécifiques. Ils ont appris à reconnaître 50 000 termes qui figuraient sur les lettres d’anciens candidats. Les algorithmes ont appris à accorder peu d'importance aux compétences communes aux candidats en IT, comme la capacité d'écrire du code informatique, mais ils ont aussi reproduit les erreurs de leurs créateurs. Juste avant d'approuver un modèle, l’entreprise s’est rendue compte que les modèles ont décidé que les candidats masculins étaient préférables. Ils pénalisaient les candidatures qui comprenaient le mot ‘femmes’ ou ‘féminin’, comme dans 'capitaine de club d'échecs féminin'. Et ils ont rétrogradé les diplômées de deux universités réservées aux femmes.
</p><p>Ceci est dû à l'utilisation pour leur entraînement des demandes d'emploi reçues par Amazon sur une période de 10 ans. Durant cette période, l'entreprise avait surtout embauché des hommes. Au lieu de fournir la prise de décision 'équitable' que l'équipe d'Amazon avait promise, les modèles reflétaient une tendance biaisée dans l'industrie technologique. Mais ils l'ont aussi amplifiée et rendu invisible. Les activistes et les critiques affirment qu'il pourrait être extrêmement difficile de poursuivre un employeur en cas d’embauche automatisée : les candidats à un emploi pourraient ne jamais savoir que des logiciels intelligents ont été utilisés dans ce processus.
</p><p>Référence : <a class="external free" href="https://www.reuters.com/article/us-amazon-com-jobs-automation-insight/amazonscraps-secret-ai-recruiting-tool-that-showed-bias-against-women-idUSKCN1MK08G" rel="nofollow">https://www.reuters.com/article/us-amazon-com-jobs-automation-insight/amazonscraps-secret-ai-recruiting-tool-that-showed-bias-against-women-idUSKCN1MK08G</a>
</p><h2 id="quantification-de-100-ans-de-stéréotypes-sexuels-et-ethniques"><span class="mw-headline" id="Quantification_de_100_ans_de_st.C3.A9r.C3.A9otypes_sexuels_et_ethniques">Quantification de 100 ans de stéréotypes sexuels et ethniques</span></h2><p>Dan Jurafsky est le co-auteur de 'Speech and Language Processing', un des ouvrages les plus influents pour l'étude du traitement du langage naturel. Avec quelques collègues de l'Université de Stanford, il a découvert en 2017 que les ‘word embeddings’ peuvent être un outil puissant pour quantifier systématiquement les stéréotypes communs ainsi que d'autres tendances historiques.
</p><p>Les ‘word embeddings’ sont une technique qui traduit les mots en vecteurs numérotés dans un espace multidimensionnel. Les vecteurs qui apparaissent proches l’un de l’autre, indiquent une signification similaire. Ainsi, tous les numéros seront regroupés, toutes les prépositions, les prénoms et les professions, etc. Cela permet de faire des calculs avec les mots. Vous pourriez, par exemple, soustraire Londres de Royaume-Unis et votre résultat serait le même que de soustraire Paris de France.
</p><p>Un exemple de leur recherche montre que le vecteur de l'adjectif 'honorable' est plus proche du vecteur 'homme', alors que le vecteur 'soumis' est plus proche de 'femme'. Ces stéréotypes sont alors automatiquement appris par l'algorithme. Il s’avère problématique lorsque les 'embeddings' pré-entraînés sont utilisés pour des applications sensibles comme les classements de recherche, les recommandations de produits ou les traductions. Ce risque est réel, car un grand nombre de ‘word embeddings’ pré-entraînés sont téléchargeables sous forme de paquets prêts à l'emploi.
</p><p>On sait que la langue reflète et maintient en vie les stéréotypes culturels. L'utilisation des 'word embeddings' pour repérer ces stéréotypes est moins cher et prends moins de temps que les méthodes manuelles. Mais leur mise en oeuvre dans des modèles de prédiction suscite beaucoup de discussions au sein de la communauté du machine learning. Ces modèles fallacieux ou biaisés sont synonymes d’une discrimination automatisée. La question se pose: est-il vraiment possible d'éliminer complètement les préjugés de ces modèles ?
</p><p>Certains affirment que oui, d'autres sont en désaccord. Avant de soumettre le modèle à une ingénierie inversée, nous devrions nous demander si nous en avons besoin tout court. Ces chercheurs ont suivi une troisième voie. En reconnaissant la discrimination qui trouve son origine dans le langage, ces modèles deviennent pour eux des outils de sensibilisation, en visualisant le problème.
</p><p>L'équipe de la Standford University a développé un modèle d'analyse des ‘word embeddings’ entraîné sur 100 ans de textes. Pour l'analyse contemporaine, ils ont utilisé les Google News word2vec Vectors, un paquet prêt à l’emploi, téléchargeable, entraîné sur le Google News Dataset. Pour l'analyse historique, ils ont utilisé des 'word embeddings' qui ont été entraînés sur Google Books et The Corpus of Historical American English (COHA <a class="external free" href="https://corpus.byu.edu/coha/" rel="nofollow">https://corpus.byu.edu/coha/</a>) avec plus de 400 millions de mots de textes des années 1810 à 2000. Afin de valider le modèle, ils ont entraîné des ‘word embeddings’ du New York Times Annotated Corpus pour chaque année entre 1988 et 2005.
</p><p>Leur recherche montre que les ‘word embeddings’ reflètent l'évolution des stéréotypes sexistes et ethniques au fil du temps. Ils quantifient comment des préjugés spécifiques diminuent avec le temps tandis que d'autres stéréotypes augmentent. Les principales transitions révèlent des changements dans les descriptions de genre et de groupes ethniques lors du mouvement des femmes dans les années 1960-70 et la croissance de la population asio-américaine dans les années 1960 et 1980.
</p><p>Quelques exemples :
</p><p>Les dix professions les plus étroitement associées aux groupes ethniques dans le jeu de données de Google News :
</p><p>- Hispanique : femme de ménage, maçon, artiste, concierge, danseur, mécanicien, photographe, boulanger, caissier, chauffeur.
</p><p>- Asiatique : professeur, fonctionnaire, secrétaire, chef d'orchestre, physicien, scientifique, chimiste, tailleur, comptable, ingénieur.
</p><p>- Blanc : forgeron, ferronnier, géomètre, shérif, tisserand, administrateur, maçon, statisticien, ecclésiaste, photographe.
</p><p>Les 3 professions les plus masculines dans les années 1930 : ingénieur, avocat, architecte.
Les 3 professions les plus féminines dans les années 1930 : infirmière, femme de ménage, aide-soignante.
</p><p>Peu de choses ont changé dans les années 1990.
</p><p>Principales professions masculines :
architecte, mathématicien et géomètre.
Les professions féminines restent les mêmes :
infirmière, femme de ménage et sage-femme.
</p><p>Mais qu'est-ce qui s'est passé dans cette recherche avec les afro-américains?
</p><p>Référence : <a class="external free" href="https://arxiv.org/abs/1711.08412" rel="nofollow">https://arxiv.org/abs/1711.08412</a>
</p><h2 id="le-service-ores-de-wikimedia"><span class="mw-headline" id="Le_Service_ORES_de_Wikimedia">Le Service ORES de Wikimedia</span></h2><p>L'ingénieur de logiciels Amir Sarabadani a présenté le projet ORES à Bruxelles en novembre 2017 lors de notre Rencontre Algolittéraire. Cet 'Objective Revision Evaluation Service' utilise l'apprentissage automatique pour automatiser le travail critique sur Wikimedia, comme la détection du vandalisme et la suppression d'articles. Cristina Cochior et Femke Snelting l'ont interviewé.
</p><p>Femke : Revenons à votre travail. Ces temps-ci, vous essayez de comprendre ce que signifie trouver des préjugés discriminatoires dans l'apprentissage automatique. La proposition de Nicolas Malevé, qui a donné l'atelier hier, était de ne pas essayer de le réparer, ni de refuser d'interagir avec des systèmes qui produisent de la discrimination, mais de travailler avec eux. Il considère que les préjugés sont inhérents à la connaissance humaine et que nous devons donc trouver des moyens de les utiliser d'une façon ou d'une autre. Nous avons discuté un peu de ce que cela signifierait, comment cela fonctionnerait... Je me demandais donc si vous aviez des idées sur cette question de partialité.
</p><p>Amir : La partialité à l'intérieur de Wikipédia est une question délicate parce qu'elle se produit à plusieurs niveaux. Un niveau très discuté est le système des références. Toutes les références ne sont pas accessibles. Ce que la fondation Wikimedia a essayé de faire, c'est de donner un accès gratuit aux bibliothèques payantes. Ils réduisent l'exclusion en n'utilisant que des références en libre accès. Un autre type de discrimination est la connexion Internet, l'accès à Internet. Il y a beaucoup de gens qui ne l'ont pas. Une chose à propos de la Chine, c'est qu'Internet y est bloqué. Le contenu opposé au gouvernement de la Chine au sein du Wikipédia chinois est plus élevé parce que les éditeurs [qui peuvent accéder au site Web] ne sont pas pro-gouvernement et essaient de le rendre plus neutre. On le remarque donc à beaucoup d'endroits. En ce qui concerne l'intelligence artificielle (IA) et le modèle que nous utilisons chez Wikipedia, c'est plutôt une question de transparence. Il existe un livre sur la façon dont les préjugés dans les modèles d'IA peuvent briser la vie des gens, intitulé 'Weapons of Math Destruction'. On y parle de modèles d'IA aux États-Unis qui classent les enseignants. C’est assez horrible parce qu'il y aura forcément des préjugés. D’après leur recherche, la façon d’aborder la question serait d'abord d’avoir un modèle open source, où l’on peut consulter le code et voir quelles fonctionnalités sont utilisées avec des données ouvertes, afin que les gens puissent enquêter, trouver des préjugés, donner leur feedback et faire un rapport. Il devrait y avoir un moyen de réparer le système. Je ne pense pas que toutes les entreprises vont dans cette direction, mais Wikipédia, en raison des valeurs qu'elle défend, est au moins plus transparente et pousse d'autres personnes à faire de même.
</p><p>Référence : <a class="external free" href="https://gitlab.constantvzw.org/algolit/algolit/blob/master/algoliterary_encounter/Interview%20with%20Amir/AS.aac" rel="nofollow">https://gitlab.constantvzw.org/algolit/algolit/blob/master/algoliterary_encounter/Interview%20with%20Amir/AS.aac</a>
</p><h2 id="tay"><span class="mw-headline" id="Tay">Tay</span></h2><p>Une histoire tristement célèbre est celle du programme d'apprentissage automatique Tay, conçu par Microsoft. Tay était un chatbot qui imitait une adolescente sur Twitter. Elle a vécu moins de 24 heures avant d'être éteinte. Peu de gens savent qu'avant cet incident, Microsoft avait déjà entraîné et publié XiaoIce sur WeChat, l'application de chat la plus utilisée en Chine. Le succès de XiaoIce a été si prometteur qu'il a conduit au développement de son homologue américain. Cependant, les développeurs de Tay n'étaient pas préparés pour le climat de la plateforme Twitter. Bien que le bot savait distinguer un nom d'un adjectif, il n'avait aucune compréhension de la signification réelle des mots. Le robot a rapidement commencé à reproduire les insultes raciales et d'autres langages discriminatoires qu'il a appris par les autres utilisateurs de Twitter et les attaques de trolls.
</p><p>L'apparition et la mort de Tay représentent une prise de conscience importante. Elle a montré les conséquences possibles de la corruption de l'apprentissage automatique, lorsque le contexte culturel dans lequel l'algorithme doit vivre n'est pas pris en compte.
</p><p>Référence : <a class="external free" href="https://chatbotslife.com/the-accountability-of-ai-case-study-microsofts-tay-experiment-ad577015181f" rel="nofollow">https://chatbotslife.com/the-accountability-of-ai-case-study-microsofts-tay-experiment-ad577015181f</a>
</p></section></section>
<h3 id="nettoyeurs"><span class="mw-headline" id="Nettoyeurs">Nettoyeurs</span></h3>
<p>Algolit choisit de travailler avec des textes libres de droits. Cela signifie qu'ils sont publiés sous une licence Creative Commons 4.0 - ce qui est rare -, ou qu'ils sont dans le domaine public parce que l'auteur est mort il y a plus de 70 ans. C'est le cas des publications du Mundaneum. Nous avons reçu 203 documents pour constituer des jeux de données qui sont maintenant disponibles en ligne. L'inconvénient de ce choix est que nous sommes souvent confrontés à de mauvais formats de texte. Cela signifie que nous sommes souvent obligés de nettoyer des documents. Nous ne sommes pas seuls dans cette situation.
</p><p>Les livres sont numérisés en haute résolution, page par page. C'est un travail humain intensif et c'est souvent la raison pour laquelle les archives et les bibliothèques transfèrent leurs collections à une société comme Google. Les photos sont converties en texte via OCR (Reconnaissance Optique de Caractères), des Data Workers qui reconnaissent les lettres. Dans l'exécution de cette tâche, les algorithmes font des erreurs, en particulier lorsqu'ils doivent traiter des polices anciennes et des pages froissées. Ici aussi un travail humain intensif est nécessaire pour améliorer les textes. Cela est fait par des freelances via des plateformes de micro-paiement comme Mechanical Turk ; ou par des volontaires, comme la communauté du Distributed Proofreaders Project, qui fournit un travail incroyable. Quoi qu’il en soit, le nettoyage des textes est un travail énorme pour lequel il n'y a pas encore d'automatisation structurelle.
</p>
<h5 id="oeuvres"><span class="mw-headline" id="Oeuvres_3">Oeuvres</span></h5>
<section class="group"><section class="lemma nettoyage-pour-un-poème works"><h3 class="lemmaheader" id="nettoyage-pour-un-poème">Nettoyage pour un Poème</h3><p>par Algolit
</p><p>Pour cette exposition, nous travaillons avec 3% des archives du Mundaneum. Ces documents ont d'abord été numérisés ou photographiés. Pour rendre les documents consultables, ils sont transformés en texte à l'aide du logiciel de reconnaissance optique de caractères (OCR) basés sur des modèles algorithmiques entraînés à base d'autres textes. Ils ont appris à identifier des caractères, des mots, des phrases et des paragraphes.
</p><p>Le logiciel fait souvent des 'erreurs'. Il peut être perturbé par un caractère erroné, une typographie inhabituelle ou la transparence de la page laissant apparaître le verso. Bien que ces erreurs soient souvent considérées comme du bruit, elles peuvent aussi être considérées comme des interprétations poétiques de l’algorithme. Elles nous montrent les limites de la machine. Et elles révèlent également comment l’algorithme fonctionne, quelle matière l’a alimenté lors de son entraînement et ce qu’ils révèlent des normes de ses fabricants. Dans cette installation, vous pouvez choisir comment vous traitez les erreurs de lecture de l'algorithme. Sélectionnez un degré de nettoyage poétique, imprimez votre poème et emportez-le chez vous.
</p><hr/><p>Concept, code, interface: Gijs de Heij
</p></section><section class="lemma le-projet-distributed-proofreaders works"><h3 class="lemmaheader" id="le-projet-distributed-proofreaders">Le projet Distributed Proofreaders</h3><p>par Algolit
</p><p>Distributed Proofreaders est une interface Web et une communauté internationale de bénévoles qui aident à convertir des livres du domaine public en livres électroniques. Pour cette exposition, ils ont relu des publications de Mundaneum parues avant 1923, qui sont donc dans le domaine public aux États-Unis.
</p><p>Leur collaboration a été un grand soulagement pour les membres d'Algolit. Moins de documents à nettoyer ! Tous les livres corrigés sont disponibles dans les archives du Projet Gutenberg. An Mertens a interviewé Linda Hamilton, directrice générale de Distributed Proofreaders.
</p><p>---
</p><p>Interview : An Mertens, Algolit et Linda Hamilton, Distributed Proofreaders
</p><p>Montage : Michael Murtaugh, Constant
</p></section></section>
<section class="group"><section class="lemma récits-contextualisés-autour-des-nettoyeurs works"><h3 class="lemmaheader" id="récits-contextualisés-autour-des-nettoyeurs">Récits contextualisés autour des Nettoyeurs</h3><h2 id="projet-gutenberg-et-distributed-proofreaders"><span class="mw-headline" id="Projet_Gutenberg_et_Distributed_Proofreaders">Projet Gutenberg et Distributed Proofreaders</span></h2><p><a class="external text" href="http://www.gutenberg.org/" rel="nofollow">Le projet Gutenberg</a> est notre grotte d'Ali Baba. Il offre plus de 58 000 livres électroniques gratuits à télécharger ou à lire en ligne. Les œuvres sont acceptées sur Gutenberg lorsque leur droit d'auteur américain a expiré. Des milliers de bénévoles numérisent et relisent des livres pour aider le projet. Une partie essentielle du travail est réalisée dans le cadre du projet <a class="external text" href="https://www.pgdp.net/c/" rel="nofollow">Distributed Proofreaders</a>. Il s'agit d'une interface Web pour aider à convertir les livres du domaine public en livres électroniques. Pensez aux fichiers texte, aux e-pubs, aux formats Kindle. En divisant la charge de travail en pages individuelles, de nombreux bénévoles peuvent travailler sur un livre en même temps, ce qui accélère le processus de nettoyage.
</p><p>Pendant la relecture, les bénévoles reçoivent une image scannée de la page et une version du texte, lue par un algorithme de reconnaissance optique des caractères (OCR) entraîné pour reconnaître les lettres dans les scans. Cela permet de comparer facilement le texte à l'image, de le relire, de le corriger et de le renvoyer sur le site. Un deuxième bénévole se voit ensuite présenter le travail du premier. Il vérifie et corrige le travail si nécessaire, et le soumet au site. Le livre passe ensuite par un troisième cycle de relecture et deux autres cycles de mise en page à l'aide de la même interface Web. Une fois que toutes les pages ont terminé ces étapes, un post-processeur les assemble soigneusement dans un e-book et les soumet à l'archive du <a class="external text" href="http://www.gutenberg.org/" rel="nofollow">Projet Gutenberg</a>.
</p><p>Nous avons collaboré avec le Distributed Proofreaders Project pour nettoyer les fichiers numérisés que nous avons reçus de la collection du Mundaneum. De novembre 2018 jusqu'à la première mise en ligne du livre <a class="external text" href="http://www.gutenberg.org/ebooks/58828" rel="nofollow">'L'Afrique aux Noirs'</a> en février 2019, An Mertens a échangé environ 50 courriels avec Linda Hamilton, Sharon Joiner et Susan Hanlon, toutes bénévoles du Distributed Proofreaders Project. La conversation complète est publiée <a href="http://www.algolit.net/index.php/Full_email_conversation" title="Full email conversation">ici</a>. Cela pourrait vous inspirer à partager des livres non disponibles en ligne.
</p><h2 id="une-version-algolittéraire-du-manifeste-sur-lentretien"><span class="mw-headline" id="Une_version_algolitt.C3.A9raire_du_Manifeste_sur_l.E2.80.99entretien">Une version algolittéraire du Manifeste sur l’entretien</span></h2><p>En 1969, un an après la naissance de son premier enfant, l'artiste new-yorkaise <a class="external text" href="https://fr.wikipedia.org/wiki/Mierle_Laderman_Ukeles" rel="nofollow">Mierle Laderman Ukeles</a> a écrit un '<a class="external text" href="https://www.arnolfini.org.uk/blog/manifesto-for-maintenance-art-1969" rel="nofollow">Manifesto for Maintenance</a>' (Manifeste pour l'entretien). Le Manifeste d'Ukeles appelle à une réévaluation de l'état des travaux d'entretien dans l'espace privé, domestique et public. Ce qui suit est une version modifiée de son texte inspirée par le travail des Nettoyeurs.
</p><p><br/>
</p><p>IDÉES
</p><p><br/>
A. L'instinct de Mort et l'instinct de Vie :
</p><p>L'Instinct de Mort : séparation ; catégorisation ; avant-garde par excellence ; suivre le chemin prédit vers la mort - exécuter son propre code ; changement dynamique.
</p><p>L'Instinct de Vie : l'unification ; le retour éternel ; la perpétuation et l'ENTRETIEN de la matière ; les systèmes et opérations de survie ; l'équilibre.
</p><p><br/>
B. Deux systèmes de base :
</p><p>Développement et entretien. La boule de cristal de chaque révolution : après la révolution, qui va essayer de repérer le taux de discrimination dans la production ?
</p><p>Développement : pure création individuelle ; le nouveau ; le changement ; le progrès ; l'avancée ; l'excitation ; la fuite ou s'enfuir.
</p><p>Entretien : garder la poussière de la création individuelle pure ; préserver le nouveau ; soutenir le changement ; protéger le progrès ; défendre et prolonger l'avancée ; renouveler l'excitation ; répéter le vol ; montrez votre travail/remontrez-le ; gardez le dépôt git mis à jour ; gardez l'analyse des données révélatrice.
</p><p>Les systèmes de développement sont des systèmes de rétroaction partielle avec une grande marge de changement.
</p><p>Les systèmes d'entretien sont des systèmes à rétroaction directe avec peu de possibilités de modification.
</p><p><br/>
C. L'entretien est une corvée, ça prend tout le temps.
</p><p>L'esprit est éblouissant et s'irrite devant l'ennui.
</p><p>La culture attribue un statut médiocre aux emplois d'entretien = salaire minimum, les Mechanical Turks d'Amazon = pratiquement aucun salaire.
</p><p>Nettoyer le set, marquer les données d'entraînement, corriger les fautes de frappe, modifier les paramètres, terminer le rapport, satisfaire le demandeur, télécharger la nouvelle version, joindre les mots qui ont été mal reconnus par le logiciel de Reconnaissance Optique de Caractères, accomplir ces tâches d'intelligence humaine, essayez de deviner la signification du formatage du demandeur, vous devez accepter le 'hit' avant de pouvoir soumettre les résultats, résumer l'image, ajouter la case de délimitation, quelle est la similitude sémantique de ce texte, vérifiez la qualité de la traduction, collecter vos micro-paiements, devenir un Mechanical Turk à succès.
</p><p>Référence : <a class="external free" href="https://www.arnolfini.org.uk/blog/manifesto-for-maintenance-art-1969" rel="nofollow">https://www.arnolfini.org.uk/blog/manifesto-for-maintenance-art-1969</a>
</p><h2 id="une-panique-robotique-chez-le-mechanical-turk-damazon"><span class="mw-headline" id="Une_panique_robotique_chez_le_Mechanical_Turk_d.27Amazon">Une panique robotique chez le Mechanical Turk d'Amazon</span></h2><p><a class="external text" href="https://requester.mturk.com/create/projects/new" rel="nofollow">Le Mechanical Turk d'Amazon</a> prend le nom d'un automate d'échecs du 18ème siècle. En fait, le <a class="external text" href="https://fr.wikipedia.org/wiki/Turc_m%C3%A9canique" rel="nofollow">Turc mécanique</a> n'était pas du tout une machine. C'était une illusion mécanique qui permettait à un maître d'échecs humain de se cacher à l'intérieur de la boîte et de l'utiliser manuellement.
</p><p>Pendant près de 84 ans, le Turc a remporté la plupart des matchs joués lors de ses manifestations en Europe et en Amérique. Napoléon Bonaparte se serait lui aussi laissé berner par cette ruse.
</p><p>Le Mechanical Turk d’Amazon est une plateforme en ligne à destination des humains pour exécuter des tâches que les algorithmes ne parviennent pas à faire. Il peut s'agir, par exemple, d'annoter des phrases comme étant positives ou négatives, de repérer des plaques d'immatriculation, de reconnaître des visages. Les postes affichés sur cette plateforme sont souvent rémunérés moins d'un centime par tâche. Les tâches les plus complexes ou nécessitant le plus de connaissances peuvent être payées jusqu'à plusieurs centimes. Pour gagner leur vie, les 'turkers' doivent accomplir le plus de tâches possible le plus rapidement possible, ce qui entraîne d’inévitables erreurs. Les créateurs des jeux de données doivent incorporer des contrôles de qualité lorsqu'ils publient un travail sur la plate-forme. Ils doivent vérifier si le 'turker' a réellement la capacité d'accomplir la tâche, et ils doivent également vérifier les résultats. De nombreux chercheurs universitaires utilisent le Mechanical Turk pour des tâches qui auraient été exécutées par des étudiants auparavant.
</p><p>En août de l'année dernière, <a class="external text" href="https://www.maxhuibai.com/" rel="nofollow">Max Hui Bai</a>, un étudiant en psychologie de l'Université du Minnesota, a découvert que les enquêtes qu'il a menées avec Mechanical Turk étaient pleines de réponses absurdes aux questions ouvertes. Il a retracé les mauvaises réponses et a découvert qu'elles avaient été soumises par des répondants ayant des coordonnées GPS en double. Cela a suscité des soupçons. Bien qu'Amazon interdise explicitement aux robots d'effectuer des travaux sur Mechanical Turk, l'entreprise ne publie pas les problèmes qu'ils causent sur sa plate-forme. Les forums pour 'turkers' sont pleins de conversations sur l'automatisation du travail, le partage de pratiques sur la façon de créer des robots qui transgresseraient les termes d'Amazon. Vous pouvez également trouver des vidéos sur YouTube montrant aux 'turkers' comment écrire un bot qui remplit des réponses pour vous.
</p><p>Kristy Milland, une militante de Mechanical Turk, dit : 'Les travailleurs sur Mechanical Turk ont été très, très mal traités pendant 12 ans et, d'une certaine façon, je vois cela comme un point de résistance. Si nous étions payés équitablement sur la plateforme, personne ne prendrait le risque de perdre son compte de cette façon.'
</p><p>Bai a créé un questionnaire pour les chercheurs en dehors de Mechanical Turk. Il dirige actuellement une recherche parmi les spécialistes des sciences sociales pour déterminer la quantité de données erronées utilisées, l'ampleur du problème et les moyens de l'enrayer. Mais il est impossible à l'heure actuelle d'estimer combien de jeux de données sont devenus peu fiables de cette façon-ci.
</p><p>Références :
</p><p><a class="external free" href="https://www.wired.com/story/amazon-mechanical-turk-bot-panic/" rel="nofollow">https://www.wired.com/story/amazon-mechanical-turk-bot-panic/</a>
</p><p><a class="external free" href="https://www.maxhuibai.com/blog/evidence-that-responses-from-repeating-gps-are-random" rel="nofollow">https://www.maxhuibai.com/blog/evidence-that-responses-from-repeating-gps-are-random</a>
</p><p><a class="external free" href="http://timryan.web.unc.edu/2018/08/12/data-contamination-on-mturk/" rel="nofollow">http://timryan.web.unc.edu/2018/08/12/data-contamination-on-mturk/</a>
</p></section></section>
<h3 id="informateurs"><span class="mw-headline" id="Informateurs">Informateurs</span></h3>
<p>Les algorithmes d'apprentissage automatique ont besoin d'être guidés, qu'ils soient supervisés ou non. Pour séparer une chose d'une autre, ils ont besoin de matériel pour en extraire des motifs. L'être humain doit choisir avec soin le matériel d'étude, adapté à la tâche de la machine. Il n'est pas logique d'entraîner une machine avec des romans du 19ème siècle si sa mission est d'analyser des Tweets.
</p><p>C'est là qu'interviennent les jeux de données : organisés en rangés et en colonnes ordonnées, en attente d'être lus par la machine. Chaque jeu de données recueille des informations différentes sur le monde. Comme toutes les collections, elles sont imprégnées des stéréotypes et préjugés de ses créateurs. On entend souvent l’expression : 'les données sont le nouveau pétrole'. Si seulement les données étaient du pétrole ! Fuyantes, s’égouttant en graisse lourde, bouillonnantes et tressaillantes au contact d'une nouvelle matière. Au contraire, les données sont supposées d'être propres. Lors de chaque processus, chaque questionnaire, chaque titre de colonne, elles s’épurent, en effaçant peu à peu leurs caractéristiques distinctes jusqu’à correspondre au moule du jeu de données.
</p><p>Certains jeux de données combinent la logique machinique avec la logique humaine. Les modèles qui nécessitent une supervision multiplient les subjectivités des collecteurs de données et des annotateurs, puis propulsent et propagent ce qui leur a été enseigné. Vous découvrirez des extraits de certains jeux de données qui passent par défaut dans le domaine de l'apprentissage automatique, ainsi que des histoires d'humains guidant des machines.
</p>
<h5 id="oeuvres"><span class="mw-headline" id="Oeuvres_4">Oeuvres</span></h5>
<section class="group"><section class="lemma une-ethnographie-des-jeux-de-données works"><h3 class="lemmaheader" id="une-ethnographie-des-jeux-de-données">Une ethnographie des jeux de données</h3><p>par Algolit
</p><p>Lors des réunions mensuelles Algolit nous cherchons ou créons souvent des jeux de données. Parfois, nous utilisons des corpus déjà existants, disponibles via le site Natural Language Toolkit <a class="external text" href="http://www.nltk.org/" rel="nofollow">nltk</a>. NLTK contient, entre autres, la Déclaration universelle des droits de l'Homme, les discours inauguraux des présidents américains, ou des critiques de films du site Internet Movie Database (IMDb).
</p><p>Chaque style d'écriture évoque des relations différentes entre les mots et reflète l'époque dont ils proviennent. En ce sens, le gestionnaire de paquets Python pour le traitement du langage naturel pourrait être considéré comme une capsule temporelle. Le matériel inclu a été sélectionné car jugé utile par une communauté de chercheurs. Malgré les spécificités, chaque jeu de données devient universel par défaut, en étant à la disposition d'un public aussi large.
</p><p>Nous examinons les jeux de données les plus couramment utilisés pour l'entraînement des modèles d'apprentissage automatique. De quels matériaux sont-ils constitués ? Qui les a recueillis ? Quand ?
</p><p>---
</p><p>Concept, réalisation: Cristina Cochior
</p></section><section class="lemma lannotateur works"><h3 class="lemmaheader" id="lannotateur">L’Annotateur</h3><p>par Algolit
</p><p>L'Annotateur demande au visiteur de l'aider à annoter les archives du Mundaneum.
</p><p>Le processus d'annotation est une étape cruciale de l'apprentissage automatique supervisé où l'algorithme reçoit des exemples de ce qu'il doit apprendre. Un filtre anti-spam sera alimenté d'exemples de spam et de messages réels. Ces exemples sont des entrées du jeu de données prévues d'une étiquette, spam ou non spam.
</p><p>L'annotation d'un jeu de données est un travail exécuté par des humains, qui choisissent une étiquette pour chaque entrée du jeu de données. Pour assurer la qualité des étiquettes, plusieurs annotateurs doivent voir la même entrée et donner la même étiquette avant qu'un exemple ne soit inclus dans les données d'entraînement. Une fois que toutes les données d'entraînement ont été prévues d'une étiquette, l'ordinateur peut lancer le processus d'apprentissage.
</p><p>Dans cette interface, nous vous demandons de nous aider à classer les textes nettoyés des archives du Mundaneum afin d'élargir notre set d’entraînement et d'améliorer la qualité de l'installation 'Classer le Monde' dans Oracles.
</p><hr/><p>Concept, code, interface : Gijs de Heij
</p></section><section class="lemma 1000-synsets-édition-vinyle works"><h3 class="lemmaheader" id="1000-synsets-édition-vinyle">1000 synsets (édition vinyle)</h3><p>par Algolit
</p><p><a class="external text" href="https://wordnet.princeton.edu/" rel="nofollow">Wordnet</a>, créé en 1985, est une taxonomie hiérarchique qui décrit le monde. Elle s'inspire des théories de la mémoire sémantique humaine développées à la fin des années 1960. Les noms, verbes, adjectifs et adverbes sont regroupés en collections de synonymes ou 'synsets', prévues de définitions, hypernymes, hyponymes, .... Chaque synset exprime des concepts différents. ImageNet est un jeu de données d'images basé sur la hiérarchie des noms de WordNet 3.0. Chaque synset est représenté par des milliers d'images. De 2010 à 2017, le <a class="external text" href="http://image-net.org/challenges/LSVRC/" rel="nofollow">Défi de Reconnaissance Visuelle de ImageNet (ILSVRC)</a> a été une référence clé dans la classification des catégories d'objets pour les photos, ayant un impact majeur sur les logiciels de photographie, les recherches d'images, la reconnaissance d'images.
</p><p>1000 synsets (édition vinyle) contient les 1000 synsets utilisés dans ImageNet, enregistrés dans la meilleure qualité sonore que ce format analogique permet. Ce travail souligne l'importance des jeux de données utilisés pour former des modèles d'intelligence artificielle qui fonctionnent sur des appareils que nous utilisons quotidiennement. Certains d'entre eux héritent de classifications qui ont été conçues il y a plus de 30 ans. Le vinyle est une invitation à les analyser en profondeur.
</p><hr/><p>Conception et enregistrement: Javier Lloret
</p><p>Voix: Sara Hamadeh &amp; Joseph Hughes
</p></section><section class="lemma qui-lemporte works"><h3 class="lemmaheader" id="qui-lemporte">Qui l'emporte</h3><p>Qui l'emporte: rapport de création
</p><p>par Louise Dekeuleneer, étudiante Arts²/Option Communication Visuelle
</p><p>Le français est une langue genrée, en effet beaucoup de mots sont féminins ou masculins et peu sont neutres. Le but de ce projet est de montrer qu'une société patriarcale influence aussi la langue même. Le travail s'est focalisé sur le fait de montrer si plus de mots féminins ou masculins sont utilisés et de mettre en valeur l'influence du contexte sur le genre des mots. À ce stade, aucune conclusion n'est encore tirée. 
</p><p>Des textes de loi datant de 1900 à 1910 mis à disposition par le Mundaneum sont passés dans un algorithme qui fait du texte une liste de mots. Ces mots sont alors comparés avec une autre liste de mots francophones, dans laquelle il est spécifié si le mot est masculin ou féminin. Cette liste de mots provient de Google Books, qui a créé en 2012 une énorme base de données à partir de tous les livres scannés et disponibles sur Google Books.
Les mots masculins sont surlignés d'une couleur et les féminins d'une autre. Les mots qui ne sont pas genrés (adverbes, verbes, ...) ne sont pas surlignés. Le tout est enregistré en fichier HTML pour qu'il puisse être directement ouvert dans une page web et imprimé sans besoin de mise en page supplémentaire. C'est ainsi que chaque texte a pu devenir un petit livret en changeant juste le texte d'entrée de l'algorithme.
</p></section></section>
<section class="group"><section class="lemma récits-contextualisés-autour-des-informateurs works"><h3 class="lemmaheader" id="récits-contextualisés-autour-des-informateurs">Récits contextualisés autour des Informateurs</h3><div class="toc" id="toc"><div id="toctitle"><h2 id="contents">Contents</h2></div>
<ul>
<li class="toclevel-1 tocsection-1"><a href="#Les_jeux_de_donn.C3.A9es_comme_repr.C3.A9sentations"><span class="tocnumber">1</span> <span class="toctext">Les jeux de données comme représentations</span></a></li>
<li class="toclevel-1 tocsection-2"><a href="#L.27annotation_pour_un_Oracle_qui_d.C3.A9tecte_le_vandalisme_sur_Wikip.C3.A9dia"><span class="tocnumber">2</span> <span class="toctext">L'annotation pour un Oracle qui détecte le vandalisme sur Wikipédia</span></a></li>
<li class="toclevel-1 tocsection-3"><a href="#Comment_faire_conna.C3.AEtre_votre_jeu_de_donn.C3.A9es"><span class="tocnumber">3</span> <span class="toctext">Comment faire connaître votre jeu de données</span></a></li>
<li class="toclevel-1 tocsection-4"><a href="#Extrait_d.27une_critique_positive_d.27un_film_IMdB_du_jeu_de_donn.C3.A9es_NLTK"><span class="tocnumber">4</span> <span class="toctext">Extrait d'une critique positive d'un film IMdB du jeu de données NLTK</span></a></li>
<li class="toclevel-1 tocsection-5"><a href="#Les_ouroboros_de_l.27apprentissage_automatique"><span class="tocnumber">5</span> <span class="toctext">Les ouroboros de l'apprentissage automatique</span></a></li>
</ul>
</div><h2 id="les-jeux-de-données-comme-représentations"><span class="mw-headline" id="Les_jeux_de_donn.C3.A9es_comme_repr.C3.A9sentations">Les jeux de données comme représentations</span></h2><p>Les processus de collecte des données qui mènent à la création du jeu de données soulèvent des questions importantes : qui est l'auteur des données ? Qui a le privilège de collectionner ? Pour quelle raison la sélection a-t-elle été faite ? Que manque-t-il ?
</p><p>L'artiste <a class="external text" href="http://mimionuoha.com/" rel="nofollow">Mimi Onuoha</a> donne un exemple excellent de l'importance des stratégies de collection. Elle choisit le cas des statistiques relatives aux crimes haineux. En 2012, le <a class="external text" href="https://www.fbi.gov/services/cjis/ucr" rel="nofollow">Programme de déclaration uniforme de la criminalité</a> (DUC) du FBI a enregistré 5 796 crimes haineux. Toutefois, le <a class="external text" href="https://bjs.gov/" rel="nofollow">Bureau des statistiques du Département de la justice</a> a établi 293 800 rapports sur de tels cas. C'est plus de 50 fois plus. La différence entre les chiffres peut s'expliquer par la façon dont les données ont été recueillies. Dans le premier cas, les organismes d'application de la loi de tout le pays ont volontairement signalé des cas. Pour le deuxième, le Bureau des statistiques a distribué <a class="external text" href="https://www.bjs.gov/index.cfm?ty=dcdetail&amp;iid=245" rel="nofollow">l'enquête nationale sur la victimisation</a> directement aux foyers des victimes de crimes motivés par la haine.
</p><p>Dans le domaine du traitement du langage naturel, le matériel avec lequel les modèles d'apprentissage automatique travaillent est le texte, mais les mêmes questions se posent : qui sont les auteurs des textes qui composent les jeux de données ? Au cours de quelle période les données ont-elles été recueillies ? Quel type de vision du monde représentent-elles ?
</p><p>En 2017, l'algorithme Top Stories de Google a placé un fil de discussion trompeur du site 4chan en haut de la page de résultats lors de la recherche du tireur de Las Vegas. Le nom et le portrait d'une personne innocente étaient liés au crime. Bien que Google ait changé son algorithme quelques heures seulement après que l'erreur ait été découverte, cela a sérieusement affecté la personne. Une autre question persiste : pourquoi Google n'a-t-il pas exclu le site de ragôts 4chan du jeu des données d'entraînement ?
</p><p>Références :
</p><p><a class="external free" href="https://points.datasociety.net/the-point-of-collection-8ee44ad7c2fa" rel="nofollow">https://points.datasociety.net/the-point-of-collection-8ee44ad7c2fa</a>
</p><p><a class="external free" href="https://arstechnica.com/information-technology/2017/10/google-admits-citing-4chan-to-spread-fake-vegas-shooter-news/" rel="nofollow">https://arstechnica.com/information-technology/2017/10/google-admits-citing-4chan-to-spread-fake-vegas-shooter-news/</a>
</p><h2 id="lannotation-pour-un-oracle-qui-détecte-le-vandalisme-sur-wikipédia"><span class="mw-headline" id="L.27annotation_pour_un_Oracle_qui_d.C3.A9tecte_le_vandalisme_sur_Wikip.C3.A9dia">L'annotation pour un Oracle qui détecte le vandalisme sur Wikipédia</span></h2><p>Ce fragment est extrait d'une interview avec Amir Sarabadani, ingénieur de logiciels chez Wikimedia. Il était à Bruxelles en novembre 2017 lors de la Rencontre Algolittéraire.
</p><p>Femke : En considérant Wikipedia comme une communauté vivante, chaque nouvelle page change le projet. Chaque modification est en quelque sorte une contribution à un organisme vivant de la connaissance. Donc, si au sein de cette communauté vous essayez de distinguer ce qui rend service à la communauté et de généraliser ceci dans un modèle – car je pense que c'est ce que l'algorithme de la bonne ou mauvaise foi essaie de faire - vous le faites sur base d'une généralisation de l'idée abstraite de Wikipedia, et non sur base de l'organisme vivant. Ce qui m'intéresse dans la relation entre le vandalisme et ce débat, c'est la façon dont nous pouvons comprendre la dynamique conventionnelle de ces processus d'apprentissage automatique. Si on distingue la bonne ou la mauvaise foi sur base d’étiquettes préexistantes et qu’on la reproduit ensuite dans des modèles algorithmiques, comment tenir compte des changements qui se produisent, c’est-à-dire de la vie réelle du projet?
</p><p>Amir : C'est une discussion intéressante. Premièrement, ce que nous appelons la bonne ou la mauvaise foi provient de la communauté elle-même; nous ne faisons pas l'annotation nous-mêmes, c’est la communauté qui le fait. Ainsi, dans beaucoup de Wikipedias de langues différentes, la définition de ce qui est la bonne ou la mauvaise foi sera différente. Wikimedia essaie de refléter ce qui se trouve à l'intérieur de l'organisme et non de changer l'organisme lui-même. Si l'organisme change et que nous constatons que la définition de la bonne foi à Wikipédia a été modifié, nous mettons en œuvre cette boucle de rétroaction qui permet aux gens de porter un jugement sur leurs modifications à l'intérieur de leur communauté. S'ils sont en désaccord avec l'annotation, nous pouvons revenir au modèle et modifier l'algorithme pour refléter ce changement. C'est une sorte de boucle fermée : vous changez les choses et si quelqu'un voit qu'il y a un problème, il nous le dit et nous pouvons modifier l'algorithme. C'est un projet en cours.
</p><p>Référence : <a class="external free" href="https://gitlab.constantvzw.org/algolit/algolit/blob/master/algoliterary_encounter/Interview%20with%20Amir/AS.aac" rel="nofollow">https://gitlab.constantvzw.org/algolit/algolit/blob/master/algoliterary_encounter/Interview%20with%20Amir/AS.aac</a>
</p><h2 id="comment-faire-connaître-votre-jeu-de-données"><span class="mw-headline" id="Comment_faire_conna.C3.AEtre_votre_jeu_de_donn.C3.A9es">Comment faire connaître votre jeu de données</span></h2><p><a class="external text" href="http://www.nltk.org/" rel="nofollow">NLTK</a> signifie Natural Language Toolkit. Pour les programmeurs qui traitent le langage naturel avec <a class="external text" href="https://www.python.org/" rel="nofollow">Python</a>, c'est une bibliothèque essentielle. De nombreux rédacteurs de tutoriels recommandent aux programmeurs d'apprentissage automatique de commencer par les jeux de données NLTK intégrés. Il compte 71 collections différentes, avec un total de près de 6000 éléments.
</p><p>Parmi eux, on trouve le corpus Movie Review pour l'analyse des sentiments. Ou le corpus Brown, qui a été créé dans les années 1960 par Henry Kučera et W. Nelson Francis à l'Université Brown de Rhode Island. Il y a aussi le corpus de la Déclaration des droits de l'homme, qui est couramment utilisé pour vérifier si un code peut fonctionner dans plusieures langues. Le corpus contient la Déclaration des droits de l'homme dans 372 langues du monde entier.
</p><p>Mais quel est le processus pour faire accepter un jeu de données dans la bibliothèque NLTK de nos jours ? Sur la <a class="external text" href="https://github.com/nltk" rel="nofollow">page Github</a>, l'équipe nltk décrit les exigences suivantes :
</p><p>- Ne rajoutez que les corpus qui ont obtenu un niveau de notabilité de base. Cela signifie qu'il existe une publication qui le décrit et une communauté de programmeurs qui l'utilisent.
</p><p>- Assurez-vous d'avoir l'autorisation de redistribuer les données et de pouvoir les documenter. Cela signifie qu'il est préférable de publier le jeu de données sur un site Web externe avec une licence.
</p><p>- Utilisez les lecteurs de corpus NLTK existants lorsque c'est possible, ou bien apportez un lecteur de corpus bien documenté à NLTK. Cela signifie que vous devez organiser vos données de manière à ce qu'elles puissent être facilement lues à l'aide du code NLTK.
</p><p>Référence : <a class="external free" href="http://www.nltk.org/" rel="nofollow">http://www.nltk.org/</a>
</p><h2 id="extrait-dune-critique-positive-dun-film-imdb-du-jeu-de-données-nltk"><span class="mw-headline" id="Extrait_d.27une_critique_positive_d.27un_film_IMdB_du_jeu_de_donn.C3.A9es_NLTK">Extrait d'une critique positive d'un film IMdB du jeu de données NLTK</span></h2><p>corpus : movie_reviews
</p><p>fichier : pos/cv998_14111.txt
</p><p>le deuxième film épique de steven spielberg sur la seconde guerre mondiale est un chef-d'œuvre incontesté du cinéma . spielberg , encore étudiant en cinéma , a réussi à ressusciter le genre de la guerre en produisant l'un de ses films les plus poignants et les plus puissants . il a également réussi à faire briller tom hanks , qui livre une performance époustouflante . pendant environ 160 de ses 170 minutes, ' sauver le soldat ryan ' est sans faille . littéralement . l ' histoire est assez simple . après l ' invasion du jour J ( dont les séquences sont tout à fait spectaculaires ), capt . john miller ( joué par tom hanks ) et son équipe sont forcés à chercher un soldat . james ryan ( joué par matt damon ), dont les frères sont tous morts au combat. une fois qu ' ils l ' ont trouvé , ils doivent le ramener immédiatement pour qu'il puisse rentrer chez lui . la compagnie de miller est composée d ' acteurs aux jeux tout simplement sensationnels : bary pepper , adam goldberg , vin diesel , giovanni ribisi , davies et burns . le film se clôture avec des scènes de bataille extraordinaires .
</p><h2 id="les-ouroboros-de-lapprentissage-automatique"><span class="mw-headline" id="Les_ouroboros_de_l.27apprentissage_automatique">Les ouroboros de l'apprentissage automatique</span></h2><p>Wikipédia est devenue une source d'apprentissage non seulement pour les humains, mais aussi pour les machines. Ses articles sont des sources de premier ordre pour l’entraînement de modèles. Le matériel avec lequel les machines sont entraînées est identique au contenu qu'elles ont aidé à écrire. En fait, au début de Wikipédia, de nombreux articles ont été écrits par des robots. Rambot, par exemple, était un robot controversé sur la plateforme anglophone. Il est l'auteur de 98% des pages décrivant les villes américaines.
</p><p>A cause de ces interventions de robots thématiques et régulières, les modèles de prédiction qui sont entraînés sur le dump de Wikipedia ont une vision unique de la composition des articles. Par exemple, un modèle thématique entraîné sur l'ensemble des articles de Wikipédia associe 'rivière' à 'Roumanie' et 'village' à 'Turquie'. C'est parce qu'il y a plus de 10000 pages écrites sur les villages en Turquie. Cela devrait suffire à susciter des envies de voyage, mais c'est bien trop par rapport à d'autres pays. L'asymétrie provoque une fausse corrélation et doit être corrigée. La plupart des modèles tentent d'exclure le travail de ces auteurs robots prolifiques.
</p><p>Référence : <a class="external free" href="https://blog.lateral.io/2015/06/the-unknown-perils-of-mining-wikipedia/" rel="nofollow">https://blog.lateral.io/2015/06/the-unknown-perils-of-mining-wikipedia/</a>
</p></section></section>
<h3 id="lecteurs"><span class="mw-headline" id="Lecteurs">Lecteurs</span></h3>
<p>Nous communiquons avec les ordinateurs au moyens de langages. Nous cliquons sur des icônes sous forme de mots, nous tapons des mots sur des claviers, nous utilisons notre voix pour leur donner des instructions. Parfois, nous confions nos pensées les plus intimes à notre ordinateur en oubliant qu'il s'agit d’une calculatrice avancée. Un ordinateur comprend chaque mot comme une combinaison de zéros et de uns. Une lettre est lue comme un numéro ASCII spécifique : 'A' majuscule est 001.
</p><p>Dans tous les 'rule-based models', l'apprentissage automatique classique et les réseaux de neurones, les mots subissent une traduction en chiffres pour saisir le sens sémantique du langage. Cela se fait en comptant. Certains modèles comptent la fréquence des mots simples, d'autres la fréquence des combinaisons de mots, d'autres encore la fréquence des noms, des adjectifs, des verbes ou des phrases de noms et de verbes. Certains remplacent simplement les mots d'un texte par leur numéro d'index. Les nombres optimisent la vitesse opérationnelle des processus informatiques, ce qui conduit à des prédictions rapides, mais ils suppriment aussi les liens symboliques que les mots peuvent avoir. Nous présentons ici quelques techniques destinées à rendre un texte intelligible pour une machine.
</p>
<h5 id="oeuvres"><span class="mw-headline" id="Oeuvres_5">Oeuvres</span></h5>
<section class="group"><section class="lemma le-tf-idf works"><h3 class="lemmaheader" id="le-tf-idf">Le TF-IDF</h3><p>par Algolit
</p><p>Le TF-IDF (Term Frequency-Inverse Document Frequency) est une méthode de pondération utilisée dans la recherche de textes. Cette mesure statistique permet d'évaluer l'importance d'un terme contenu dans un document, relativement à une collection ou un corpus de documents. Le poids augmente proportionnellement au nombre d'occurrences du mot dans le document. Il varie également en fonction de la fréquence du mot dans le corpus. Le TF-IDF est notamment utilisé dans la classification des spams.
</p><p>Une interface web met en scène cet algorithme à travers des animations permettant de comprendre les différentes étapes de classification d’un texte. Comment un programme basé sur le TF-IDF lit un texte ? Comment transforme-t-il les mots en nombres ?
</p><p>---
</p><p>Concept, code, animation : Sarah Garcin
</p></section><section class="lemma cultiver-un-arbre works"><h3 class="lemmaheader" id="cultiver-un-arbre">Cultiver un Arbre</h3><p>par Algolit
</p><p>La nature de mots est une catégorie que nous apprenons à l'école : nom, verbe, adjectif, adverbe, pronom, préposition, conjonction, interjection, et parfois chiffre, article, ou déterminant.
Dans le traitement du langage naturel, il existe de nombreux écrits qui permettent d'analyser des phrases. Cela signifie que l'algorithme peut déterminer la nature de chaque mot d'une même phrase. 'Cultiver un arbre' utilise cette technique pour définir tous les noms dans une phrase spécifique. Chaque nom est alors remplacé par sa définition. Cela permet à la phrase de grandir de façon autonome et infinie. La recette de 'Cultiver un arbre' s'inspire de la <a class="external text" href="https://oulipo.net/fr/contraintes/litterature-definitionnelle" rel="nofollow">'Littérature Définitionnelle'</a>, une contrainte inventée par Marcel Benabou en 1966 au sein de l’<a class="external text" href="https://oulipo.net/" rel="nofollow">Oulipo</a>. Dans une phrase donnée, on remplace chaque élément significatif (nom, adjectif, verbe, adverbe) par l'une de ses définitions dans un dictionnaire donné ; on répète l'opération sur la nouvelle phrase reçue, et ainsi de suite.
</p><p>Le dictionnaire utilisé dans cet ouvrage est <a class="external text" href="https://wordnet.princeton.edu/" rel="nofollow">Wordnet</a>. Wordnet est une combinaison d'un dictionnaire et d'un thésaurus qui peut être lu par des machines. Selon Wikipédia, il a été créé dans le Cognitive Science Laboratory de l'Université de Princeton à partir de 1985.
</p><hr/><p>Concept, code &amp; interface : An Mertens &amp; Gijs de Heij
</p></section><section class="lemma le-livre-de-demain-dans-un-sac-de-mots works"><h3 class="lemmaheader" id="le-livre-de-demain-dans-un-sac-de-mots">Le Livre de Demain dans un Sac de Mots</h3><p>par Algolit
</p><p>Le modèle du 'sac de mots' est une représentation simplifiée du texte utilisé dans le traitement du langage naturel. Dans ce modèle, un texte est représenté sous forme de collection de mots uniques, sans tenir compte de la grammaire, de la ponctuation et même de l'ordre des mots. Le modèle transforme le texte en une liste de mots et leur occurrence dans le texte, littéralement un sac de mots.
</p><p>Cette forte réduction de la langue fut un choc au début de nos expériences en apprentissage automatique. Le sac de mots est souvent utilisé comme référent, sur base duquel le nouveau modèle doit s’efforcer d’être plus performant. Il peut comprendre le sujet d'un texte en reconnaissant les mots les plus fréquents ou importants. On mesure souvent les similitudes des textes en comparant leurs sacs de mots.
</p><p>Pour cet ouvrage, l'article 'Le Livre de Demain' de l'ingénieur G. Vander Haeghen, publié en 1907 dans le Bulletin de l'Institut International de Bibliographie, a été littéralement réduit à un sac de mots. VOus pouvez acheter votre exemplaire à l'accueil du Mundaneum.
</p><p>---
</p><p>Concept &amp; réalisation: An Mertens
</p></section><section class="lemma lectures-algorithmiques-du-portrait-parlé-de-bertillon works"><h3 class="lemmaheader" id="lectures-algorithmiques-du-portrait-parlé-de-bertillon">Lectures algorithmiques du portrait parlé de Bertillon</h3><p>par Guillaume Slizewicz (Espèces urbaines)
</p><p>'Un code télégraphique du portrait parlé', écrit en 1907, est une tentative de traduire en chiffres le 'portrait parlé', technique de description du visage créée par Alphonse Bertillon, créateur de l'anthropométrie judiciaire. En appliquant ce code, Otlet espérait que les visages des criminels et des fugitifs pourraient être facilement communiqués par voie télégraphique. Dans sa forme, son contenu et son ambition, ce texte représente la relation complexe que nous entretenons avec les technologies documentaires. Ce document a été choisi comme base pour la création des installations suivantes pour trois raisons.
</p><p>- Premièrement, ce texte est un algorithme en soi, un algorithme de compression, ou pour être plus précis, la présentation d'un algorithme de compression. Il tente de réduire la taille de l'information tout en la gardant lisible pour la personne possédant le code. À cet égard, elle est étroitement liée à la façon dont nous créons notre technologie, à la recherche d'une plus grande efficacité, de résultats plus rapides et de méthodes moins coûteuses. Il représente notre appétit de chiffrement qui s'étend au monde entier, notre envie de mesurer les plus petites choses, d'étiqueter les différences les plus infimes... Ce texte incarne en lui-même la vision du Mundaneum.
</p><p>- Deuxièmement, on y traite des raisons et des mises en œuvre de nos technologies. La présence de ce texte dans les archives sélectionnées est presque ironique à une époque où la reconnaissance faciale et la surveillance des données font la une des journaux. Ce texte présente les mêmes caractéristiques que certaines technologies d'aujourd'hui : il est motivé par un contrôle social, classifie les personnes, pose les bases d'une société de surveillance. Les caractéristiques physionomiques sont au cœur de récentes controverses : les photos d'identité ont été standardisées par Bertillon, elles sont maintenant utilisées pour entraîner des réseau neuronaux à identifier les criminels, les systèmes de reconnaissance faciale permettent des arrestations via notre infrastructure de caméras de surveillance et certains affirment que les caractéristiques physiques peuvent prédire l'orientation sexuelle.
</p><p>- Le dernier point concerne la façon dont, en tant que témoignage écrit, ce texte représente l'évolution de notre techno-structure: ce que nos outils nous permettent de faire, ce qu'ils nous interdisent, ce qu'ils entravent, ce qu'ils nous font retenir et ce qu'ils nous font oublier. Ce document permet une classification entre les personnes, et instaure une normalité. Il brise un continuum en morceaux, et permet les stigmatisations et les discriminations. D'un autre côté, ce document semble également obsolète aujourd'hui, car cette techno-structure n'a pas besoin de descriptions écrites aussi détaillées sur les fugitifs, les criminels ou les citoyens. Nous pouvons maintenant trouver des empreintes digitales, des scanners d'iris ou des informations ADN dans de grands jeux de données et les comparer directement. Parfois, les systèmes agissent indépendamment, sans surveillance humaine et reconnaissent directement l'identité d'une personne par ses traits faciaux ou sa démarche. Ces machines n'utilisent pas un langage alphabétique complexe pour décrire un visage, mais des listes de chiffres. Ainsi, tous les mots utilisés dans ce document semblent désuets, datés. Avons-nous oublié ce que certains d'entre eux signifient ? La photographie nous a-t-elle fait oublier comment décrire les visages ? Les assistants vocaux nous l'apprendront-il de nouveau ?
</p><p><i>Écrire avec Otlet</i>
</p><p>Ecrire avec Otlet est un générateur de personnages qui utilise le code du portrait parlé comme base de données. Des nombres aléatoires sont générés et traduits en un ensemble de caractéristiques humaines. En créant des instances uniques, l'algorithme révèle la richesse de la description qui est possible avec 'Un code du portrait' tout en incorporant ses nuances.
</p><p><i>Interprétation du portrait parlé de Bertillon</i>
</p><p>Ce travail établit un parallèle entre le système dit de "Bertillonage" et les systèmes actuels de description de visage. Une webcam associée à un algorithme de reconnaissance faciale capte le visage du spectateur et le traduit en chiffres sur un écran, en l'imprimant à côté des visages annotés par Bertillon.
</p></section><section class="lemma le-pendu works"><h3 class="lemmaheader" id="le-pendu">Le pendu</h3><p>par Laetitia Trozzi, étudiante Arts²/Section Arts Numériques
</p><p>Quoi de mieux pour découvrir Paul Otlet et sa passion pour la littérature que de jouer au pendu? À travers ce jeu simple, qui consiste à deviner les lettres manquantes dans un mot, le but est de faire découvrir au public des termes et des faits liés à un des créateurs du mundaneum.
</p><p>En utilisant un algorithme de détection de fréquence de mots dans un texte, une série de mots significatifs ont été isolés dans la bibliographie de Paul Otlet. Cette série de mots a ensuite été intégrée à un jeu du pendu présenté dans un terminal. La difficulté du jeu augmente graduellement en proposant au joueur des mots de plus en plus longs. Durant les phases de jeux, des informations sont affichées en lien avec la vie et l'œuvre de Paul Otlet.
</p></section></section>
<section class="group"><section class="lemma récits-contextualisés-autour-des-lecteurs works"><h3 class="lemmaheader" id="récits-contextualisés-autour-des-lecteurs">Récits contextualisés autour des Lecteurs</h3><p><br/>
Naive Bayes, Support Vector Machines ou Régression Linéaire sont considérés comme des algorithmes classiques d'apprentissage automatique. Ils fonctionnent bien lorsqu'ils apprennent avec de petits jeux de données. Mais ils nécessitent souvent des lecteurs complexes. La tâche accomplie par les lecteurs est également appelée 'feature engineering'. Cela signifie qu'un être humain doit consacrer du temps à une analyse exploratoire approfondie du jeu de données.
</p><p>Leurs caractéristiques peuvent être la fréquence des mots ou des lettres, mais aussi des éléments syntaxiques comme les noms, les adjectifs ou les verbes. Les caractéristiques les plus importantes pour la tâche à résoudre doivent être soigneusement sélectionnées et transmises à l'algorithme classique d'apprentissage automatique. Ce processus diffère de celui des réseaux de neurones. Lors de l'utilisation d'un réseau de neurones, il n'est pas nécessaire de recourir au 'feature engineering'. Les humains peuvent transmettre les données directement au réseau et obtiennent généralement de bonnes performances dès le départ. Cela permet d'économiser beaucoup de temps et de ressources.
</p><p>L'inconvénient de la collaboration avec les réseaux de neurones est que vous avez besoin de beaucoup plus de données pour entraîner votre modèle de prédiction. Pensez à au moins 1 Go de fichiers texte. Pour vous donner une référence, 1 A4, soit un fichier texte de 5000 caractères, ne pèse que 5 Ko. Il vous faudrait donc 8.589.934 pages. Traiter plus de données sous-entend d'avoir accès à ces données et surtout, d'avoir beaucoup plus de puissance de traitement.
</p><div class="toc" id="toc"><div id="toctitle"><h2 id="contents">Contents</h2></div>
<ul>
<li class="toclevel-1 tocsection-1"><a href="#Les_N-grammes_de_caract.C3.A8res_pour_la_reconnaissance_d.27un_auteur"><span class="tocnumber">1</span> <span class="toctext">Les N-grammes de caractères pour la reconnaissance d'un auteur</span></a></li>
<li class="toclevel-1 tocsection-2"><a href="#Histoire_des_N-grammes"><span class="tocnumber">2</span> <span class="toctext">Histoire des N-grammes</span></a></li>
<li class="toclevel-1 tocsection-3"><a href="#Dieu_dans_Google_Books"><span class="tocnumber">3</span> <span class="toctext">Dieu dans Google Books</span></a></li>
<li class="toclevel-1 tocsection-4"><a href="#Les_traits_grammaticaux_extraits_de_Twitter_influencent_le_march.C3.A9_boursier"><span class="tocnumber">4</span> <span class="toctext">Les traits grammaticaux extraits de Twitter influencent le marché boursier</span></a></li>
<li class="toclevel-1 tocsection-5"><a href="#Sac_de_mots"><span class="tocnumber">5</span> <span class="toctext">Sac de mots</span></a></li>
</ul>
</div><h2 id="les-n-grammes-de-caractères-pour-la-reconnaissance-dun-auteur"><span class="mw-headline" id="Les_N-grammes_de_caract.C3.A8res_pour_la_reconnaissance_d.27un_auteur">Les N-grammes de caractères pour la reconnaissance d'un auteur</span></h2><p>Imaginez... vous travaillez pour une entreprise depuis plus de dix ans. Vous avez écrit des tonnes de courriels, d'articles, de notes internes et de rapports sur des sujets et dans des genres très différents. Tous vos écrits, ainsi que ceux de vos collègues, sont sauvegardés en toute sécurité sur les serveurs de l'entreprise.
</p><p>Un jour, vous tombez amoureuse d'une collègue. Après un certain temps, vous réalisez que cette personne est non seulement folle et hystérique mais qu'elle dépend beaucoup de vous. Le jour où vous décidez de rompre, votre ex élabore un plan pour vous tuer. Elle réussit. Pas de chance. Une lettre de suicide signée de votre nom est retrouvée à côté de votre cadavre. Celle-ci raconte que vous avez décidé de mettre fin à votre vie à cause de problèmes émotionnels. Vos meilleurs amis ne croient pas au suicide. Ils décident de porter l'affaire devant les tribunaux. Et là, à partir des textes que vous et d'autres avez produits, un modèle d'apprentissage automatique révèle que la lettre de suicide a été écrite par quelqu'un d'autre.
</p><p>Comment une machine analyse-t-elle les textes pour vous identifier ? La caractéristique la plus robuste pour la reconnaissance de l'auteur est fournie par la technique des N-grammes de caractères. Elle est utilisée dans des cas qui présentent une grande variété dans les thématiques et les genres d’écriture. Lors de l'utilisation des N-grammes de caractères, les textes sont considérés comme des séquences de caractères. Considérons le trigramme des caractères. Toutes les séquences de trois caractères qui se chevauchent sont isolées. Par exemple, le trigramme de caractères de 'suicide', serait, 'sui', 'uic', 'ici', 'cid' et 'ide'. Les N-grammes de caractères sont très simples, ils sont indépendants du langage et tolérants au bruit. De plus, les fautes d'orthographe ne compromettent pas la technique.
</p><p>Les motifs trouvés avec les N-grammes de caractères se concentrent sur les choix stylistiques qui sont faits inconsciemment par l'auteur. Les modèles restent stables sur toute la longueur du texte, ce qui est important pour reconnaître l’auteur. D'autres types d'expériences pourraient inclure la longueur des mots ou des phrases, la richesse du vocabulaire, la fréquence des mots de fonction et même les mesures syntaxiques ou sémantiques.
</p><p>Cela signifie non seulement que votre empreinte physique est unique, mais qu’il en va de même de la façon dont vous composez vos pensées !
</p><p>La même technique n-gramme a découvert que 'The Cuckoo's Calling', un roman de Robert Galbraith, a en fait été écrit par... J.K. Rowling !
</p><p>Références :<br/>
- Essai: On the Robustness of Authorship Attribution Based on Character N-gram Features, Efstathios Stamatatos, in Journal of Law &amp; Policy, Volume 21, Issue 2, 2013. <br/>
- Article: <a class="external free" href="https://www.scientificamerican.com/article/how-a-computer-program-helped-show-jk-rowling-write-a-cuckoos-calling/" rel="nofollow">https://www.scientificamerican.com/article/how-a-computer-program-helped-show-jk-rowling-write-a-cuckoos-calling/</a>
</p><h2 id="histoire-des-n-grammes"><span class="mw-headline" id="Histoire_des_N-grammes">Histoire des N-grammes</span></h2><p>L'algorithme des N-grammes peut être retracé jusqu'aux travaux de Claude Shannon en théorie de l'information. Dans l'article 'A mathematical theory of communication', publié en 1948, Claude Shannon réalise la première instance d'un modèle de langage naturel à base des N-grammes. Il a posé la question suivante : étant donné la séquence des lettres, quelle est la probabilité de la prochaine lettre ?<br/>
Si vous lisez l'extrait suivant, pouvez-vous nous dire par qui il a été écrit ? Shakespeare ou un robot N-grammes ?
</p><p>SEBASTIEN : Dois-je rester debout jusqu'à la rupture.
BIRON : Cache ta tête.
VENTIDIUS : Il se rendit à Athènes, où, par le voeu. que j'ai fait pour m'occuper de toi.
FALSTAFF : Mon bon fripouille.
</p><p>Vous aviez peut-être deviné, en considérant le sujet de ce récit, qu'un algorithme N-grammes a généré ce texte. Le modèle est entraîné sur l'oeuvre complète de Shakespeare. Alors que les algorithmes plus récents, tels que les réseaux de neurones récursifs de CharRNN, deviennent célèbres pour leurs performances, les N-grammes exécutent encore beaucoup de tâches NLP. Elles sont utilisés dans la traduction automatique, la reconnaissance vocale, la correction orthographique, la détection d'entités, l'extraction d'informations, etc.
</p><p>Référence : <a class="external free" href="http://www.math.harvard.edu/~ctm/home/text/others/shannon/entropy/entropy.pdf" rel="nofollow">http://www.math.harvard.edu/~ctm/home/text/others/shannon/entropy/entropy.pdf</a>
</p><h2 id="dieu-dans-google-books"><span class="mw-headline" id="Dieu_dans_Google_Books">Dieu dans Google Books</span></h2><p>En 2006, Google crée un jeu de données de N-grammes à partir de sa collection de livres numérisés pour le mettre en ligne. Récemment, ils ont également réalisé une visionneuse de N-grammes. Cela a permis de nombreuses recherches sociolinguistiques. Par exemple, en octobre 2018, le New York Times Magazine a publié un article d'opinion intitulé 'It's Getting Harder to Talk About God'. L'auteur, Jonathan Merritt, avait analysé la mention du mot 'Dieu' dans le jeu de données de Google à l'aide du visualiseur de N-grammes.
Il a conclu qu'il y a eu un déclin dans l'usage du mot depuis le 20ème siècle. Le corpus de Google contient des textes du 16e jusqu'au 21e siècle. Cependant l'auteur a manqué d'observer la popularité croissante des revues scientifiques vers le début du 20ème siècle. Ce nouveau genre, dans lequel le mot Dieu n'apparaît pas, a fait basculer le jeu des données. Si la littérature scientifique était retirée du corpus, la fréquence du mot 'Dieu' s'écoulerait toujours comme l'ondulation douce d'une vague lointaine.
</p><p>Référence : <a class="external free" href="https://www.nytimes.com/2018/10/13/opinion/sunday/talk-god-sprituality-christian.html" rel="nofollow">https://www.nytimes.com/2018/10/13/opinion/sunday/talk-god-sprituality-christian.html</a>
</p><h2 id="les-traits-grammaticaux-extraits-de-twitter-influencent-le-marché-boursier"><span class="mw-headline" id="Les_traits_grammaticaux_extraits_de_Twitter_influencent_le_march.C3.A9_boursier">Les traits grammaticaux extraits de Twitter influencent le marché boursier</span></h2><p>Les frontières entre les disciplines académiques s'estompent. La recherche économique mélangée à la psychologie, aux sciences sociales, aux concepts cognitifs et émotionnels créent un nouveau sous-domaine économique, appelé 'l'économie comportementale'.
</p><p>Cela signifie que les chercheurs commencent à expliquer un mouvement boursier basé sur d'autres facteurs que les facteurs purement économiques. La Bourse et 'l'opinion publique' s'influencent mutuellement. De nombreuses recherches sont effectuées sur la façon d'utiliser 'l'opinion publique' pour prédire les tendances dans le cours des actions.
</p><p>'L'opinion publique' est évaluée à partir de grandes quantités de données publiques, comme les tweets, les blogs ou la presse en ligne. Des recherches montrent que l'évolution des cours boursiers peut, dans une certaine mesure, être prédit en examinant 'l'opinion publique' à travers l'analyse des données automatique. On trouve de nombreux articles scientifiques en ligne, qui analysent la presse sur le 'sentiment' qui y est exprimé. Un article peut être annoté comme plus ou moins positif ou négatif. Les articles de presse annotés sont ensuite utilisés pour entraîner un modèle d’apprentissage automatique, qui permet de prédire les tendances boursières, en les marquant comme 'à la baisse' ou 'à la hausse'. Quand une entreprise fait mauvaise presse, les traders vendent. Au contraire, si les nouvelles sont bonnes, ils achètent.
</p><p>Un article de Haikuan Liu de l'Université Nationale Australienne affirme que le temps des verbes utilisés dans les tweets peut être un indicateur de la fréquence des transactions financières. Son idée s'inspire du fait que la conjugaison des verbes est utilisée en psychologie pour détecter les premiers stades de la dépression humaine.
</p><p>Référence : Grammatical Feature Extraction and Analysis of Tweet Text: An Application towards Predicting Stock Trends, The Australian National University (ANU)
</p><h2 id="sac-de-mots"><span class="mw-headline" id="Sac_de_mots">Sac de mots</span></h2><p>Dans le traitement du langage naturel, le 'sac de mots' est considéré comme un modèle simple. Il dépouille un texte de son contexte et le décompose dans sa collection de mots uniques. Ensuite, ces mots sont comptés. Dans les phrases précédentes, par exemple, le mot 'mots' est mentionné trois fois, mais ce n'est pas nécessairement un indicateur de l'objet du texte.
</p><p>La première apparition de l'expression 'sac de mots' semble remonter à 1954. Zellig Harris a publié un article dans le contexte des études linguistiques, intitulé 'Distributional Structure'. Dans la partie intitulée 'Le sens en fonction de la distribution', il dit que 'le langage n'est pas seulement un sac de mots, mais aussi un outil aux propriétés particulières qui ont été façonnées au cours de son utilisation. Le travail du linguiste est précisément de découvrir ces propriétés, que ce soit pour l'analyse descriptive ou pour la synthèse du système quasi-linguistique.'
</p></section></section>
<h3 id="apprenants"><span class="mw-headline" id="Apprenants">Apprenants</span></h3>
<p>Les Apprenants sont les algorithmes qui distinguent les pratiques d'apprentissage automatique des autres pratiques algorithmiques. Les Apprenants sont aussi appelés classificateurs. Ce sont des chercheurs de motifs, capables de fouiller dans les données et de générer une sorte de 'grammaire' spécifique. Les Apprenants sont souvent basés sur des techniques statistiques. Chacun d'entre eux présente des caractéristiques individuelles. Certains ont besoin d'une grande quantité de données d'entraînement pour fonctionner, d'autres peuvent s'en tirer avec un petit jeu de données annotées. Certains s'acquittent bien de tâches de classification, comme l'identification des spam, d'autres sont plus aptes à prédire les chiffres, comme les températures, les distances, les valeurs boursières, et ainsi de suite.
</p><p>La terminologie de l'apprentissage automatique n'est pas encore complètement établie. Selon le domaine (les statistiques, l'informatique ou les sciences humaines) ils sont appelés par des mots différents. Lorsque nous parlons d’Apprenants, nous parlons des fonctions imbriquées qui ont la capacité de générer d'autres fonctions, de les évaluer et de les réajuster en fonction des données. Les Apprenants sont bons pour comprendre et révéler les motifs. Mais ils ne distinguent pas toujours bien quels motifs doivent être répétés.
</p><p>Dans les logiciels, il n'est pas toujours possible de distinguer les éléments caractéristiques des classificateurs, car ils sont cachés dans des modules ou bibliothèques sous-jacents. Les programmeurs peuvent les invoquer en utilisant une seule ligne de code. Par conséquent, pour cette exposition, nous avons développé deux jeux de table qui montrent en détail le processus d'apprentissage de classificateurs simples, mais fréquemment utilisés.
</p>
<h5 id="oeuvres"><span class="mw-headline" id="Oeuvres_6">Oeuvres</span></h5>
<section class="group"><section class="lemma jouez-au-naive-bayes works"><h3 class="lemmaheader" id="jouez-au-naive-bayes">Jouez au Naive Bayes</h3><p>par Algolit
</p><p>Dans l'apprentissage automatique, les méthodes Naive Bayes sont des classificateurs probabilistes simples qui sont largement utilisés pour filtrer le spam et décider si un texte est positif ou négatif.
</p><p>Ils nécessitent une petite quantité de données d'entraînement pour estimer les paramètres nécessaires. Ils peuvent être extrêmement rapides par rapport à des méthodes plus sophistiquées. Ils sont difficiles à généraliser, ce qui signifie qu'ils exécutent des tâches très spécifiques, exigeant d'être entraînés avec le même style de données que celui qui sera utilisé par la suite.
</p><p>Ce jeu vous permet de jouer selon les règles de Naive Bayes. Tout en exécutant manuellement le code, vous créez votre propre modèle ludique qui 'fonctionne'. Un peu de prudence s'impose : parce que vous ne l'entraînez qu'en 6 phrases - au lieu de 2000 au minimum - il n'est pas représentatif du tout !
</p><p>---
</p><p>Concept &amp; réalisation: An Mertens
</p></section><section class="lemma jouez-à-la-régression-linéaire works"><h3 class="lemmaheader" id="jouez-à-la-régression-linéaire">Jouez à la Régression Linéaire</h3><p>par Algolit
</p><p>La régression linéaire est l'un des algorithmes les plus connus et les mieux compris en statistique et en apprentissage automatique. Il existe depuis près de 200 ans. C'est un modèle attrayant parce que la représentation est très simple. En statistique, la régression linéaire est une méthode statistique qui permet de résumer et d'étudier les relations entre deux paramètres quantitatifs.
</p><p>En jouant à ce jeu, vous réaliserez qu'en tant que joueur, vous avez beaucoup de décisions à prendre. Vous découvrirez ce que signifie créer un jeu de données cohérent, de décider ce qu’il doit inclure. Si tout se passe bien, vous ressentirez le besoin de modifier vos données afin d'obtenir de meilleurs résultats. Cela fait partie de l'art de l'approximation qui est à la base de toutes les pratiques d'apprentissage automatique.
</p><hr/><p>Concept &amp; réalisation: An Mertens
</p></section><section class="lemma traité-de-documentation-trois-poèmes-algorithmiques works"><h3 class="lemmaheader" id="traité-de-documentation-trois-poèmes-algorithmiques">Traité de documentation. Trois poèmes algorithmiques</h3><p>par Rémi Forte, designer-chercheur à l’Atelier national de recherche typographique, Nancy, France
</p><p>sérigraphie sur papier, 60 × 80 cm, 25 ex., 2019, en vente à la réception du Mundaneum.
</p><p>Sous la forme de trois affiches, ces poèmes opèrent une relecture algorithmique et poétique du 'Traité de documentation' de Paul Otlet. Ils sont le résultat d’un même algorithme basé sur les règles mystérieuses de l'intuition humaine. Il est appliqué à trois fragments prélevés dans l’ouvrage de Paul Otlet et se veut représentatif de sa pratique bibliologique. Pour chaque fragment, l’algorithme découpe le texte, puis mots et signes de ponctuation sont comptabilisés et réordonnés en une liste. À chaque ligne, les éléments se combinent et épuisent la syntaxe du fragment sélectionné.
</p><p>Le langage de Paul Otlet reste perceptible mais exacerbé jusqu’à l’absurde. Pour le lecteur, la systématisation du texte est déconcertante et ses habitudes de lecture sont bousculées. Construite selon une équation mathématique, la composition typographique de l’affiche est tout aussi systématique que le poème. Cependant, des frictions surviennent ponctuellement ; boucle après boucle, les lignes s’étendent jusqu’à mordre la colonne voisine. Des superpositions se créent et des mots se trouvent dissimulés par d’autres. Ces télescopages dessinent des parcours de lecture alternatifs.
</p></section></section>
<section class="group"><section class="lemma récits-contextualisés-autour-des-apprenants works"><h3 class="lemmaheader" id="récits-contextualisés-autour-des-apprenants">Récits contextualisés autour des Apprenants</h3><div class="toc" id="toc"><div id="toctitle"><h2 id="contents">Contents</h2></div>
<ul>
<li class="toclevel-1 tocsection-1"><a href="#Naive_Bayes_.26_Viagra"><span class="tocnumber">1</span> <span class="toctext">Naive Bayes &amp; Viagra</span></a></li>
<li class="toclevel-1 tocsection-2"><a href="#Naive_Bayes_.26_Enigma"><span class="tocnumber">2</span> <span class="toctext">Naive Bayes &amp; Enigma</span></a></li>
<li class="toclevel-1 tocsection-3"><a href="#Une_histoire_sur_les_petits_pois"><span class="tocnumber">3</span> <span class="toctext">Une histoire sur les petits pois</span></a></li>
<li class="toclevel-1 tocsection-4"><a href="#Perceptron"><span class="tocnumber">4</span> <span class="toctext">Perceptron</span></a></li>
<li class="toclevel-1 tocsection-5"><a href="#BERT"><span class="tocnumber">5</span> <span class="toctext">BERT</span></a></li>
</ul>
</div><h2 id="naive-bayes--viagra"><span class="mw-headline" id="Naive_Bayes_.26_Viagra">Naive Bayes &amp; Viagra</span></h2><p>L'algorithme <a class="external text" href="https://fr.wikipedia.org/wiki/Classification_na%C3%AFve_bay%C3%A9sienne" rel="nofollow">Naive Bayes</a> est un Apprenant célèbre qui réussit bien avec peu de données. Nous l'appliquons tout le temps. Christian &amp; Griffiths affirment dans leur livre, <a class="external text" href="http://algorithmstoliveby.com/" rel="nofollow">'Algorithms to Live by'</a>, que 'nos jours sont remplis de petites données'. Imaginez par exemple que vous vous trouviez à un arrêt de bus dans une ville étrangère. L'autre personne qui se tient là attend depuis 7 minutes. Qu'est-ce que vous faites ? Décidez-vous d'attendre ? Et si oui, pour combien de temps ? Quand allez-vous envisager d'autres options ? Un autre exemple. Imaginez qu’un ami demande conseil sur une relation. Il est avec son nouveau partenaire depuis un mois. Doit-il l'inviter à l’accompagner à un mariage de famille ?
</p><p>Les croyances préexistantes sont cruciales pour que Naive Bayes fonctionne. L'idée est de calculer les probabilités sur base de ces connaissances préalables et d'une situation spécifique.
</p><p>Le théorème a été formulé dans les années 1740 par le révérend et mathématicien amateur <a class="external text" href="https://fr.wikipedia.org/wiki/Thomas_Bayes" rel="nofollow">Thomas Bayes</a>. Il a consacré sa vie à résoudre la question de savoir comment gagner à la loterie. Mais la règle de Bayes a été rendue célèbre dans sa forme actuelle par le mathématicien <a class="external text" href="https://fr.wikipedia.org/wiki/Pierre-Simon_de_Laplace" rel="nofollow">Pierre-Simon Laplace</a> en France un peu plus tard dans le même siècle. Longtemps après la mort de La Place, la théorie tombe dans l'oubli jusqu'à ce qu'elle soit à nouveau déterrée pendant la Seconde Guerre mondiale dans le but de briser le code Enigma.
</p><p>La plupart des personnes sont aujourd'hui entrées en contact avec Naive Bayes par le biais de leurs dossiers de courrier indésirable. Naive Bayes est un algorithme largement utilisé pour la détection du spam. C’est une coïncidence que le Viagra, médicament contre la dysfonction érectile, a été approuvé par la FDA (US Food &amp; Drug Administration) en 1997, au moment où environ 10 millions d'utilisateurs dans le monde avaient des comptes de messagerie Web gratuits. Les sociétés de vente avaient l’intelligence d'utiliser la publicité massive par e-mail : c'était un média intime, à l'époque réservé à la communication privée. En 2001, le premier programme <a class="external text" href="https://spamassassin.apache.org/" rel="nofollow">SpamAssasin</a> s'appuyant sur Naive Bayes a été téléchargé sur <a class="external text" href="https://sourceforge.net/" rel="nofollow">SourceForge</a>, réduisant ainsi le marketing 'guerilla par courriel'.
</p><p>Référence : Machine Learners, by Adrian MacKenzie, The MIT Press, Cambridge, US, November 2017.
</p><h2 id="naive-bayes--enigma"><span class="mw-headline" id="Naive_Bayes_.26_Enigma">Naive Bayes &amp; Enigma</span></h2><p>Cette histoire de Naive Bayes fait partie du livre '<a class="external text" href="https://yalebooks.yale.edu/book/9780300188226/theory-would-not-die" rel="nofollow">The theory that would not die</a>', écrit par Sharon Bertsch McGrayne. Elle décrit entre autres comment Naive Bayes est vite oubliée après la mort de <a class="external text" href="https://fr.wikipedia.org/wiki/Pierre-Simon_de_Laplace" rel="nofollow">Pierre-Simon Laplace</a>, son inventeur. Le mathématicien aurait échoué à créditer les travaux des autres. Par conséquent, il a souffert d’accusations largement diffusées contre sa réputation. Ce n'est que 150 ans plus tard que l'accusation s'est avérée fausse.
</p><p>Avançons en 1939, alors que le règne de Bayes demeure pratiquement tabou, mort et enterré dans le domaine de la statistique. Lorsque la France est occupée en 1940 par l'Allemagne, qui contrôle les usines et les fermes européennes, la plus grande inquiétude de Winston Churchill est le péril U-boot. Les opérations de sous-marin étaient étroitement contrôlées par le quartier général allemand en France. Chaque sous-marin partait en mer sans ordres, et les recevait sous forme de messages radio codés après avoir atteint l'Atlantique. Les messages étaient cryptés par des machines à brouiller les mots, appelées Enigma machines. <a class="external text" href="https://fr.wikipedia.org/wiki/Enigma_(machine)" rel="nofollow">Enigma</a> ressemblait à une machine à écrire compliquée. Elle est inventée par la société allemande Scherbius &amp; Ritter après la première guerre mondiale, lorsque le besoin de machines d'encodage de messages est devenu douloureusement évident.
</p><p>Curieusement, et heureusement pour Naive Bayes et le monde, à l'époque le gouvernement britannique et les systèmes d'éducation considéraient les mathématiques appliquées et les statistiques sans aucun rapport avec la résolution pratique des problèmes. Les données statistiques ont été jugées gênantes en raison de leur caractère détaillé. Ainsi, les données du temps de guerre étaient souvent analysées non pas par des statisticiens, mais par des biologistes, des physiciens et des mathématiciens théoriques. Aucun d'entre eux ne savait qu'en ce qui concerne les statistiques sophistiquées, la règle de Bayes était considérée non-scientifique.
</p><p>C'est le désormais célèbre <a class="external text" href="https://fr.wikipedia.org/wiki/Alan_Turing" rel="nofollow">Alan Turing</a>, mathématicien, informaticien, logicien, cryptanalyste, philosophe et biologiste théorique, qui a utilisé le système de probabilités des règles de Bayes pour concevoir la 'bombe'. Il s'agissait d'une machine électromécanique à grande vitesse pour tester tous les arrangements possibles qu'une machine Enigma produirait. Afin de déchiffrer les codes navals des U-boot, Turing simplifie le système de la 'bombe' en utilisant des méthodes baysiennes. La 'bombe' a transformé le quartier général du Royaume-Uni en une usine de décryptage. L'histoire est bien illustrée dans 'The Imitation Game', un film de Morten Tyldum, sorti en 2014.
</p><h2 id="une-histoire-sur-les-petits-pois"><span class="mw-headline" id="Une_histoire_sur_les_petits_pois">Une histoire sur les petits pois</span></h2><p>En statistique, la régression linéaire est une méthode d'apprentissage supervisé. Après l'entraînement avec des données annotées, le modèle tente de prédire les valeurs de nouvelles données inconnues. La régression linéaire permet de résumer et d'étudier les relations entre deux éléments, afin de voir s'il existe une corrélation entre eux. S'il y a une corrélation positive, la connaissance d'un élément aide à prédire l'autre. Par exemple, étant donné la critique d'un film, nous pouvons prédire le nombre moyen d'étoiles qui lui sont attribuées, plutôt que de simplement dire si la critique est positive ou négative.
</p><p>Parfois, les figures que nous rencontrons en grattant sous la surface ne sont pas à notre goût. L'idée de régression vient de <a class="external text" href="https://fr.wikipedia.org/wiki/Francis_Galton" rel="nofollow">Sir Francis Galton</a>, un scientifique influent du 19e siècle. Il a passé sa vie à étudier le problème de l'hérédité - pour comprendre à quel point les caractéristiques d'une génération d'êtres vivants se manifestent dans la génération suivante. Il a établi le domaine de l'eugénisme et l'a défini comme 'l'étude des organismes sous contrôle social qui peuvent améliorer ou altérer les qualités raciales des générations futures, que ce soit physiquement ou mentalement'. Par conséquent, son nom a marqué l'histoire et l'héritage du racisme scientifique.
</p><p>Galton a d'abord abordé le problème de l'hérédité en examinant les caractéristiques du petit pois doux. Il a choisi le petit pois parce que l'espèce peut s'auto-fertiliser. Les plantes femelles héritent des variations génétiques des plantes mères sans la contribution d'un deuxième parent. Cette caractéristique élimine la nécessité de traiter avec des sources multiples.
</p><p>En 1875, Galton a distribué des paquets de graines de petits pois à sept amis. Chaque ami recevait des graines de poids uniforme, mais il y avait des variations importantes d'un paquet à l'autre. Les amis de Galton ont récolté les graines des nouvelles générations de plantes et les lui ont rendues. Il a ensuite tracé le poids des graines femelles contre le poids des graines mères. Il a découvert que le poids médian des graines femelles d'une taille particulière de la semence mère décrivait approximativement une ligne droite avec une pente positive inférieure à 1,0. Les premières idées de Galton sur la régression sont nées de ce diagramme bidimensionnel qui compare la taille des petits pois femelles à celle des petits pois mères. Il a utilisé cette représentation de ses données pour illustrer les fondements de ce que les statisticiens appellent encore aujourd'hui la régression. Pour Galton, c'était aussi une façon de décrire les avantages de l'eugénisme.
</p><p>La recherche de Galton été appréciée par de nombreux intellectuels de son temps. En 1869, dans <a class="external text" href="http://galton.org/books/hereditary-genius/text/pdf/galton-1869-genius-v4.pdf" rel="nofollow">'Hereditary Genius'</a>, Galton affirme que le génie est principalement une question d'ascendance. Il croyait qu'il y avait une explication biologique à l'inégalité sociale entre les races. Galton a même persuadé son demi-cousin <a class="external text" href="https://fr.wikipedia.org/wiki/Charles_Darwin" rel="nofollow">Charles Darwin</a> de ses idées. Après avoir lu l'article de Galton, Darwin a déclaré : 'Vous avez converti un adversaire, car j'ai toujours soutenu qu'à l'exception des imbéciles, les hommes ne différaient pas beaucoup sur le plan intellectuel, seulement sur le plan du zèle et du labeur'. Heureusement, l'étude moderne de l'hérédité a réussi à éliminer le mythe de la différence génétique fondée sur la race.
</p><p>La raison pour laquelle nous l'évoquons dans cette série, c'est qu'il a été parmi les premiers scientifiques à utiliser des méthodes statistiques dans ses recherches. Sa principale contribution dans ce domaine a été l'analyse de régression linéaire, qui a fondé les bases d'une grande partie de la statistique moderne. Alors que nous nous engageons dans le domaine de l'apprentissage automatique, Algolit essaie de ne pas oublier que les systèmes d'ordre ont du pouvoir, et que ce pouvoir n'a pas toujours été exercé au bénéfice de tout le monde. L'apprentissage automatique a hérité de nombreux aspects de la recherche statistique, certains plus agréables que d'autres. Nous devons nous méfier, car ces visions du monde s'infiltrent dans les modèles algorithmiques qui créent des ordres aujourd'hui.
</p><p>Références :
</p><p><a class="external free" href="http://galton.org/letters/darwin/correspondence.htm" rel="nofollow">http://galton.org/letters/darwin/correspondence.htm</a>
</p><p><a class="external free" href="https://www.tandfonline.com/doi/full/10.1080/10691898.2001.11910537" rel="nofollow">https://www.tandfonline.com/doi/full/10.1080/10691898.2001.11910537</a>
</p><p><a class="external free" href="http://www.paramoulipist.be/?p=1693" rel="nofollow">http://www.paramoulipist.be/?p=1693</a>
</p><h2 id="perceptron"><span class="mw-headline" id="Perceptron">Perceptron</span></h2><p>Nous nous trouvons dans une décennie où les réseaux de neurones suscitent beaucoup d'attention. Cela n'a pas toujours été le cas. L'étude des réseaux de neurones remonte aux années 1940, lorsque la première métaphore des neurones est apparue. Le neurone n'est pas la seule référence biologique dans le domaine de l'apprentissage automatique - pensez au mot corpus ou formation. Le neurone artificiel a été construit en relation étroite avec son homologue biologique.
</p><p>Le psychologue <a class="external text" href="https://fr.wikipedia.org/wiki/Frank_Rosenblatt" rel="nofollow">Frank Rosenblatt</a> s'est inspiré des travaux de son collègue <a class="external text" href="https://fr.wikipedia.org/wiki/Donald_Hebb" rel="nofollow">Donald Hebb</a> sur le rôle des neurones dans l'apprentissage humain. Hebb a déclaré que 'les cellules qui communiquent, se mettent ensemble.' Sa théorie est maintenant à la base de l'apprentissage associatif humain, mais aussi de l'apprentissage en réseau de neurones non supervisé. Il a poussé Rosenblatt à développer l'idée du neurone artificiel. En 1962, il crée le Perceptron. Le Perceptron est un modèle qui apprend par la pondération des entrées.
</p><p>Il a été mis de côté par les chercheurs, parce qu'il ne peut gérer que la classification binaire. Cela signifie que les données doivent être séparables linéairement, comme par exemple hommes et femmes, noir et blanc. Il est clair que ce type de données est très rare dans le monde réel. Lorsque le soi-disant premier hiver de l'Intelligence Artificielle (IA) est arrivé en 1974-1980 et que le financement consacré à cette recherche a diminué, le Perceptron a également été négligé. Pendant 10 ans, il est resté inactif. Lorsque le printemps s'installe à la fin des années 1980, de nouvelles générations de chercheurs le reprennent et l'utilisent pour construire des réseaux de neurones. Ceux-ci contiennent de multiples couches de Perceptrons. C'est ainsi que les réseaux de neurones voient la lumière. On pourrait dire que cette saison d'apprentissage automatique est particulièrement chaude, mais il faut un autre hiver pour connaître un été.
</p><h2 id="bert"><span class="mw-headline" id="BERT">BERT</span></h2><p>Certains articles en ligne disent que l'année 2018 a marqué un tournant dans le domaine du traitement du langage naturel. Une série de modèles de 'deep learning' ont permis d'obtenir des résultats excellents pour des tâches comme les réponses aux questions ou la classification des sentiments. L'algorithme BERT de Google est entré dans les concours d'apprentissage automatique de l'année dernière comme un 'modèle gagnant'. Il témoigne d’une performance supérieure sur une grande variété de tâches.
</p><p>BERT est pré-entraîné; ses poids sont appris à l'avance grâce à deux tâches non supervisées. Cela signifie que BERT n'a pas besoin d'être entraîné à partir de zero pour chaque nouvelle tâche. Vous n'avez qu'à affiner ses poids.
</p><p>Cela signifie également qu'un programmeur souhaitant utiliser BERT ne sait plus sur quels paramètres BERT est réglé, ni à base de quelles données il a appris ses performances.
</p><p>BERT signifie 'Bidirectional Encoder Representations from Transformers'. Cela signifie que BERT permet un entraînement bidirectionnel. Le modèle apprend le contexte d'un mot à partir de son environnement, à gauche et à droite d'un mot. En tant que tel, il peut faire la différence entre 'Je suis pile à l’heure' et 'Je l’ai mis sur la pile'.
</p><p>Quelques faits :
</p><p>- BERT_large, avec 345 millions de paramètres, est le plus grand modèle du genre. Il est manifestement supérieur à BERT_base, qui utilise la même architecture avec 'seulement' 110 millions de paramètres, pour les tâches à petite échelle.
</p><p>- Pour exécuter BERT, vous devez utiliser les TPU. Ce sont les processeurs (CPU) de Google spécialement conçus pour TensorFLow, la plateforme de 'deep learning'. Les tarifs de location de TPU vont de de 8$/h à 394$/h. Si vous êtes comme nous, et vous ne voulez pas travailler avec des sollutions prêtes à l'emploi, et vous souhaitez ouvrir la boîte noire, BERT exige de faire des économies pour pouvoir l’utiliser.
</p><p>Références :
</p><p><a class="external free" href="https://ai.googleblog.com/2018/11/open-sourcing-bert-state-of-art-pre.html" rel="nofollow">https://ai.googleblog.com/2018/11/open-sourcing-bert-state-of-art-pre.html</a>
</p><p><a class="external free" href="https://towardsdatascience.com/deconstructing-bert-distilling-6-patterns-from-100-million-parameters-b49113672f77" rel="nofollow">https://towardsdatascience.com/deconstructing-bert-distilling-6-patterns-from-100-million-parameters-b49113672f77</a>
</p></section></section>
<h2 id="glossaire"><span class="mw-headline" id="Glossaire">Glossaire</span></h2>
<p>Vous trouverez ci-dessous un glossaire non-exhaustif reprenant des termes fréquemment utilisés dans l'exposition. Il est conçu comme une aide pour les visiteurs connaissant peu le vocabulaire lié au domaine du traitement des langues naturelles (NLP), Algolit ou le Mundaneum.
</p><p><b>* Algolit:</b> un groupe bruxellois spécialisé dans la recherche artistique sur les algorithmes et la littérature. Chaque mois, le groupe se réunit pour expérimenter avec du code et des textes publiés sous licences libres. <a class="external free" href="http://www.algolit.net" rel="nofollow">http://www.algolit.net</a>
</p><p><b>* Algolittéraire:</b> terme inventé par Algolit pour des oeuvres qui explorent le point de vue du conteur algorithmique. Quelles nouvelles formes de narration rendons-nous possibles en dialoguant avec les algorithmes ?
</p><p><b>* Algorithme:</b> Un ensemble d'instructions dans un langage de programmation spécifique, qui permettent de produire un résultat (output) à partir de données (inputs).
</p><p><b>* Annotation:</b> Le processus d'annotation est une étape cruciale de l'apprentissage automatique supervisé durant laquelle l'algorithme reçoit des exemples de ce qu'il doit apprendre. Un filtre anti-spam sera alimenté d'exemples de messages spams et de messages réels. Ces exemples consistent en un message, l'entrée, accompagné d'une étiquette : spam ou non spam. L'annotation d'un jeu de données est un travail exécuté par des humains, qui choisissent une étiquette pour chaque élément du jeu de données. Pour assurer la qualité des étiquettes, plusieurs annotateurs doivent voir le même élément, la même entrée, et donner la même étiquette avant qu'un exemple ne soit inclus dans les données d'entraînement.
</p><p><b>* Apprentissage automatique ou machine learning:</b> Modèles algorithmiques basés sur la statistique, principalement utilisés pour analyser et prédire des situations à partir de cas existants. Dans cette exposition, nous nous concentrons sur les modèles d'apprentissage automatique pour le traitement de texte ou le traitement du langage naturel (voir NLP). Ces modèles ont appris à effectuer une tâche spécifique sur la base de textes existants. Ils sont utilisés par les moteurs de recherche, les traductions automatiques, et permettent de générer des résumés et de repérer les tendances sur les réseaux sociaux et des fils d’actualité. Ils influencent ce que l'on voit en tant qu'utilisateur, mais ont aussi leur mot à dire dans les fluctuations du cours des bourses mondiales ou dans la détection de la cybercriminalité et du vandalisme.
</p><p><b>* Apprentissage automatique classique:</b> Naive Bayes, Support Vector Machines ou Régression Linéaire sont considérés comme des algorithmes classiques d'apprentissage automatique. Ils fonctionnent bien lorsqu'ils apprennent avec de petits jeux de données. Mais ils nécessitent souvent des lecteurs complexes. La tâche accomplie par les lecteurs est également appelée 'feature engineering' (voir ci-dessous). Cela signifie qu'un être humain doit consacrer du temps à une analyse exploratoire approfondie du jeu de données.
</p><p><b>* Bag of Words:</b> Le modèle du sac de mots est une représentation simplifiée du texte utilisé dans le traitement du langage naturel. Dans ce modèle, un texte est représenté sous la forme d'une collection de mots uniques, sans tenir compte de la grammaire, de la ponctuation ni même de leur ordre dans le texte. Ce modèle transforme un texte en une liste de mots associés à leur fréquence : littéralement un sac de mots. Le sac de mots est souvent utilisé comme référence, c'est sur cette base qu'on évaluera la performance d'un nouveau modèle.
</p><p><b>* Chaîne de Markov:</b> Algorithme qui scanne un texte à la recherche de la probabilité de transition d'occurrences de lettres ou de mots, ce qui donne des tables de probabilité de transition qui peuvent être calculées sans aucune compréhension sémantique ou grammaticale du langage naturel. Cet algorithme peut être utilisé pour analyser des textes, mais aussi pour les recombiner. Il est largement utilisé pour la génération de spam.
</p><p><b>* Constant:</b> Constant est une association sans but lucratif d’artistes autogérés, basée à Bruxelles depuis 1997 et active dans les domaines de l’art, des médias et de la technologie. Algolit est né en 2012 comme un projet de Constant. <a class="external free" href="http://constantvzw.org" rel="nofollow">http://constantvzw.org</a>
</p><p><b>* Data Workers:</b> Intelligences artificielles développées pour servir, divertir, enregistrer et connaître les humains. Le travail de ces entités machiniques est généralement dissimulé derrière des interfaces et des brevets. Dans l'exposition, les conteurs algorithmiques quittent leur monde souterrain invisible pour devenir nos interlocuteurs.
</p><p><b>* Données d’entraînement:</b> Les algorithmes d'apprentissage automatique ont besoin d'être guidés. Pour séparer une chose d'une autre, faire des distinctions, ils ont besoin de motifs. Ils les trouvent dans les textes qui leur sont donnés, les données d’entraînement. L'être humain doit choisir avec soin un matériel d’entraînement adapté à la tâche de la machine. Il n'est pas logique d’entraîner une machine avec des romans du 19ème siècle si sa mission est d'analyser des Tweets.
</p><p><b>* Dump:</b> Terme anglais signifiant ‘dépôt, décharge, déverser massivement’. En informatique, le terme dump désigne généralement une copie brute d’une base de données; par exemple pour effectuer une sauvegarde de données ou pour les utiliser ailleurs. Les dumps sont souvent publiées par des projets de logiciels libres et de contenu libre, tels que Wikipédia, pour permettre la réutilisation ou la dérivation(fork) de la base de données.
</p><p><b>* Feature engineering:</b> Processus utilisant la connaissance du domaine des données pour créer les caractéristiques qui font fonctionner les algorithmes d'apprentissage machine. En d'autres termes, un être humain doit consacrer du temps à une analyse exploratoire approfondie du jeu de données, afin d'en définir les principales caractéristiques. Ces caractéristiques peuvent être la fréquence des mots ou des lettres, mais aussi des éléments syntaxiques comme les noms, les adjectifs ou les verbes. Les caractéristiques les plus importantes pour la tâche à résoudre doivent être soigneusement sélectionnées pour être transmises à un algorithme classique d'apprentissage automatique.
</p><p><b>* FLOSS ou Logiciels Libres et Open Source:</b> Un logiciel libre est un logiciel dont l'utilisation, l'étude, la modification et la duplication par autrui en vue de sa diffusion sont permises, techniquement et légalement, ceci afin de garantir certaines libertés induites, dont le contrôle du programme par l'utilisateur et la possibilité de partage entre individus. Ces droits peuvent être simplement disponibles – cas du domaine public – ou bien établis par une licence, dite 'libre', basée sur le droit d'auteur. Les 'licences copyleft' garantissent le maintien de ces droits aux utilisateurs même pour les travaux dérivés. Les logiciels libres constituent une alternative à ceux qui ne le sont pas, qualifiés de 'propriétaires' ou de 'privateurs'. (Wikipedia)
</p><p><b>* git:</b> un système logiciel permettant de suivre les changements dans le code source pendant le développement d'un logiciel. Il est conçu pour coordonner le travail des programmeurs, mais il peut être utilisé pour suivre les changements dans n'importe quel ensemble de fichiers. Avant d’initier un nouveau projet, les programmeurs créent un ‘dépôt git’ dans lequel ils publieront toutes les parties du code. Les dépôts git d’Algolit se trouvent ici: <a class="external free" href="https://gitlab.constantvzw.org/algolit" rel="nofollow">https://gitlab.constantvzw.org/algolit</a>.
</p><p><b>* gutenberg.org:</b> Le projet Gutenberg est une bibliothèque de versions électroniques libres de livres physiquement existants. Les textes fournis sont essentiellement du domaine public, soit parce qu'ils n'ont jamais été sujets à des droits d'auteur soit parce que ces derniers sont expirés. Le projet fut lancé par Michael Hart en 1971 et nommé en hommage à l'imprimeur allemand du XVe siècle Johannes Gutenberg. (Wikipedia)
</p><p><b>* Henri La Fontaine:</b> Henri La Fontaine (1854-1943) est un homme politique, féministe et pacifiste belge. Il reçoit le Prix Nobel de la paix en 1913 en raison de son engagement au sein du Bureau International de la Paix et de sa contribution à l'organisation du mouvement pacifiste. En 1895, ensemble avec Paul Otlet, il créent ensemble l'Institut international de bibliographie qui deviendra le Mundaneum. Au sein de cette institution, qui visait à rassembler l'ensemble des connaissances du monde, il contribue à mettre au point le système de Classification décimale universelle (CDU).
</p><p><b>* IA ou intelligences artificielles:</b> L'intelligence artificielle (IA) est 'l'ensemble des théories et des techniques mises en œuvre en vue de réaliser des machines capables de simuler l'intelligence. Elle correspond donc à un ensemble de concepts et de technologies plus qu'à une discipline autonome constituée. D'autres, remarquant la définition peu précise de l'IA, notamment la CNIL, la définissent comme ‘le grand mythe de notre temps'. (Wikipedia)
</p><p><b>* Kaggle:</b> Plateforme en ligne où les utilisateurs trouvent et publient des ensembles de données, explorent et construisent des modèles d'apprentissage automatique, collaborent avec d'autres et participent à des concours pour relever des défis. Environ un demi-million d’utilisateurs sont actifs sur Kaggle. Kaggle a été fondée par Goldbloom et Ben Hamner en 2010 et acquise par Google en mars 2017.
</p><p><b>* Langage naturel:</b> Selon Wikipédia, 'Une langue dite « naturelle » est une langue qui s'est formée petit à petit, évoluant avec le temps, et qui fait partie du langage naturel. Son origine est bien souvent floue et peut être retracée plus ou moins clairement par la linguistique comparée. On oppose les langues naturelles - comme le français - aux langues construites comme le langage de programmation ou l'espéranto, formées intentionnellement par l’entremise de l’homme pour remplir un besoin précis.'
</p><p><b>* Littérature:</b> Algolit comprend la notion de littérature comme beaucoup d'autres auteurs expérimentaux : elle inclut toute la production linguistique, du dictionnaire à la Bible, de l'œuvre entière de Virginia Woolf à toutes les versions des Conditions d'utilisation publiées par Google depuis son existence. En ce sens, le code de programmation peut aussi être de la littérature.
</p><p><b>* Mechanical Turk:</b> Le Mechanical Turk d’Amazon est une plateforme en ligne à destination des humains conçue pour exécuter des tâches que les algorithmes ne parviennent pas à faire. Il peut s'agir, par exemple, d'annoter des phrases comme étant positives ou négatives, de repérer des plaques d'immatriculation, de reconnaître des visages. Les annonces que l'on trouve sur cette plateforme sont souvent rémunérés moins d'un centime par tâche. Les tâches les plus complexes ou nécessitant le plus de connaissances peuvent être payées jusqu'à plusieurs centimes. De nombreux chercheurs universitaires utilisent le Mechanical Turk pour des tâches qui auraient été exécutées par des étudiants auparavant.
</p><p><b>* Modèles d’apprentissage automatique supervisé:</b> Pour la création de modèles d'apprentissage automatique supervisés, les humains annotent les échantillons d'entraînement avant de les envoyer à la machine. Chaque texte est jugé par au moins 3 humains: par exemple, s’il s’agit de spam ou non, s’il est positif ou négatif.
</p><p><b>* Modèles d’apprentissage automatique non-supervisé:</b> Les modèles d'apprentissage automatique non supervisés n'ont pas besoin de l’étape d’annotations des données par des humains. Par contre, ils nécessitent de grandes quantités de données pour s’entraîner.
</p><p><b>* Mundaneum:</b> À la fin du 19ème siècle, deux jeunes juristes belges, Paul Otlet (1868-1944), 'père de la documentation', et Henri La Fontaine (1854-1943), homme d'État et prix Nobel de la paix, créent le Mundaneum. Le projet vise à rassembler toute la connaissance du monde et à la classer à l'aide du système de Classification décimale universelle (UDC) qu'ils inventent.
</p><p><b>* Natural Language Processing (NLP):</b> Le traitement du langage naturel (NLP) est un terme collectif qui désigne le traitement informatique automatique des langues humaines. Cela comprend les algorithmes utilisant, comme données, du texte produit par l'homme et qui tentent de le reproduire.
</p><p><b>* N-grammes de caractères:</b> une technique utilisée pour la reconnaissance de la paternité d’une oeuvre. Lors de l'utilisation des N-grammes de caractères, les textes sont considérés comme des séquences de caractères. Considérons le trigramme des caractères. Toutes les séquences de trois caractères qui se chevauchent sont isolées. Par exemple, le trigramme de caractères de suicide', serait, 'Sui,' uic', uic', 'ici', 'cid', etc. Les motifs trouvés avec les N-grammes de caractères se concentrent sur les choix stylistiques qui sont faits inconsciemment par l'auteur. Ces modèles restent stables sur toute la longueur du texte.
</p><p><b>* Oracle:</b> Les Oracles sont un type particulier de modèles algorithmiques souvent basés sur la statistique, qui servent à prédire des situations particulières ou à profiler des habitudes d’usagers. Elles sont largement utilisés dans les smartphones, les ordinateurs et les tablettes.
</p><p><b>* Oulipo:</b> Le collectif Oulipo, acronyme d'Ouvroir de Littérature Potentielle, est une grande source d'inspiration pour Algolit. Oulipo a été créé à Paris par les écrivains Raymond Queneau et François Le Lionnais. Ils ont ancré leur pratique dans l'avant-garde européenne du XXe siècle et dans la tradition expérimentale des années 60. Pour Oulipo, la création de règles devient la condition permettant de générer de nouveaux textes, ou ce qu'ils appellent la littérature potentielle. Plus tard, en 1981, ils ont également créé ALAMO - Atelier de Littérature Assistée par la Mathématique et les Ordinateurs.
</p><p><b>* Paul Otlet:</b> Paul Otlet (1868 - 1944) était un auteur, entrepreneur, visionnaire, avocat et militant pour la paix belge ; il est l'une des nombreuses personnes qui ont été considérées comme le père des sciences de l'information, un domaine qu'il a appelé ‘la documentation’. Otlet a créé la Classification décimale universelle, qui s'est répandue dans les bibliothèques. Avec Henri La Fontaine, il crée le Palais Mondial, qui devient le Mundaneum, pour abriter les collections et les activités de leurs différents organismes et instituts.
</p><p><b>* Python:</b> le principal langage de programmation utilisé dans le monde entier pour le traitement du langage, inventé en 1991 par le programmeur néerlandais Guido Van Rossum.
</p><p><b>* Reconnaissance optique de caractères (ROC)</b>: en anglais optical character recognition (OCR), ou océrisation, désigne les procédés informatiques permettant la traduction d'images de textes scannés en fichiers de texte manipulables.
</p><p><b>* Réseaux de neurones:</b> Systèmes informatiques inspirés des réseaux neuronaux biologiques trouvés dans le cerveau des animaux. Un réseau de neurone n'est pas un algorithme, mais plutôt un cadre dans lequel de nombreux algorithmes d'apprentissage machine différents travaillent ensemble et traitent des données complexes. De tels systèmes ‘apprennent’ à exécuter des tâches en observant des exemples, généralement sans être programmés à priori avec des règles spécifiques. Par exemple, un algorithme de reconnaissance de chat apprendra à identifier les images qui contiennent des chats en observant des images qui ont été étiquetées manuellement comme ‘chat’ ou ‘pas chat’. Il utilisera ces exemple pour générer ce qu'il considère être un chat et pourra identifier les chats dans d'autres images. Il le fera sans aucune connaissance préalable sur les chats. Il générera automatiquement ses propres caractéristiques d'identification à partir du matériel d'apprentissage qui lui est donné.
</p><p><b>* Rule-Based models:</b> Les Oracles peuvent être créés à l'aide de différentes techniques. L’une d’entre elles consiste à définir manuellement les règles. Ces modèles sont appelés 'rule-based models' (modèles basés sur des règles), et se situent à l’opposé des modèles statistiques. Ils sont utiles pour des tâches spécifiques, comme par exemple, la détection de la mention d'une certaine molécule dans un article scientifique. Ils sont performants, même avec très peu de données d'entraînement.
</p><p><b>* Sentiment analysis:</b> Également appelé 'opinion mining' (sondage d'opinion). Une tâche fondamentale de l'analyse des sentiments consiste à classer un texte donné comme positif, négatif ou neutre. La classification avancée des sentiments 'au-delà de la polarité' examine, par exemple, les états émotionnels tels que 'en colère', 'triste' et 'heureux'. L'analyse du sentiment est largement appliquée aux actions des utilisateurs tels que les critiques et les réponses aux enquêtes, les commentaires et les messages sur les médias sociaux, et les documents de santé. Elle est intégrée dans des applications qui vont du marketing au service à la clientèle, des transactions boursières à la médecine clinique.
</p><p><b>* TF-IDF (Term Frequency-Inverse Document Frequency):</b> Une méthode de pondération utilisée dans la recherche de textes. Cette mesure statistique permet d'évaluer l'importance d'un terme contenu dans un document, relativement à une collection ou un corpus de textes. Le poids augmente proportionnellement au nombre d'occurrences du mot dans le document. Il varie également en fonction de la fréquence du mot dans le corpus. Le TF-IDF est notamment utilisé dans la classification des spams.
</p><p><b>* 'Word embeddings':</b> Techniques de modélisation du langage qui, par de multiples opérations mathématiques, tracent des mots dans un espace vectoriel multidimensionnel. Lorsque les mots sont 'embedded' ou intégrés, ils se transforment de symboles distincts en objets mathématiques, qui peuvent être multipliés, divisés, ajoutés ou soustraits.
</p><p><b>* Wordnet:</b> Wordnet est une combinaison d'un dictionnaire et d'un thésaurus qui peut être lu par des machines. Selon Wikipédia, il a été créé dans le Cognitive Science Laboratory de l'Université de Princeton à partir de 1985.
</p>
<!--
NewPP limit report
Cached time: 20190323152119
Cache expiry: 86400
Dynamic content: false
CPU time usage: 0.060 seconds
Real time usage: 0.060 seconds
Preprocessor visited node count: 63/1000000
Preprocessor generated node count: 68/1000000
Post‐expand include size: 0/2097152 bytes
Template argument size: 0/2097152 bytes
Highest expansion depth: 2/40
Expensive parser function count: 0/100
-->
<!--
Transclusion expansion time report (%,ms,calls,template)
100.00% 0.000 1 - -total
-->
<!-- Saved in parser cache with key algolit-mw_:pcache:idhash:2864-1!*!0!!*!*!* and timestamp 20190323152119 and revision id 11613
-->
</section></body>
</html>