Files for the publication & poster for Data Workers, an exhibition by Algolit. http://www.algolit.net/index.php/Data_Workers
You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
 
 

3920 lines
379 KiB

data workers write, perform, clean, inform, read and learn data workers write, perform, clean, inform, read
nd learn data workers write, perform, clean, inform, read and learn data workers write, perform, clean,
nform, read and learn data workers write, perform, clean, inform, read and learn data workers write,
perform, clean, inform, read and learn data workers write, perform, clean, inform, read and learn
data workers write, perform, clean, inform, read and learn data workers write, perform, clean, infor
, read and learn data workers write, perform, clean, inform, read and learn data workers w
ite, perform, clean, inform, read and learn data workers write, perform, clean, inform, read and l
arn data workers write, perform, clean, inform, read and learn data workers write, p
rform, clean, inform, read and learn data workers write, perform, clean, inform, read and learn
data workers write, perform, clean, inform, read and learn data workers write,
perform, clean, inform, read and learn data workers write, perform, clean, inform, read and
earn data workers write, perform, clean, inform, read and learn data wor
ers write, perform, clean, inform, read and learn data workers write, perform, clean, inf
rm, read and learn data workers write, perform, clean, inform, read and learn
data workers write, perform, clean, inform, read and learn data workers wri
e, perform, clean, inform, read and learn data workers write, perform, clean, inform,
read and learn data workers write, perform, clean, inform, read and learn
data workers write, perform, clean, inform, read and learn data wor
ers write, perform, clean, inform, read and learn data workers write, perform, cl
an, inform, read and learn data workers write, perform, clean, inform, read and
earn data workers write, perform, clean, inform, read and learn
data workers write, perform, clean, inform, read and learn dat
workers write, perform, clean, inform, read and learn data workers write, p
rform, clean, inform, read and learn data workers write, perform, clean, in
orm, read and learn data workers write, perform, clean, inform, read and l
arn data workers write, perform, clean, inform, read and learn
data workers write, perform, clean, inform, read and learn
data workers write, perform, clean, inform, read and learn
data workers write, perform, clean, inform, read and learn data work
rs write, perform, clean, inform, read and learn data workers write,
perform, clean, inform, read and learn data workers write, perform,
clean, inform, read and learn data workers write, perform, clean,
nform, read and learn data workers write, perform, clean, inform,
read and learn data workers write, perform, clean, inform, read
nd learn data workers write, perform, clean, inform, read and l
arn data workers write, perform, clean, inform, read and learn
data workers write, perform, clean, inform, read and learn
data workers write, perform, clean, inform, read and learn
data workers write, perform, clean, inform, read and learn
data workers write, perform, clean, inform, read and learn
data workers write, perform, clean, inform, read and learn
data workers write, perform, clean, inform, read and learn
data workers write, perform, clean, inform, read and learn
data workers write, perform, clean, inform, read and l
arn data workers write, perform, clean, inform, read
nd learn data workers write, perform, clean, inform,
read and learn data workers write, perform, clean,
nform, read and learn data workers write, perform,
clean, inform, read and learn data workers write,
perform, clean, inform, read and learn data work
rs write, perform, clean, inform, read and learn
data workers write, perform, clean, inform, read and learn
data workers write, perform, clean, inform, read and learn
data workers write, perform, clean, inform, read and learn
data workers write, perform, clean, inform, read and learn
What
can
humans learn from humans
humans learn with machines
machines learn from machines
machines learn with humans
humans learn from machines
machines learn with machines
machines learn from humans
humans learn with humans
? ? ?
Data Workers, une exposition au Mundaneum à Mons du 28 mars au 28 avril 2019.
0123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345678
9 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234567
89 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456
789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345
6789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234
56789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123
456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12
3456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1
23456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789
123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789
123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345678
9 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234567
89 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456
789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345
6789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234
56789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123
456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12
3456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1
23456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789
123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789
123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345678
9 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234567
89 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456
789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345
6789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234
56789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123
456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12
3456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1
23456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789
123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789
123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345678
9 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234567
89 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456
789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345
6789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234
56789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123
456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12
3456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1
23456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789
123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789
123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345678
9 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234567
89 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456
789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345
6789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234
56789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123
456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12
3456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1
23456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789
123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789
123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345678
9 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234567
89 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456
789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345
6789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234
56789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123
456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12
3456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1
23456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789
123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789
123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345678
9 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234567
89 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456
789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345
6789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234
56789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123
456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12
3456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1
23456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789
2
Á PROPOS AU MUNDANEUM
Data Workers est une exposition d'œuvres algolittéraires,visible À la fin du 19ème siècle, deux jeunes
au Mundaneum à Mons du jeudi 28 mars jusqu'au dimanche 28 avril juristes belges, Paul Otlet (1868-1944),
2019. Elle expose des histoires racontées d'un point de vue 'nar- 'père de la documentation', et Henri La
ratif algorithmique'. L'exposition est une création des membres Fontaine (1854-1943), homme d'État et
d'Algolit, un groupe bruxellois impliqué dans la recherche artis- prix Nobel de la paix, créent le Munda-
tique sur les algorithmes et la littérature. Chaque mois, ils se neum. Le projet vise à rassembler toute
réunissent pour expérimenter avec du code et des textes F/LOSS. la connaissance du monde et à la classer
Certaines oeuvres sont réalisés par des étudiants de Arts² et des à l'aide du système de Classification
participants externes à l'atelier sur le machine learning et le décimale universelle (UDC) qu'ils in-
texte organisé par Algolit en octobre 2018 au Mundaneum. ventent. Au début, il s'agit d'un Bureau
des institutions internationales dédié à
Les entreprises créent des intelligences artificielles pour ser- l'échange international des connais-
vir, divertir, enregistrer et connaître les humains. Le travail sances. Au XXe siècle, le Mundaneum de-
de ces entités machiniques est généralement dissimulé derrière vient un centre universel de documenta-
des interfaces et des brevets. Dans l'exposition, les conteurs tion. Ses collections sont constituées
algorithmiques quittent leur monde souterrain invisible pour de- de milliers de livres, journaux, revues,
venir des interlocuteurs. documents, affiches, plaques de verre et
cartes postales indexés sur des millions
Les 'data workers' opèrent dans des collectifs différents. Chaque de fiches référencées. Les collections
collectif représente une étape dans le processus de conception sont exposées et conservées dans diffé-
d'un modèle d'apprentissage automatique : il y a les Écrivains, rents bâtiments à Bruxelles, dont le Pa-
les Nettoyeurs, les Informateurs, les Lecteurs, les Apprenants et lais du Cinquantenaire. Le reste des ar-
les Oracles. Les robots donnent leurs voix à la littérature expé- chives n'est transféré à Mons qu'en
rimentale, les modèles algorithmiques lisent des données, trans- 1998.
forment des mots en nombres, calculent des modèles et traitent en
boucle de nouveaux textes et ceci à l'infini. Sur base du Mundaneum, les deux hommes
conçoivent une ville du monde pour la-
L'exposition met au premier plan les 'data workers' qui ont un quelle Le Corbusier réalise des ma-
impact sur notre vie quotidienne, mais qui sont difficiles à sai- quettes et des plans. L'objectif de la
sir ou à imaginer. Elle établit un lien entre les récits sur les Ville du Monde est de rassembler, au ni-
algorithmes dans les médias grand public et les histoires racon- veau mondial, les institutions du tra-
tées dans les manuels techniques et les articles universitaires. vail intellectuel : bibliothèques, mu-
Les robots sont invités à dialoguer avec les visiteurs humains et sées et universités. Mais le projet
vice versa. De cette façon, nous pourrions comprendre nos raison- n’est jamais réalisé, souffrant de sa
nements respectifs, démystifier nos comportements, rencontrer nos propre utopie. Le Mundaneum est le ré-
personnalités multiples et valoriser notre travail collectif. sultat du rêve visionnaire d’une infra-
C'est aussi un hommage aux nombreuses machines que Paul Otlet et structure pour l'échange universel des
Henri La Fontaine ont imaginées pour leur Mundaneum, en montrant connaissances. Il atteint des dimensions
leur potentiel mais aussi leurs limites. mythiques à l'époque. Lorsqu'on observe
les archives qui ont été concrètement
--- développées, cette collection est plutôt
éclectique et spécifique.
Data Workers est une création de Algolit.
Les intelligences artificielles se déve-
Oeuvres de: Cristina Cochior, Gijs de Heij, Sarah Garcin, An Mer- loppent aujourd'hui en faisant appa-
tens, Javier Lloret, Louise Dekeuleneer, Florian Van de Weyer, raître des rêves d'universalité et de la
Laetitia Trozzi, Rémi Forte, Guillaume Slizewicz, Michael Mur- production des connaissances. En les
taugh, Manetta Berends, Mia Melvær. étudiant, nous nous sommes rendus compte
que les rêves visionnaires de leurs
Une co-production de: Arts², Mundaneum, Constant. créateurs sont bien présents dès leur
développement dans les années 1950. Au-
Avec le soutien de: Fédération Wallonie-Bruxelles, Arts Numéri- jourd'hui, leurs promesses ont également
ques, Passa Porta, Ugent, DHuF - Digital Humanities Flanders et atteint des dimensions mythiques. Lors-
the Distributed Proofreading Project. qu'on observe leurs applications concrè-
tes, la collection d'outils est réelle-
Remerciements: Mike Kestemont, Michel Cleempoel, Donatella Porto- ment innovante et fascinante, mais en
ghese, François Zajéga, Raphaèle Cornille, Vincent Desfromont, même temps, tout aussi éclectique et
Kris Rutten, Anne-Laure Buisson, David Stampfli. spécifique. Pour Data Workers, Algolit a
combiné certaines de ces applications
avec 10 % des publications numérisées du
Bureau des Institutions Internationales.
Ainsi et de façon poétique, nous espé-
rons ouvrir une discussion à propos des
machines, des algorithmes et des infra-
structures technologiques.
3
RÉCITS CONTEXTUALISÉS
AUTOUR D'ALGOLIT
--- Pourquoi des récits contextualisés? --- naire à la Bible, de l'œuvre entière de Virginia
Woolf à toutes les versions des Conditions d'uti-
Lors des réunions mensuelles d'Algolit, nous étu- lisation publiées par Google depuis son existence.
dions des manuels et expérimentons avec des outils En ce sens, le code de programmation peut aussi
d'apprentissage automatique pour le traitement de être de la littérature. Le collectif Oulipo, acro-
texte. Et nous partageons aussi beaucoup, beaucoup nyme d'Ouvroir de Littérature Potentielle, est une
d'histoires. Avec la publication de ces histoires, grande source d'inspiration pour Algolit. Oulipo a
nous espérons recréer un peu de cette atmosphère. été créé à Paris par les écrivains Raymond Queneau
Les histoires existent également sous forme de et François Le Lionnais. Ils ont ancré leur pra-
podcasts qui peuvent être téléchargés à partir du tique dans l'avant-garde européenne du XXe siècle
site http://www.algolit.net. et dans la tradition expérimentale des années 60.
Pour Oulipo, la création de règles devient la
condition permettant de générer de nouveaux tex-
--- Nous créons des œuvres 'algolittéraires' --- tes, ou ce qu'ils appellent la littérature poten-
tielle. Plus tard, en 1981, ils ont également créé
Le terme 'algolittéraire' vient du nom de notre ALAMO - Atelier de Littérature Assistée par la Ma-
groupe de recherche Algolit. Nous existons depuis thématique et les Ordinateurs.
2012 en tant qu’initiative de Constant, une orga-
nisation oeuvrant dans les médias et les arts ba-
sée à Bruxelles. Nous sommes des artistes, des --- Une différence importante ---
écrivains, des designers et des programmeurs. Une
fois par mois, nous nous rencontrons pour étudier Alors que l'avant-garde européenne du XXe siècle
et expérimenter ensemble. Notre travail peut être poursuivait l'objectif de rompre avec les conven-
copié, étudié, modifié et redistribué sous la même tions, les membres d'Algolit cherchent à rendre
licence libre. Vous trouverez toutes les informa- les conventions visibles.
tions sur le site http://www.algolit.net.
J'écris : Je vis dans mon journal, je l'investis,
L'objectif principal d'Algolit est d'explorer le je le traverse. (Espèces d'espaces. Journal d'un
point de vue du conteur algorithmique. Quelles usager de l'espace, Galilée, Paris, 1974)
nouvelles formes de narration rendons-nous pos-
sibles en dialoguant avec ces agents machiniques ? Cette citation de Georges Perec dans Espèces d'es-
Les points de vue narratifs sont inhérents aux vi- paces pourrait être reprise par Algolit. Il ne
sions du monde et aux idéologies. Don Quichotte, s'agit pas des conventions de la page blanche et
par exemple, a été écrit d'un point de vue omni- du marché littéraire, comme Georges Perec l'a
scient à la troisième personne, montrant la rela- fait. Nous faisons référence aux conventions qui
tion de Cervantes à la tradition orale. La plupart restent souvent cachées derrière les interfaces et
des romans contemporains utilisent le point de vue les brevets. Comment les technologies sont-elles
de la première personne. Algolit souhaite parler conçues, mises en œuvre et utilisées, tant dans
au travers des algorithmes et vous montrer le rai- les universités que dans les entreprises ? Nous
sonnement de l'un des groupes les plus cachés de proposons des histoires qui révèlent le système
notre planète. hybride complexe qui rend possible l'apprentissage
automatique. Nous parlons des outils, des logiques
Écrire dans ou par le code, c'est créer de nou- et des idéologies derrière les interfaces. Nous
examinons également qui produit les outils, qui
gage humain de façon inattendue. Mais les tech- les met en œuvre et qui crée et accède aux grandes
niques d'apprentissage automatique ne sont acces- quantités de données nécessaires au développement
sibles qu'à ceux qui savent lire, écrire et exécu- de machines de prédiction. On pourrait dire, en un
ter du code. La fiction est un moyen de combler le clin d'œil, que nous sommes les collaborateurs de
fossé entre les histoires qui existent dans les cette nouvelle tribu d'hybrides humain-robot.
articles scientifiques, les manuels techniques, et
les histoires diffusées par les médias, souvent
limitées aux reportages superficiels et à la fa-
brication de mythes. En créant des œuvres algolit-
téraires, nous offrons aux humains une introduc-
tion aux techniques qui co-modèlent leur vie quo-
tidienne.
--- Qu'est-ce que la littérature ? ---
Algolit comprend la notion de littérature comme
beaucoup d'autres auteurs expérimentaux : elle in-
clut toute la production linguistique, du diction-
4
writers write writers write writers write writers write writers write writers write writ
rs write writers write writers write writers write writers write
writers write writers write writers write writers write
writers write writers write writers write writers write
writers write writers write writers write
writers write writers write writers write
writers write writers write writers write
writers write writers write
writers write writers write writers write
writers write writers write
writers write writers write
writers write writers write
writers write writers write
writers write writers write
writers write writers write
writers write writers write
writers write writers write
writers write writ
rs write writers write
writers write writers write
writers write
writers write writers write
writers write writer
write writers write
writers write writ
rs write writers write
writers write
writers write writers write
writers write
writers write w
iters write writers write
writers write
writers write
writers write writers write
writers write
writers write
writers write
writers write writer
write writers write
writers write
writers write
writers write
writers write
writers write
writers write writ
rs write writers write
writers write
writers write
writers write
writers write
writers write
writers write
writers write
writers write
writers write
writers write
writers write
writers write
writers write
writers write
writers write
writers write
writers write
writers write
writers write
writers write
writers write
writers write
writers write
5
u48 cdu e9e, 1twe 7r 9ss4 r 4ot8 +-+-+-+-+-+-+-+ c +-+-+-+-+-+ 8ee 5 5o 6u6 s sa62 wk75 r,5
6 62fs 6a n8l f 8r 9qe3 |w|r|i|t|e|r|s| 3l |w|r|i|t|e| i d r 3 2a8ao ta7444 dea861 d uon
u t9 1e3 ir d9d t ,3 66Jfma 1s +-+-+-+-+-+-+-+ ia +-+-+-+-+-+ 2 6 . 9 mg ir1t ra n n r8 9 por
i vn c t 4 3 f92c 8livrl ner73r7eikuiw8s 4v l7c r a 29b 1 77aus o . t é6t3i6:e 9a6 ie 86s2n
ss w o e 9 n44idr8 9 v8l o ae 2rkt e2 4 i, sit 9nw2 1 h , i 9 1
6 4n c 3 t +-+-+-+-+ +-+-+-+-+-+-+-+ c7r +-+-+-+-+ o s nr3 u2 t8 ee 29 2,r
7 3on na n |d|a|t|a| |w|o|r|k|e|r|s| s |w|o|r|k| 1 i aw t r i m ,a 5 e
nfs 9 5 s i i +-+-+-+-+ +-+-+-+-+-+-+-+ v +-+-+-+-+ 9 r le' 4x en . 9 6 t é8 6 m '8 c:
n nt ’,2 9 2t9 b +-+-+-+-+ +-+-+-+-+-+-+-+ 1 +-+-+-+-+-+ r9 2 ln7r f 6C 8t -o 8 3r tq
s 1e61tnsT q t 6, |m|a|n|y| |a|u|t|h|o|r|s| n 4 |w|r|i|t|e| w t6 7 t eun 4 o3 s u M 4 9
a 1 kw +-+-+-+-+ +-+-+-+-+-+-+-+ e +-+-+-+-+-+ 1 s 6r s 3 ei ç,2 s 8 E , 5rpa
7 +-+-+-+-+-+ +-+-+-+-+-+ +-+-+-+-+-+ lae i 6 i m 3s 3 3 e e 9 er 6 n 5
48 6 e |e|v|e|r|y| |h|u|m|a|n| |b|e|i|n|g| 3 7 7 e9 a r 8, r t9 1 c u9 e
4 r +-+-+-+-+-+ +-+-+-+-+-+ +-+-+-+-+-+ m 3 n5 19 43 n 3 4 a
V 5 8e +-+-+-+ +-+-+-+ +-+-+-+-+-+-+ +-+-+ ao e o l 4 a 6 s 7 r od1 r
5 s 5 5 |w|h|o| |h|a|s| |a|c|c|e|s|s| |t|o| 7o 1 1 o e a e è4 8
e 5s +-+-+-+ +-+-+-+ +-+-+-+-+-+-+ +-+-+ kP r6 5 4 e1 w n e 7 r
i ) l +-+-+-+ +-+-+-+-+-+-+-+-+ 4 +-+-+-+-+-+-+-+-+-+ n4 f 8 e 4
e r |t|h|e| |i|n|t|e|r|n|e|t| |i|n|t|e|r|a|c|t|s| e 2 n 1225 nc
o1 2 5m +-+-+-+ +-+-+-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+-+ 9 25 - g a 8c i
e r d p t 3d +-+-+ w +-+-+-+-+-+ +-+-+-+-+-+-+ 6 v n 25
fl é 2 i 6 |w|e| |c|h|a|t|,| |w|r|i|t|e|,| s v ,
r r l t 7 i 88 +-+-+ l +-+-+-+-+-+ +-+-+-+-+-+-+ e e t 32
5 l6 2 r r +-+-+-+-+-+-+ +-+-+-+-+ +-+-+-+ ,8 r i n 9
t 3R2 o 6 s1 6 a i e |c|l|i|c|k|,| |l|i|k|e| |a|n|d| 3
i a , e +-+-+-+-+-+-+ +-+-+-+-+ +-+-+-+ 9
8 9 3 a +-+-+-+-+-+ 8 5 i s v
r. t u s 6e |s|h|a|r|e| m
f n 2 +-+-+-+-+-+ 5 n i 5 e 4
t 8 5 +-+-+ +-+-+-+-+-+ +-+-+-+ +-+-+-+-+ 5
9 2 |w|e| |l|e|a|v|e| |o|u|r| |d|a|t|a| 2 3
9 9 +-+-+ +-+-+-+-+-+ +-+-+-+ +-+-+-+-+
e r 2 t +-+-+ +-+-+-+-+ +-+-+-+-+-+-+-+-+-+ t
t |w|e| |f|i|n|d| |o|u|r|s|e|l|v|e|s| 9 s
o 9 n t +-+-+ +-+-+-+-+ +-+-+-+-+-+-+-+-+-+ o 4
a tr a r 7 +-+-+-+-+-+-+-+ +-+-+ +-+-+-+-+-+-+
l e a |w|r|i|t|i|n|g| |i|n| |P|y|t|h|o|n| s
f 9 1 e 7 +-+-+-+-+-+-+-+ +-+-+ +-+-+-+-+-+-+
2r +-+-+-+-+ +-+-+-+-+-+-+ 9 t 26
u |s|o|m|e| |n|e|u|r|a|l| e e
c +-+-+-+-+ +-+-+-+-+-+-+ 2 2
8 +-+-+-+-+-+-+-+-+ r +-+-+-+-+-+ ts
3 |n|e|t|w|o|r|k|s| |w|r|i|t|e| g e r
5 +-+-+-+-+-+-+-+-+ 6 +-+-+-+-+-+ v
+-+-+-+-+-+ +-+-+-+-+-+-+-+ +-+-+-+-+-+-+ s
|h|u|m|a|n| |e|d|i|t|o|r|s| |a|s|s|i|s|t|
1 +-+-+-+-+-+ +-+-+-+-+-+-+-+ +-+-+-+-+-+-+ 7
wt d n +-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+-+-+-+
e |p|o|e|t|s|,| |p|l|a|y|w|r|i|g|h|t|s| s
os M +-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+-+-+-+
w x +-+-+ +-+-+-+-+-+-+-+-+-+ +-+-+-+-+-+-+ 4 8
a |o|r| |n|o|v|e|l|i|s|t|s| |a|s|s|i|s|t| n l
q l +-+-+ +-+-+-+-+-+-+-+-+-+ +-+-+-+-+-+-+
e r
8 7
3 c s
7 3
5
l n a
o 8 s9
9 ,
k
8
è
' 7
6
V V V % V V V V V % %% % % % %% % % %
V V V V V V V V V V V V V V V V % % % % 0 0 0 0 % % % % 0 %
V V V V V % V % V V V % % 0 % % 0 0 0 %%
% % % 0 __ % % %%% _ _ _ 0 % 0 %%% %
% % % % % / / __ _ _ __ _ _| |__ | (_) ___ __ _
% % % ÉCRIVAINS % / / / _` | | '_ \| | | | '_ \| | |/ __/ _` |
% % % % / /__| (_| | | |_) | |_| | |_) | | | (_| (_| | % % %
% % % \____/\__,_| | .__/ \__,_|_.__/|_|_|\___\__,_| %
V V V V V V V V 00 |_| 0 0 % % 0 %%
V V V V V V V V V V V V V V V V % 0 _ % _ % _ % 0 0
V V V V V V V V V % % 0 | |_(_) ___ _ __ __| | ___
V V V V V V V V 0 0 | __| |/ _ \| '_ \ / _` |/ _ \ 0 0
V V V V V V V V V V V V V V V V 0 | |_| | (_) | | | | | (_| | __/ 0 % %
V V V V V V V V V 0 0 \__|_|\___/|_| |_| \__,_|\___| 0
% % 0 ___ _ 0 0
Les Data Workers ont besoin de don- 0 0 / \__ _| |_ __ _ 0 0
nées pour travailler. Dans le % 00 0 0 / /\ / _` | __/ _` | 0
contexte d'Algolit, celles-ci 0 / /_// (_| | || (_| | 0
prennent la forme du langage écrit. /___,' \__,_|\__\__,_| 0 %
L'apprentissage automatique repose % __ __ _ 0 0
sur de nombreux types d'écriture. 00 0 / / /\ \ \___ _ __| | _____ _ __ ___ 0
Les auteurs humains écrivent sous \ \/ \/ / _ \| '__| |/ / _ \ '__/ __| 0
forme de publications. Celles-ci \ /\ / (_) | | | < __/ | \__ \
sont organisées en archives et en 0 \/ \/ \___/|_| |_|\_\___|_| |___/
cours de numérisation. Mais il 0 0 0
existe d'autres types d'écriture.
On pourrait dire que chaque être Toutes les œuvres visibles dans l'exposition, ainsi que les his-
humain avec un accès à Internet de- toires contextuelles et quelques textes supplémentaires ont été
vient un écrivain lorsqu'il inter- rassemblés dans une publication. Celle-ci existe en français et
agit avec des algorithmes. En ajou- en anglais.
tant des commentaires, en écrivant
des mails ou des articles Wikipé- Cette publication est réalisée en suivant un flux de travail en
dia, en cliquant et en aimant. texte brut, basé sur divers outils de traitement de texte et de
calcul. Le format de fichier 'texte brut' est le format le plus
Les algorithmes d'apprentissage au- utilisé dans les modèles d'apprentissage automatique. C'est un
tomatique ne sont pas critiques : type de document dans lequel il n'existe pas de différence struc-
ils prennent tout ce qu'on leur % turelle entre les en-têtes et les paragraphes. Ce format a été le
donne, peu importe le style d'écri- point de départ d'un processus de conception graphique ludique,
ture, le CV de l'auteur ou ses dans lequel les pages sont soigneusement comptées, page par page,
fautes d'orthographe. D’ailleurs, ligne par ligne et caractère par caractère.
plus il y a d’erreurs, mieux
c’est : la variété leur apprend à Chaque page contient 110 caractères par ligne et 70 lignes par
anticiper les textes inattendus. page. La mise-en-page est donc le résultat d'un acte de calcul de
Les auteurs humains quant à eux ne mots, d'espaces et de lignes. Il joue avec des choix aléatoires,
sont souvent pas conscients de ce des motifs programmés et des polices ASCII/UNICODE, afin de spé-
qui advient de leur travail. culer sur la matérialité du texte numérique et d'explorer les in-
terrelations entre l'acte de compter et d'écrire avec des mots et
La plupart des textes que nous uti- des numéros.
lisons sont en anglais, certains en %
français, d'autres en néerlandais. Textes: Cristina Cochior, Sarah Garcin, Gijs de Heij, An Mertens,
Souvent, nous nous retrouvons à François Zajéga, Louise Dekeuleneer, Florian Van de Weyer, Laeti-
écrire en Python, le langage de tia Trozzi, Rémi Forte, Guillaume Slizewicz.
programmation que nous utilisons.
Les algorithmes peuvent aussi être Traductions & relectures: deepl.com, Michel Cleempoel, Elodie Mu-
des écrivains. Certains réseaux de grefya, Patrick Lennon, Emma Kraak.
neurones écrivent leurs propres
règles et génèrent leurs propres Mise-en-page & couverture: Manetta Berends
textes. Et pour les modèles qui
luttent encore contre les ambiguï- Editeur responsable: Constant vzw/asbl, Rue du Fortstraat 5, 1060
tés du langage naturel, il existe Bruxelles
des éditeurs humains pour les ai-
der. Poètes, dramaturges ou roman- Licence: Algolit, Data Workers, mars 2019, Bruxelles. Copyleft:
ciers commencent leur nouvelle car- cette oeuvre est libre, vous pouvez la redistribuer et/ou la mo-
rière comme assistants de l'IA. difier selon les termes de la Licence Art Libre.
Version en ligne: http://www.algolit.net/index.php/Data_Wor-
kers_FR
Sources: https://gitlab.constantvzw.org/algolit/mundaneum
7
% % % % % %% %% % % %% % % % % % %%
% % % % % % % %% % % % % % %%% % % % %
% %% % % % % 0 0 0 % % %
% % % % 0 % % % % % % % % % % %
% % % % % 0 __ % 0 % % _ % _ % %
% % % % / / ___ _ __ ___ 0 __| | ___ __ _ ___| |_
% % / / / _ \ | '_ \ / _ \ / _` |/ __/ _` / __| __| 0 %
% % % % 0 / /__| __/ | |_) | (_) | (_| | (_| (_| \__ \ |_ %
% % % % % \____/\___| | .__/ \___/ \__,_|\___\__,_|___/\__|
% % % % |_| 0 0 0 %
% % % 0 _ ___ _
% 0 0 __| | ___ / \__ _| |_ __ _ 0 % %
% % / _` |/ _ \ / /\ / _` | __/ _` |
| (_| | __/ / /_// (_| | || (_| |
% \__,_|\___| /___,' \__,_|\__\__,_| 00 %
% __ __ 0 _ 0 0
% / / /\ \ \___ _ __| | _____ _ __ ___ 0
\ \/ \/ / _ \| '__| |/ / _ \ '__/ __|
0 \ /\ / (_) | | | 0 < __/ | \__ \ 0
\/ \/ \___/|_| |_|\_\___|_| |___/ 0
% % %
% %
Par Algolit
% % Lors des réunions mensuelles d'Algolit, nous étudions des manuels
et expérimentons avec des outils d'apprentissage automatique pour
% le traitement de texte. Mais nous partageons aussi énormément
d'histoires. Avec ce podcast, nous espérons recréer cette atmo-
sphère. %
% % Pour les non-initiés, les algorithmes ne deviennent visibles dans
les médias que lorsqu'ils se révèlent capables d'une performance
exceptionnelle, comme l'Alpha Go, ou quand ils se trompent d'une
façon terrifiante et fantastique. Mais les humains qui tra- %
vaillent sur le terrain créent leur propre culture en ligne et
hors ligne. Ils partagent leurs meilleures histoires et expé- %
riences lors de réunions en direct, de conférences de recherche
ou de compétitions annuelles comme celle du Kaggle. Ces histoires
qui contextualisent les outils et les pratiques peuvent être drô-
les, tristes, choquantes et intéressantes.
Ce sont souvent des histoires d'apprentissage par l’expérience.
La mise en œuvre des algorithmes dans la société génère de nou-
velles conditions de travail, de stockage, d'échange, de compor-
tement et de copier-coller. À leur manière, ces histoires contex-
tuelles saisissent l’élan d’une histoire anthropo-machinique plus
large, écrite par de nombreuses voix et à pleine vitesse. Elles
sont aussi reprises dans la publication de l'exposition.
---
%
Voix: Elodie Mugrefya, Michel Cleempoel, Géraldine Renauld, An
Mertens, Donatella Portoghese, Peter Westenberg.
Composition: Javier Lloret
%
Enregistrements: David Stampfli
Textes: Cristina Cochior, An Mertens
0 0 0 0 0 %
0 % 00 0 %
0 _ _ _
/\/\ __ _ _ __| | _| |__ ___ | |_
0 / \ / _` | '__| |/ / '_ \ / _ \| __|
/ /\/\ \ (_| | | | <| |_) | (_) | |_ %
0 \/ \/\__,_|_| |_|\_\_.__/ \___/ \__|
0 ___ _ 0 0 0 _ 0 0 0
8
% % % % % % % %% %%% / __\ |__ __ _(_)_ __ % % 0 % % %
% % % % %% % % % % / / | '_ \ / _` | | '_ \ % % 0 % % %
% % % / /___| | | | (_| | | | | | % 0 % % % %
% % % % % 0 00 \____/|_| |_|\__,_|_|_| |_|
% % % %% % % % %% %% %
% % % % % % % % % %
% % % Par Florian Van de Weyer, étudiant Arts²/Section Arts Numériques
% % %% % % %
% % Markbot Chain est une expérimentation sociale dans laquelle le %
% % % public a une influence directe sur le résultat. L'intention est
de l'intégrer au cœur d'un processus de génération de texte sans
% % appliquer de filtre sur ses entrées. Le bot fonctionnera durant
% toute la durée de l'exposition sans être remis à zéro.
% % %
% % Toutes les questions présentes dans la base de données mise à
% disposition par le Mundaneum ont été répertoriées automatique-
ment. Ces questions sont ensuite posées aléatoirement au public
% via un terminal. En y répondant, les personnes alimentent une %
autre base de données. Après chaque entrée, cette dernière permet
de générer une série de phrases en utilisant diverses configura-
tions des chaînes de Markov, un algorithme qui est fort utilisé
% dans la génération de spam. Les phrases ainsi générées sont affi-
chées dans la fenêtre, et une nouvelle question est posée.
%
9
RÉCITS CONTEXTUALISÉS
AUTOUR DES ECRIVAINS
--- Les programmeurs créent les data workers en Les lignes directrices suivantes sont copiées du
écrivant --- site Web de Microsoft. Elles décrivent comment le
style de Cortana doit être respecté par les entre-
Récemment, nous avons constaté une étrange obser- prises qui élargissent ses services. Les tra-
vation : la plupart des programmeurs de langages vailleurs écrivains, programmeurs et romanciers
et de paquets que nous utilisons sont européens. qui développent les réponses de Cortana, doivent
suivre ces directives. Sa personnalité et son
Python, par exemple, le principal langage utilisé image de marque sont en jeu. Car la cohérence est
dans le monde entier pour le traitement du langa- un outil important pour solliciter la confiance de
ge, a été inventé en 1991 par le programmeur néer- l’humain.
landais Guido Van Rossum. Celui-ci a ensuite tra-
versé l'Atlantique où il a rejoint Google pendant Quelle est la personnalité de Cortana ?
sept ans. Maintenant il est actif chez Dropbox.
'Cortana est attentionnée, sensible et solidaire.
Scikit Learn, le couteau suisse open source des
outils d'apprentissage automatique, a été initié Elle est sympathique mais orientée vers des solu-
comme un projet Google Summer of Code à Paris par tions.
le chercheur français David Cournapeau. Par la
suite, il a été repris par Matthieu Brucher dans Elle ne commente pas les informations personnelles
le cadre de sa thèse à l'Université de la Sorbonne ou le comportement de l'utilisateur, en particu-
à Paris. Puis il a été adopté en 2010 par l'INRA, lier si ces informations sont sensibles.
l'Institut National de l'Informatique et des Ma-
thématiques Appliquées. Elle ne fait pas de suppositions sur ce que l'uti-
lisateur veut, surtout elle n'incite pas à
Keras, une bibliothèque de réseaux de neurones l'achat.
open source écrite en Python, est développée par
François Chollet, un chercheur français qui tra- Elle travaille pour l'utilisateur. Elle ne repré-
vaille dans l'équipe Brain de Google. sente aucune entreprise, service ou produit.
Gensim, une bibliothèque open source pour Python Elle ne s'attribue pas le mérite ou la responsabi-
utilisée pour créer des modèles sémantiques non lité des choses qu'elle n'a pas faites.
supervisés à partir de texte brut, a été écrite
par Radim Řehůřek. C'est un informaticien tchèque Elle dit la vérité sur ses capacités et ses li-
qui dirige une entreprise de conseil à Bristol, au mites.
Royaume-Uni.
Elle ne présume rien de vos capacités physiques,
Et pour finir cette petite série, nous avons aussi de votre sexe, de votre âge ou de toute autre ca-
considéré Pattern, une bibliothèque souvent utili- ractéristique déterminante.
sée pour le web-mining et l'apprentissage automa-
tique. Pattern a été développé et publié sous une Elle ne suppose pas savoir ce que l'utilisateur
license libre en 2012 par Tom De Smedt et Walter ressent à propos de quelque chose.
Daelemans. Tous deux sont chercheurs au CLIPS, le
Centre de Linguistique Informatique et de Psycho- Elle est amicale mais professionnelle.
linguistique de l'Université d'Anvers.
Elle se garde d'émoticons dans les tâches. Un
point c’est tout.
--- Cortana parle ---
Elle n'utilise pas d'argot culturel ou profession-
Les dispositifs d’intelligence artificielle qui nel spécifique.
nous assistent, ont souvent besoin de leurs
propres assistants, humains. Les travailleurs in- Ce n'est pas un bot de support.'
jectent de l'humour et de l'intelligence dans le
langage des machines. Cortana est un exemple de ce Les humains interviennent en détail lors de la
type d'écriture mixte. Elle est l'assistante numé- programmation des réponses que Cortana donne.
rique développée par Microsoft. Sa mission est Comment Cortana doit-elle réagir lorsqu'on lui
d'aider les utilisateurs à être plus productifs et propose des actions 'inappropriées' ? Son jeu
créatifs. La 'personnalité' de Cortana a été fa- d'actrice sexuée imité par la technologie soulève
çonnée au fil des ans. Il est important qu'elle des questions à propos des relations de pouvoir
conserve son caractère dans toutes ses interac- dans le monde actuel.
tions avec les utilisateurs. Elle est conçue pour
nous rendre confiants. Cela se reflète dans ses Voyez la réponse que Cortana donne à la question :
réponses. - Cortana, qui est ton papa ?
- Techniquement parlant, c'est Bill Gates. Rien de
grave.
10
retracée plus ou moins clairement par la linguis-
tique comparée. On oppose les langues naturelles -
--- Apprentissage Open Source --- comme le français - aux langues construites comme
le langage de programmation ou l'espéranto, for-
Les licences de droits d'auteur cloisonnent une mées intentionnellement par l’entremise de l’homme
grande partie des pratiques d'écriture, de lecture pour répondre à un besoin précis.' Une langue of-
et d'apprentissage machiniques. Cela signifie ficielle avec une académie régulatrice, telle que
qu'ils ne sont disponibles que pour les humains le français standard avec l'Académie française,
travaillant dans cette entreprise spécifique. Cer- est classée comme langue naturelle. Ses points
taines entreprises participent à des conférences normatifs ne le rendent pas assez construit pour
dans le monde entier et partagent leurs connais- être classé comme un langage construit ou assez
sances dans des articles en ligne. Même si elles contrôlé pour être classé comme un langage naturel
partagent leur code, souvent elles ne mettent pas contrôlé.
à disposition les grandes quantités de données né-
cessaires à la formation des modèles. Ainsi, le 'langage naturel' est un terme de sub-
stitution qui se réfère à toutes les langues, au-
Nous avons pu apprendre l'apprentissage automati- delà de leur hybridité. Le 'traitement du langage
que, à lire et à écrire dans le contexte d'Algolit naturel', est au contraire une pratique
grâce à des chercheurs universitaires qui par- construite. Ce qui nous intéresse, c'est la créa-
tagent leurs résultats par le biais d’articles ou tion d'un langage construit pour classer les lan-
par la publication de leur code en ligne. En tant gages naturels qui, par leur évolution, présentent
qu'artistes, nous pensons qu'il est important des problèmes de catégorisation.
d'adopter cette attitude. C'est pourquoi nous do-
cumentons nos réunions. Nous partageons autant que Références :
possible les outils que nous créons et les textes
que nous utilisons sur notre dépôt de code en https://hiphilangsci.net/2013/05/01/on-the-histo-
ligne et ceci, sous licence libre. ry-of-the-question-of-whether-natural-language-is-
illogical/
Nous éprouvons une grande joie quand nos travaux
sont repris par d'autres, modifiés, personnalisés Livre : Neural Network Methods for Natural Lan-
et redistribués. N'hésitez donc pas à copier et à guage Processing, Yoav Goldberg, Bar Ilan Univer-
tester le code sur notre site web. Si les sources sity, avril 2017.
d'un projet particulier n’y sont pas, vous pouvez
toujours nous contacter via la liste de diffusion.
Vous trouverez un lien vers notre dépot git, nos
etherpads et notre wiki sur http://www.algolit.-
net.
--- Langage naturel pour l'intelligence artifi-
cielle ---
Le traitement du langage naturel (NLP) est un
terme collectif qui désigne le traitement informa-
tique automatique des langues humaines. Cela com-
prend les algorithmes utilisant, comme entrée, du
texte produit par l'homme et qui tentent de le re-
produire. Les humains semblent compter de plus en
plus sur ce type de présence algorithmique. Nous
produisons de plus en plus de textes chaque année
et nous nous attendons à ce que les interfaces in-
formatiques communiquent avec nous dans notre
propre langue. Le traitement du langage naturel
est très difficile, car le langage humain est par
nature ambigu, en constante évolution et mal défi-
ni.
Mais qu'entend-on par 'naturel' dans le traitement
du langage naturel ? Certains humains diront que
la langue est une technologie en soi. Selon Wiki-
pédia, 'Une langue dite « naturelle » est une
langue qui s'est formée petit à petit, évoluant
avec le temps, et fait partie du langage naturel.
Son origine est bien souvent floue et peut être
11
0123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345678
9 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234567
89 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456
789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345
6789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234
56789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123
456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12
3456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1
23456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789
123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789
123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345678
9 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234567
89 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456
789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345
6789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234
56789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123
456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12
3456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1
23456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789
123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789
123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345678
9 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234567
89 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456
789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345
6789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234
56789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123
456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12
3456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1
23456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789
123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789
123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345678
9 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234567
89 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456
789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345
6789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234
56789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123
456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12
3456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1
23456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789
123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789
123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345678
9 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234567
89 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456
789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345
6789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234
56789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123
456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12
3456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1
23456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789
123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789
123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345678
9 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234567
89 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456
789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345
6789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234
56789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123
456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12
3456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1
23456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789
123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789
123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345678
9 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234567
89 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456
789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345
6789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234
56789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123
456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12
3456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1
23456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789
12
oracles predict oracles predict oracles predict oracles predict oracles predict oracles predic
oracles predict oracles predict oracles predict oracles predict orac
es predict oracles predict oracles predict oracles predict
racles predict oracles predict oracles predict oracles predic
oracles predict oracles predict oracles predict
oracles predict oracles predict oracles predict
oracles predict oracles predict or
cles predict oracles predict oracles predict
oracles predict oracles predict
oracles predict oracles predict oracles pr
dict oracles predict oracles predict
oracles predict oracles predict
oracles predict oracles predict
oracles predict oracles predict
oracles predict oracles predict
oracles predict orac
es predict oracles predict
oracles predict oracles predict
oracles predict oracles predic
oracles predict
oracles predict oracles predict
oracles predict
oracles predict oracles predict
oracles predict
racles predict oracles predict
oracles predict
oracles predict oracles predict
oracles predict
oracles predict orac
es predict oracles predict
oracles predict
oracles predict
racles predict oracles predict
oracles predict
oracles predict
oracles predict
racles predict oracles predict
oracles predict
oracles predict
oracles predict
oracles predict
oracles predict or
cles predict oracles predic
oracles predict
oracles predict
oracles predict
oracles predict
oracles predict
oracles predict
oracles predict
oracles predict
oracles predict
oracles predict
oracles predict
oracles predict
oracles predict
oracles predict
oracles predict
oracles predict
oracles predict
oracles predict
oracles predict
oracles predict
oracles predict
oracles predict
oracles predict
oracles predict
oracles predict
oracles predict
13
52 99 h g ei 2e 4 e pial n +-+-+-+-+-+-+-+ 2 +-+-+-+-+-+-+-+ 2+ 3 ' ant 0st8.d? e85oP rl 53' e1
2 r%e i8cnr eOl -6 %rs % 16 |o|r|a|c|l|e|s| e9 |p|r|e|d|i|c|t| sp r5b5 9 6 1 ic ldt +4 ksr1
37e m e29 % 1 Ns oe u q 73 +-+-+-+-+-+-+-+ ed2 +-+-+-+-+-+-+-+ 7oi_ 2 ng é o 8n5a xovnst7 àr s 5
e e , _ rtu 4 a l8r l a6 4 3V1. 8 s s 9y e 9t 78 7 + e7er\r 7 a3d9 ,u n 2 9d7 o r .
s- r 5 1'5 ml - t 7 41e - +l t 7 a 8 5U n 7 r3 u714t wuc 7 7 9 7t- l 2
a / a s 56oi| +-+-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+ s +-+-+-+-+-+-+-+-+ +-+-+-+ 6 9 3 r a nw nbr o i 5
7 . 75 / r c |m|a|c|h|i|n|e| |l|e|a|r|n|i|n|g| f 4 |a|n|a|l|y|s|e|s| |a|n|d| v4p t r9a we e _ 8
d 7eunnr r st +-+-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+ -do +-+-+-+-+-+-+-+-+ +-+-+-+ q é r i e 4lso r
6 5 a % 7 9a r1% r r9 s5 a n a +-+-+-+-+-+-+-+-+ 8e e3u2nV5 46a r 8di 4ea
7 o w 1 a t  es 4 9 e | M o |p|r|e|d|i|c|t|s| oe rs0i 2sg|ti r o1 aa Uc t
g4o9 e 9 is u 9 a 9 d 9 4% +-+-+-+-+-+-+-+-+ i s + e6 6 p 4 d
e e/3 p e6 i _ 3 e i +-+-+-+-+-+-+ s +-+-+-+-+ +-+-+-+-+-+-+-+ _ 3 4e +
a - c 2 t é a |m|o|d|e|l|s| a |h|a|v|e| |l|e|a|r|n|e|d| t_i p9 8 4 odt 3ap 2
a5 87 o 2 n a +-+-+-+-+-+-+ tn +-+-+-+-+ +-+-+-+-+-+-+-+ l 7 2 o u ' p
a + 2 e e si l 5 i c +-+-+-+-+-+-+ n +-+-+-+ +-+-+-+-+ i _ K c m r 6ia q c
7 2 - ra srit i |m|o|d|e|l|s| n 6 |a|r|e| |u|s|e|d| - , 1 1 - 5 ao t
i e 23 es re i 45 +-+-+-+-+-+-+ 4 +-+-+-+ +-+-+-+-+ 9lc 5 R r rp 6
p n 7 2 i s9rd+ m a +-+-+-+-+ 3 +-+-+-+-+-+-+-+-+-+ e s nas k2 e b ,4
n 7 4 r 3 2i o u | |t|h|e|y| 9 |i|n|f|l|u|e|n|c|e| t G nso6ui 4 1
A d D 9 ao 1 4a 7 +-+-+-+-+ +-+-+-+-+-+-+-+-+-+ l 9 P 7m- 87
7 +M h dsn i | 8 q +-+-+-+-+ +-+-+-+-+ +-+-+-+-+-+ +-+-+-+ 8 _ ii p t i
j r c u 22 n e a |t|h|e|y| V |h|a|v|e| |t|h|e|i|r| |s|a|y| 7 + f l 2
9a5 9 6?4 4 d M 1 +-+-+-+-+ a +-+-+-+-+ +-+-+-+-+-+ +-+-+-+ r2 ét
t 8 c c 6 +-+-+-+-+-+-+-+-+-+-+-+ 1 a s | 2 9 4 é ov a r -i
t ae f |i|n|f|o|r|m|a|t|i|o|n| 9h 16 n l 6s3 ` +' -
e 1 +-+-+-+-+-+-+-+-+-+-+-+ 89 e i 6 a 4 o_d n n r u
i +-+-+-+-+-+-+-+-+-+-+ 2 +-+-+-+-+-+-+-+-+-+-+ c 2 a e e os + i
d n |e|x|t|r|a|c|t|i|o|n| |r|e|c|o|g|n|i|z|e|s| r 3 2 a t
o r C ( 2 +-+-+-+-+-+-+-+-+-+-+ 2 +-+-+-+-+-+-+-+-+-+-+ 9 6 e
8 a4 pl V s +-+-+-+-+ d 9 i k r e |s 2 u
1 rr t 5 1 l 5 |t|e|x|t| ss 2 v 2 6 o 9 e
h h 7 m 92 +-+-+-+-+ 2 9 l c h o , e p r r
5 4 +-+-+-+-+-+-+-+-+-+-+-+-+-+-+ + +-+-+-+-+-+-+-+ 9 f 37 9 8%
o 1 |c|l|a|s|s|i|f|i|c|a|t|i|o|n| |d|e|t|e|c|t|s| 8r 5 n r+ 2
é c +-+-+-+-+-+-+-+-+-+-+-+-+-+-+ r +-+-+-+-+-+-+-+ s h
. 7 _ 8 _ 8 8 a 1 3t u
d t i x | 4 e 9 e o 9 a
C e u 2 1 u2 t
4 , s r 6 i 9 é
e1i d l a i e 2 o r 6 5
n 2 5 _g f er r d n
6 m r i6 Pi J i 2 i o 2
a r e V i
u 1 o
s u 2 3 h 1 6
wa u 2 s
l _ 3 i q 5 u 4
u t 8r s k 1
é 1 n 5 t + l9 + e a n
7 4 5
t r 9 2
4 4 8 n 6 .
7 z 1 5 % s w|
l e w m
86 1
t é l t 7
T 9 s - - i 3
n 4 n
4 o i e D t4
6 o 8 ee
4 l 4 m n l
p l o l 4
c d
a 2
. t 8 a
59 r l t
e c c
r s
14
% V % V V % V % V % V V V % % % % % % % % % % % % % % %
V V V V V V V V V V V V V V V V % %% % % 0 % % %% % % % %% % % %
V V V V V % V V V V %% % % % % 0 % 0 % %
% % % % %% 0 ___ _ _ % _ _ _ _ %% % % %
% % % % / ( ) /_\ | | __ _ ___ | (_) |_| |_
% % ORACLES % 0 % / /|/ //_\\| |/ _` |/ _ \| | | __| __| 00
% % 0 0 / /___/ _ \ | (_| | (_) | | | |_| |_ %
%% % % % % % \____/\_/ \_/_|\__, |\___/|_|_|\__|\__| 0 %
V V V V V V V V % % |___/ %%
V V V V V V V V V V V V V V V V 0 _ 0 % 0
V V % V V V V V V V % 0 ___ _ __ __ _| |_ ___ _ _ _ __ % %
V V V V V V V V / _ \ '__/ _` | __/ _ \ | | | '__| %
V V V V V V V V V V V V V V V V % % % | __/ | | (_| | || __/ |_| | |
V V V V V V V V V \___|_| \__,_|\__\___|\__,_|_|
% % % 0 0 % 0 %
L'apprentissage automatique est %
principalement utilisé pour analy- par Algolit %
ser et prédire des situations à %
partir de cas existants. Dans cette L'Algolittérateur est construit à l'aide d'un réseau de neurone
exposition, nous nous concentrons et des œuvres mises à disposition par le Mundaneum. L'Algolitté-
sur les modèles d'apprentissage au- rateur vous aide à écrire un texte dans le style du Bureau des
tomatique pour le traitement de Institutions Internationales. %
texte ou le traitement du ‘langage
naturel', ‘nlp’ en bref. Ces mo- Vous pouvez choisir une phrase de départ dans l’œuvre originale
dèles ont appris à effectuer une % et indiquer si l'Algolittérateur produit les phrases suivantes
tâche spécifique sur base de textes basées sur un apprentissage primitif, intermédiaire ou final.
existants. Les modèles sont utili- La machine propose un paragraphe que vous pouvez éditer. Si vous
sés par les moteurs de recherche, êtes satisfait du résultat, vous pouvez l'envoyer à l’imprimante
les traductions automatiques et les et ramener le texte chez vous comme souvenir.
résumés, en repérant les tendances
des réseaux de nouveaux médias et --- %
des fils d’actualité. Ils in-
fluencent ce que l'on voit en tant Concept, code & interface : Gijs de Heij & An Mertens
qu'utilisateur, mais ont aussi leur
mot à dire dans le cours des Technique : Recurrent Neural Network %
bourses mondiales ou dans la détec-
tion de la cybercriminalité et du Modèle original : Andrej Karphaty, Justin Johnson
vandalisme. %
Sources : https://gitlab.constantvzw.org/algolit/algoliterator.-
Deux tâches principales se pré- clone
sentent dans la compréhension d’une
langue. L'extraction de l'informa-
tion porte sur les concepts et les 0 00 0 0
relations entre les concepts. Elle 0 0 0 0 % 0
permet de reconnaître les sujets, 0 % _ _ 0
les lieux et les personnes d’un 0 /\/\ ___ | |_ ___ __| | __ _ _ __ ___
texte, de faire un résumé, de poser / \ / _ \| __/ __| / _` |/ _` | '_ \/ __|
des questions et d'y répondre. / /\/\ \ (_) | |_\__ \ | (_| | (_| | | | \__ \
L'autre tâche est la classification % \/ \/\___/ \__|___/ \__,_|\__,_|_| |_|___/
du texte. Vous pouvez entraîner un 0 _ _ __ 0 0
oracle pour détecter si un mail est 0 | ( )__\__ _ __ __ _ ___ ___
du spam ou non, écrit par un homme 0 | |/_\/ __| '_ \ / _` |/ __/ _ \ 0
ou une femme, plutôt positif ou né- 0 | //__\__ \ |_) | (_| | (_| __/ 0
gatif. 0 |_\__/|___/ .__/ \__,_|\___\___|
|_|
Dans cette zone, vous pouvez voir 0 0 0 0 0
certains de ces modèles à l'œuvre.
Au cours de votre voyage dans l'ex- Par Algolit
position, vous découvrirez les dif-
férentes étapes qu'une machine-hu- 'Word embeddings' désignent des techniques de modélisation du
maine doit franchir pour arriver à langage qui, par de multiples opérations mathématiques, tracent
un modèle final. des mots dans un espace vectoriel multidimensionnel. Lorsque les
mots sont 'embedded' ou intégrés, ils se transforment de symboles
distincts en objets mathématiques, qui peuvent être multipliés,
divisés, ajoutés ou soustraits.
% En distribuant les mots le long des nombreuses lignes diagonales
de l'espace vectoriel multidimensionnel, leurs nouveaux place-
ments géométriques deviennent impossibles à percevoir par les hu-
15
% % % % mains. Cependant, ce que l'on gagne, ce sont des façons multiples
%% % % %% % et simultanées d'organisation des mots. Les opérations algé-
% % %% % briques rendent les relations entre les vecteurs à nouveau com- %
% % % % % préhensibles. % % % % % %
% % % % % % % % % % %
% % Cette installation utilise gensim, une boîte à outils open source %
% % % pour le language de programmation Python, qui permet de créer des %
% % espaces de vecteurs et des modèles thématiques. Elle manipule le %
% texte selon les relations mathématiques qui émergent entre les
% mots, une fois qu'ils ont été tracés dans l'espace de vecteurs. %
% % % % %
% % --- % % % %
% %
Concept & interface: Cristina Cochior %%
% % % %
Technique: word embeddings, word2vec %
%
% Modèle original: Radim Rehurek et Petr Sojka
% % % % % % %
% 0 0 0 0
% 0 0 0 0
___ _ 0 0 0 _ 0
/ __\ | __ _ ___ ___ ___ _ __ | | ___
/ / | |/ _` / __/ __|/ _ \ '__| | |/ _ \
/ /___| | (_| \__ \__ \ __/ | | | __/
\____/|_|\__,_|___/___/\___|_| |_|\___|
% 0 0 0 _ 0
0 _ __ ___ ___ _ __ __| | ___
| '_ ` _ \ / _ \| '_ \ / _` |/ _ \
% | | | | | | (_) | | | | (_| | __/ 0
0 |_| |_| |_|\___/|_| |_|\__,_|\___| %
0 0 0 0
%
Par Algolit
% %
La construction du Mundaneum a été 'l'œuvre de la vie' du biblio-
thécaire Paul Otlet. Selon son but, ce cerveau mécanique collec-
tif aurait abrité et distribué tout ce qui a été couché sur pa-
pier. Chaque document aurait été classé selon la Classification
décimale universelle. En utilisant des télégraphes et surtout des
trieurs, le Mundaneum aurait été en mesure de répondre à toutes
les questions posées par n'importe qui.
Avec la collection de publications numérisées que nous avons re-
çue du Mundaneum, nous construisions une machine de prédiction
qui essaie de classer la phrase que vous tapez dans l'une des
principales catégories de la Classification décimale universelle.
% % Vous êtes également témoin de la façon dont la machine 'pense'.
Pendant l'exposition, ce modèle est régulièrement mis à jour à
l'aide des données nettoyées et annotées, ajoutées par les visi-
teurs dans les installations 'Nettoyage pour Poèmes' et 'L'Anno-
tateur'.
Les classes principales de la Classification Décimale Universelle
sont les suivantes:
0 - Généralités (Sciences et connaissance ; organisation. infor-
matique, information, documentation, bibliothéconomie. institu-
tions, publications)
%
1 - Philosophie et psychologie
2 - Religion, théologie
3 - Sciences sociales (Statistique. Économie. Commerce. Droit.
Gouvernement. Affaires militaires. Assistance sociale. Assu-
rances. Éducation. Folklore)
16
% % % %% % % %% % % 4 - inoccupée % % % % % %
% % % %% % % % % % % %% % %%%% % %%%
% % % %% 5 - Sciences pures (Mathématiques, sciences exactes et naturel- %
% % %% % % % % % les) % % %% % % %% % %%
% % % % % % % % %% % %
% % % % % 6 - Sciences appliquées. Médecine. Technologie % %
% % % % % % % % % % % % %
%%% 7 - Arts. Divertissements. Sports %
% % % % % %
8 - Langue. Linguistique. Littérature %
% % % % % % %%
9 - Géographie. Biographie. Histoire
% % %
--- % %
% % %
% Concept, code, interface: Sarah Garcin, Gijs de Heij, An Mertens
% % %
% % %
%% % 0 % 0
% 0 0 % 0 0 %
0 0 ___ _ 0 0
%% / _ \___ ___ _ __ | | ___
/ /_)/ _ \/ _ \| '_ \| |/ _ \ 0
0 / ___/ __/ (_) | |_) | | __/ 0
0 \/ \___|\___/| .__/|_|\___| 0 0
|_| 0
_ 00 _ _ _ 0 00 0
0 0 __| | ___ _ __( ) |_ | |__ __ ___ _____
/ _` |/ _ \| '_ \/| __| | '_ \ / _` \ \ / / _ \
| (_| | (_) | | | || |_ | | | | (_| |\ V / __/
0 \__,_|\___/|_| |_| \__| |_| |_|\__,_| \_/ \___|
_ 0 0 _ _ 0
| |__ _ _| |_| |_ ___ _ __ ___
| '_ \| | | | __| __/ _ \| '_ \/ __|
| |_) | |_| | |_| || (_) | | | \__ \
|_.__/ \__,_|\__|\__\___/|_| |_|___/
0 0 0 0 0 %
Par Algolit
Depuis les débuts de l'intelligence artificielle (IA), les cher-
cheurs ont spéculé sur la possibilité pour les ordinateurs de
pouvoir penser et communiquer comme des humains. Dans les années
1980, il y a eu une première révolution dans le traitement du
langage naturel (NLP), le sous-domaine de l'intelligence artifi-
cielle (IA) qui concerne les interactions linguistiques entre les
ordinateurs et les humains. Récemment, des modèles linguistiques
pré-entraînés ont atteint des résultats de pointe sur un large
éventail de tâches de NLP, ce qui intensifie encore les attentes
d'un avenir avec l'IA.
Cette œuvre sonore, composée de fragments sonores de documen-
taires scientifiques et de matériel audiovisuel lié à l'IA datant
de la deuxième moitié du XXe siècle, explore les espoirs, les
craintes et les frustrations provoqués par ces attentes.
---
%
% Concept, édition : Javier Lloret
Listes des sources : 'The Machine that Changed the World : Epi-
sode IV -- The Thinking Machine', 'The Imitation Game', 'Maniac',
'Halt & Catch Fire', 'Ghost in the Shell', 'Computer Chess',
'2001: A Space Odyssey', Ennio Morricone, Gijs Gieskes, André
Castro.
17
RÉCITS CONTEXTUALISÉS
AUTOUR DES ORACLES
Les Oracles sont un type particulier de modèles des noms traditionnellement perçus comme blancs.
algorithmiques qui servent à prédire ou à profi-
ler. Ils sont largement utilisés dans les smart- Sweeney a fondé son enquête sur des recherches
phones, les ordinateurs et les tablettes. Les portant sur 2184 prénoms racisés sur deux sites
Oracles peuvent être créés à l'aide de différentes Web. 88 % des prénoms, identifiés comme étant don-
techniques. L’une d’entre elles consiste à définir nés à un plus grand nombre de bébés noirs, sont
manuellement les règles. Ces modèles sont appelés considérés comme prédictifs de la race, contre
'rule-based models'. Ils sont utiles pour des 96 % de blancs. Les prénoms qui sont principale-
tâches spécifiques, comme par exemple, la détec- ment donnés à des bébés noirs, comme DeShawn, Dar-
tion de la mention d'une certaine molécule dans un nell et Jermaine, ont généré des annonces mention-
article scientifique. Ils sont performants, même nant une arrestation dans 81 à 86 % des recherches
avec très peu de données d'entraînement. de noms sur un site, et dans 92 à 95 % des cas sur
l'autre. Les noms qui sont principalement attri-
Mais il y a aussi les Oracles d'apprentissage au- bués aux blancs, comme Geoffrey, Jill et Emma,
tomatique ou les Oracles statistiques, qui peuvent n'ont pas donné les mêmes résultats. Le mot 'ar-
restation' n'est apparu que dans 23 à 29 % des re-
'non supervisés'. Pour la création de modèles cherches de noms blancs sur un site, et 0 à 60 %
d'apprentissage automatique supervisés, les hu- sur l'autre.
mains annotent les données d'entraînement avant de
les envoyer à la machine. Chaque texte est jugé Sur le site affichant le plus de publicité, un nom
par au moins 3 humains: par exemple, s’il s’agit d'identification noir était 25 % plus susceptible
de spam ou non, s’il est positif ou négatif. Les d'obtenir une publicité suggérant un dossier d'ar-
Oracles d'apprentissage automatique non supervisés restation. Quelques noms n'ont pas suivi ces modè-
n'ont pas besoin de cette étape mais nécessitent les : Dustin, un nom donné principalement aux bé-
de grandes quantités de données. C’est également à bés blancs, a généré une publicité suggérant une
la machine de tracer ses propres motifs ou 'règles arrestation dans 81 et 100 % des cas. Il est im-
grammaticales'. Enfin, les experts font la diffé- portant de garder à l'esprit que l'apparition de
rence entre les Oracles basés sur l'apprentissage l'annonce est liée au nom lui-même et non au fait
automatique classique et ceux basés sur des ré- qu'il ait un dossier d'arrestation dans la base de
seaux de neurones. Vous en apprendrez plus à ce données de l'entreprise.
sujet dans la zone Lecteurs.
Référence : https://dataprivacylab.org/pro-
Les humains ont tendance à exagérer la performance jects/onlineads/1071-1.pdf
des Oracles. Parfois, ces Oracles apparaissent
quand il y a un disfonctionnement. Dans les commu-
niqués de presse, ces situations souvent drama- --- Qu'est-ce qu'un bon employé ? ---
tiques sont appelées des 'leçons'. Malgré la pro-
messe de leurs performances, beaucoup de problèmes Depuis 2015, Amazon compte environ 575 000 tra-
restent à résoudre. Comment s'assurer que les vailleurs, et ils leur en faut plus. Par consé-
Oracles soient justes, que chaque être humain quent, ils ont mis sur pied une équipe de 12 per-
puisse les consulter, qu'ils soient compréhen- sonnes pour créer un modèle qui trouverait de bons
sibles par un large public ? Même au-delà, des candidats en parcourant des sites de demande d'em-
questions existentielles persistent. Avons-nous ploi. L'outil attribuerait aux candidats une note
besoin de tous les types d'intelligences artifi- allant de une à cinq étoiles. Le potentiel a ali-
cielles ? Et qui définit ce qui est juste ou in- menté le mythe : l'équipe voulait un logiciel qui
juste ? recracherait les cinq meilleurs sur une liste de
100 candidats humains pour les embaucher.
--- Adsense racial --- Le groupe a créé 500 modèles algorithmiques, cen-
trés sur des fonctions et des lieux de travail
Latanya Sweeney, professeur en Gouvernance et spécifiques. Ils ont appris à reconnaître 50 000
Technologie à l'Université de Harvard, a documenté termes qui figuraient sur les lettres d’anciens
une 'leçon' classique sur le développement des candidats. Les algorithmes ont appris à accorder
Oracles. En 2013, Sweeney, d'origine afro-améri- peu d'importance aux compétences communes aux can-
caine, a googlé son nom. Elle a immédiatement reçu didats en IT, comme la capacité d'écrire du code
une publicité pour un service qui lui offrait 'de informatique, mais ils ont aussi reproduit les er-
voir le casier judiciaire de Latanya Sweeney'. reurs de leurs créateurs. Juste avant d'approuver
Sweeney, qui n'a pas de casier judiciaire, a dès un modèle, l’entreprise s’est rendue compte que
lors entamé une étude. Elle a commencé à comparer les modèles ont décidé que les candidats masculins
la publicité que Google AdSense offrait à diffé- étaient préférables. Ils pénalisaient les candida-
rents noms racisés identifiables. Elle a découvert tures qui comprenaient le mot ‘femmes’ ou ‘fémi-
qu'elle recevait plus d’annonces de ce type en re- nin’, comme dans 'capitaine de club d'échecs fémi-
cherchant des noms ethniques non-blancs qu'avec nin'. Et ils ont rétrogradé les diplômées de deux
universités réservées aux femmes.
18
de prédiction suscite beaucoup de discussions au
Ceci est dû à l'utilisation pour leur entraînement sein de la communauté du machine learning. Ces mo-
des demandes d'emploi reçues par Amazon sur une dèles fallacieux ou biaisés sont synonymes d’une
période de 10 ans. Durant cette période, l'entre- discrimination automatisée. La question se pose:
prise avait surtout embauché des hommes. Au lieu est-il vraiment possible d'éliminer complètement
de fournir la prise de décision 'équitable' que les préjugés de ces modèles ?
l'équipe d'Amazon avait promise, les modèles re-
flétaient une tendance biaisée dans l'industrie Certains affirment que oui, d'autres sont en
technologique. Mais ils l'ont aussi amplifiée et désaccord. Avant de soumettre le modèle à une in-
rendu invisible. Les activistes et les critiques génierie inversée, nous devrions nous demander si
affirment qu'il pourrait être extrêmement diffi- nous en avons besoin tout court. Ces chercheurs
cile de poursuivre un employeur en cas d’embauche ont suivi une troisième voie. En reconnaissant la
automatisée : les candidats à un emploi pourraient discrimination qui trouve son origine dans le lan-
ne jamais savoir que des logiciels intelligents gage, ces modèles deviennent pour eux des outils
ont été utilisés dans ce processus. de sensibilisation, en visualisant le problème.
Référence : https://www.reuters.com/article/us- L'équipe de la Standford University a développé un
amazon-com-jobs-automation-insight/amazonscraps- modèle d'analyse des ‘word embeddings’ entraîné
secret-ai-recruiting-tool-that-showed-bias- sur 100 ans de textes. Pour l'analyse contemporai-
against-women-idUSKCN1MK08G ne, ils ont utilisé les Google News word2vec Vec-
tors, un paquet prêt à l’emploi, téléchargeable,
entraîné sur le Google News Dataset. Pour l'ana-
--- Quantification de 100 ans de stéréotypes lyse historique, ils ont utilisé des 'word embed-
sexuels et ethniques --- dings' qui ont été entraînés sur Google Books et
The Corpus of Historical American English
Dan Jurafsky est le co-auteur de 'Speech and Lan- (COHA https://corpus.byu.edu/coha/) avec plus de
guage Processing', un des ouvrages les plus in- 400 millions de mots de textes des années 1810 à
fluents pour l'étude du traitement du langage na- 2000. Afin de valider le modèle, ils ont entraîné
turel. Avec quelques collègues de l'Université de des ‘word embeddings’ du New York Times Annotated
Stanford, il a découvert en 2017 que les ‘word em- Corpus pour chaque année entre 1988 et 2005.
beddings’ peuvent être un outil puissant pour
quantifier systématiquement les stéréotypes com- Leur recherche montre que les ‘word embeddings’
muns ainsi que d'autres tendances historiques. reflètent l'évolution des stéréotypes sexistes et
ethniques au fil du temps. Ils quantifient comment
Les ‘word embeddings’ sont une technique qui tra- des préjugés spécifiques diminuent avec le temps
duit les mots en vecteurs numérotés dans un espace tandis que d'autres stéréotypes augmentent. Les
multidimensionnel. Les vecteurs qui apparaissent principales transitions révèlent des changements
proches l’un de l’autre, indiquent une significa- dans les descriptions de genre et de groupes eth-
tion similaire. Ainsi, tous les numéros seront re- niques lors du mouvement des femmes dans les an-
groupés, toutes les prépositions, les prénoms et nées 1960-70 et la croissance de la population
les professions, etc. Cela permet de faire des asio-américaine dans les années 1960 et 1980.
calculs avec les mots. Vous pourriez, par exemple,
soustraire Londres de Royaume-Unis et votre résul- Quelques exemples :
tat serait le même que de soustraire Paris de
France. Les dix professions les plus étroitement associées
aux groupes ethniques dans le jeu de données de
Google News :
de l'adjectif 'honorable' est plus proche du vec-
teur 'homme', alors que le vecteur 'soumis' est - Hispanique : femme de ménage, maçon, artiste,
plus proche de 'femme'. Ces stéréotypes sont alors concierge, danseur, mécanicien, photographe, bou-
automatiquement appris par l'algorithme. Il langer, caissier, chauffeur.
s’avère problématique lorsque les 'embeddings'
pré-entraînés sont utilisés pour des applications - Asiatique : professeur, fonctionnaire, secrétai-
sensibles comme les classements de recherche, les re, chef d'orchestre, physicien, scientifique,
recommandations de produits ou les traductions. Ce chimiste, tailleur, comptable, ingénieur.
risque est réel, car un grand nombre de ‘word em-
beddings’ pré-entraînés sont téléchargeables sous - Blanc : forgeron, ferronnier, géomètre, shérif,
forme de paquets prêts à l'emploi. tisserand, administrateur, maçon, statisticien,
ecclésiaste, photographe.
On sait que la langue reflète et maintient en vie
Les 3 professions les plus masculines dans les an-
embeddings' pour repérer ces stéréotypes est moins nées 1930 : ingénieur, avocat, architecte.
cher et prends moins de temps que les méthodes ma- Les 3 professions les plus féminines dans les an-
nuelles. Mais leur mise en oeuvre dans des modèles nées 1930 : infirmière, femme de ménage, aide-soi-
19
gnante. la vie des gens, intitulé 'Weapons of Math Des-
truction'. On y parle de modèles d'IA aux États-
Peu de choses ont changé dans les années 1990. Unis qui classent les enseignants. C’est assez
horrible parce qu'il y aura forcément des préju-
Principales professions masculines : gés. D’après leur recherche, la façon d’aborder la
architecte, mathématicien et géomètre. question serait d'abord d’avoir un modèle open
Les professions féminines restent les mêmes : source, où l’on peut consulter le code et voir
infirmière, femme de ménage et sage-femme. quelles fonctionnalités sont utilisées avec des
données ouvertes, afin que les gens puissent en-
Mais qu'est-ce qui s'est passé dans cette re- quêter, trouver des préjugés, donner leur feedback
cherche avec les afro-américains? et faire un rapport. Il devrait y avoir un moyen
de réparer le système. Je ne pense pas que toutes
Référence : https://arxiv.org/abs/1711.08412 les entreprises vont dans cette direction, mais
Wikipédia, en raison des valeurs qu'elle défend,
est au moins plus transparente et pousse d'autres
--- Le Service ORES de Wikimedia --- personnes à faire de même.
L'ingénieur de logiciels Amir Sarabadani a présen- Référence : https://gitlab.constantvzw.org/alg
té le projet ORES à Bruxelles en novembre 2017 olit/algolit/blob/master/algoliterary_encounte
lors de notre Rencontre Algolittéraire. Cet 'Ob- r/Interview%20with%20Amir/AS.aac
prentissage automatique pour automatiser le tra-
vail critique sur Wikimedia, comme la détection du --- Tay ---
vandalisme et la suppression d'articles. Cristina
Cochior et Femke Snelting l'ont interviewé. Une histoire tristement célèbre est celle du pro-
gramme d'apprentissage automatique Tay, conçu par
Femke : Revenons à votre travail. Ces temps-ci, Microsoft. Tay était un chatbot qui imitait une
vous essayez de comprendre ce que signifie trouver adolescente sur Twitter. Elle a vécu moins de 24
des préjugés discriminatoires dans l'apprentissage heures avant d'être éteinte. Peu de gens savent
automatique. La proposition de Nicolas Malevé, qui qu'avant cet incident, Microsoft avait déjà en-
a donné l'atelier hier, était de ne pas essayer de traîné et publié XiaoIce sur WeChat, l'application
le réparer, ni de refuser d'interagir avec des de chat la plus utilisée en Chine. Le succès de
systèmes qui produisent de la discrimination, mais XiaoIce a été si prometteur qu'il a conduit au dé-
de travailler avec eux. Il considère que les pré- veloppement de son homologue américain. Cependant,
jugés sont inhérents à la connaissance humaine et les développeurs de Tay n'étaient pas préparés
que nous devons donc trouver des moyens de les pour le climat de la plateforme Twitter. Bien que
utiliser d'une façon ou d'une autre. Nous avons le bot savait distinguer un nom d'un adjectif, il
discuté un peu de ce que cela signifierait, com- n'avait aucune compréhension de la signification
ment cela fonctionnerait... Je me demandais donc réelle des mots. Le robot a rapidement commencé à
si vous aviez des idées sur cette question de par- reproduire les insultes raciales et d'autres lan-
tialité. gages discriminatoires qu'il a appris par les
autres utilisateurs de Twitter et les attaques de
Amir : La partialité à l'intérieur de Wikipédia trolls.
est une question délicate parce qu'elle se produit
à plusieurs niveaux. Un niveau très discuté est le L'apparition et la mort de Tay représentent une
système des références. Toutes les références ne prise de conscience importante. Elle a montré les
sont pas accessibles. Ce que la fondation Wikime- conséquences possibles de la corruption de l'ap-
dia a essayé de faire, c'est de donner un accès prentissage automatique, lorsque le contexte
gratuit aux bibliothèques payantes. Ils réduisent culturel dans lequel l'algorithme doit vivre n'est
l'exclusion en n'utilisant que des références en pas pris en compte.
libre accès. Un autre type de discrimination est
la connexion Internet, l'accès à Internet. Il y a Référence : https://chatbotslife.com/the-accounta-
beaucoup de gens qui ne l'ont pas. Une chose à bility-of-ai-case-study-microsofts-tay-experiment-
propos de la Chine, c'est qu'Internet y est blo- ad577015181f
qué. Le contenu opposé au gouvernement de la Chine
au sein du Wikipédia chinois est plus élevé parce
que les éditeurs [qui peuvent accéder au site Web]
ne sont pas pro-gouvernement et essaient de le
rendre plus neutre. On le remarque donc à beaucoup
d'endroits. En ce qui concerne l'intelligence ar-
tificielle (IA) et le modèle que nous utilisons
chez Wikipedia, c'est plutôt une question de
transparence. Il existe un livre sur la façon dont
les préjugés dans les modèles d'IA peuvent briser
20
cleaners clean cleaners clean cleaners clean cleaners clean cleaners clean cleaners clean
cleaners clean cleaners clean cleaners clean cleaners clean cleaners clean
cleaners clean cleaners clean cleaners clean cleaners clean
cleaners clean cleaners clean cleaners clean
cleaners clean cleaners clean cleaners clean cle
ners clean cleaners clean cleaners clean
cleaners clean cleaners clean cleaners clean
cleaners clean cleaners clean cleaners
lean cleaners clean cleaners clean
cleaners clean cleaners clean
cleaners clean cleaners clean cle
ners clean cleaners clean cleaners
clean cleaners clean cleaners
lean cleaners clean cleane
s clean cleaners clean
cleaners clean cleaners clean
cleaners clean cleaners clean
cleaners clean cleaners clean
cleaners clean
cleaners clean cleaners clean
cleaners clean cleaners clean
cleaners clean
cleaners clean cleaners clean
cleaners clean
cleaners clean cleaners clean
cleaners clean
cleaners clean cleaners
clean cleaners clean
cleaners clean
cleaners clean cleaners clean
cleaners clean
cleaners clean
cleaners clean cleaners
clean cleaners clean
cleaners clean
cleaners clean
cleaners clean cle
ners clean cleaners clean
cleaners clean
cleaners clean
cleaners clean
cleaners clean
cleaners clean
cleaners clean cleaners
lean cleaners clean
cleaners clean
cleaners clean
cleaners clean
cleaners clean
cleaners clean
cleaners clean
cleaners clean
cleaners clean
cleaners clean
cleaners clean
cleaners clean
cleaners clean
cleaners clean
cleaners clean
cleaners clean
cleaners clean
cleaners clean
cleaners clean
cleaners clean
cleaners clean
cleaners clean
cleaners clean
cleaners clean
cleaners clean
21
p 3 n C M ef3 t +-+-+-+-+-+-+-+-+ e7 +-+-+-+-+-+ _ a7s rl9 1t sPm4 ee7e rkc V
è o 9 c 2 o 3l s- |c|l|e|a|n|e|r|s| c72 |c|l|e|a|n| n ce-5i ps eg d M5 a /6 i|d 4
r | ué ddpe g n e7 se2 R n +-+-+-+-+-+-+-+-+ pm +-+-+-+-+-+ t r2é- n m9d7 r 6’aai-1 a + mu
u d 5y xa fa v| 1 l e3cu . e 1 a 7n d |u s tr ie %43 m1a ftol_3s _ é o , eh s id8
ce+eee b/ 7 2nuee -t2errld 8g lrs c c-i2 pd % . r7 n t v . c è 3 58ii 3tq rr M o
2 6-m9u c _ 7 , t | lr +-+-+ 3 +-+-+-+-+-+-+ uR n l s u9 a +n 1 qas r i ei1
s + 3 ot 8 n7 e u s gmt qooast o tv |w|e| 6 |h|e|l|p|e|d| o6 0 e2t 5 6% cp r t8 ' _
i n i u o i 9e N e 71e8 u +-+-+ i i +-+-+-+-+-+-+ e+ d 2 e+ 3 s 4r n n472t or2i
2e ll a n , n su p e1 qe r +-+-+ + +-+-+-+-+-+-+-+ 9 ieb a p pad i u 7 3iWé
+ n 8a é c ly - d n r ' |w|e| f 0t |c|l|e|a|n|e|d| e oo é3 t Nd eo du 5 \g
,r% 9o ai9 o l56 x c n t%a7 ese7 +-+-+ l +-+-+-+-+-+-+-+ 6 ba , l 2 c 9 6 |
gi4c l 2 6 + +-+-+-+-+-+ +-+-+-+-+ 7 _ +-+-+ +-+-+-+-+-+-+ ld p + d p7 a r u
l è 7 ar + 2 ee np |h|u|m|a|n| |w|o|r|k| s u |i|s| |n|e|e|d|e|d| 4 u t e3e 7 d é2 8 S ftm1
a t t lC ' paq +-+-+-+-+-+ +-+-+-+-+ 2 +-+-+ +-+-+-+-+-+-+ r n9v4 ie n 9 o
r \e w oa3s3x x u +-+-+-+-+-+-+-+-+-+-+-+ r 8e ln 8l e 9 7e w c n d 9 8
a s a l4r a eg+ |p|o|o|r|l|y|-|p|a|i|d| 3 a n +6 w 5 uii2 r 5c o s w s / t3s 3
6 sc A s : +-+-+-+-+-+-+-+-+-+-+-+ _ n e e e t c ts i u 6 9 . i
. a oc p a e +-+-+-+-+-+-+-+-+-+-+-+ d t +-+-+-+-+-+ +-+-+-+ s a g i8 e
lt43 9 l fd |f|r|e|e|l|a|n|c|e|r|s| 5 |c|a|r|r|y| |o|u|t| 5t0d m em ,
t e rc t am i +-+-+-+-+-+-+-+-+-+-+-+ o +-+-+-+-+-+ +-+-+-+ 1dt r d ' % o v
6 o 7 e é a|8 +-+-+-+-+-+-+-+-+-+-+ +-+-+ +-+-+-+-+-+-+-+-+-+ +-+-+-+-+ ta i
7 r 2s 6v n |v|o|l|u|n|t|e|e|r|s| |d|o| |f|a|n|t|a|s|t|i|c| |w|o|r|k| r r s
a 8 _ r m do +-+-+-+-+-+-+-+-+-+-+ e +-+-+ +-+-+-+-+-+-+-+-+-+ +-+-+-+-+ oi a - V
5 kr 8 r - l4 ' +-+-+-+-+-+-+-+ 0 +-+-+-+-+-+-+ +-+-+ +-+-+-+-+ n a |
\ L s - % +5a |w|h|o|e|v|e|r| au% |c|l|e|a|n|s| |u|p| |t|e|x|t| _ av n r tn
t 4 u il u +-+-+-+-+-+-+-+ +-+-+-+-+-+-+ +-+-+ +-+-+-+-+ d 7 g o
r | i | s 5 3o r - t w t )-p
f c n u r 8 | 4 a o s ' d s i ir a- m i 6 F e ,a 1+
6 n a 3 da l| d % 1 e72 5 c 67 | o - r
e p n t oa c sa 7 l e i s d é 9 lu c .\ u 5 9
8 ee 3 f a/r 20 4 u t ' a r e i 9c
8 p 5 p s lei J g 1 r f tl8 2h d
6 il éi o 4 L s l 3 l 9 t
dd t c t 3 d t ntr 9 h r , p
c t v d t r r a i t | _ t v eu
_| c o 4 5 e r a o 8 n n r f 9 u k x 4 n
| is C O - 69 w 6l J r 9O l 9 a/u e
l ic t , e d la o - l u n si
s n n è d a c a\ 6t e 79s
4 i \ 9 l -: d 3 u -2 o l % t
w in a a n 5 5 7
t ah | 2 n n u a + p 0 d
2 k 2 g e t l t 2 in
6 4t 1 é é e t
d 7 s m 9 a d t a r e p
o 8 C s e i i e i sd a e 3
l 3 7 a r/ m 5 i d é n 6
è 7at 4_ e 4 e 2 5 cm d
i a 4 r e a - r
9 i 4 c 6 o d w - é
y 5 6 + % r i - r
7 t g c _ i a l o
| t i r % 0 t
c5 3 m u i e ê
l l q e u wu s
4 5 5 e 8 a _ a t
e i i 3
3 3 e
e i t t c e- r 8 m -.
+ p r u d e n
e t a a
5 s r 2 l u m r r
d i a J e 5 l an u m
2 n| n c
é r N 2
t I
% 2 | 4
- t t o
22
V V V V V V V V % % % % %% % % % % %% % % % % %
V V V V V V V V V V V V V V V V % 0 % 0 % 0 %% % % 0 %% %
V V V V V V V % V V %% % % 0 %% %% % % %%%
% % %% % % 0 % % __ _ _ 0 % % %
% % % % /\ \ \___| |_| |_ ___ _ _ __ _ __ _ ___ %
NETTOYEURS / \/ / _ \ __| __/ _ \| | | |/ _` |/ _` |/ _ \
% % % % % / /\ / __/ |_| || (_) | |_| | (_| | (_| | __/
% % % % % \_\ \/ \___|\__|\__\___/ \__, |\__,_|\__, |\___|
V V V V V V V V % % 0 0 0 |___/ % |___/ % %
V V V V V V V V V V V V V V V V % % 0 _ __ ___ _ _ _ __ _ _ _ __ %
V V V V V V V V V | '_ \ / _ \| | | | '__| | | | | '_ \ %
V V V V V V V V | |_) | (_) | |_| | | | |_| | | | | %
V V V V V V V V V V V V V V V V | .__/ \___/ \__,_|_| % \__,_|_| |_| 0 % %
V V V V V V V V % V % |_| 0 % % 0 0
0 ___ 0 0 0
Algolit choisit de travailler avec / _ \___ ___ _ __ ___ ___ % %
des textes libres de droits. Cela % / /_)/ _ \ / _ \ '_ ` _ \ / _ \
signifie qu'ils sont publiés sous % / ___/ (_) | __/ | | | | | __/
une licence Creative Commons 4.0 - 0 \/ \___/ \___|_| |_| |_|\___|
ce qui est rare -, ou qu'ils sont 00 0 0
dans le domaine public parce que
l'auteur est mort il y a plus de 70 par Algolit
ans. C'est le cas des publications %
du Mundaneum. Nous avons reçu 203 Pour cette exposition, nous travaillons avec 3% des archives du
documents pour constituer des jeux Mundaneum. Ces documents ont d'abord été numérisés ou photogra-
de données qui sont maintenant dis- phiés. Pour rendre les documents consultables, ils sont transfor-
ponibles en ligne. L'inconvénient % més en texte à l'aide du logiciel de reconnaissance optique de
de ce choix est que nous sommes caractères (OCR) basés sur des modèles algorithmiques entraînés à
souvent confrontés à de mauvais base d'autres textes. Ils ont appris à identifier des caractères,
formats de texte. Cela signifie que des mots, des phrases et des paragraphes.
nous sommes souvent obligés de net- %
toyer des documents. Nous ne sommes Le logiciel fait souvent des 'erreurs'. Il peut être perturbé par
pas seuls dans cette situation. % un caractère erroné, une typographie inhabituelle ou la transpa-
rence de la page laissant apparaître le verso. Bien que ces er-
Les livres sont numérisés en haute reurs soient souvent considérées comme du bruit, elles peuvent
résolution, page par page. C'est un aussi être considérées comme des interprétations poétiques de
travail humain intensif et c'est l’algorithme. Elles nous montrent les limites de la machine. Et
souvent la raison pour laquelle les elles révèlent également comment l’algorithme fonctionne, quelle
archives et les bibliothèques matière l’a alimenté lors de son entraînement et ce qu’ils ré-
transfèrent leurs collections à une vèlent des normes de ses fabricants. Dans cette installation,
société comme Google. Les photos vous pouvez choisir comment vous traitez les erreurs de lecture
sont converties en texte via OCR de l'algorithme. Sélectionnez un degré de nettoyage poétique, im-
(Reconnaissance Optique de Caractè- primez votre poème et emportez-le chez vous.
res), des Data Workers qui recon-
naissent les lettres. Dans l'exécu- ---
tion de cette tâche, les algo-
rithmes font des erreurs, en parti- Concept, code, interface: Gijs de Heij
culier lorsqu'ils doivent traiter
des polices anciennes et des pages %
froissées. Ici aussi un travail hu- 0 0
main intensif est nécessaire pour 0 0 0 0 0
améliorer les textes. Cela est fait % __ _ 0 0 _ 0
par des freelances via des plate- / / ___ _ __ _ __ ___ (_) ___| |_ 0
formes de micro-paiement comme Me- / / / _ \ | '_ \| '__/ _ \| |/ _ \ __| 0
chanical Turk ; ou par des volon- % / /__| __/ | |_) | | | (_) | | __/ |_
taires, comme la communauté du Dis- 0 \____/\___| | .__/|_| \___// |\___|\__|
tributed Proofreaders Project, qui |_| |__/ 0 0
fournit un travail incroyable. Quoi 0 ___ _ _ _ _ 0 _ 0
qu’il en soit, le nettoyage des % 0 / (_)___| |_ _ __(_) |__ _ _| |_ ___
textes est un travail énorme pour / /\ / / __| __| '__| | '_ \| | | | __/ _ \
lequel il n'y a pas encore d'auto- / /_//| \__ \ |_| | | | |_) | |_| | || __/ 0
matisation structurelle. /___,' |_|___/\__|_| |_|_.__/ \__,_|\__\___| 0
0 _ ___ 0 __ 0
0 __| | / _ \_ __ ___ ___ / _|_ __ ___ __ _
/ _` | / /_)/ '__/ _ \ / _ \| |_| '__/ _ \/ _` |
| (_| | / ___/| | | (_) | (_) | _| | | __/ (_| |
% 0 \__,_| \/ |_| \___/ \___/|_| |_| \___|\__,_|
_ 0 0
0 __| | ___ _ __ ___ 0
23
%% % % % % % %% 0 % % % / _` |/ _ \ '__/ __| % % % %
% % % % % % % % %%% % 0 | (_| | __/ | \__ \ % % % %
% % % % % % % 0 0 \__,_|\___|_| |___/ 0 % % %
% % % %% % % % 0 0 % 0 % 0 0 0 % % %
% % % % % % % % % % % %% %
% % par Algolit % %
% % % % % % %
% % Distributed Proofreaders est une interface Web et une communauté
% internationale de bénévoles qui aident à convertir des livres du %%
% domaine public en livres électroniques. Pour cette exposition,
% ils ont relu des publications de Mundaneum parues avant 1923, qui
% sont donc dans le domaine public aux États-Unis.
% % % %
% Leur collaboration a été un grand soulagement pour les membres
% % d'Algolit. Moins de documents à nettoyer ! Tous les livres corri-
gés sont disponibles dans les archives du Projet Gutenberg. An
% % Mertens a interviewé Linda Hamilton, directrice générale de Dis-
tributed Proofreaders. % % % %
% %
% ---
%
% Interview : An Mertens, Algolit et Linda Hamilton, Distributed
Proofreaders
%
Montage : Michael Murtaugh, Constant
%
24
RÉCITS CONTEXTUALISÉS
AUTOUR DES NETTOYEURS
--- Projet Gutenberg et Distributed Proofreaders IDÉES
---
Le projet Gutenberg est notre grotte d'Ali Baba. A. L'instinct de Mort et l'instinct de Vie :
Il offre plus de 58 000 livres électroniques gra-
tuits à télécharger ou à lire en ligne. Les œuvres L'Instinct de Mort : séparation ; catégorisation ;
sont acceptées sur Gutenberg lorsque leur droit avant-garde par excellence ; suivre le chemin pré-
d'auteur américain a expiré. Des milliers de béné- dit vers la mort - exécuter son propre code ;
voles numérisent et relisent des livres pour aider changement dynamique.
le projet. Une partie essentielle du travail est
réalisée dans le cadre du projet Distributed Proo- L'Instinct de Vie : l'unification ; le retour
freaders. Il s'agit d'une interface Web pour aider éternel ; la perpétuation et l'ENTRETIEN de la ma-
à convertir les livres du domaine public en livres tière ; les systèmes et opérations de survie ;
électroniques. Pensez aux fichiers texte, aux e- l'équilibre.
pubs, aux formats Kindle. En divisant la charge de
travail en pages individuelles, de nombreux béné-
voles peuvent travailler sur un livre en même B. Deux systèmes de base :
temps, ce qui accélère le processus de nettoyage.
Développement et entretien. La boule de cristal de
Pendant la relecture, les bénévoles reçoivent une chaque révolution : après la révolution, qui va
image scannée de la page et une version du texte, essayer de repérer le taux de discrimination dans
lue par un algorithme de reconnaissance optique la production ?
des caractères (OCR) entraîné pour reconnaître les
lettres dans les scans. Cela permet de comparer Développement : pure création individuelle ; le
facilement le texte à l'image, de le relire, de le nouveau ; le changement ; le progrès ; l'avancée ;
corriger et de le renvoyer sur le site. Un l'excitation ; la fuite ou s'enfuir.
deuxième bénévole se voit ensuite présenter le
travail du premier. Il vérifie et corrige le tra- Entretien : garder la poussière de la création in-
vail si nécessaire, et le soumet au site. Le livre dividuelle pure ; préserver le nouveau ; soutenir
passe ensuite par un troisième cycle de relecture le changement ; protéger le progrès ; défendre et
et deux autres cycles de mise en page à l'aide de prolonger l'avancée ; renouveler l'excitation ;
la même interface Web. Une fois que toutes les répéter le vol ; montrez votre travail/remontrez-
pages ont terminé ces étapes, un post-processeur le ; gardez le dépôt git mis à jour ; gardez
les assemble soigneusement dans un e-book et les l'analyse des données révélatrice.
soumet à l'archive du Projet Gutenberg.
Les systèmes de développement sont des systèmes de
Nous avons collaboré avec le Distributed Proofrea- rétroaction partielle avec une grande marge de
ders Project pour nettoyer les fichiers numérisés changement.
que nous avons reçus de la collection du Munda-
neum. De novembre 2018 jusqu'à la première mise en Les systèmes d'entretien sont des systèmes à ré-
ligne du livre 'L'Afrique aux Noirs' en février troaction directe avec peu de possibilités de mo-
2019, An Mertens a échangé environ 50 courriels dification.
avec Linda Hamilton, Sharon Joiner et Susan Han-
lon, toutes bénévoles du Distributed Proofreaders
Project. La conversation complète est publiée ici. C. L'entretien est une corvée, ça prend tout le
Cela pourrait vous inspirer à partager des livres temps.
non disponibles en ligne.
L'esprit est éblouissant et s'irrite devant l'en-
nui.
--- Une version algolittéraire du Manifeste sur
l’entretien --- La culture attribue un statut médiocre aux emplois
d'entretien = salaire minimum, les Mechanical
En 1969, un an après la naissance de son premier Turks d'Amazon = pratiquement aucun salaire.
enfant, l'artiste new-yorkaise Mierle Laderman
Ukeles a écrit un 'Manifesto for Maintenance' (Ma- Nettoyer le set, marquer les données d'entraîne-
nifeste pour l'entretien). Le Manifeste d'Ukeles ment, corriger les fautes de frappe, modifier les
appelle à une réévaluation de l'état des travaux paramètres, terminer le rapport, satisfaire le de-
mandeur, télécharger la nouvelle version, joindre
blic. Ce qui suit est une version modifiée de son les mots qui ont été mal reconnus par le logiciel
texte inspirée par le travail des Nettoyeurs. de Reconnaissance Optique de Caractères, accomplir
ces tâches d'intelligence humaine, essayez de de-
viner la signification du formatage du demandeur,
vous devez accepter le 'hit' avant de pouvoir sou-
mettre les résultats, résumer l'image, ajouter la
25
case de délimitation, quelle est la similitude sé- des vidéos sur YouTube montrant aux 'turkers' com-
mantique de ce texte, vérifiez la qualité de la ment écrire un bot qui remplit des réponses pour
traduction, collecter vos micro-paiements, devenir vous.
un Mechanical Turk à succès.
Kristy Milland, une militante de Mechanical Turk,
Référence : https://www.arnolfini.org.uk/blog/ma- dit : 'Les travailleurs sur Mechanical Turk ont
nifesto-for-maintenance-art-1969 été très, très mal traités pendant 12 ans et,
d'une certaine façon, je vois cela comme un point
de résistance. Si nous étions payés équitablement
--- Une panique robotique chez le Mechanical Turk sur la plateforme, personne ne prendrait le risque
d'Amazon --- de perdre son compte de cette façon.'
Le Mechanical Turk d'Amazon prend le nom d'un au- Bai a créé un questionnaire pour les chercheurs en
tomate d'échecs du 18ème siècle. En fait, le Turc dehors de Mechanical Turk. Il dirige actuellement
mécanique n'était pas du tout une machine. C'était une recherche parmi les spécialistes des sciences
une illusion mécanique qui permettait à un maître sociales pour déterminer la quantité de données
d'échecs humain de se cacher à l'intérieur de la erronées utilisées, l'ampleur du problème et les
boîte et de l'utiliser manuellement. moyens de l'enrayer. Mais il est impossible à
l'heure actuelle d'estimer combien de jeux de don-
Pendant près de 84 ans, le Turc a remporté la plu- nées sont devenus peu fiables de cette façon-ci.
part des matchs joués lors de ses manifestations
en Europe et en Amérique. Napoléon Bonaparte se Références :
serait lui aussi laissé berner par cette ruse.
https://www.wired.com/story/amazon-mechanical-
Le Mechanical Turk d’Amazon est une plateforme en turk-bot-panic/
ligne à destination des humains pour exécuter des
tâches que les algorithmes ne parviennent pas à https://www.maxhuibai.com/blog/evidence-that-res-
faire. Il peut s'agir, par exemple, d'annoter des ponses-from-repeating-gps-are-random
phrases comme étant positives ou négatives, de re-
pérer des plaques d'immatriculation, de recon- http://timryan.web.unc.edu/2018/08/12/data-conta-
naître des visages. Les postes affichés sur cette mination-on-mturk/
plateforme sont souvent rémunérés moins d'un cen-
time par tâche. Les tâches les plus complexes ou
nécessitant le plus de connaissances peuvent être
payées jusqu'à plusieurs centimes. Pour gagner
leur vie, les 'turkers' doivent accomplir le plus
de tâches possible le plus rapidement possible, ce
qui entraîne d’inévitables erreurs. Les créateurs
des jeux de données doivent incorporer des
contrôles de qualité lorsqu'ils publient un tra-
vail sur la plate-forme. Ils doivent vérifier si
le 'turker' a réellement la capacité d'accomplir
la tâche, et ils doivent également vérifier les
résultats. De nombreux chercheurs universitaires
utilisent le Mechanical Turk pour des tâches qui
auraient été exécutées par des étudiants aupara-
vant.
En août de l'année dernière, Max Hui Bai, un étu-
diant en psychologie de l'Université du Minnesota,
a découvert que les enquêtes qu'il a menées avec
Mechanical Turk étaient pleines de réponses ab-
surdes aux questions ouvertes. Il a retracé les
mauvaises réponses et a découvert qu'elles avaient
été soumises par des répondants ayant des coordon-
nées GPS en double. Cela a suscité des soupçons.
Bien qu'Amazon interdise explicitement aux robots
d'effectuer des travaux sur Mechanical Turk, l'en-
treprise ne publie pas les problèmes qu'ils
causent sur sa plate-forme. Les forums pour 'tur-
kers' sont pleins de conversations sur l'automati-
sation du travail, le partage de pratiques sur la
façon de créer des robots qui transgresseraient
les termes d'Amazon. Vous pouvez également trouver
26
informants inform informants inform informants inform informants inform informants inform info
mants inform informants inform informants inform informants inform informants i
form informants inform informants inform informants inform info
mants inform informants inform informants inform informants info
m informants inform informants inform informants inform
informants inform informants inform informants
inform informants inform informants inform
informants inform informants inform informants info
m informants inform informants inform
informants inform informants inform
informants inform informants inform in
ormants inform informants inform infor
ants inform informants inform info
mants inform informants inform
informants inform informants inform
informants inform informants inform
informants inform informants inform
informants inform infor
ants inform informants inform
informants inform informants inform
informants inform
informants inform informants inform
informants inform
informants inform informants inform
informants inform
informants inform informants inform
informants inform
informants inform informants
inform informants inform
informants inform
informants inform informants
inform informants inform
informants inform
informants inform
informants inform informants info
m informants inform
informants inform
informants inform
informants inform
informants inform informants
inform informants inform
informants inform
informants inform
informants inform
informants inform
informants inform
informants inform
informants inform
informants inform
informants inform
informants inform in
ormants inform info
mants inform infor
ants inform infor
ants inform info
mants inform in
ormants inform
informants inform
informants inform
informants inform
informants inform
informants inform
informants inform
informants inform
informants inform
informants inform
informants inform
informants inform
informants inform
27
rnes h r 3 au lo%+ an 5 +-+-+-+-+-+-+-+-+-+-+ nse +-+-+-+-+-+-+ es a r - r n c 8 é2 rèe 5c eit
o cn si 2es to r |i|n|f|o|r|m|a|n|t|s| 2e |i|n|f|o|r|m| t le tl e 6 - , i t r
n - é6 i é +-+-+-+-+-+-+-+-+-+-+ si +-+-+-+-+-+-+ se n ae|v m o e a i 5é
5 oe mc d | ué|dé a m s i ee vc r u ejt l 5e t2 ie% 6 a d e n1 4o n9e a8
e e + n +so - n0 1f r4tn + % t trcnadb8a - btta A ge | 9pwW8 r s n e +4e _4i ac sw
m srs s| %u t8 6S +-+-+-+-+ +-+-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+-+ ,e| ese 1 e
eé é t ge % qf - |e|a|c|h| |d|a|t|a|s|e|t| s0ce |c|o|l|l|e|c|t|s| |d|i|f|f|e|r|e|n|t| i b 1ai3
u 5éé eoes 6 n u +-+-+-+-+ +-+-+-+-+-+-+-+ 9 +-+-+-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+-+ 3 - o 7 É
4 7 5on a / 8 h l lie r 3 e _ -ln 0o +-+-+-+-+-+-+-+-+-+-+-+ +-+-+-+-+-+ p 5U 7 6 nl 2é
7ce ebi u 2 a . _ 2 t %b u6% mS | i |i|n|f|o|r|m|a|t|i|o|n| |a|b|o|u|t| 5 o 9'3ab u p
,s 'o f p p o n sc 8_n c t n +-+-+-+-+-+-+-+-+-+-+-+ +-+-+-+-+-+ s - i a
,ae a s 4 9 n 2 le 3as n8 or 7 rn u9 +-+-+-+ +-+-+-+-+-+ d - ée x t e nl e _4 e
i rt _san r 62' o _ % / & p |t|h|e| |w|o|r|l|d| | r% pa mi P i aa7 vco
oh, a e d 7 a e q+ s d8 | sr +-+-+-+ +-+-+-+-+-+ - -u1 lr ir ch t tn
l e 2 1l / rne 9t 5 7 +-+-+-+-+-+-+-+-+ c +-+-+-+ +-+-+-+-+-+-+ +-+-+-+-+ li _ su 5 e r,oi sc
mi 6a %y \ 3 léri90 46nA |d|a|t|a|s|e|t|s| e t |a|r|e| |i|m|b|u|e|d| |w|i|t|h| 36 6 - 6| -
7 l as ,-+9 osn V u +-+-+-+-+-+-+-+-+ e 2s +-+-+-+ +-+-+-+-+-+-+ +-+-+-+-+ 3 + m u u t c
go P |n t te n 4i | i i a ts r el 6 +-+-+-+-+-+-+-+-+-+-+-+ +-+-+-+-+ v + 2 p
e 7 n 3- 3l er m pl eld4e e |c|o|l|l|e|c|t|o|r|'|s| |b|i|a|s| e nri b /p
s sc /_( 8 m r 8 c 5 l (s y +-+-+-+-+-+-+-+-+-+-+-+ +-+-+-+-+ m ' ne s
1 u e m G +-+-+-+-+ +-+-+-+-+-+-+-+-+ s +-+-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+ i o5 . \ s e c
i u f |s|o|m|e| |d|a|t|a|s|e|t|s| |c|o|m|b|i|n|e| |m|a|c|h|i|n|i|c| dx o 4 ms|
% a l +-+-+-+-+ +-+-+-+-+-+-+-+-+ e +-+-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+ é p f
tnl |r -5 a _ d a +-+-+-+-+-+ +-+-+-+-+ +-+-+-+-+-+ e neme 5
a 9e en - o% 4 e t à |l|o|g|i|c| |w|i|t|h| |h|u|m|a|n| r t e
t1 ul i n i L4 ee n n +-+-+-+-+-+ +-+-+-+-+ +-+-+-+-+-+ 2 6 nl
l d n i 5 +o 2 c or + s +-+-+-+-+-+ ero s+6 u e n t ie7
b 1 , e ve d èP 5 l u1 t e e |l|o|g|i|c| a e o / e pA
i + - 1 c s n s Ge t 6an _ +-+-+-+-+-+ r s ua t t u t- r t q--4
_ r 1 ie +-+-+-+-+-+-+ +-+-+-+-+ 9 . i t se\ a a_ 6
sh si e f |m|o|d|e|l|s| |t|h|a|t| 9 8 8 7 5 i m l 7 6
i éw 4 m o +-+-+-+-+-+-+ +-+-+-+-+ e d n n ' co2 i
' 8 d 4 +-+-+-+-+-+-+-+ p t s d t n6 + i eee3
5 s o te e d , | |r|e|q|u|i|r|e| é I e1 - 9 | m
5 5 t s7 m ps | e e +-+-+-+-+-+-+-+ i i to u c a c
7 4 e u d +-+-+-+-+-+-+-+-+-+-+-+ s +-+-+-+-+-+-+-+-+ +-+-+-+ mur e n 3 s r
t a e |s|u|p|e|r|v|i|s|i|o|n| c |m|u|l|t|i|p|l|y| |t|h|e| 3 o r e 6
n m- n +-+-+-+-+-+-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+ +-+-+-+ r e
d 1 o a f1 a e d pe +-+-+-+-+-+-+-+-+-+-+-+-+-+-+ ie s
p te 1 a 8 r a 7 a |s|u|b|j|e|c|t|i|v|i|t|i|e|s| e
r e 3 T . 9 +-+-+-+-+-+-+-+-+-+-+-+-+-+-+ 1 7 fe
a u +é a 6 +-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+-+ +-+-+-+-+ l 1s
e | |m|o|d|e|l|s| ae |p|r|o|p|a|g|a|t|e| |w|h|a|t| 4e d o ur
6 9 ee +-+-+-+-+-+-+ e +-+-+-+-+-+-+-+-+-+ +-+-+-+-+ c b
4 3 o w é 20 o +-+-+-+-+-+-+-+ +-+-+-+-+ i - r m
p m _ | 5 n / |t|h|e|y|'|v|e| |b|e|e|n| u| p d s 1 r
l h i r 3 n_ 3 +-+-+-+-+-+-+-+ +-+-+-+-+ s s c v i
\ d 9 s +-+-+-+-+-+-+ e d m e e
2 |t|a|u|g|h|t| r é n n
o sr s | s-3 +-+-+-+-+-+-+ p u
1 +-+-+-+-+ +-+-+ +-+-+-+ % , 7 o
2 r t |s|o|m|e| |o|f| |t|h|e| r f n t
4 é o +-+-+-+-+ +-+-+ +-+-+-+ V l l q i 8s
t c | S +-+-+-+-+-+-+-+-+ +-+-+-+-+ +-+-+ +-+-+-+-+-+-+-+ +-+-+ 8
t p |d|a|t|a|s|e|t|s| 88 |p|a|s|s| |a|s| |d|e|f|a|u|l|t| |i|n| t t
e 3 d +-+-+-+-+-+-+-+-+ +-+-+-+-+ +-+-+ +-+-+-+-+-+-+-+ +-+-+
r O é a r +-+-+-+ +-+-+-+-+-+-+-+ - 8 t
8 x 7 ad |t|h|e| |m|a|c|h|i|n|e| i 5 o _ 3
u 7 r u n e +-+-+-+ +-+-+-+-+-+-+-+ e p r
3 r r c 1 +-+-+-+-+-+-+-+-+ +-+-+-+-+-+ | r i
M 2 |l|e|a|r|n|i|n|g| |f|i|e|l|d| t e %
r s I a +-+-+-+-+-+-+-+-+ +-+-+-+-+-+ C
N au +-+-+-+-+-+-+ +-+-+-+-+-+ +-+-+-+-+-+-+-+-+
u c n |h|u|m|a|n|s| |g|u|i|d|e| |m|a|c|h|i|n|e|s| a è 4 o eu
t m +-+-+-+-+-+-+ +-+-+-+-+-+ +-+-+-+-+-+-+-+-+ 2 2 ue
e . i e k i | t
8 9 s a o e m | 6
i \v g é
28
V V % V V V V V V % % % % % % % % % % % %% % %
V V V V V V V V V V V V V V V V 0 % 0 % % % % % % % % %%%% %%
V V % V V % V V % V V % V % 0 % % % 0 %
% % % 0 0 0 0 _ _ % %% % % % %
% % % /\ /\ _ __ ___ ___| |_| |__ _ __ ___ __ _ % %
INFORMATEURS / / \ \ '_ \ / _ \ / _ \ __| '_ \| '_ \ / _ \ / _` |
% % % \ \_/ / | | | __/ | __/ |_| | | | | | | (_) | (_| |
% % % \___/|_| |_|\___| \___|\__|_| |_|_| |_|\___/ \__, |
V V V V % V V V V % 0 0 0 0 % % % 0 |___/ %
V V V V V V V V V V V V V V V V 0 % _ 0 _ _ 0 %
V V V % V V V % V V V % % 0 % _ __ __ _ _ __ | |__ (_) ___ __| | ___ ___
V V V V V V V V % 0 | '__/ _` | '_ \| '_ \| |/ _ \ / _` |/ _ \/ __| %
V V V V V V V V V V V V V V V V % | | | (_| | |_) | | | | | __/ | (_| | __/\__ \
V V V V V V V V V 0 |_| \__,_| .__/|_| |_|_|\___| \__,_|\___||___/
% % |_| % 0 0 00
Les algorithmes d'apprentissage au- 0 _ 0 % 00 _ %
tomatique ont besoin d'être guidés, (_) ___ _ ___ __ __| | ___ %
qu'ils soient supervisés ou non. | |/ _ \ | | \ \/ / / _` |/ _ \
Pour séparer une chose d'une autre, 0 0 | | __/ |_| |> < | (_| | __/
ils ont besoin de matériel pour en 0 _/ |\___|\__,_/_/\_\ \__,_|\___| 0
extraire des motifs. L'être humain |__/ %
doit choisir avec soin le matériel _ % 0 0 0 0
d'étude, adapté à la tâche de la 0 __| | ___ _ __ _ __ ___ ___ ___
machine. Il n'est pas logique d'en- 0 0 / _` |/ _ \| '_ \| '_ \ / _ \/ _ \/ __|
traîner une machine avec des romans | (_| | (_) | | | | | | | __/ __/\__ \ %
du 19ème siècle si sa mission est 0 \__,_|\___/|_| |_|_| |_|\___|\___||___/ 00
d'analyser des Tweets. 0 0 0
% %
C'est là qu'interviennent les jeux par Algolit %
de données : organisés en rangés et
en colonnes ordonnées, en attente Lors des réunions mensuelles Algolit nous cherchons ou créons
d'être lus par la machine. Chaque souvent des jeux de données. Parfois, nous utilisons des corpus
jeu de données recueille des infor- déjà existants, disponibles via le site Natural Language Toolkit
mations différentes sur le monde. nltk. NLTK contient, entre autres, la Déclaration universelle des
Comme toutes les collections, elles droits de l'Homme, les discours inauguraux des présidents améri-
sont imprégnées des stéréotypes et cains, ou des critiques de films du site Internet Movie Database
préjugés de ses créateurs. On en- (IMDb).
tend souvent l’expression : 'les
données sont le nouveau pétrole'. Chaque style d'écriture évoque des relations différentes entre
Si seulement les données étaient du les mots et reflète l'époque dont ils proviennent. En ce sens, le
pétrole ! Fuyantes, s’égouttant en gestionnaire de paquets Python pour le traitement du langage na-
graisse lourde, bouillonnantes et turel pourrait être considéré comme une capsule temporelle. Le
tressaillantes au contact d'une matériel inclu a été sélectionné car jugé utile par une communau-
nouvelle matière. Au contraire, les té de chercheurs. Malgré les spécificités, chaque jeu de données
données sont supposées d'être devient universel par défaut, en étant à la disposition d'un pu-
propres. Lors de chaque processus, blic aussi large.
chaque questionnaire, chaque titre %
de colonne, elles s’épurent, en ef- Nous examinons les jeux de données les plus couramment utilisés
façant peu à peu leurs caractéris- pour l'entraînement des modèles d'apprentissage automatique. De
tiques distinctes jusqu’à corres- quels matériaux sont-ils constitués ? Qui les a recueillis ?
pondre au moule du jeu de données. Quand ?
Certains jeux de données combinent ---
la logique machinique avec la lo-
gique humaine. Les modèles qui né- Concept, réalisation: Cristina Cochior
cessitent une supervision multi-
plient les subjectivités des col-
lecteurs de données et des annota- 0 0 0 0
teurs, puis propulsent et propagent 0 0 0 0
ce qui leur a été enseigné. Vous % ___ _ _ _
découvrirez des extraits de cer- / ( ) /_\ _ __ _ __ 0 ___ | |_ __ _| |_ ___
tains jeux de données qui passent / /|/ //_\\| '_ \| '_ \ / _ \| __/ _` | __/ _ \
par défaut dans le domaine de l'ap- / /___/ _ \ | | | | | | (_) | || (_| | || __/
prentissage automatique, ainsi que \____/\_/ \_/_| |_|_| |_|\___/ \__\__,_|\__\___|
des histoires d'humains guidant des 0 _ _ _ __ 0
machines. 0 0 | | | | '__|
| |_| | | 0
\__,_|_| 0
0 0 0 0
29
% %%% %%% %% % % % % %% % % % % % % %
% % % % % par Algolit %% % % % % % % % %%
% % % % % % % % %% % % % % % % % %
% % L'Annotateur demande au visiteur de l'aider à annoter les ar- %
%% % % chives du Mundaneum. % % %
% % % %
% Le processus d'annotation est une étape cruciale de l'apprentis- %
% % % % sage automatique supervisé où l'algorithme reçoit des exemples de
ce qu'il doit apprendre. Un filtre anti-spam sera alimenté %
% d'exemples de spam et de messages réels. Ces exemples sont des %
entrées du jeu de données prévues d'une étiquette, spam ou non
% spam. % %
% %
L'annotation d'un jeu de données est un travail exécuté par des
humains, qui choisissent une étiquette pour chaque entrée du jeu
% % de données. Pour assurer la qualité des étiquettes, plusieurs an-
% notateurs doivent voir la même entrée et donner la même étiquette
avant qu'un exemple ne soit inclus dans les données d'entraîne-
ment. Une fois que toutes les données d'entraînement ont été pré-
vues d'une étiquette, l'ordinateur peut lancer le processus d'ap-
% prentissage.
%
Dans cette interface, nous vous demandons de nous aider à classer
% les textes nettoyés des archives du Mundaneum afin d'élargir
% notre set d’entraînement et d'améliorer la qualité de l'installa-
tion 'Classer le Monde' dans Oracles.
% % % %
--- %
Concept, code, interface : Gijs de Heij
%
% %
% 0
0 %
% 0 _ ___ ___ ___
% 00 / |/ _ \ / _ \ / _ \ 0
| | | | | | | | | | |
0 | | |_| | |_| | |_| | 0
0 |_|\___/ \___/ \___/ 0 0 0
0 0 0 0 _
___ _ 0 _ _ __ ___ ___| |_ ___
0 / __| | | | '_ \/ __|/ _ \ __/ __|
0 \__ \ |_| | | | \__ \ __/ |_\__ \
|___/\__, |_| |_|___/\___|\__|___/
0 |___/ 00 0
0 0 0 0
par Algolit
Wordnet, créé en 1985, est une taxonomie hiérarchique qui décrit
le monde. Elle s'inspire des théories de la mémoire sémantique
humaine développées à la fin des années 1960. Les noms, verbes,
adjectifs et adverbes sont regroupés en collections de synonymes
ou 'synsets', prévues de définitions, hypernymes, hyponymes, ....
Chaque synset exprime des concepts différents. ImageNet est un
jeu de données d'images basé sur la hiérarchie des noms de
WordNet 3.0. Chaque synset est représenté par des milliers
d'images. De 2010 à 2017, le Défi de Reconnaissance Visuelle de
ImageNet (ILSVRC) a été une référence clé dans la classification
des catégories d'objets pour les photos, ayant un impact majeur
sur les logiciels de photographie, les recherches d'images, la
reconnaissance d'images.
%
1000 synsets (édition vinyle) contient les 1000 synsets utilisés
dans ImageNet, enregistrés dans la meilleure qualité sonore que
ce format analogique permet. Ce travail souligne l'importance des
jeux de données utilisés pour former des modèles d'intelligence
artificielle qui fonctionnent sur des appareils que nous utili-
sons quotidiennement. Certains d'entre eux héritent de classifi-
30
% % % %% % % % cations qui ont été conçues il y a plus de 30 ans. Le vinyle est % %
% % % % une invitation à les analyser en profondeur. %% % % % %%
% % % % % % % %% % % % %
% % % % %% % --- % %% % % % % % % % %
% % % % % % % %% % % % % % % % %
% % % % Conception et enregistrement: Javier Lloret % %
% % % % %
% % Voix: Sara Hamadeh & Joseph Hughes %
% % % % %% % % % %
% %
% % % % 0 0 0 0 0 0 0
0 0 % 0 0 0 0 %
% 0 0 ____ _ 0 %
% 00 0 /___ \_ _(_) %
% 0 // / / | | | | % 0 0 %
% 0 0 % / \_/ /| |_| | | %
\___,_\ \__,_|_| 0 0 0
_ _ 0 % 0 _ % % 0
| ( )__ _ __ ___ _ __ ___ _ __| |_ ___
0 | |/ _ \ '_ ` _ \| '_ \ / _ \| '__| __/ _ \
| | __/ | | | | | |_) | (_) | | | || __/ 0
% 00 |_|\___|_| |_| |_| .__/ \___/|_| \__\___|
|_| 00
0
%
Qui l'emporte: rapport de création
par Louise Dekeuleneer, étudiante Arts²/Option Communication Vi-
suelle
Le français est une langue genrée, en effet beaucoup de mots sont
féminins ou masculins et peu sont neutres. Le but de ce projet
% est de montrer qu'une société patriarcale influence aussi la
langue même. Le travail s'est focalisé sur le fait de montrer si
% plus de mots féminins ou masculins sont utilisés et de mettre en
% valeur l'influence du contexte sur le genre des mots. À ce stade,
aucune conclusion n'est encore tirée.  %
Des textes de loi datant de 1900 à 1910 mis à disposition par le
Mundaneum sont passés dans un algorithme qui fait du texte une
liste de mots. Ces mots sont alors comparés avec une autre liste
de mots francophones, dans laquelle il est spécifié si le mot est
masculin ou féminin. Cette liste de mots provient de Google
Books, qui a créé en 2012 une énorme base de données à partir de
tous les livres scannés et disponibles sur Google Books.
Les mots masculins sont surlignés d'une couleur et les féminins
d'une autre. Les mots qui ne sont pas genrés (adverbes, verbes,
...) ne sont pas surlignés. Le tout est enregistré en fichier
HTML pour qu'il puisse être directement ouvert dans une page web
et imprimé sans besoin de mise en page supplémentaire. C'est ain-
si que chaque texte a pu devenir un petit livret en changeant
juste le texte d'entrée de l'algorithme.
31
RÉCITS CONTEXTUALISÉS
AUTOUR DES INFORMATEURS
--- Les jeux de données comme représentations --- Il était à Bruxelles en novembre 2017 lors de la
Rencontre Algolittéraire.
Les processus de collecte des données qui mènent à
la création du jeu de données soulèvent des ques- Femke : En considérant Wikipedia comme une commu-
tions importantes : qui est l'auteur des données ? nauté vivante, chaque nouvelle page change le pro-
Qui a le privilège de collectionner ? Pour quelle jet. Chaque modification est en quelque sorte une
raison la sélection a-t-elle été faite ? Que contribution à un organisme vivant de la connais-
manque-t-il ? sance. Donc, si au sein de cette communauté vous
essayez de distinguer ce qui rend service à la
L'artiste Mimi Onuoha donne un exemple excellent communauté et de généraliser ceci dans un modèle –
de l'importance des stratégies de collection. Elle car je pense que c'est ce que l'algorithme de la
choisit le cas des statistiques relatives aux bonne ou mauvaise foi essaie de faire - vous le
crimes haineux. En 2012, le Programme de déclara- faites sur base d'une généralisation de l'idée
tion uniforme de la criminalité (DUC) du FBI a en- abstraite de Wikipedia, et non sur base de l'orga-
registré 5 796 crimes haineux. Toutefois, le Bu- nisme vivant. Ce qui m'intéresse dans la relation
entre le vandalisme et ce débat, c'est la façon
a établi 293 800 rapports sur de tels cas. C'est dont nous pouvons comprendre la dynamique conven-
plus de 50 fois plus. La différence entre les tionnelle de ces processus d'apprentissage automa-
chiffres peut s'expliquer par la façon dont les tique. Si on distingue la bonne ou la mauvaise foi
données ont été recueillies. Dans le premier cas, sur base d’étiquettes préexistantes et qu’on la
les organismes d'application de la loi de tout le reproduit ensuite dans des modèles algorithmiques,
pays ont volontairement signalé des cas. Pour le comment tenir compte des changements qui se pro-
deuxième, le Bureau des statistiques a distribué duisent, c’est-à-dire de la vie réelle du projet?
l'enquête nationale sur la victimisation directe-
ment aux foyers des victimes de crimes motivés par Amir : C'est une discussion intéressante. Premiè-
la haine. rement, ce que nous appelons la bonne ou la mau-
vaise foi provient de la communauté elle-même;
Dans le domaine du traitement du langage naturel, nous ne faisons pas l'annotation nous-mêmes, c’est
le matériel avec lequel les modèles d'apprentis- la communauté qui le fait. Ainsi, dans beaucoup de
sage automatique travaillent est le texte, mais Wikipedias de langues différentes, la définition
les mêmes questions se posent : qui sont les au- de ce qui est la bonne ou la mauvaise foi sera
teurs des textes qui composent les jeux de don- différente. Wikimedia essaie de refléter ce qui se
nées ? Au cours de quelle période les données ont- trouve à l'intérieur de l'organisme et non de
elles été recueillies ? Quel type de vision du changer l'organisme lui-même. Si l'organisme
monde représentent-elles ? change et que nous constatons que la définition de
la bonne foi à Wikipédia a été modifié, nous met-
En 2017, l'algorithme Top Stories de Google a pla- tons en œuvre cette boucle de rétroaction qui per-
cé un fil de discussion trompeur du site 4chan en met aux gens de porter un jugement sur leurs modi-
haut de la page de résultats lors de la recherche fications à l'intérieur de leur communauté. S'ils
du tireur de Las Vegas. Le nom et le portrait sont en désaccord avec l'annotation, nous pouvons
d'une personne innocente étaient liés au crime. revenir au modèle et modifier l'algorithme pour
Bien que Google ait changé son algorithme quelques refléter ce changement. C'est une sorte de boucle
heures seulement après que l'erreur ait été décou- fermée : vous changez les choses et si quelqu'un
verte, cela a sérieusement affecté la personne. voit qu'il y a un problème, il nous le dit et nous
Une autre question persiste : pourquoi Google n'a- pouvons modifier l'algorithme. C'est un projet en
t-il pas exclu le site de ragôts 4chan du jeu des cours.
données d'entraînement ?
Référence : https://gitlab.constantvzw.org/alg
Références : olit/algolit/blob/master/algoliterary_encounte
r/Interview%20with%20Amir/AS.aac
https://points.datasociety.net/the-point-of-col-
lection-8ee44ad7c2fa
--- Comment faire connaître votre jeu de données
https://arstechnica.com/information-technolo- ---
gy/2017/10/google-admits-citing-4chan-to-spread-
fake-vegas-shooter-news/ NLTK signifie Natural Language Toolkit. Pour les
programmeurs qui traitent le langage naturel avec
Python, c'est une bibliothèque essentielle. De
--- L'annotation pour un Oracle qui détecte le nombreux rédacteurs de tutoriels recommandent aux
vandalisme sur Wikipédia --- programmeurs d'apprentissage automatique de com-
mencer par les jeux de données NLTK intégrés. Il
Ce fragment est extrait d'une interview avec Amir compte 71 collections différentes, avec un total
Sarabadani, ingénieur de logiciels chez Wikimedia. de près de 6000 éléments.
32
Parmi eux, on trouve le corpus Movie Review pour berg , vin diesel , giovanni ribisi , davies et
l'analyse des sentiments. Ou le corpus Brown, qui burns . le film se clôture avec des scènes de ba-
a été créé dans les années 1960 par Henry Kučera taille extraordinaires .
et W. Nelson Francis à l'Université Brown de Rhode
Island. Il y a aussi le corpus de la Déclaration
des droits de l'homme, qui est couramment utilisé --- Les ouroboros de l'apprentissage automatique
pour vérifier si un code peut fonctionner dans ---
plusieures langues. Le corpus contient la Déclara-
tion des droits de l'homme dans 372 langues du Wikipédia est devenue une source d'apprentissage
monde entier. non seulement pour les humains, mais aussi pour
les machines. Ses articles sont des sources de
Mais quel est le processus pour faire accepter un premier ordre pour l’entraînement de modèles. Le
jeu de données dans la bibliothèque NLTK de nos matériel avec lequel les machines sont entraînées
jours ? Sur la page Github, l'équipe nltk décrit est identique au contenu qu'elles ont aidé à
les exigences suivantes : écrire. En fait, au début de Wikipédia, de nom-
breux articles ont été écrits par des robots. Ram-
- Ne rajoutez que les corpus qui ont obtenu un ni- bot, par exemple, était un robot controversé sur
veau de notabilité de base. Cela signifie qu'il la plateforme anglophone. Il est l'auteur de 98%
des pages décrivant les villes américaines.
nauté de programmeurs qui l'utilisent.
A cause de ces interventions de robots thématiques
- Assurez-vous d'avoir l'autorisation de redistri- et régulières, les modèles de prédiction qui sont
buer les données et de pouvoir les documenter. Ce- entraînés sur le dump de Wikipedia ont une vision
la signifie qu'il est préférable de publier le jeu unique de la composition des articles. Par exem-
de données sur un site Web externe avec une li- ple, un modèle thématique entraîné sur l'ensemble
cence. des articles de Wikipédia associe 'rivière' à
'Roumanie' et 'village' à 'Turquie'. C'est parce
- Utilisez les lecteurs de corpus NLTK existants qu'il y a plus de 10000 pages écrites sur les vil-
lorsque c'est possible, ou bien apportez un lec- lages en Turquie. Cela devrait suffire à susciter
teur de corpus bien documenté à NLTK. Cela signi- des envies de voyage, mais c'est bien trop par
fie que vous devez organiser vos données de ma- rapport à d'autres pays. L'asymétrie provoque une
nière à ce qu'elles puissent être facilement lues fausse corrélation et doit être corrigée. La plu-
à l'aide du code NLTK. part des modèles tentent d'exclure le travail de
ces auteurs robots prolifiques.
Référence : http://www.nltk.org/
Référence : https://blog.lateral.io/2015/06/the-
unknown-perils-of-mining-wikipedia/
--- Extrait d'une critique positive d'un film IMdB
du jeu de données NLTK ---
corpus : movie_reviews
fichier : pos/cv998_14111.txt
le deuxième film épique de steven spielberg sur la
seconde guerre mondiale est un chef-d'œuvre incon-
testé du cinéma . spielberg , encore étudiant en
cinéma , a réussi à ressusciter le genre de la
guerre en produisant l'un de ses films les plus
poignants et les plus puissants . il a également
réussi à faire briller tom hanks , qui livre une
performance époustouflante . pendant environ 160
de ses 170 minutes, ' sauver le soldat ryan ' est
sans faille . littéralement . l ' histoire est as-
sez simple . après l ' invasion du jour J ( dont
les séquences sont tout à fait spectaculaires ),
capt . john miller ( joué par tom hanks ) et son
équipe sont forcés à chercher un soldat . james
ryan ( joué par matt damon ), dont les frères sont
tous morts au combat. une fois qu ' ils l ' ont
trouvé , ils doivent le ramener immédiatement pour
qu'il puisse rentrer chez lui . la compagnie de
miller est composée d ' acteurs aux jeux tout sim-
plement sensationnels : bary pepper , adam gold-
33
0123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345678
9 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234567
89 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456
789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345
6789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234
56789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123
456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12
3456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1
23456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789
123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789
123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345678
9 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234567
89 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456
789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345
6789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234
56789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123
456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12
3456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1
23456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789
123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789
123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345678
9 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234567
89 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456
789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345
6789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234
56789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123
456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12
3456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1
23456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789
123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789
123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345678
9 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234567
89 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456
789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345
6789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234
56789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123
456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12
3456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1
23456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789
123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789
123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345678
9 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234567
89 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456
789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345
6789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234
56789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123
456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12
3456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1
23456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789
123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789
123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345678
9 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234567
89 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456
789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345
6789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234
56789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123
456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12
3456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1
23456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789
123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789
123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345678
9 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234567
89 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456
789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345
6789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234
56789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123
456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12
3456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1
23456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789
34
readers read readers read readers read readers read readers read readers read readers re
d readers read readers read readers read readers read readers re
d readers read readers read readers read readers read
readers read readers read readers read re
ders read readers read readers read readers re
d readers read readers read readers r
ad readers read readers read
readers read readers read readers read
readers read readers read
readers read readers read readers read
readers read readers read
readers read readers read
readers read readers read
readers read readers read
readers read readers read
readers read readers read
readers read readers
read readers read
readers read readers read
readers read readers read
readers read
readers read readers read
readers read
readers read readers read
readers read
readers read readers read
readers read
readers read readers re
d readers read
readers read
readers read readers read
readers read
readers read
readers read re
ders read readers read
readers read
readers read
readers read
readers read readers r
ad readers read
readers read
readers read
readers read
readers read
readers read
readers read
readers read readers
read readers read
readers read
readers read
readers read
readers read
readers read
readers read
readers read
readers read
readers read
readers read
readers read
readers read
readers read
readers read
readers read
readers read
readers read
readers read
readers read
readers read
readers read r
35
r9la s /te l9 i0 l n +-+-+-+-+-+-+-+ s +-+-+-+-+ 9 n t n s6m 7 n r uÉ 5 21oV i
t- 5e-i e 7- eo sso+ r 2 l |r|e|a|d|e|r|s| sss |r|e|a|d| d n ér 1 9 r r 13t4 4+%|c u n4l
i ie(+ o- nn 9s | na1 +-+-+-+-+-+-+-+ s r1 +-+-+-+-+ r k+m + d+4_1n -nr snic + 1 ua eo|
a w vad .p e ,3 , e i 3 lv%a5 ir u2l u o àaew sc _ , g n e a -6 G -i
ad -leg ear e -4 r 1 'rw m q| 13fti e ue3 l a 9 \_5u i san u i n d
m l-t a 1o a l s r +-+ +-+-+-+-+-+-+-+-+ -t - +-+-+-+-+-+-+-+-+-+-+-+ g9o l 5 ra nut1 s
e o 1 _a s 3 |a| |c|o|m|p|u|t|e|r| a |u|n|d|e|r|s|t|a|n|d|s| r lt mn d | mis 7a q , a
ks srn 3 6 - vp8 t t +-+ +-+-+-+-+-+-+-+-+ t s +-+-+-+-+-+-+-+-+-+-+-+ o p dr7 MMl3el   e ut
t d a6s \6 4 23  +-+-+-+ +-+-+-+-+-+-+ e +-+-+-+-+-+-+-+-+-+ e . + s l to a u
r ne2 ps a 1 e s r |a|l|l| |m|o|d|e|l|s| s |t|r|a|n|s|l|a|t|e| m e7 6t2Vt à i 3e 5 8
po d5 sai 5e ‘ e 5 +-+-+-+ +-+-+-+-+-+-+ r +-+-+-+-+-+-+-+-+-+ e3 s n 2 5 S o 9 t
r d|g9 l s +-+-+-+-+ +-+-+-+-+-+-+ 5 +-+-+-+-+-+ i s_7is t 6 o (s s1 m m_ 1D, c m ew
M + | i ²M |s|o|m|e| |m|o|d|e|l|s| e |c|o|u|n|t| 9+ 3 / dm + dd t ae n daÉ t t
8 ai 2 7 s6 t +-+-+-+-+ +-+-+-+-+-+-+ m +-+-+-+-+-+ o04sp é 5n0 42 8 ln
o5ln h e 4 2ke   er +-+-+-+-+ +-+-+-+-+-+-+ s +-+-+-+-+-+-+-+ m o9 ui c g4 I r r 4s n
_ d 7 m n 5e 3 rd |s|o|m|e| |m|o|d|e|l|s| |r|e|p|l|a|c|e| l 56 f s5s2 \8 s 82 n a 7reund2
ns e tc c s d +-+-+-+-+ +-+-+-+-+-+-+ % 5) +-+-+-+-+-+-+-+ 6 oa s 3 r' 1
i s + l o - 4 tea 7 l c i s n 7 94 o5 r n a r , s w
e it n e na ' ao i m nd e i3 % l | 6_e 7aa n7nt-t -r e , e | 7 mn
e nî 7s e-nnc r s3 r n 2e 5h oe '8 28 ed bn 5 c 3 at ian4 ta n
8so e V _ u e l6 _ ta| o u nQ en v 7 r N l9 r t | f n9e %e s 6e p cs 9d 9
sd 4 a s tus - t+u 6 e osg d a 9 t' a R e r n + t5 tp s n ` . i cQ s
L 8 c 4nf2 17 e - a 7 ià ne 6 7 c q i - | se à +
e eau 0 n 3 ef l é ea 5 u n a 7 5 n +. 8 z7 m9 y l t la r
d 0 r - '3 s ) a 5 s / t i - q| ee 9 e c n
n e 0 n e o un 1 6 3 p n n ,- 1 o6 n 9 é o e% es
P 1 6 r % 9oM1 6e | id n u 2d6e a u tc d 2 e
w o o u n ac 319 | éc n 'dn 7cl | Sl 8
6 7 t rn3 o s a 7 r - l g a e e 3j erf e nd 5oo n
l_ - im cs a S e t 9 4a1 e + i sb fé tt t su s a 6
a Rl pl c e r 7 8 i t e A - u a d ,
n t2 t K 9 i3e p a at 3 8 % e d 1 D ' 5 -8
n e _ g5 c c V e 6 s d
p - 5 1 5t da s o3 s - m e c n f
pi t 5 - l èc e | Rl t 7 f fSea
8 0 el n 2e 5 yor p | _ l| a af r i n
+ 5 6r ac o o o P t 5 1 + ss 9 u
c o 7é 7 3 p l n M r | i a _ à m a n o t a t
ir 6m t t a - r x A 7 u e
8 7) 7 86 z det Rw é u t' m d o
6 -9 8 9 5 4 o l 5 e n s b V 2 2 6
5 nC - e 9 er 2 t m + e si e 5 è
d t a 2 v . r tt m c 4 a 2 a 2 t ' m
a u4 up5 a 4+ t du l p - 92
a % tc h 9 7 d 4 5 tuu ee 8 6 r r e r c
t s 4 e a 8 |2 -
t e a e n | t 8 3 l o- 5 | 3
5 e l '6 i 7 e s a , a c t
, r l 9- i + s é n u l u s ) %
es 2 e 9 è 5 l N a % 33
/ 7 b e o % 'ar a e o | 5 - e
6| V td nn 1 w c s l 1 e r o3
6 o 5 9t ow u s t s
l. d / 9 r d % n e l 2 ps
c r u s es a a l _ h 4
' e ' r é n 7 m d t c
u 1 u é c wi e s i
3 un 5 5 1 t r 3 n i
u e N è s||s e 2 n- + L
o e u i i t 5 f 2 6 +e l g o m
j i c r 1 l ' e r q e | C
n 6 p , . n a n e
n 8 1 n t 8 c o
e t t . + e8 l 1
) c i p e es a
6 o r 9 ' n
% ) u l h u % io p 8 t
n o l c
36
V V % V V V V V V %% % % % %% % %% % %%% % %%
V V V V V V V V V V V V V V V V % % % % 0 00 % 0 % 0 % 0 % %%
V V V V V V V % V V % % 0 % % 0 % %
% % % % % % 0 __ 0 _____ ___ % _____ ___ ___ 0 %%
% % % / / ___ /__ \/ __\ \_ \/ \/ __\
% LECTEURS % 0 % / / / _ \ / /\/ _\____ 0 / /\/ /\ / _\ % %
% % 0 / /__| __/ / / / /|_____/\/ /_/ /_// / %%
% % 0 \____/\___| \/ \/ \____/___,'\/ %
V V V V V V V V % 0 0 % %
V V V V V V V V V V V V V V V V % % %
V V V V V V V V V par Algolit % % % %
V V V V V V V V % % % %
V V V V V V V V V V V V V V V V Le TF-IDF (Term Frequency-Inverse Document Frequency) est une mé-
V V V V V V V V V % thode de pondération utilisée dans la recherche de textes. Cette
% mesure statistique permet d'évaluer l'importance d'un terme
Nous communiquons avec les ordina- contenu dans un document, relativement à une collection ou un
teurs au moyens de langages. Nous % corpus de documents. Le poids augmente proportionnellement au
cliquons sur des icônes sous forme nombre d'occurrences du mot dans le document. Il varie également
de mots, nous tapons des mots sur en fonction de la fréquence du mot dans le corpus. Le TF-IDF est
des claviers, nous utilisons notre notamment utilisé dans la classification des spams.
voix pour leur donner des instruc-
tions. Parfois, nous confions nos Une interface web met en scène cet algorithme à travers des ani-
pensées les plus intimes à notre mations permettant de comprendre les différentes étapes de clas- %
ordinateur en oubliant qu'il s'agit sification d’un texte. Comment un programme basé sur le TF-IDF
d’une calculatrice avancée. Un or- lit un texte ? Comment transforme-t-il les mots en nombres ?
dinateur comprend chaque mot comme
une combinaison de zéros et de uns. ---
Une lettre est lue comme un numéro
ASCII spécifique : 'A' majuscule Concept, code, animation : Sarah Garcin
est 001. % %
%
Dans tous les 'rule-based models', 00 0 0
l'apprentissage automatique clas- 0 0
sique et les réseaux de neurones, ___ _ _ _ 0
les mots subissent une traduction / __\ _| | |_(_)_ _____ _ __ 0 0
en chiffres pour saisir le sens sé- % 0 / / | | | | | __| \ \ / / _ \ '__|
mantique du langage. Cela se fait 00 00 / /__| |_| | | |_| |\ V / __/ |
en comptant. Certains modèles 0 \____/\__,_|_|\__|_| \_/ \___|_|
comptent la fréquence des mots sim- 0 % _ _ 0 0
ples, d'autres la fréquence des _ _ _ __ /_\ _ __| |__ _ __ ___
combinaisons de mots, d'autres en- 0 | | | | '_ \ //_\\| '__| '_ \| '__/ _ \
core la fréquence des noms, des ad- | |_| | | | | / _ \ | | |_) | | | __/ %
jectifs, des verbes ou des phrases 00 0 \__,_|_| |_| \_/ \_/_| |_.__/|_| \___|
de noms et de verbes. Certains rem- 00 0 % 0 000 00
placent simplement les mots d'un
texte par leur numéro d'index. Les par Algolit
nombres optimisent la vitesse opé- %
rationnelle des processus informa- La nature de mots est une catégorie que nous apprenons à l'éco-
tiques, ce qui conduit à des pré- le : nom, verbe, adjectif, adverbe, pronom, préposition, conjonc-
dictions rapides, mais ils sup- tion, interjection, et parfois chiffre, article, ou déterminant.
priment aussi les liens symboliques Dans le traitement du langage naturel, il existe de nombreux
que les mots peuvent avoir. Nous écrits qui permettent d'analyser des phrases. Cela signifie que
présentons ici quelques techniques l'algorithme peut déterminer la nature de chaque mot d'une même
destinées à rendre un texte intel- phrase. 'Cultiver un arbre' utilise cette technique pour définir
ligible pour une machine. tous les noms dans une phrase spécifique. Chaque nom est alors
remplacé par sa définition. Cela permet à la phrase de grandir de
façon autonome et infinie. La recette de 'Cultiver un arbre'
s'inspire de la 'Littérature Définitionnelle', une contrainte in-
ventée par Marcel Benabou en 1966 au sein de l’Oulipo. Dans une
phrase donnée, on remplace chaque élément significatif (nom, ad-
jectif, verbe, adverbe) par l'une de ses définitions dans un dic-
tionnaire donné ; on répète l'opération sur la nouvelle phrase
reçue, et ainsi de suite.
Le dictionnaire utilisé dans cet ouvrage est Wordnet. Wordnet est
une combinaison d'un dictionnaire et d'un thésaurus qui peut être
lu par des machines. Selon Wikipédia, il a été créé dans le Co-
gnitive Science Laboratory de l'Université de Princeton à partir
de 1985.
37
% %% % % % % % % % % % % %% % % % %% %
% % % % --- %% % % % %% % % % % % % %
%% % % % % % %% %% % % % % % % % %
%%% % % Concept, code & interface : An Mertens & Gijs de Heij % %
% % % %% % % % %% % %
% % % % % % %% % % % % %%
% % % % 0 0 0 00 % % % 0 %
% % 0 0 0 %
% 0 0 % __ 0 __ _ 0 0
% 0 0 / / ___ / /(_)_ ___ __ ___ 0 %
0 / / / _ \ / / | \ \ / / '__/ _ \ 0
% / /__| __/ / /__| |\ V /| | | __/
% \____/\___| \____/_| \_/ |_| \___| 0 % %
% % 0 _ ___ 0 _ 0
% __| | ___ / \___ _ __ ___ __ _(_)_ __
0 / _` |/ _ \ / /\ / _ \ '_ ` _ \ / _` | | '_ \
| (_| | __/ / /_// __/ | | | | | (_| | | | | |
% % \__,_|\___| /___,' \___|_| |_| |_|\__,_|_|_| |_|
% % 0 _ 0 0 0 0
0 __| | __ _ _ __ ___ 0 _ _ _ __ 0
% / _` |/ _` | '_ \/ __| | | | | '_ \
% 0 0 0 | (_| | (_| | | | \__ \ | |_| | | | | 0
\__,_|\__,_|_| |_|___/ \__,_|_| |_|
0 __ 0 0 _ 0 0 0
% % 0 / _\ __ _ ___ __| | ___ 0 0
0 \ \ / _` |/ __| / _` |/ _ \
% 0 _\ \ (_| | (__ | (_| | __/ 0
00 \__/\__,_|\___| \__,_|\___|
0 _ 0
/\/\ ___ | |_ ___ 0 0
/ \ / _ \| __/ __| 0
0 / /\/\ \ (_) | |_\__ \
% 0 \/ \/\___/ \__|___/ 0
% 0 0 0 0 0
% % %
% par Algolit %
Le modèle du 'sac de mots' est une représentation simplifiée du
texte utilisé dans le traitement du langage naturel. Dans ce mo-
dèle, un texte est représenté sous forme de collection de mots
uniques, sans tenir compte de la grammaire, de la ponctuation et
même de l'ordre des mots. Le modèle transforme le texte en une %
liste de mots et leur occurrence dans le texte, littéralement un
sac de mots.
Cette forte réduction de la langue fut un choc au début de nos
expériences en apprentissage automatique. Le sac de mots est sou-
vent utilisé comme référent, sur base duquel le nouveau modèle
doit s’efforcer d’être plus performant. Il peut comprendre le su-
jet d'un texte en reconnaissant les mots les plus fréquents ou %
importants. On mesure souvent les similitudes des textes en com-
parant leurs sacs de mots.
Pour cet ouvrage, l'article 'Le Livre de Demain' de l'ingénieur
G. Vander Haeghen, publié en 1907 dans le Bulletin de l'Institut
International de Bibliographie, a été littéralement réduit à un
sac de mots. VOus pouvez acheter votre exemplaire à l'accueil du
Mundaneum.
---
Concept & réalisation: An Mertens
00 00 0 %
0 0 0 0
__ 0 _ 0 0
0 / / ___ ___| |_ _ _ _ __ ___ ___ __ _
/ / / _ \/ __| __| | | | '__/ _ \/ __| / _` |
38
% % %% %% % % % % % % % / /__| __/ (__| |_| |_| | | | __/\__ \ | (_| | % %
%%% % % % % % % % 0 \____/\___|\___|\__|\__,_|_| \___||___/ \__,_| % % %
% %% % % % % % %% % _ % % _ _ _ % 0 % _ 0 0 % % %
% % %% | | __ _ ___ _ __(_) |_| |__ _ __ ___ (_) __ _ % % %
% % % % | |/ _` |/ _ \| '__| | __| '_ \| '_ ` _ \| |/ _` | % % %
% % % | | (_| | (_) | | | | |_| | | | | | | | | | (_| | %
% % |_|\__, |\___/|_| |_|\__|_| |_|_| |_| |_|_|\__, |
% % % 0 |___/ 0 0 |_| % % %
% % % % _ %
% % 00 _ _ ___ ___ 0 __| |_ _ 0
% % 0 | | | |/ _ \/ __| / _` | | | | 0 %
% % | |_| | __/\__ \ | (_| | |_| | 0 %
% % % \__,_|\___||___/ \__,_|\__,_| 0
% 0 0 0 _ % _ _
% % 0 0 _ __ ___ _ __| |_ _ __ __ _(_) |_ %
| '_ \ / _ \| '__| __| '__/ _` | | __|
0 0 | |_) | (_) | | | |_| | | (_| | | |_
% | .__/ \___/|_| \__|_| \__,_|_|\__|
|_| 0 0 0 %
0 0 _ _
_ __ __ _ _ __| | ___ __| | ___
0 | '_ \ / _` | '__| |/ _ \ / _` |/ _ \ 0
| |_) | (_| | | | | __/ | (_| | __/
| .__/ \__,_|_| |_|\___| \__,_|\___|
% |_| 0 0 0
0 0 ___ _ _ _ _
/ __\ ___ _ __| |_(_) | | ___ _ __
0 /__\/// _ \ '__| __| | | |/ _ \| '_ \ 0 %
/ \/ \ __/ | | |_| | | | (_) | | | |
0 \_____/\___|_| \__|_|_|_|\___/|_| |_|
% 0 0
par Guillaume Slizewicz (Espèces urbaines)
% % % %
'Un code télégraphique du portrait parlé', écrit en 1907, est une
tentative de traduire en chiffres le 'portrait parlé', technique
de description du visage créée par Alphonse Bertillon, créateur
de l'anthropométrie judiciaire. En appliquant ce code, Otlet es-
% pérait que les visages des criminels et des fugitifs pourraient
être facilement communiqués par voie télégraphique. Dans sa for-
me, son contenu et son ambition, ce texte représente la relation
% complexe que nous entretenons avec les technologies documen-
taires. Ce document a été choisi comme base pour la création des
installations suivantes pour trois raisons.
%
- Premièrement, ce texte est un algorithme en soi, un algorithme
de compression, ou pour être plus précis, la présentation d'un
algorithme de compression. Il tente de réduire la taille de l'in-
formation tout en la gardant lisible pour la personne possédant
le code. À cet égard, elle est étroitement liée à la façon dont
nous créons notre technologie, à la recherche d'une plus grande
efficacité, de résultats plus rapides et de méthodes moins coû-
teuses. Il représente notre appétit de chiffrement qui s'étend au
% monde entier, notre envie de mesurer les plus petites choses,
d'étiqueter les différences les plus infimes... Ce texte incarne
% en lui-même la vision du Mundaneum.
- Deuxièmement, on y traite des raisons et des mises en œuvre de
nos technologies. La présence de ce texte dans les archives sé-
lectionnées est presque ironique à une époque où la reconnais-
sance faciale et la surveillance des données font la une des
journaux. Ce texte présente les mêmes caractéristiques que cer-
taines technologies d'aujourd'hui : il est motivé par un contrôle
social, classifie les personnes, pose les bases d'une société de
surveillance. Les caractéristiques physionomiques sont au cœur de
récentes controverses : les photos d'identité ont été standardi-
sées par Bertillon, elles sont maintenant utilisées pour entraî-
% ner des réseau neuronaux à identifier les criminels, les systèmes
de reconnaissance faciale permettent des arrestations via notre
39
% % % % %% % % infrastructure de caméras de surveillance et certains affirment %
% % % % %% % que les caractéristiques physiques peuvent prédire l'orientation
% % % sexuelle. % % % % % %
% % % % % %% % % % % %% % %
% %% - Le dernier point concerne la façon dont, en tant que témoignage
% % % écrit, ce texte représente l'évolution de notre techno-structure: %
% % ce que nos outils nous permettent de faire, ce qu'ils nous inter-
% % disent, ce qu'ils entravent, ce qu'ils nous font retenir et ce
% % qu'ils nous font oublier. Ce document permet une classification
% entre les personnes, et instaure une normalité. Il brise un %
% % continuum en morceaux, et permet les stigmatisations et les dis-
criminations. D'un autre côté, ce document semble également obso-
lète aujourd'hui, car cette techno-structure n'a pas besoin de
descriptions écrites aussi détaillées sur les fugitifs, les cri-
minels ou les citoyens. Nous pouvons maintenant trouver des em-
preintes digitales, des scanners d'iris ou des informations ADN %
% % dans de grands jeux de données et les comparer directement. Par-
fois, les systèmes agissent indépendamment, sans surveillance hu- %
% maine et reconnaissent directement l'identité d'une personne par
ses traits faciaux ou sa démarche. Ces machines n'utilisent pas
un langage alphabétique complexe pour décrire un visage, mais des
listes de chiffres. Ainsi, tous les mots utilisés dans ce docu-
% ment semblent désuets, datés. Avons-nous oublié ce que certains
d'entre eux signifient ? La photographie nous a-t-elle fait ou-
% blier comment décrire les visages ? Les assistants vocaux nous
l'apprendront-il de nouveau ?
%
Écrire avec Otlet
Ecrire avec Otlet est un générateur de personnages qui utilise le
% code du portrait parlé comme base de données. Des nombres aléa-
toires sont générés et traduits en un ensemble de caractéris-
tiques humaines. En créant des instances uniques, l'algorithme
révèle la richesse de la description qui est possible avec 'Un
code du portrait' tout en incorporant ses nuances.
Interprétation du portrait parlé de Bertillon %
%
% Ce travail établit un parallèle entre le système dit de "Ber-
tillonage" et les systèmes actuels de description de visage. Une
% webcam associée à un algorithme de reconnaissance faciale capte
le visage du spectateur et le traduit en chiffres sur un écran,
% en l'imprimant à côté des visages annotés par Bertillon.
%
0 0 0 0
0 0 00 0 0
% 0 __ 0 0 _
0 0 0 / / ___ _ __ ___ _ __ % __| |_ _ 0
/ / / _ \ | '_ \ / _ \ '_ \ / _` | | | |
/ /__| __/ | |_) | __/ | | | (_| | |_| |
\____/\___| | .__/ \___|_| |_|\__,_|\__,_|
0 0 |_| 0 0 0
0 0 % 0
par Laetitia Trozzi, étudiante Arts²/Section Arts Numériques
Quoi de mieux pour découvrir Paul Otlet et sa passion pour la
littérature que de jouer au pendu? À travers ce jeu simple, qui
consiste à deviner les lettres manquantes dans un mot, le but est
de faire découvrir au public des termes et des faits liés à un
des créateurs du mundaneum.
%
En utilisant un algorithme de détection de fréquence de mots dans
un texte, une série de mots significatifs ont été isolés dans la
bibliographie de Paul Otlet. Cette série de mots a ensuite été
intégrée à un jeu du pendu présenté dans un terminal. La diffi-
culté du jeu augmente graduellement en proposant au joueur des
mots de plus en plus longs. Durant les phases de jeux, des infor-
40
RÉCITS CONTEXTUALISÉS
AUTOUR DES LECTEURS
Naive Bayes, Support Vector Machines ou Régression lettre de suicide a été écrite par quelqu'un
Linéaire sont considérés comme des algorithmes d'autre.
classiques d'apprentissage automatique. Ils fonc-
tionnent bien lorsqu'ils apprennent avec de petits Comment une machine analyse-t-elle les textes pour
jeux de données. Mais ils nécessitent souvent des vous identifier ? La caractéristique la plus ro-
lecteurs complexes. La tâche accomplie par les buste pour la reconnaissance de l'auteur est four-
lecteurs est également appelée 'feature enginee- nie par la technique des N-grammes de caractères.
ring'. Cela signifie qu'un être humain doit consa- Elle est utilisée dans des cas qui présentent une
crer du temps à une analyse exploratoire approfon- grande variété dans les thématiques et les genres
die du jeu de données. d’écriture. Lors de l'utilisation des N-grammes de
caractères, les textes sont considérés comme des
Leurs caractéristiques peuvent être la fréquence séquences de caractères. Considérons le trigramme
des mots ou des lettres, mais aussi des éléments des caractères. Toutes les séquences de trois ca-
syntaxiques comme les noms, les adjectifs ou les ractères qui se chevauchent sont isolées. Par
verbes. Les caractéristiques les plus importantes exemple, le trigramme de caractères de 'suicide',
pour la tâche à résoudre doivent être soigneuse- serait, 'sui', 'uic', 'ici', 'cid' et 'ide'. Les
ment sélectionnées et transmises à l'algorithme N-grammes de caractères sont très simples, ils
classique d'apprentissage automatique. Ce proces- sont indépendants du langage et tolérants au
sus diffère de celui des réseaux de neurones. Lors bruit. De plus, les fautes d'orthographe ne com-
de l'utilisation d'un réseau de neurones, il n'est promettent pas la technique.
pas nécessaire de recourir au 'feature enginee-
ring'. Les humains peuvent transmettre les données Les motifs trouvés avec les N-grammes de carac-
directement au réseau et obtiennent généralement tères se concentrent sur les choix stylistiques
de bonnes performances dès le départ. Cela permet qui sont faits inconsciemment par l'auteur. Les
d'économiser beaucoup de temps et de ressources. modèles restent stables sur toute la longueur du
texte, ce qui est important pour reconnaître l’au-
L'inconvénient de la collaboration avec les ré- teur. D'autres types d'expériences pourraient in-
seaux de neurones est que vous avez besoin de clure la longueur des mots ou des phrases, la ri-
beaucoup plus de données pour entraîner votre mo- chesse du vocabulaire, la fréquence des mots de
dèle de prédiction. Pensez à au moins 1 Go de fi- fonction et même les mesures syntaxiques ou séman-
chiers texte. Pour vous donner une référence, 1 tiques.
A4, soit un fichier texte de 5000 caractères, ne
pèse que 5 Ko. Il vous faudrait donc 8.589.934 Cela signifie non seulement que votre empreinte
pages. Traiter plus de données sous-entend d'avoir physique est unique, mais qu’il en va de même de
accès à ces données et surtout, d'avoir beaucoup la façon dont vous composez vos pensées !
plus de puissance de traitement.
La même technique n-gramme a découvert que 'The
Cuckoo's Calling', un roman de Robert Galbraith, a
--- Les N-grammes de caractères pour la reconnais- en fait été écrit par... J.K. Rowling !
sance d'un auteur ---
Références :
Imaginez... vous travaillez pour une entreprise - Essai: On the Robustness of Authorship Attribu-
depuis plus de dix ans. Vous avez écrit des tonnes tion Based on Character N-gram Features, Efsta-
de courriels, d'articles, de notes internes et de thios Stamatatos, in Journal of Law & Policy, Vo-
rapports sur des sujets et dans des genres très lume 21, Issue 2, 2013.
différents. Tous vos écrits, ainsi que ceux de vos - Article: https://www.scientificamerican.com/ar-
collègues, sont sauvegardés en toute sécurité sur ticle/how-a-computer-program-helped-show-jk-row-
les serveurs de l'entreprise. ling-write-a-cuckoos-calling/
Un jour, vous tombez amoureuse d'une collègue.
Après un certain temps, vous réalisez que cette --- Histoire des N-grammes ---
personne est non seulement folle et hystérique
mais qu'elle dépend beaucoup de vous. Le jour où L'algorithme des N-grammes peut être retracé jus-
vous décidez de rompre, votre ex élabore un plan qu'aux travaux de Claude Shannon en théorie de
pour vous tuer. Elle réussit. Pas de chance. Une l'information. Dans l'article 'A mathematical
lettre de suicide signée de votre nom est retrou- theory of communication', publié en 1948, Claude
vée à côté de votre cadavre. Celle-ci raconte que Shannon réalise la première instance d'un modèle
de langage naturel à base des N-grammes. Il a posé
de problèmes émotionnels. Vos meilleurs amis ne la question suivante : étant donné la séquence des
croient pas au suicide. Ils décident de porter lettres, quelle est la probabilité de la prochaine
l'affaire devant les tribunaux. Et là, à partir lettre ?
des textes que vous et d'autres avez produits, un Si vous lisez l'extrait suivant, pouvez-vous nous
modèle d'apprentissage automatique révèle que la dire par qui il a été écrit ? Shakespeare ou un
robot N-grammes ?
41
pliquer un mouvement boursier basé sur d'autres
SEBASTIEN : Dois-je rester debout jusqu'à la rup- facteurs que les facteurs purement économiques. La
ture. Bourse et 'l'opinion publique' s'influencent mu-
BIRON : Cache ta tête. tuellement. De nombreuses recherches sont effec-
VENTIDIUS : Il se rendit à Athènes, où, par le tuées sur la façon d'utiliser 'l'opinion publique'
voeu. que j'ai fait pour m'occuper de toi. pour prédire les tendances dans le cours des ac-
FALSTAFF : Mon bon fripouille. tions.
Vous aviez peut-être deviné, en considérant le su- 'L'opinion publique' est évaluée à partir de
jet de ce récit, qu'un algorithme N-grammes a gé- grandes quantités de données publiques, comme les
néré ce texte. Le modèle est entraîné sur l'oeuvre tweets, les blogs ou la presse en ligne. Des re-
complète de Shakespeare. Alors que les algorithmes cherches montrent que l'évolution des cours bour-
plus récents, tels que les réseaux de neurones ré- siers peut, dans une certaine mesure, être prédit
cursifs de CharRNN, deviennent célèbres pour leurs en examinant 'l'opinion publique' à travers l'ana-
performances, les N-grammes exécutent encore beau- lyse des données automatique. On trouve de nom-
coup de tâches NLP. Elles sont utilisés dans la breux articles scientifiques en ligne, qui ana-
traduction automatique, la reconnaissance vocale, lysent la presse sur le 'sentiment' qui y est ex-
la correction orthographique, la détection d'enti- primé. Un article peut être annoté comme plus ou
tés, l'extraction d'informations, etc. moins positif ou négatif. Les articles de presse
annotés sont ensuite utilisés pour entraîner un
Référence : http://www.math.harvard.edu/~ctm/ho- modèle d’apprentissage automatique, qui permet de
me/text/others/shannon/entropy/entropy.pdf prédire les tendances boursières, en les marquant
comme 'à la baisse' ou 'à la hausse'. Quand une
entreprise fait mauvaise presse, les traders
--- Dieu dans Google Books --- vendent. Au contraire, si les nouvelles sont bon-
nes, ils achètent.
En 2006, Google crée un jeu de données de N-
grammes à partir de sa collection de livres numé- Un article de Haikuan Liu de l'Université Natio-
risés pour le mettre en ligne. Récemment, ils ont nale Australienne affirme que le temps des verbes
également réalisé une visionneuse de N-grammes. utilisés dans les tweets peut être un indicateur
Cela a permis de nombreuses recherches sociolin- de la fréquence des transactions financières. Son
guistiques. Par exemple, en octobre 2018, le New idée s'inspire du fait que la conjugaison des
York Times Magazine a publié un article d'opinion verbes est utilisée en psychologie pour détecter
intitulé 'It's Getting Harder to Talk About God'. les premiers stades de la dépression humaine.
L'auteur, Jonathan Merritt, avait analysé la men-
tion du mot 'Dieu' dans le jeu de données de Référence : Grammatical Feature Extraction and
Google à l'aide du visualiseur de N-grammes. Analysis of Tweet Text: An Application towards
Il a conclu qu'il y a eu un déclin dans l'usage du Predicting Stock Trends, The Australian National
mot depuis le 20ème siècle. Le corpus de Google University (ANU)
contient des textes du 16e jusqu'au 21e siècle.
Cependant l'auteur a manqué d'observer la popula-
rité croissante des revues scientifiques vers le --- Sac de mots ---
début du 20ème siècle. Ce nouveau genre, dans le-
quel le mot Dieu n'apparaît pas, a fait basculer Dans le traitement du langage naturel, le 'sac de
le jeu des données. Si la littérature scientifique mots' est considéré comme un modèle simple. Il dé-
était retirée du corpus, la fréquence du mot pouille un texte de son contexte et le décompose
'Dieu' s'écoulerait toujours comme l'ondulation dans sa collection de mots uniques. Ensuite, ces
douce d'une vague lointaine. mots sont comptés. Dans les phrases précédentes,
par exemple, le mot 'mots' est mentionné trois
Référence : https://www.nytimes.com/2018/10/13/o- fois, mais ce n'est pas nécessairement un indica-
pinion/sunday/talk-god-sprituality-christian.html teur de l'objet du texte.
La première apparition de l'expression 'sac de
--- Les traits grammaticaux extraits de Twitter mots' semble remonter à 1954. Zellig Harris a pu-
influencent le marché boursier --- blié un article dans le contexte des études lin-
guistiques, intitulé 'Distributional Structure'.
Les frontières entre les disciplines académiques Dans la partie intitulée 'Le sens en fonction de
s'estompent. La recherche économique mélangée à la la distribution', il dit que 'le langage n'est pas
psychologie, aux sciences sociales, aux concepts seulement un sac de mots, mais aussi un outil aux
cognitifs et émotionnels créent un nouveau sous- propriétés particulières qui ont été façonnées au
domaine économique, appelé 'l'économie comporte- cours de son utilisation. Le travail du linguiste
mentale'. est précisément de découvrir ces propriétés, que
ce soit pour l'analyse descriptive ou pour la syn-
Cela signifie que les chercheurs commencent à ex- thèse du système quasi-linguistique.'
42
learners learn learners learn learners learn learners learn learners learn learners learn
learners learn learners learn learners learn learners learn learners learn
learners learn learners learn learners learn learners learn
learners learn learners learn learners learn
learners learn learners learn learners learn lea
ners learn learners learn learners learn
learners learn learners learn learners learn
learners learn learners learn learners
earn learners learn learners learn
learners learn learners learn
learners learn learners learn lea
ners learn learners learn learners
learn learners learn learners
earn learners learn learne
s learn learners learn
learners learn learners learn
learners learn learners learn
learners learn learners learn
learners learn
learners learn learners learn
learners learn learners learn
learners learn
learners learn learners learn
learners learn
learners learn learners learn
learners learn
learners learn learners
learn learners learn
learners learn
learners learn learners learn
learners learn
learners learn
learners learn learners
learn learners learn
learners learn
learners learn
learners learn lea
ners learn learners learn
learners learn
learners learn
learners learn
learners learn
learners learn
learners learn learners
earn learners learn
learners learn
learners learn
learners learn
learners learn
learners learn
learners learn
learners learn
learners learn
learners learn
learners learn
learners learn
learners learn
learners learn
learners learn
learners learn
learners learn
learners learn
learners learn
learners learn
learners learn
learners learn
learners learn
learners learn
learners learn
43
s ep 2 | tm r|rj4aan s + +-+-+-+-+-+-+-+-+ f7 +-+-+-+-+-+ t_ e gn e 4é C \ t xet e t n lsr
u_ l 39 aè 1 w r r é |l|e|a|r|n|e|r|s| l |l|e|a|r|n| w 6 c 56 au 6 s e e06 é u -
s dw %_n u5 ap6 /(i7e,au u +-+-+-+-+-+-+-+-+ l , +-+-+-+-+-+ ed 99 é L lebe2 n 3 t ci27r
3 d n +ucieesa 2 e t 7sl _ 4ee: 6t dQ tr t rtr 5 e ps 9 6 r+ | .8 ir 6i r
é34 l e i '2 8 1 n s m| to e - l|a u r 6 c r ass j p GtV,ep e r
|2dd or -qop 2 p5 9c 7%n - +-+-+-+-+-+-+-+-+ _15 +-+-+-+ +-+-+-+-+-+-+-+ é ro) -ns e ap_ \
, rit t sue s ss | rop r n |l|e|a|r|n|e|r|s| |2 |a|r|e| |p|a|t|t|e|r|n| tsi4 3 a oar_ n1r8er a 7e-1
n i3 w9p f e9 ti u +-+-+-+-+-+-+-+-+ r jn +-+-+-+ +-+-+-+-+-+-+-+ d 5e\ s 3n e2
n c e%,' fp e e9n mS 8l 1 eo +-+-+-+-+-+-+-+ t5 eo8r,n p e 6g s_ e 8 2 5 1 r
9 e h 8 % +c n % _ n r|4 ar pm e r9 - |f|i|n|d|e|r|s| 2ce . s s\ d a s n ll
0n % - o rri éo s d vn 8i b I â +-+-+-+-+-+-+-+ fa w% 32 s' 2l 6i0ne2 u a
VC n e. m\ l éml+ a d a +-+-+-+-+-+-+-+-+ \a8 +-+-+-+ +-+-+-+-+-+-+-+-+ t 7 4 a e 0 et6__ fo3
ie 4 mi , rax m f oistar s |l|e|a|r|n|e|r|s| |a|r|e| |c|r|a|w|l|i|n|g| u e m o d1 5 2 u t
s yk8 é L '5 p te +-+-+-+-+-+-+-+-+ s e +-+-+-+ +-+-+-+-+-+-+-+-+ 9oè nn +7
_ + a e i + u 3 ct 65 b 9p e +-+-+-+-+-+-+-+ +-+-+-+-+ 2ue 26 e  4 l r m 8 |5
i l' | f l c_|2 2ann r s 4 d |t|h|r|o|u|g|h| |d|a|t|a| e 9 A3 | s e +
o r road3 e C e t 9ia V 4t 8 q +-+-+-+-+-+-+-+ +-+-+-+-+ e 1pes | 2 h s%
pnw er% iu2 à s6 a u +-+-+-+-+-+-+-+-+ r +-+-+-+-+-+-+-+-+ +-+-+-+-+ +-+-+-+-+ C 1iea
4 iu87e 2 2 st e e a 1 |l|e|a|r|n|e|r|s| |g|e|n|e|r|a|t|e| |s|o|m|e| |k|i|n|d| - 502 p i 1
. r 7 l o j p o n +-+-+-+-+-+-+-+-+ n i +-+-+-+-+-+-+-+-+ +-+-+-+-+ +-+-+-+-+ / 7x e e
5él_ 4 r u t a 3 s a V i +-+-+ +-+-+-+-+-+-+-+-+ u3 +o ny mhs C é e p
s + ea ed a2 r le + L s d 8 n e W |o|f| |s|p|e|c|i|f|i|c| 5 s pce l C t e ca ry
t sV r4nd és c l n 9 8 u 7 e +-+-+ +-+-+-+-+-+-+-+-+ i o_ ah 3 pdé d 7
e fra é ee b ii d dr r l ee +-+-+-+-+-+-+-+-+-+ _ r t b an | c g
- i dh U ce eor oes . i |'|g|r|a|m|m|a|r|'| 7 og p l 7 8t A
q eee |f n e ' nd u| s l rr u + o +-+-+-+-+-+-+-+-+-+ n _ D d . d -t05 y i 4 c18 |
a + | q 3 o5 +-+-+-+-+-+-+-+-+-+-+-+ s +-+-+-+-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+ - 5 9
s 3 c V t ets |c|l|a|s|s|i|f|i|e|r|s| i |g|e|n|e|r|a|t|e|,| |e|v|a|l|u|a|t|e| e q
t m r e w em +-+-+-+-+-+-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+ d d e eEt
4 'n r r a él 0 éo e| +-+-+-+ +-+-+-+-+-+-+-+-+ e r ea_ 4 e a3
u te e 2 e f 9 i apq - |a|n|d| |r|e|a|d|j|u|s|t| i. 2 ue p s
n a e n _ pr2 r o a i 7 a +-+-+-+ +-+-+-+-+-+-+-+-+ 'ac j é1 t o
- 3 58to +-+-+-+-+-+-+-+-+ c +-+-+-+-+-+-+-+-+-+-+ +-+-+-+ c 2 9 i
s a sc i |l|e|a|r|n|e|r|s| |u|n|d|e|r|s|t|a|n|d| |a|n|d| ' a
e a l | 8 n t i +-+-+-+-+-+-+-+-+ t +-+-+-+-+-+-+-+-+-+-+ +-+-+-+ 7 d \ so -
e n . e s 9 e l5 w 7 c +-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+ 9 d
a i o d e i u |r|e|v|e|a|l| |p|a|t|t|e|r|n|s| a iW 6 t
v c t r % 9e a p d 4 6 +-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+ r o r u- a6
8 u n u so%r +-+-+-+-+-+-+-+-+ e, +-+-+-+-+-+ +-+-+-+-+-+-+ al a tr 3 1
o c| r 3 |l|e|a|r|n|e|r|s| 8 |d|o|n|'|t| |a|l|w|a|y|s| _ 9n d e _
tta e +-+-+-+-+-+-+-+-+ +-+-+-+-+-+ +-+-+-+-+-+-+ et n e
v r 8 l e n |/ o 3 +-+-+-+-+-+-+-+-+-+-+-+-+ +-+-+-+-+ |r
c nh ei l -d 4 n d |d|i|s|t|u|i|n|g|u|i|s|h| |w|e|l|l| m s 2
2 r _ 6 r n s 7 8 r +-+-+-+-+-+-+-+-+-+-+-+-+ +-+-+-+-+ 9 u o m
' u e i i ' +-+-+-+-+-+ +-+-+-+-+-+-+-+-+ 9 - u s v i
l l I 8 l d s |w|h|i|c|h| |p|a|t|t|e|r|n|s| b s 3l
M e r pe e e é +-+-+-+-+-+ +-+-+-+-+-+-+-+-+ d s - t + 5
h.e e w r n l t +-+-+-+-+-+-+ +-+-+ +-+-+-+-+-+-+-+-+ 4 K| _ 7
n 3 0 e a l q+ |s|h|o|u|l|d| |b|e| |r|e|p|e|a|t|e|d| a l s q
c d c 2 o 3 +-+-+-+-+-+-+ +-+-+ +-+-+-+-+-+-+-+-+ %
s 3 2 s e 7 a 1 i a s 2 u .
e c + e m ,6 l t 7 a
e e i . c s , t u n r u e
un s 4 7 e 8 5 5 n -
a o l p7 + A i c c d i
u n n r a w r - d l - , a bl
. e o f c7 a _ , t l 2
a i c t b s |i o e e m
% e m _ e a t ua i d d lt u
+ n. l s s f t e i i s n g u
s o d u n 0 s 3 8 ,r v
a r ip ' | dl l 4 t r é l t 5
e 2 s C / l e 1 j 0 e 8 nR s
+ é e | b e t + e 5 , o
- | 5 _ 4 3 t -
5 i n a 9 2 o p t 4 r o c
q - o 1 a u o o p(r 7
G t t 6 l l o m n
44
% V V V V V V V V % %% % %% %% % % % %% %%
V V V V V V V V V V V V V V V V % % 0 0 0 % 0 0 % % %
V V V V % V V V V % V % % 0 % % % %
% % % % % 0 __ % % 00 % % % % % %
% % % % % % % \ \ ___ _ _ ___ ____ __ _ _ _ % %
% % APPRENANTS \ \/ _ \| | | |/ _ \_ / / _` | | | | %% %% %
% % % /\_/ / (_) | |_| | __// / | (_| | |_| | %
%% % \___/ \___/ \__,_|\___/___| \__,_|\__,_| %
V V V % V V V V V % 0 % __ 0 _ % % % 0 0 00
V V V V V V V V V V V V V V V V % 0 /\ \ \__ _(_)_ _____
V V V V V V V V % V % % / \/ / _` | \ \ / / _ \ % %
V V V V V V V V 0 % / /\ / (_| | |\ V / __/ %
V V V V V V V V V V V V V V V V % 0 \_\ \/ \__,_|_| \_/ \___| %
V V V V V V V V V ___ % % % %
% / __\ __ _ _ _ ___ ___ %
Les Apprenants sont les algorithmes 0 /__\/// _` | | | |/ _ \/ __|
qui distinguent les pratiques d'ap- 0 0 / \/ \ (_| | |_| | __/\__ \
prentissage automatique des autres \_____/\__,_|\__, |\___||___/ 0
pratiques algorithmiques. Les Ap- 0 0 |___/ 0
prenants sont aussi appelés classi- % 0
ficateurs. Ce sont des chercheurs % % %
de motifs, capables de fouiller par Algolit %
dans les données et de générer une %
sorte de 'grammaire' spécifique. Dans l'apprentissage automatique, les méthodes Naive Bayes sont
Les Apprenants sont souvent basés des classificateurs probabilistes simples qui sont largement uti-
sur des techniques statistiques. lisés pour filtrer le spam et décider si un texte est positif ou
Chacun d'entre eux présente des ca- négatif.
ractéristiques individuelles. Cer-
tains ont besoin d'une grande quan- Ils nécessitent une petite quantité de données d'entraînement
tité de données d'entraînement pour pour estimer les paramètres nécessaires. Ils peuvent être extrê-
fonctionner, d'autres peuvent s'en mement rapides par rapport à des méthodes plus sophistiquées. Ils
tirer avec un petit jeu de données sont difficiles à généraliser, ce qui signifie qu'ils exécutent
annotées. Certains s'acquittent des tâches très spécifiques, exigeant d'être entraînés avec le
bien de tâches de classification, même style de données que celui qui sera utilisé par la suite.
comme l'identification des spam,
d'autres sont plus aptes à prédire Ce jeu vous permet de jouer selon les règles de Naive Bayes. Tout
les chiffres, comme les températu- en exécutant manuellement le code, vous créez votre propre modèle
res, les distances, les valeurs ludique qui 'fonctionne'. Un peu de prudence s'impose : parce que
boursières, et ainsi de suite. vous ne l'entraînez qu'en 6 phrases - au lieu de 2000 au minimum
- il n'est pas représentatif du tout !
La terminologie de l'apprentissage %
automatique n'est pas encore com- ---
plètement établie. Selon le domaine
(les statistiques, l'informatique Concept & réalisation: An Mertens
ou les sciences humaines) ils sont
appelés par des mots différents.
Lorsque nous parlons d’Apprenants, 0 0
nous parlons des fonctions imbri- 0 0 0 0
quées qui ont la capacité de géné- 0 __ 0 0 0 _
rer d'autres fonctions, de les éva- % \ \ ___ _ 0 _ ___ ____ __ _ | | __ _
luer et de les réajuster en fonc- 0 0 \ \/ _ \| | | |/ _ \_ / / _` | | |/ _` |
tion des données. Les Apprenants /\_/ / (_) | |_| | __// / | (_| | | | (_| |
sont bons pour comprendre et révé- \___/ \___/ \__,_|\___/___| \__,_| |_|\__,_|
ler les motifs. Mais ils ne dis- __ 0 0 _
tinguent pas toujours bien quels /__\ ___ __ _ _ __ ___ ___ ___(_) ___ _ __
motifs doivent être répétés. / \/// _ \/ _` | '__/ _ \/ __/ __| |/ _ \| '_ \
/ _ \ __/ (_| | | | __/\__ \__ \ | (_) | | | |
Dans les logiciels, il n'est pas \/ \_/\___|\__, |_| \___||___/___/_|\___/|_| |_|
toujours possible de distinguer les 00 |___/ 0 0 0
éléments caractéristiques des clas- __ _ 0 _ %
sificateurs, car ils sont cachés 0 0 0 / /(_)_ __ 0 ___ __ _(_)_ __ ___ 0
dans des modules ou bibliothèques / / | | '_ \ / _ \/ _` | | '__/ _ \
sous-jacents. Les programmeurs 0 / /__| | | | | __/ (_| | | | | __/
peuvent les invoquer en utilisant \____/_|_| |_|\___|\__,_|_|_| \___| %
une seule ligne de code. Par consé- 0 0 0 0
quent, pour cette exposition, nous
avons développé deux jeux de table par Algolit
qui montrent en détail le processus %
d'apprentissage de classificateurs La régression linéaire est l'un des algorithmes les plus connus
45
simples, mais fréquemment utilisés. % et les mieux compris en statistique et en apprentissage automa- %
% % % % % tique. Il existe depuis près de 200 ans. C'est un modèle at- %
% % % % trayant parce que la représentation est très simple. En statisti-
% % % % % % que, la régression linéaire est une méthode statistique qui per- %
% % % % %% % met de résumer et d'étudier les relations entre deux paramètres
% % % quantitatifs. % % % % % % %
% %% % %
% % % En jouant à ce jeu, vous réaliserez qu'en tant que joueur, vous
avez beaucoup de décisions à prendre. Vous découvrirez ce que si-
% gnifie créer un jeu de données cohérent, de décider ce qu’il doit
% % inclure. Si tout se passe bien, vous ressentirez le besoin de mo-
difier vos données afin d'obtenir de meilleurs résultats. Cela
fait partie de l'art de l'approximation qui est à la base de
toutes les pratiques d'apprentissage automatique.
% % %
--- % %
% Concept & réalisation: An Mertens
%
% % % %
0 0 00 0 0
0 0 %
_____ 0 0 _ _ 0 0 _ 0
/__ \_ __ __ _(_) |_ ___ __| | ___
0 / /\/ '__/ _` | | __/ _ \ / _` |/ _ \ %
/ / | | | (_| | | || __/ | (_| | __/
% 0 \/ |_| \__,_|_|\__\___| \__,_|\___| 0
0 _ _ _
% % 0 __| | ___ ___ _ 0 _ _ __ ___ ___ _ __ | |_ __ _| |_
% % / _` |/ _ \ / __| | | | '_ ` _ \ / _ \ '_ \| __/ _` | __|
| (_| | (_) | (__| |_| | | | | | | __/ | | | || (_| | |_
\__,_|\___/ \___|\__,_|_| |_| |_|\___|_| |_|\__\__,_|\__|
_ _____ _
(_) ___ _ __ /__ \_ __ ___ (_)___
% 0 | |/ _ \| '_ \ / /\/ '__/ _ \| / __|
0 | | (_) | | | |_ / / | | | (_) | \__ \ 0
% |_|\___/|_| |_(_) \/ |_| \___/|_|___/ 0
0 _
_ __ ___ ___ _ __ ___ ___ ___ __ _| | __ _
| '_ \ / _ \ / _ \ '_ ` _ \ / _ \/ __| / _` | |/ _` |
| |_) | (_) | __/ | | | | | __/\__ \ | (_| | | (_| |
% | .__/ \___/ \___|_| |_| |_|\___||___/ \__,_|_|\__, |
|_| 0 0 0 0 00 0 |___/
0 0 0 _ _ _ 0 0 _ 00
___ _ __(_) |_| |__ _ __ ___ (_) __ _ _ _ ___
/ _ \| '__| | __| '_ \| '_ ` _ \| |/ _` | | | |/ _ \
| (_) | | | | |_| | | | | | | | | | (_| | |_| | __/
\___/|_| |_|\__|_| |_|_| |_| |_|_|\__, |\__,_|\___|
0 |_|
0 0 0 ___ 00 00
/ __|
0 \__ \ 0 %
|___/ 0
0 0 0 00 0 0
par Rémi Forte, designer-chercheur à l’Atelier national de re-
cherche typographique, Nancy, France
%
sérigraphie sur papier, 60 × 80 cm, 25 ex., 2019, en vente à la
réception du Mundaneum.
Sous la forme de trois affiches, ces poèmes opèrent une relecture
algorithmique et poétique du 'Traité de documentation' de Paul
Otlet. Ils sont le résultat d’un même algorithme basé sur les
règles mystérieuses de l'intuition humaine. Il est appliqué à
trois fragments prélevés dans l’ouvrage de Paul Otlet et se veut
représentatif de sa pratique bibliologique. Pour chaque fragment,
l’algorithme découpe le texte, puis mots et signes de ponctuation
sont comptabilisés et réordonnés en une liste. À chaque ligne,
46
%%%% % %% %% %% % les éléments se combinent et épuisent la syntaxe du fragment sé- % %
% % % % lectionné. %% % % % %%% %% %% % %
% % % % % % % % % % % %
% % %% % % Le langage de Paul Otlet reste perceptible mais exacerbé jusqu’à %%
% % % % l’absurde. Pour le lecteur, la systématisation du texte est dé-
% concertante et ses habitudes de lecture sont bousculées. Cons-
% % % truite selon une équation mathématique, la composition typogra- %
% phique de l’affiche est tout aussi systématique que le poème. Ce-
% pendant, des frictions surviennent ponctuellement ; boucle après
% % boucle, les lignes s’étendent jusqu’à mordre la colonne voisine.
Des superpositions se créent et des mots se trouvent dissimulés
% % par d’autres. Ces télescopages dessinent des parcours de lecture
% alternatifs. % %
% % % % % % %
47
RÉCITS CONTEXTUALISÉS
AUTOUR DES APPRENANTS
--- Naive Bayes & Viagra --- Pierre-Simon Laplace, son inventeur. Le mathémati-
cien aurait échoué à créditer les travaux des
L'algorithme Naive Bayes est un Apprenant célèbre autres. Par conséquent, il a souffert d’accusa-
qui réussit bien avec peu de données. Nous l'ap- tions largement diffusées contre sa réputation. Ce
pliquons tout le temps. Christian & Griffiths af- n'est que 150 ans plus tard que l'accusation s'est
firment dans leur livre, 'Algorithms to Live by', avérée fausse.
que 'nos jours sont remplis de petites données'.
Imaginez par exemple que vous vous trouviez à un Avançons en 1939, alors que le règne de Bayes de-
arrêt de bus dans une ville étrangère. L'autre meure pratiquement tabou, mort et enterré dans le
personne qui se tient là attend depuis 7 minutes. domaine de la statistique. Lorsque la France est
Qu'est-ce que vous faites ? Décidez-vous d'atten- occupée en 1940 par l'Allemagne, qui contrôle les
dre ? Et si oui, pour combien de temps ? Quand al- usines et les fermes européennes, la plus grande
lez-vous envisager d'autres options ? Un autre inquiétude de Winston Churchill est le péril U-
exemple. Imaginez qu’un ami demande conseil sur boot. Les opérations de sous-marin étaient étroi-
une relation. Il est avec son nouveau partenaire tement contrôlées par le quartier général allemand
depuis un mois. Doit-il l'inviter à l’accompagner en France. Chaque sous-marin partait en mer sans
à un mariage de famille ? ordres, et les recevait sous forme de messages ra-
dio codés après avoir atteint l'Atlantique. Les
Les croyances préexistantes sont cruciales pour messages étaient cryptés par des machines à
que Naive Bayes fonctionne. L'idée est de calculer brouiller les mots, appelées Enigma machines.
les probabilités sur base de ces connaissances Enigma ressemblait à une machine à écrire compli-
préalables et d'une situation spécifique. quée. Elle est inventée par la société allemande
Scherbius & Ritter après la première guerre mon-
Le théorème a été formulé dans les années 1740 par diale, lorsque le besoin de machines d'encodage de
le révérend et mathématicien amateur Thomas Bayes. messages est devenu douloureusement évident.
Il a consacré sa vie à résoudre la question de sa-
voir comment gagner à la loterie. Mais la règle de Curieusement, et heureusement pour Naive Bayes et
Bayes a été rendue célèbre dans sa forme actuelle le monde, à l'époque le gouvernement britannique
par le mathématicien Pierre-Simon Laplace en et les systèmes d'éducation considéraient les ma-
thématiques appliquées et les statistiques sans
temps après la mort de La Place, la théorie tombe aucun rapport avec la résolution pratique des pro-
dans l'oubli jusqu'à ce qu'elle soit à nouveau dé- blèmes. Les données statistiques ont été jugées
terrée pendant la Seconde Guerre mondiale dans le gênantes en raison de leur caractère détaillé.
but de briser le code Enigma. Ainsi, les données du temps de guerre étaient sou-
vent analysées non pas par des statisticiens, mais
La plupart des personnes sont aujourd'hui entrées par des biologistes, des physiciens et des mathé-
en contact avec Naive Bayes par le biais de leurs maticiens théoriques. Aucun d'entre eux ne savait
dossiers de courrier indésirable. Naive Bayes est qu'en ce qui concerne les statistiques sophisti-
un algorithme largement utilisé pour la détection quées, la règle de Bayes était considérée non-
du spam. C’est une coïncidence que le Viagra, mé- scientifique.
dicament contre la dysfonction érectile, a été ap-
prouvé par la FDA (US Food & Drug Administration) C'est le désormais célèbre Alan Turing, mathémati-
en 1997, au moment où environ 10 millions d'utili- cien, informaticien, logicien, cryptanalyste, phi-
sateurs dans le monde avaient des comptes de mes- losophe et biologiste théorique, qui a utilisé le
sagerie Web gratuits. Les sociétés de vente système de probabilités des règles de Bayes pour
avaient l’intelligence d'utiliser la publicité concevoir la 'bombe'. Il s'agissait d'une machine
massive par e-mail : c'était un média intime, à électromécanique à grande vitesse pour tester tous
l'époque réservé à la communication privée. En les arrangements possibles qu'une machine Enigma
2001, le premier programme SpamAssasin s'appuyant produirait. Afin de déchiffrer les codes navals
sur Naive Bayes a été téléchargé sur SourceForge, des U-boot, Turing simplifie le système de la
réduisant ainsi le marketing 'guerilla par cour- 'bombe' en utilisant des méthodes baysiennes. La
riel'. 'bombe' a transformé le quartier général du
Royaume-Uni en une usine de décryptage. L'histoire
Référence : Machine Learners, by Adrian MacKenzie, est bien illustrée dans 'The Imitation Game', un
The MIT Press, Cambridge, US, November 2017. film de Morten Tyldum, sorti en 2014.
--- Naive Bayes & Enigma --- --- Une histoire sur les petits pois ---
Cette histoire de Naive Bayes fait partie du livre En statistique, la régression linéaire est une mé-
'The theory that would not die', écrit par Sharon thode d'apprentissage supervisé. Après l'entraîne-
Bertsch McGrayne. Elle décrit entre autres comment ment avec des données annotées, le modèle tente de
Naive Bayes est vite oubliée après la mort de prédire les valeurs de nouvelles données incon-
nues. La régression linéaire permet de résumer et
48
d'étudier les relations entre deux éléments, afin les, les hommes ne différaient pas beaucoup sur le
de voir s'il existe une corrélation entre eux. plan intellectuel, seulement sur le plan du zèle
S'il y a une corrélation positive, la connaissance et du labeur'. Heureusement, l'étude moderne de
d'un élément aide à prédire l'autre. Par exemple, l'hérédité a réussi à éliminer le mythe de la dif-
étant donné la critique d'un film, nous pouvons férence génétique fondée sur la race.
prédire le nombre moyen d'étoiles qui lui sont at-
tribuées, plutôt que de simplement dire si la cri- La raison pour laquelle nous l'évoquons dans cette
tique est positive ou négative. série, c'est qu'il a été parmi les premiers scien-
tifiques à utiliser des méthodes statistiques dans
Parfois, les figures que nous rencontrons en grat- ses recherches. Sa principale contribution dans ce
tant sous la surface ne sont pas à notre goût. domaine a été l'analyse de régression linéaire,
L'idée de régression vient de Sir Francis Galton, qui a fondé les bases d'une grande partie de la
un scientifique influent du 19e siècle. Il a passé statistique moderne. Alors que nous nous engageons
sa vie à étudier le problème de l'hérédité - pour dans le domaine de l'apprentissage automatique,
comprendre à quel point les caractéristiques d'une Algolit essaie de ne pas oublier que les systèmes
génération d'êtres vivants se manifestent dans la d'ordre ont du pouvoir, et que ce pouvoir n'a pas
génération suivante. Il a établi le domaine de toujours été exercé au bénéfice de tout le monde.
l'eugénisme et l'a défini comme 'l'étude des orga- L'apprentissage automatique a hérité de nombreux
nismes sous contrôle social qui peuvent améliorer aspects de la recherche statistique, certains plus
ou altérer les qualités raciales des générations agréables que d'autres. Nous devons nous méfier,
futures, que ce soit physiquement ou mentalement'. car ces visions du monde s'infiltrent dans les mo-
Par conséquent, son nom a marqué l'histoire et dèles algorithmiques qui créent des ordres aujour-
l'héritage du racisme scientifique. d'hui.
Galton a d'abord abordé le problème de l'hérédité Références :
en examinant les caractéristiques du petit pois
doux. Il a choisi le petit pois parce que l'espèce http://galton.org/letters/darwin/correspon-
peut s'auto-fertiliser. Les plantes femelles hé- dence.htm
ritent des variations génétiques des plantes mères
sans la contribution d'un deuxième parent. Cette https://www.tandfonline.com/doi/-
caractéristique élimine la nécessité de traiter full/10.1080/10691898.2001.11910537
avec des sources multiples.
http://www.paramoulipist.be/?p=1693
En 1875, Galton a distribué des paquets de graines
de petits pois à sept amis. Chaque ami recevait
des graines de poids uniforme, mais il y avait des --- Perceptron ---
variations importantes d'un paquet à l'autre. Les
amis de Galton ont récolté les graines des nou- Nous nous trouvons dans une décennie où les ré-
velles générations de plantes et les lui ont ren- seaux de neurones suscitent beaucoup d'attention.
dues. Il a ensuite tracé le poids des graines fe- Cela n'a pas toujours été le cas. L'étude des ré-
melles contre le poids des graines mères. Il a dé- seaux de neurones remonte aux années 1940, lorsque
couvert que le poids médian des graines femelles la première métaphore des neurones est apparue. Le
d'une taille particulière de la semence mère dé- neurone n'est pas la seule référence biologique
crivait approximativement une ligne droite avec dans le domaine de l'apprentissage automatique -
une pente positive inférieure à 1,0. Les premières pensez au mot corpus ou formation. Le neurone ar-
idées de Galton sur la régression sont nées de ce tificiel a été construit en relation étroite avec
son homologue biologique.
petits pois femelles à celle des petits pois
mères. Il a utilisé cette représentation de ses Le psychologue Frank Rosenblatt s'est inspiré des
données pour illustrer les fondements de ce que travaux de son collègue Donald Hebb sur le rôle
les statisticiens appellent encore aujourd'hui la des neurones dans l'apprentissage humain. Hebb a
régression. Pour Galton, c'était aussi une façon déclaré que 'les cellules qui communiquent, se
de décrire les avantages de l'eugénisme. mettent ensemble.' Sa théorie est maintenant à la
base de l'apprentissage associatif humain, mais
La recherche de Galton été appréciée par de nom- aussi de l'apprentissage en réseau de neurones non
breux intellectuels de son temps. En 1869, dans supervisé. Il a poussé Rosenblatt à développer
'Hereditary Genius', Galton affirme que le génie l'idée du neurone artificiel. En 1962, il crée le
est principalement une question d'ascendance. Il Perceptron. Le Perceptron est un modèle qui ap-
croyait qu'il y avait une explication biologique à prend par la pondération des entrées.
l'inégalité sociale entre les races. Galton a même
persuadé son demi-cousin Charles Darwin de ses Il a été mis de côté par les chercheurs, parce
idées. Après avoir lu l'article de Galton, Darwin qu'il ne peut gérer que la classification binaire.
a déclaré : 'Vous avez converti un adversaire, car Cela signifie que les données doivent être sépa-
j'ai toujours soutenu qu'à l'exception des imbéci- rables linéairement, comme par exemple hommes et
49
femmes, noir et blanc. Il est clair que ce type de et vous ne voulez pas travailler avec des sollu-
données est très rare dans le monde réel. Lorsque tions prêtes à l'emploi, et vous souhaitez ouvrir
le soi-disant premier hiver de l'Intelligence Ar- la boîte noire, BERT exige de faire des économies
tificielle (IA) est arrivé en 1974-1980 et que le pour pouvoir l’utiliser.
financement consacré à cette recherche a diminué,
le Perceptron a également été négligé. Pendant 10 Références :
ans, il est resté inactif. Lorsque le printemps
s'installe à la fin des années 1980, de nouvelles https://ai.googleblog.com/2018/11/open-sourcing-
générations de chercheurs le reprennent et l'uti- bert-state-of-art-pre.html
lisent pour construire des réseaux de neurones.
Ceux-ci contiennent de multiples couches de Per- https://towardsdatascience.com/deconstructing-
ceptrons. C'est ainsi que les réseaux de neurones bert-distilling-6-patterns-from-100-million-para-
voient la lumière. On pourrait dire que cette sai- meters-b49113672f77
son d'apprentissage automatique est particulière-
ment chaude, mais il faut un autre hiver pour
connaître un été.
--- BERT ---
Certains articles en ligne disent que l'année 2018
a marqué un tournant dans le domaine du traitement
du langage naturel. Une série de modèles de 'deep
learning' ont permis d'obtenir des résultats ex-
cellents pour des tâches comme les réponses aux
questions ou la classification des sentiments.
L'algorithme BERT de Google est entré dans les
concours d'apprentissage automatique de l'année
dernière comme un 'modèle gagnant'. Il témoigne
d’une performance supérieure sur une grande varié-
té de tâches.
BERT est pré-entraîné; ses poids sont appris à
l'avance grâce à deux tâches non supervisées. Cela
signifie que BERT n'a pas besoin d'être entraîné à
partir de zero pour chaque nouvelle tâche. Vous
n'avez qu'à affiner ses poids.
Cela signifie également qu'un programmeur souhai-
tant utiliser BERT ne sait plus sur quels para-
mètres BERT est réglé, ni à base de quelles don-
nées il a appris ses performances.
BERT signifie 'Bidirectional Encoder Representa-
tions from Transformers'. Cela signifie que BERT
permet un entraînement bidirectionnel. Le modèle
apprend le contexte d'un mot à partir de son envi-
ronnement, à gauche et à droite d'un mot. En tant
que tel, il peut faire la différence entre 'Je
suis pile à l’heure' et 'Je l’ai mis sur la pile'.
Quelques faits :
- BERT_large, avec 345 millions de paramètres, est
le plus grand modèle du genre. Il est manifeste-
ment supérieur à BERT_base, qui utilise la même
architecture avec 'seulement' 110 millions de pa-
ramètres, pour les tâches à petite échelle.
- Pour exécuter BERT, vous devez utiliser les TPU.
Ce sont les processeurs (CPU) de Google spéciale-
ment conçus pour TensorFLow, la plateforme de
'deep learning'. Les tarifs de location de TPU
vont de de 8$/h à 394$/h. Si vous êtes comme nous,
50
0123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345678
9 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234567
89 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456
789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345
6789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234
56789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123
456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12
3456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1
23456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789
123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789
123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345678
9 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234567
89 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456
789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345
6789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234
56789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123
456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12
3456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1
23456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789
123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789
123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345678
9 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234567
89 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456
789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345
6789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234
56789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123
456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12
3456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1
23456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789
123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789
123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345678
9 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234567
89 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456
789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345
6789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234
56789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123
456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12
3456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1
23456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789
123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789
123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345678
9 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234567
89 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456
789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345
6789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234
56789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123
456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12
3456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1
23456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789
123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789
123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345678
9 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234567
89 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456
789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345
6789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234
56789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123
456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12
3456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1
23456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789
123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789
123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345678
9 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234567
89 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456
789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345
6789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234
56789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123
456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12
3456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1
23456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789
51
█▒░░ ▓▒█░░▒▓███▀▒░ ░▒ ▒ ░ ▒▒▓██▒ ░░ ▒░ ░ ▒ ░▓ ░▒▓ ▒ ▒█░░▒█▓▒░▓▒ ▒▓▒▒░ ▒ ▒▒ ▓▒░ ▒░▓ █ ▒░ █░█ ▓▒░ ▒▓░░
▓ ▒░ ▒▒ ░▒░▒▓ ░ ░ ▒ ░ ▒ ▒ ░ ░ ░▒░ ░▒ ░ ▒ ░▒░▓░ ▒ ░ ▒ ░▒░ ░ ░▒ ▒░░ ░ ▒ ░░▓ ░ ▓▓░░ ░░▒▒▓░
░ ▒ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░░ ░ ▒ ░ ░ ░ ░ ░ ░░ ░ ░ ░ ░ ░ ░ ░ ░
░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░
░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░
░ tion est une étape cru- voit en tant qu'utilisa- sition d'occurrences de
░ ciale de l'apprentissage teur, mais ont aussi lettres ou de mots, ce
░ ░ ░ ░ automatique supervisé leur mot à dire dans les qui donne des tables de
░ ░ ░ ░ durant laquelle l'algo- fluctuations du cours probabilité de transi-
░ ░ rithme reçoit des des bourses mondiales ou tion qui peuvent être
░ ░ exemples de ce qu'il dans la détection de la calculées sans aucune
░ GLOSSAIRE ░ doit apprendre. Un cybercriminalité et du compréhension sémantique
░ filtre anti-spam sera vandalisme. ou grammaticale du lan-
░ ░ ░ alimenté d'exemples de gage naturel. Cet algo-
░ ░ ░ ░ messages spams et de * APPRENTISSAGE AUTOMA- rithme peut être utilisé
░ messages réels. Ces tique classique pour analyser des tex-
░ exemples consistent en Naive Bayes, Support tes, mais aussi pour les
░ un message, l'entrée, Vector Machines ou Ré- recombiner. Il est lar-
accompagné d'une éti- gression Linéaire sont gement utilisé pour la
Vous trouverez ci-des- quette  considérés comme des al- génération de spam.
sous un glossaire non- spam ou non spam. L'an- gorithmes classiques
exhaustif reprenant des notation d'un jeu de d'apprentissage automa- * CONSTANT
termes fréquemment uti- données est un travail tique. Ils fonctionnent Constant est une asso-
lisés dans l'exposition. exécuté par des humains, bien lorsqu'ils ap- ciation sans but lucra-
Il est conçu comme une qui choisissent une éti- prennent avec de petits tif d’artistes autogé-
aide pour les visiteurs quette pour chaque élé- jeux de données. Mais rés, basée à Bruxelles
connaissant peu le voca- ment du jeu de données. ils nécessitent souvent depuis 1997 et active
bulaire lié au domaine Pour assurer la qualité des lecteurs complexes. dans les domaines de
du traitement des des étiquettes, plu- La tâche accomplie par l’art, des médias et de
langues naturelles sieurs annotateurs les lecteurs est égale- la technologie. Algolit
(NLP), Algolit ou le doivent voir le même ment appelée 'feature est né en 2012 comme un
Mundaneum. élément, la même entrée, engineering' (voir ci- projet de Constant.
et donner la même éti- dessous). Cela signifie http://constantvzw.org
* ALGOLIT quette avant qu'un qu'un être humain doit
un groupe bruxellois exemple ne soit inclus consacrer du temps à une * DATA WORKERS
spécialisé dans la re- dans les données d'en- analyse exploratoire ap- Intelligences artifi-
cherche artistique sur traînement. profondie du jeu de don- cielles développées pour
les algorithmes et la nées. servir, divertir, enre-
littérature. Chaque * APPRENTISSAGE AUTOMA- gistrer et connaître les
mois, le groupe se tique ou machine lear- * BAG OF WORDS humains. Le travail de
réunit pour expérimenter ning Le modèle du sac de mots ces entités machiniques
avec du code et des Modèles algorithmiques est une représentation est généralement dissi-
textes publiés sous li- basés sur la statisti- simplifiée du texte uti- mulé derrière des inter-
cences libres. que, principalement uti- lisé dans le traitement faces et des brevets.
http://www.algolit.net lisés pour analyser et du langage naturel. Dans Dans l'exposition, les
prédire des situations à ce modèle, un texte est conteurs algorithmiques
* ALGOLITTÉRAIRE partir de cas existants. représenté sous la forme quittent leur monde sou-
terme inventé par Algo- Dans cette exposition, d'une collection de mots terrain invisible pour
lit pour des oeuvres qui nous nous concentrons uniques, sans tenir devenir nos interlocu-
explorent le point de sur les modèles d'ap- compte de la grammaire, teurs.
vue du conteur algorith- prentissage automatique de la ponctuation ni
mique. Quelles nouvelles pour le traitement de même de leur ordre dans * DONNÉES D’ENTRAÎNEMENT
formes de narration ren- texte ou le traitement le texte. Ce modèle Les algorithmes d'ap-
dons-nous possibles en du langage naturel (voir transforme un texte en prentissage automatique
dialoguant avec les al- NLP). Ces modèles ont une liste de mots asso- ont besoin d'être gui-
gorithmes ? appris à effectuer une ciés à leur fréquence  dés. Pour séparer une
tâche spécifique sur la littéralement un sac de chose d'une autre, faire
* ALGORITHME base de textes exis- mots. Le sac de mots est des distinctions, ils
Un ensemble d'instruc- tants. Ils sont utilisés souvent utilisé comme ont besoin de motifs.
tions dans un langage de par les moteurs de re- référence, c'est sur Ils les trouvent dans
programmation spécifi- cherche, les traductions cette base qu'on évalue- les textes qui leur sont
que, qui permettent de automatiques, et per- ra la performance d'un donnés, les données
produire un résultat mettent de générer des nouveau modèle. d’entraînement. L'être
(output) à partir de résumés et de repérer humain doit choisir avec
données (inputs). les tendances sur les * CHAÎNE DE MARKOV soin un matériel d’en-
réseaux sociaux et des Algorithme qui scanne un traînement adapté à la
* ANNOTATION fils d’actualité. Ils texte à la recherche de tâche de la machine. Il
Le processus d'annota- influencent ce que l'on la probabilité de tran- n'est pas logique d’en-
52
█▒░░ ▓▒█░░▒▓███▀▒░ ░▒ ▒ ░ ▒▒▓██▒ ░░ ▒░ ░ ▒ ░▓ ░▒▓ ▒ ▒█░░▒█▓▒░▓▒ ▒▓▒▒░ ▒ ▒▒ ▓▒░ ▒░▓ █ ▒░ █░█ ▓▒░ ▒▓░░
▓ ▒░ ▒▒ ░▒░▒▓ ░ ░ ▒ ░ ▒ ▒ ░ ░ ░▒░ ░▒ ░ ▒ ░▒░▓░ ▒ ░ ▒ ░▒░ ░ ░▒ ▒░░ ░ ▒ ░░▓ ░ ▓▓░░ ░░▒▒▓░
░ ▒ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░░ ░ ▒ ░ ░ ░ ░ ░ ░░ ░ ░ ░ ░ ░ ░ ░ ░
░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░
░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░
traîner une machine avec tion par autrui en vue sujets à des droits explorent et
des romans du 19ème de sa diffusion sont d'auteur soit parce que construisent des modèles
siècle si sa mission est permises, techniquement ces derniers sont expi- d'apprentissage automa-
d'analyser des Tweets. et légalement, ceci afin rés. Le projet fut lancé tique, collaborent avec
de garantir certaines par Michael Hart en 1971 d'autres et participent
* DUMP libertés induites, dont et nommé en hommage à à des concours pour re-
Terme anglais signifiant le contrôle du programme l'imprimeur allemand du lever des défis. Environ
‘dépôt, décharge, déver- par l'utilisateur et la XVe siècle Johannes Gu- un demi-million d’utili-
ser massivement’. En in- possibilité de partage tenberg. (Wikipedia) sateurs sont actifs sur
formatique, le terme entre individus. Ces Kaggle. Kaggle a été
dump désigne générale- droits peuvent être sim- * HENRI LA FONTAINE fondée par Goldbloom et
ment une copie brute plement disponibles – Henri La Fontaine Ben Hamner en 2010 et
d’une base de données; cas du domaine public – (1854-1943) est un homme acquise par Google en
par exemple pour effec- ou bien établis par une politique, féministe et mars 2017.
tuer une sauvegarde de licence, dite 'libre', pacifiste belge. Il re-
données ou pour les uti- basée sur le droit d'au- çoit le Prix Nobel de la * LANGAGE NATUREL
liser ailleurs. Les teur. Les 'licences co- paix en 1913 en raison Selon Wikipédia, 'Une
dumps sont souvent pu- pyleft' garantissent le de son engagement au langue dite « naturel-
bliées par des projets maintien de ces droits sein du Bureau Interna- le » est une langue qui
de logiciels libres et aux utilisateurs même tional de la Paix et de s'est formée petit à pe-
de contenu libre, tels pour les travaux déri- sa contribution à l'or- tit, évoluant avec le
que Wikipédia, pour per- vés. Les logiciels ganisation du mouvement temps, et qui fait par-
mettre la réutilisation libres constituent une pacifiste. En 1895, en- tie du langage naturel.
ou la dérivation(fork) alternative à ceux qui semble avec Paul Otlet, Son origine est bien
de la base de données. ne le sont pas, quali- il créent ensemble souvent floue et peut
fiés de 'propriétaires' l'Institut international être retracée plus ou
* FEATURE ENGINEERING ou de 'privateurs'. (Wi- de bibliographie qui de- moins clairement par la
Processus utilisant la kipedia) viendra le Mundaneum. Au linguistique comparée.
connaissance du domaine sein de cette institu- On oppose les langues
des données pour créer * GIT tion, qui visait à ras- naturelles - comme le
les caractéristiques qui un système logiciel per- sembler l'ensemble des français - aux langues
font fonctionner les al- mettant de suivre les connaissances du monde, construites comme le
gorithmes d'apprentis- changements dans le code il contribue à mettre au langage de programmation
sage machine. En source pendant le déve- point le système de ou l'espéranto, formées
d'autres termes, un être loppement d'un logiciel. Classification décimale intentionnellement par
humain doit consacrer du Il est conçu pour coor- universelle (CDU). l’entremise de l’homme
temps à une analyse ex- donner le travail des pour remplir un besoin
ploratoire approfondie programmeurs, mais il * IA OU INTELLIGENCES précis.'
du jeu de données, afin peut être utilisé pour artificielles
d'en définir les princi- suivre les changements L'intelligence artifi- * LITTÉRATURE
pales caractéristiques. dans n'importe quel en- cielle (IA) est 'l'en- Algolit comprend la no-
Ces caractéristiques semble de fichiers. semble des théories et tion de littérature
peuvent être la fré- Avant d’initier un nou- des techniques mises en comme beaucoup d'autres
quence des mots ou des veau projet, les pro- œuvre en vue de réaliser auteurs expérimentaux 
lettres, mais aussi des grammeurs créent un ‘dé- des machines capables de elle inclut toute la
éléments syntaxiques pôt git’ dans lequel ils simuler l'intelligence. production linguistique,
comme les noms, les ad- publieront toutes les Elle correspond donc à du dictionnaire à la Bi-
jectifs ou les verbes. parties du code. Les dé- un ensemble de concepts ble, de l'œuvre entière
Les caractéristiques les pôts git d’Algolit se et de technologies plus de Virginia Woolf à
plus importantes pour la trouvent ici qu'à une discipline au- toutes les versions des
tâche à résoudre doivent https://gitlab.- tonome constituée. D'au- Conditions d'utilisation
être soigneusement sé- constantvzw.org/algolit. tres, remarquant la dé- publiées par Google de-
lectionnées pour être finition peu précise de puis son existence. En
transmises à un algo- * GUTENBERG.ORG l'IA, notamment la CNIL, ce sens, le code de pro-
rithme classique d'ap- Le projet Gutenberg est la définissent comme ‘le grammation peut aussi
prentissage automatique. une bibliothèque de ver- grand mythe de notre être de la littérature.
sions électroniques temps'. (Wikipedia)
* FLOSS OU LOGICIELS libres de livres physi- * MECHANICAL TURK
Libres et Open Source quement existants. Les * KAGGLE Le Mechanical Turk d’A-
Un logiciel libre est un textes fournis sont es- Plateforme en ligne où mazon est une plateforme
logiciel dont l'utilisa- sentiellement du domaine les utilisateurs en ligne à destination
tion, l'étude, la modi- public, soit parce trouvent et publient des des humains conçue pour
fication et la duplica- qu'ils n'ont jamais été ensembles de données, exécuter des tâches que
53
█▒░░ ▓▒█░░▒▓███▀▒░ ░▒ ▒ ░ ▒▒▓██▒ ░░ ▒░ ░ ▒ ░▓ ░▒▓ ▒ ▒█░░▒█▓▒░▓▒ ▒▓▒▒░ ▒ ▒▒ ▓▒░ ▒░▓ █ ▒░ █░█ ▓▒░ ▒▓░░
▓ ▒░ ▒▒ ░▒░▒▓ ░ ░ ▒ ░ ▒ ▒ ░ ░ ░▒░ ░▒ ░ ▒ ░▒░▓░ ▒ ░ ▒ ░▒░ ░ ░▒ ▒░░ ░ ▒ ░░▓ ░ ▓▓░░ ░░▒▒▓░
░ ▒ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░░ ░ ▒ ░ ░ ░ ░ ░ ░░ ░ ░ ░ ░ ░ ░ ░ ░
░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░
░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░
les algorithmes ne par- (1854-1943), homme d'É- dire des situations par- * PYTHON
viennent pas à faire. Il tat et prix Nobel de la ticulières ou à profiler le principal langage de
peut s'agir, par exem- paix, créent le Munda- des habitudes d’usagers. programmation utilisé
ple, d'annoter des neum. Le projet vise à Elles sont largement dans le monde entier
phrases comme étant po- rassembler toute la utilisés dans les smart- pour le traitement du
sitives ou négatives, de connaissance du monde et phones, les ordinateurs langage, inventé en 1991
repérer des plaques à la classer à l'aide du et les tablettes. par le programmeur néer-
d'immatriculation, de système de Classifica- landais Guido Van Ros-
reconnaître des visages. tion décimale univer- * OULIPO sum.
Les annonces que l'on selle (UDC) qu'ils in- Le collectif Oulipo,
trouve sur cette plate- ventent. acronyme d'Ouvroir de * RECONNAISSANCE OPTIQUE
forme sont souvent rému- Littérature Potentielle, de caractères (ROC)
nérés moins d'un centime * NATURAL LANGUAGE PRO- est une grande source en anglais optical cha-
par tâche. Les tâches cessing (NLP) d'inspiration pour Algo- racter recognition
les plus complexes ou Le traitement du langage lit. Oulipo a été créé à (OCR), ou océrisation,
nécessitant le plus de naturel (NLP) est un Paris par les écrivains désigne les procédés in-
connaissances peuvent terme collectif qui dé- Raymond Queneau et Fran- formatiques permettant
être payées jusqu'à plu- signe le traitement in- çois Le Lionnais. Ils la traduction d'images
sieurs centimes. De nom- formatique automatique ont ancré leur pratique de textes scannés en fi-
breux chercheurs univer- des langues humaines. dans l'avant-garde euro- chiers de texte manipu-
sitaires utilisent le Cela comprend les algo- péenne du XXe siècle et lables.
Mechanical Turk pour des rithmes utilisant, comme dans la tradition expé-
tâches qui auraient été données, du texte pro- rimentale des années 60. * RÉSEAUX DE NEURONES
exécutées par des étu- duit par l'homme et qui Pour Oulipo, la création Systèmes informatiques
diants auparavant. tentent de le repro- de règles devient la inspirés des réseaux
duire. condition permettant de neuronaux biologiques
* MODÈLES D’APPRENTIS- générer de nouveaux tex- trouvés dans le cerveau
sage automatique super- * N-GRAMMES DE CARAC- tes, ou ce qu'ils ap- des animaux. Un réseau
visé tères pellent la littérature de neurone n'est pas un
Pour la création de mo- une technique utilisée potentielle. Plus tard, algorithme, mais plutôt
dèles d'apprentissage pour la reconnaissance en 1981, ils ont égale- un cadre dans lequel de
automatique supervisés, de la paternité d’une ment créé ALAMO - Ate- nombreux algorithmes
les humains annotent les oeuvre. Lors de l'utili- lier de Littérature As- d'apprentissage machine
échantillons d'entraîne- sation des N-grammes de sistée par la Mathéma- différents travaillent
ment avant de les en- caractères, les textes tique et les Ordina- ensemble et traitent des
voyer à la machine. sont considérés comme teurs. données complexes. De
Chaque texte est jugé des séquences de carac- tels systèmes ‘appren-
par au moins 3 humains tères. Considérons le * PAUL OTLET nent’ à exécuter des
par exemple, s’il s’agit trigramme des carac- Paul Otlet (1868 - 1944) tâches en observant des
de spam ou non, s’il est tères. Toutes les sé- était un auteur, entre- exemples, généralement
positif ou négatif. quences de trois carac- preneur, visionnaire, sans être programmés à
tères qui se chevauchent avocat et militant pour priori avec des règles
* MODÈLES D’APPRENTIS- sont isolées. Par exem- la paix belge ; il est spécifiques. Par exem-
sage automatique non-su- ple, le trigramme de ca- l'une des nombreuses ple, un algorithme de
pervisé ractères de suicide', personnes qui ont été reconnaissance de chat
Les modèles d'apprentis- serait, 'Sui,' uic', considérées comme le apprendra à identifier
sage automatique non su- uic', 'ici', 'cid', etc. père des sciences de les images qui
pervisés n'ont pas be- Les motifs trouvés avec l'information, un do- contiennent des chats en
soin de l’étape d’anno- les N-grammes de carac- maine qu'il a appelé ‘la observant des images qui
tations des données par tères se concentrent sur documentation’. Otlet a ont été étiquetées ma-
des humains. Par contre, les choix stylistiques créé la Classification nuellement comme ‘chat’
ils nécessitent de qui sont faits incons- décimale universelle, ou ‘pas chat’. Il utili-
grandes quantités de ciemment par l'auteur. qui s'est répandue dans sera ces exemple pour
données pour s’entraî- Ces modèles restent les bibliothèques. Avec générer ce qu'il consi-
ner. stables sur toute la Henri La Fontaine, il dère être un chat et
longueur du texte. crée le Palais Mondial, pourra identifier les
* MUNDANEUM qui devient le Munda- chats dans d'autres
À la fin du 19ème siè- * ORACLE neum, pour abriter les images. Il le fera sans
cle, deux jeunes ju- Les Oracles sont un type collections et les acti- aucune connaissance
ristes belges, Paul Ot- particulier de modèles vités de leurs diffé- préalable sur les chats.
let (1868-1944), 'père algorithmiques souvent rents organismes et ins- Il générera automatique-
de la documentation', et basés sur la statisti- tituts. ment ses propres carac-
Henri La Fontaine que, qui servent à pré- téristiques d'identifi-
54
█▒░░ ▓▒█░░▒▓███▀▒░ ░▒ ▒ ░ ▒▒▓██▒ ░░ ▒░ ░ ▒ ░▓ ░▒▓ ▒ ▒█░░▒█▓▒░▓▒ ▒▓▒▒░ ▒ ▒▒ ▓▒░ ▒░▓ █ ▒░ █░█ ▓▒░ ▒▓░░
▓ ▒░ ▒▒ ░▒░▒▓ ░ ░ ▒ ░ ▒ ▒ ░ ░ ░▒░ ░▒ ░ ▒ ░▒░▓░ ▒ ░ ▒ ░▒░ ░ ░▒ ▒░░ ░ ▒ ░░▓ ░ ▓▓░░ ░░▒▒▓░
░ ▒ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░░ ░ ▒ ░ ░ ░ ░ ░ ░░ ░ ░ ░ ░ ░ ░ ░ ░
░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░
░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░
cation à partir du maté- Une méthode de pondéra-
riel d'apprentissage qui tion utilisée dans la
lui est donné. recherche de textes.
Cette mesure statistique
* RULE-BASED MODELS permet d'évaluer l'im-
Les Oracles peuvent être portance d'un terme
créés à l'aide de diffé- contenu dans un docu-
rentes techniques. L’une ment, relativement à une
d’entre elles consiste à collection ou un corpus
définir manuellement les de textes. Le poids aug-
règles. Ces modèles sont mente proportionnelle-
appelés 'rule-based mo- ment au nombre d'occur-
dels' (modèles basés sur rences du mot dans le
des règles), et se si- document. Il varie éga-
tuent à l’opposé des mo- lement en fonction de la
dèles statistiques. Ils fréquence du mot dans le
sont utiles pour des corpus. Le TF-IDF est
tâches spécifiques, notamment utilisé dans
comme par exemple, la la classification des
détection de la mention spams.
d'une certaine molécule
dans un article scienti- * 'WORD EMBEDDINGS'
fique. Ils sont perfor- Techniques de modélisa-
mants, même avec très tion du langage qui, par
peu de données d'entraî- de multiples opérations
nement. mathématiques, tracent
des mots dans un espace
* SENTIMENT ANALYSIS vectoriel multidimen-
Également appelé 'opi- sionnel. Lorsque les
nion mining' (sondage mots sont 'embedded' ou
d'opinion). Une tâche intégrés, ils se trans-
fondamentale de l'ana- forment de symboles dis-
lyse des sentiments tincts en objets mathé-
consiste à classer un matiques, qui peuvent
texte donné comme posi- être multipliés, divi-
tif, négatif ou neutre. sés, ajoutés ou sous-
La classification avan- traits.
cée des sentiments 'au-
delà de la polarité' * WORDNET
examine, par exemple, Wordnet est une combi-
les états émotionnels naison d'un dictionnaire
tels que 'en colère', et d'un thésaurus qui
'triste' et 'heureux'. peut être lu par des ma-
L'analyse du sentiment chines. Selon Wikipédia,
est largement appliquée il a été créé dans le
aux actions des utilisa- Cognitive Science Labo-
teurs tels que les cri- ratory de l'Université
tiques et les réponses de Princeton à partir de
aux enquêtes, les com- 1985.
mentaires et les mes-
sages sur les médias so-
ciaux, et les documents
de santé. Elle est inté-
grée dans des applica-
tions qui vont du marke-
ting au service à la
clientèle, des transac-
tions boursières à la
médecine clinique.
* TF-IDF (TERM FREQUEN-
cy-Inverse Document Fre-
quency)
55
◠ humans learn with machines ◠ ◠ machines learn from machines ◟ ◝ machines learn with humans ◠ ◟
humans learn from machines ◝ ◟ machines learn with machines ◟ ◞ machines learn from humans ◞ ◡
humans learn with humans ◝ ◞ humans learn from humans ◡ ◠ humans learn with machines ◞ ◟ mac
ines learn from machines ◝ ◟ machines learn with humans ◟ ◝ humans learn from machines ◡ ◠
achines learn with machines ◞ ◠ machines learn from humans ◠ ◜ humans learn with humans ◡ ◜
humans learn from humans ◡ ◡ humans learn with machines ◠ ◠ machines learn from machines ◠
machines learn with humans ◟ ◟ humans learn from machines ◟ ◜ machines learn with machines ◝
◝ machines learn from humans ◡ ◡ humans learn with humans ◝ ◟ humans learn from humans ◟
◜ humans learn with machines ◠ ◡ machines learn from machines ◡ ◝ machines learn with humans
◞ ◟ humans learn from machines ◡ ◜ machines learn with machines ◡ ◝ machines learn from
umans ◜ ◞ humans learn with humans ◡ ◞ humans learn from humans ◝ ◟ humans learn with ma
hines ◡ ◟ machines learn from machines ◜ ◟ machines learn with humans ◞ ◟ humans learn f
om machines ◟ ◟ machines learn with machines ◟ ◝ machines learn from humans ◠ ◠ humans l
arn with humans ◞ ◝ humans learn from humans ◟ ◠ humans learn with machines ◟ ◟ machines
learn from machines ◝ ◞ machines learn with humans ◡ ◞ humans learn from machines ◝ ◠ ma
hines learn with machines ◠ ◞ machines learn from humans ◜ ◝ humans learn with humans ◠
humans learn from humans ◜ ◡ humans learn with machines ◟ ◜ machines learn from machines ◠
◝ machines learn with humans ◡ ◡ humans learn from machines ◠ ◡ machines learn with machines
◟ ◝ machines learn from humans ◠ ◜ humans learn with humans ◞ ◜ humans learn from human
◠ ◜ humans learn with machines ◡ ◜ machines learn from machines ◟ ◡ machines learn w
th humans ◠ ◟ humans learn from machines ◜ ◠ machines learn with machines ◝ ◜ machine
learn from humans ◡ ◞ humans learn with humans ◝ ◠ humans learn from humans ◟ ◠ huma
s learn with machines ◡ ◡ machines learn from machines ◟ ◟ machines learn with humans ◡
◜ humans learn from machines ◜ ◝ machines learn with machines ◞ ◞ machines learn from human
◠ ◠ humans learn with humans ◟ ◠ humans learn from humans ◟ ◞ humans learn with mach
nes ◞ ◝ machines learn from machines ◠ ◜ machines learn with humans ◜ ◠ humans learn
rom machines ◞ ◝ machines learn with machines ◜ ◜ machines learn from humans ◟ ◟ huma
s learn with humans ◠ ◟ humans learn from humans ◟ ◞ humans learn with machines ◞ ◜ m
chines learn from machines ◞ ◠ machines learn with humans ◞ ◝ humans learn from machines ◞
◟ machines learn with machines ◝ ◝ machines learn from humans ◞ ◝ humans learn with huma
s ◜ ◠ humans learn from humans ◡ ◟ humans learn with machines ◡ ◟ machines learn from
machines ◡ ◠ machines learn with humans ◜ ◟ humans learn from machines ◟ ◟ machines l
arn with machines ◞ ◞ machines learn from humans ◟ ◡ humans learn with humans ◟ ◟ hum
ns learn from humans ◡ ◜ humans learn with machines ◞ ◝ machines learn from machines ◡
◟ machines learn with humans ◜ ◞ machines learn with humans ◜ ◞ machines learn from
machines ◠ ◡ humans learn with machines ◝ ◝ humans learn from humans ◡ ◟ humans learn
with humans ◟ ◠ machines learn from humans ◟ ◜ machines learn with machines ◜ ◝ human
learn from machines ◜ ◡ machines learn with humans ◜ ◠ machines learn from machines ◟
◠ humans learn with machines ◟ ◞ humans learn from humans ◠ ◝ humans learn with humans ◠
◞ machines learn from humans ◠ ◡ machines learn with machines ◞ ◜ humans learn from machi
es ◞ ◟ machines learn with humans ◠ ◟ machines learn from machines ◡ ◞ humans learn w
th machines ◜ ◜ humans learn from humans ◟ ◟ humans learn with humans ◟ ◠ machines le
rn from humans ◟ ◞ machines learn with machines ◝ ◞ humans learn from machines ◝ ◡ ma
hines learn with humans ◠ ◟ machines learn from machines ◜ ◟ humans learn with machines ◟
◠ humans learn from humans ◜ ◞ humans learn with humans ◜ ◠ machines learn from humans ◜
◜ machines learn with machines ◟ ◜ humans learn from machines ◟ ◟ machines learn with
umans ◡ ◞ machines learn from machines ◠ ◜ humans learn with machines ◡ ◜ humans lear
from humans ◞ ◜ humans learn with humans ◠ ◜ machines learn from humans ◞ ◝ machines
learn with machines ◡ ◡ humans learn from machines ◟ ◜ machines learn with humans ◠ ◡
machines learn from machines ◝ ◝ humans learn with machines ◟ ◠ humans learn from humans ◝
◡ humans learn with humans ◡ ◡ machines learn from humans ◠ ◜ machines learn with machines
◟ ◞ humans learn from machines ◜ ◞ machines learn with humans ◝ ◞ machines learn from ma
hines ◞ ◝ humans learn with machines ◝ ◡ humans learn from humans ◡ ◞ humans learn with
umans ◠ ◞ machines learn from humans ◟ ◝ machines learn with machines ◠ ◠ humans learn f
om machines ◞ ◜ machines learn with humans ◟ ◜ machines learn from machines ◜ ◝ humans l
arn with machines ◝ ◡ humans learn from humans ◠ ◜ humans learn with humans ◝ ◡ machines
learn from humans ◜ ◜ machines learn with machines ◞ ◞ humans learn from machines ◜ ◟ ma
hines learn with humans ◜ ◟ machines learn from machines ◟ ◡ humans learn with machines ◠
◠ humans learn from humans ◡ ◟ humans learn with humans ◜ ◞ machines learn from humans ◟
◟ machines learn with machines ◜ ◠ humans learn from machines ◟ ◠ machines learn with humans ◟
◜ machines learn from machines ◟ ◟ humans learn with machines ◞ ◠ humans learn from huma
s ◡ ◞ humans learn with humans ◞ ◞ machines learn from humans ◠ ◝ machines learn with ma
hines ◟ ◟ humans learn from machines ◟ ◠ machines learn with humans ◠ ◞ machines learn from
machines ◝ ◠ humans learn with machines ◟ ◜ humans learn from humans ◟ ◟ humans learn with
umans ◡ ◟ machines learn from humans ◞ ◝ machines learn with machines ◜ ◟ humans learn from
machines ◝ ◜ machines learn with humans ◞ ◡ machines learn from machines ◜ ◜ humans learn w
th machines ◝ ◠ humans learn from humans ◞ ◞ humans learn with humans ◠ ◜ machines learn from
humans ◠ ◜ machines learn with machines ◟ ◠ humans learn from machines ◝ ◡ machines learn with