Files for the publication & poster for Data Workers, an exhibition by Algolit.
http://www.algolit.net/index.php/Data_Workers
You can not select more than 25 topics
Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
3920 lines
375 KiB
3920 lines
375 KiB
5 years ago
|
data workers write, perform, clean, inform, read and learn data workers write, perform, clean, inform, read
|
||
|
nd learn data workers write, perform, clean, inform, read and learn data workers write, perform, clean,
|
||
|
nform, read and learn data workers write, perform, clean, inform, read and learn data workers write,
|
||
|
perform, clean, inform, read and learn data workers write, perform, clean, inform, read and learn
|
||
|
data workers write, perform, clean, inform, read and learn data workers write, perform, clean, infor
|
||
|
, read and learn data workers write, perform, clean, inform, read and learn data workers w
|
||
|
ite, perform, clean, inform, read and learn data workers write, perform, clean, inform, read and l
|
||
|
arn data workers write, perform, clean, inform, read and learn data workers write, p
|
||
|
rform, clean, inform, read and learn data workers write, perform, clean, inform, read and learn
|
||
|
data workers write, perform, clean, inform, read and learn data workers write,
|
||
|
perform, clean, inform, read and learn data workers write, perform, clean, inform, read and
|
||
|
earn data workers write, perform, clean, inform, read and learn data wor
|
||
|
ers write, perform, clean, inform, read and learn data workers write, perform, clean, inf
|
||
|
rm, read and learn data workers write, perform, clean, inform, read and learn
|
||
|
data workers write, perform, clean, inform, read and learn data workers wri
|
||
|
e, perform, clean, inform, read and learn data workers write, perform, clean, inform,
|
||
|
read and learn data workers write, perform, clean, inform, read and learn
|
||
|
data workers write, perform, clean, inform, read and learn data wor
|
||
|
ers write, perform, clean, inform, read and learn data workers write, perform, cl
|
||
|
an, inform, read and learn data workers write, perform, clean, inform, read and
|
||
|
earn data workers write, perform, clean, inform, read and learn
|
||
|
data workers write, perform, clean, inform, read and learn dat
|
||
|
workers write, perform, clean, inform, read and learn data workers write, p
|
||
|
rform, clean, inform, read and learn data workers write, perform, clean, in
|
||
|
orm, read and learn data workers write, perform, clean, inform, read and l
|
||
|
arn data workers write, perform, clean, inform, read and learn
|
||
|
data workers write, perform, clean, inform, read and learn
|
||
|
data workers write, perform, clean, inform, read and learn
|
||
|
data workers write, perform, clean, inform, read and learn data work
|
||
|
rs write, perform, clean, inform, read and learn data workers write,
|
||
|
perform, clean, inform, read and learn data workers write, perform,
|
||
|
clean, inform, read and learn data workers write, perform, clean,
|
||
|
nform, read and learn data workers write, perform, clean, inform,
|
||
|
read and learn data workers write, perform, clean, inform, read
|
||
|
nd learn data workers write, perform, clean, inform, read and l
|
||
|
arn data workers write, perform, clean, inform, read and learn
|
||
|
data workers write, perform, clean, inform, read and learn
|
||
|
data workers write, perform, clean, inform, read and learn
|
||
|
data workers write, perform, clean, inform, read and learn
|
||
|
data workers write, perform, clean, inform, read and learn
|
||
|
data workers write, perform, clean, inform, read and learn
|
||
|
data workers write, perform, clean, inform, read and learn
|
||
|
data workers write, perform, clean, inform, read and learn
|
||
|
data workers write, perform, clean, inform, read and l
|
||
|
arn data workers write, perform, clean, inform, read
|
||
|
nd learn data workers write, perform, clean, inform,
|
||
|
read and learn data workers write, perform, clean,
|
||
|
nform, read and learn data workers write, perform,
|
||
|
clean, inform, read and learn data workers write,
|
||
|
perform, clean, inform, read and learn data work
|
||
|
rs write, perform, clean, inform, read and learn
|
||
|
data workers write, perform, clean, inform, read and learn
|
||
|
data workers write, perform, clean, inform, read and learn
|
||
|
data workers write, perform, clean, inform, read and learn
|
||
|
data workers write, perform, clean, inform, read and learn
|
||
|
|
||
|
|
||
|
What
|
||
|
can
|
||
|
humans learn from humans
|
||
|
humans learn with machines
|
||
|
machines learn from machines
|
||
|
machines learn with humans
|
||
|
humans learn from machines
|
||
|
machines learn with machines
|
||
|
machines learn from humans
|
||
|
humans learn with humans
|
||
|
? ? ?
|
||
|
|
||
|
Data Workers, une exposition au Mundaneum à Mons du 28 mars au 28 avril 2019.
|
||
|
0 12 3 4 5 67 8 9 0
|
||
|
12 3 4 5 67 8 9 0 12
|
||
|
3 4 5 67 8 9 0 1 2
|
||
|
3 4 5 6 7 8 9 0 1 2 3
|
||
|
4 56 7 8 9 01 2 3
|
||
|
4 56 7 8 9 01 2 3
|
||
|
4 56 7 8 9 01 2 3
|
||
|
4 56 7 8 9 0 1 2 3 4
|
||
|
5 6 7 8 9 0 1 2 3 45 6
|
||
|
7 8 90 1 2 3 45 6
|
||
|
7 8 90 1 2 3 45 6
|
||
|
7 8 90 1 2 3 4 5 6
|
||
|
7 8 9 0 1 2 3 4 5 6
|
||
|
7 89 0 1 2 34 5 6
|
||
|
7 89 0 1 2 34 5 6
|
||
|
7 89 0 1 2 34 5 6 7
|
||
|
89 0 1 2 3 4 5 6 7 8 9
|
||
|
0 1 2 3 4 5 6 78 9
|
||
|
0 1 23 4 5 6 78 9 0
|
||
|
1 23 4 5 6 78 9 0
|
||
|
1 23 4 5 6 78 9 0
|
||
|
1 2 3 4 5 6 7 8 9 0
|
||
|
1 2 3 4 5 67 8 9 0 12
|
||
|
3 4 5 67 8 9 0 12
|
||
|
3 4 5 67 8 9 0 12 3
|
||
|
4 5 6 7 8 9 0 1 2 3
|
||
|
4 5 6 7 8 9 01 2 3
|
||
|
4 56 7 8 9 01 2 3
|
||
|
4 56 7 8 9 01 2 3
|
||
|
4 56 7 8 9 01 2 3 4
|
||
|
5 6 7 8 9 0 1 2 3 4 5 6
|
||
|
7 8 90 1 2 3 45 6
|
||
|
7 8 90 1 2 3 45 6
|
||
|
7 8 90 1 2 3 45 6
|
||
|
7 8 90 1 2 3 4 5 6 7
|
||
|
8 9 0 1 2 3 4 5 6 7
|
||
|
89 0 1 2 34 5 6 7
|
||
|
89 0 1 2 34 5 6 7 89
|
||
|
0 1 2 34 5 6 7 8 9
|
||
|
0 1 2 3 4 5 6 7 8 9
|
||
|
0 1 23 4 5 6 78 9 0
|
||
|
1 23 4 5 6 78 9 0
|
||
|
1 23 4 5 6 78 9 0
|
||
|
1 23 4 5 6 7 8 9 0
|
||
|
1 2 3 4 5 6 7 8 9 0 12 3
|
||
|
4 5 67 8 9 0 12 3
|
||
|
4 5 67 8 9 0 12 3
|
||
|
4 5 67 8 9 0 12 3
|
||
|
4 5 6 7 8 9 0 1 2 3
|
||
|
4 5 6 7 8 9 01 2 3 4
|
||
|
56 7 8 9 01 2 3 4
|
||
|
56 7 8 9 01 2 3 4 5
|
||
|
6 7 8 9 0 1 2 3 4 5 6
|
||
|
7 8 9 0 1 2 3 45 6
|
||
|
7 8 90 1 2 3 45 6
|
||
|
7 8 90 1 2 3 45 6
|
||
|
7 8 90 1 2 3 45 6 7
|
||
|
8 9 0 1 2 3 4 5 6 7
|
||
|
8 9 0 1 2 34 5 6 7 89
|
||
|
0 1 2 34 5 6 7 89 0
|
||
|
1 2 34 5 6 7 89 0
|
||
|
1 2 34 5 6 7 8 9 0
|
||
|
1 2 3 4 5 6 7 8 9 0
|
||
|
1 23 4 5 6 78 9 0
|
||
|
1 23 4 5 6 78 9 0
|
||
|
1 23 4 5 6 78 9 0 1
|
||
|
2 3 4 5 6 7 8 9 0 1 2 3
|
||
|
4 5 67 8 9 0 12 3
|
||
|
4 5 67 8 9 0 12 3
|
||
|
2
|
||
|
Á PROPOS AU MUNDANEUM
|
||
|
|
||
|
Data Workers est une exposition d'œuvres algolittéraires,visible À la fin du 19ème siècle, deux jeunes
|
||
|
au Mundaneum à Mons du jeudi 28 mars jusqu'au dimanche 28 avril juristes belges, Paul Otlet (1868-1944),
|
||
|
2019. Elle expose des histoires racontées d'un point de vue 'nar- 'père de la documentation', et Henri La
|
||
|
ratif algorithmique'. L'exposition est une création des membres Fontaine (1854-1943), homme d'État et
|
||
|
d'Algolit, un groupe bruxellois impliqué dans la recherche artis- prix Nobel de la paix, créent le Munda-
|
||
|
tique sur les algorithmes et la littérature. Chaque mois, ils se neum. Le projet vise à rassembler toute
|
||
|
réunissent pour expérimenter avec du code et des textes F/LOSS. la connaissance du monde et à la classer
|
||
|
Certaines oeuvres sont réalisés par des étudiants de Arts² et des à l'aide du système de Classification
|
||
|
participants externes à l'atelier sur le machine learning et le décimale universelle (UDC) qu'ils in-
|
||
|
texte organisé par Algolit en octobre 2018 au Mundaneum. ventent. Au début, il s'agit d'un Bureau
|
||
|
des institutions internationales dédié
|
||
|
Les entreprises créent des intelligences artificielles pour ser- à l'échange international des connais-
|
||
|
vir, divertir, enregistrer et connaître les humains. Le travail sances. Au XXe siècle, le Mundaneum de-
|
||
|
de ces entités machiniques est généralement dissimulé derrière vient un centre universel de documenta-
|
||
|
des interfaces et des brevets. Dans l'exposition, les conteurs tion. Ses collections sont constituées
|
||
|
algorithmiques quittent leur monde souterrain invisible pour de- de milliers de livres, journaux, revues,
|
||
|
venir des interlocuteurs. documents, affiches, plaques de verre et
|
||
|
cartes postales indexés sur des millions
|
||
|
Les 'data workers' opèrent dans des collectifs différents. Chaque de fiches référencées. Les collections
|
||
|
collectif représente une étape dans le processus de conception sont exposées et conservées dans diffé-
|
||
|
d'un modèle d'apprentissage automatique : il y a les Écrivains, rents bâtiments à Bruxelles, dont le Pa-
|
||
|
les Nettoyeurs, les Informateurs, les Lecteurs, les Apprenants et lais du Cinquantenaire. Le reste des ar-
|
||
|
les Oracles. Les robots donnent leurs voix à la littérature expé- chives n'est transféré à Mons qu'en
|
||
|
rimentale, les modèles algorithmiques lisent des données, trans- 1998.
|
||
|
forment des mots en nombres, calculent des modèles et traitent en
|
||
|
boucle de nouveaux textes et ceci à l'infini. Sur base du Mundaneum, les deux hommes
|
||
|
conçoivent une ville du monde pour la-
|
||
|
L'exposition met au premier plan les 'data workers' qui ont un quelle Le Corbusier réalise des ma-
|
||
|
impact sur notre vie quotidienne, mais qui sont difficiles à sai- quettes et des plans. L'objectif de la
|
||
|
sir ou à imaginer. Elle établit un lien entre les récits sur les Ville du Monde est de rassembler,
|
||
|
algorithmes dans les médias grand public et les histoires racon- au niveau mondial, les institutions
|
||
|
tées dans les manuels techniques et les articles universitaires. du travail intellectuel : bibliothèques,
|
||
|
Les robots sont invités à dialoguer avec les visiteurs humains et musées et universités. Mais le projet
|
||
|
vice versa. De cette façon, nous pourrions comprendre nos raison- n’est jamais réalisé, souffrant de sa
|
||
|
nements respectifs, démystifier nos comportements, rencontrer nos propre utopie. Le Mundaneum est le ré-
|
||
|
personnalités multiples et valoriser notre travail collectif. sultat du rêve visionnaire d’une infra-
|
||
|
C'est aussi un hommage aux nombreuses machines que Paul Otlet et structure pour l'échange universel des
|
||
|
Henri La Fontaine ont imaginées pour leur Mundaneum, en montrant connaissances. Il atteint des dimensions
|
||
|
leur potentiel mais aussi leurs limites. mythiques à l'époque. Lorsqu'on observe
|
||
|
les archives qui ont été concrètement
|
||
|
--- développées, cette collection est plutôt
|
||
|
éclectique et spécifique.
|
||
|
Data Workers est une création de Algolit.
|
||
|
Les intelligences artificielles se déve-
|
||
|
Oeuvres de: Cristina Cochior, Gijs de Heij, Sarah Garcin, loppent aujourd'hui en faisant appa-
|
||
|
An Mertens, Javier Lloret, Louise Dekeuleneer, Florian Van de Weyer, raître des rêves d'universalité et de
|
||
|
Laetitia Trozzi, Rémi Forte, Guillaume Slizewicz, Michael Mur- la production des connaissances. En les
|
||
|
taugh, Manetta Berends, Mia Melvær. étudiant, nous nous sommes rendus compte
|
||
|
que les rêves visionnaires de leurs
|
||
|
Une co-production de: Arts², Mundaneum, Constant. créateurs sont bien présents dès leur
|
||
|
développement dans les années 1950. Au-
|
||
|
Avec le soutien de: Fédération Wallonie-Bruxelles, Arts Numéri- jourd'hui, leurs promesses ont également
|
||
|
ques, Passa Porta, Ugent, DHuF - Digital Humanities Flanders et atteint des dimensions mythiques. Lors-
|
||
|
the Distributed Proofreading Project. qu'on observe leurs applications concrè-
|
||
|
tes, la collection d'outils est réelle-
|
||
|
Remerciements: Mike Kestemont, Michel Cleempoel, Donatella Porto- ment innovante et fascinante, mais en
|
||
|
ghese, François Zajéga, Raphaèle Cornille, Vincent Desfromont, même temps, tout aussi éclectique et
|
||
|
Kris Rutten, Anne-Laure Buisson, David Stampfli. spécifique. Pour Data Workers, Algolit
|
||
|
a combiné certaines de ces applications
|
||
|
avec 10 % des publications numérisées du
|
||
|
Bureau des Institutions Internationales.
|
||
|
Ainsi et de façon poétique, nous espé-
|
||
|
rons ouvrir une discussion à propos des
|
||
|
machines, des algorithmes et des infra-
|
||
|
structures technologiques.
|
||
|
|
||
|
|
||
|
3
|
||
|
RÉCITS CONTEXTUALISÉS
|
||
|
AUTOUR D'ALGOLIT
|
||
|
|
||
|
|
||
|
|
||
|
--- Pourquoi des récits contextualisés? --- naire à la Bible, de l'œuvre entière de Virginia
|
||
|
Woolf à toutes les versions des Conditions d'uti-
|
||
|
Lors des réunions mensuelles d'Algolit, nous étu- lisation publiées par Google depuis son existence.
|
||
|
dions des manuels et expérimentons avec des outils En ce sens, le code de programmation peut aussi
|
||
|
d'apprentissage automatique pour le traitement de être de la littérature. Le collectif Oulipo, acro-
|
||
|
texte. Et nous partageons aussi beaucoup, beaucoup nyme d'Ouvroir de Littérature Potentielle, est une
|
||
|
d'histoires. Avec la publication de ces histoires, grande source d'inspiration pour Algolit. Oulipo a
|
||
|
nous espérons recréer un peu de cette atmosphère. été créé à Paris par les écrivains Raymond Queneau
|
||
|
Les histoires existent également sous forme de et François Le Lionnais. Ils ont ancré leur pra-
|
||
|
podcasts qui peuvent être téléchargés à partir du tique dans l'avant-garde européenne du XXe siècle
|
||
|
site http://www.algolit.net. et dans la tradition expérimentale des années 60.
|
||
|
Pour Oulipo, la création de règles devient la
|
||
|
condition permettant de générer de nouveaux tex-
|
||
|
--- Nous créons des œuvres 'algolittéraires' --- tes, ou ce qu'ils appellent la littérature poten-
|
||
|
tielle. Plus tard, en 1981, ils ont également créé
|
||
|
Le terme 'algolittéraire' vient du nom de notre ALAMO - Atelier de Littérature Assistée par la Ma-
|
||
|
groupe de recherche Algolit. Nous existons depuis thématique et les Ordinateurs.
|
||
|
2012 en tant qu’initiative de Constant, une orga-
|
||
|
nisation oeuvrant dans les médias et les arts ba-
|
||
|
sée à Bruxelles. Nous sommes des artistes, des --- Une différence importante ---
|
||
|
écrivains, des designers et des programmeurs. Une
|
||
|
fois par mois, nous nous rencontrons pour étudier Alors que l'avant-garde européenne du XXe siècle
|
||
|
et expérimenter ensemble. Notre travail peut être poursuivait l'objectif de rompre avec les conven-
|
||
|
copié, étudié, modifié et redistribué sous la même tions, les membres d'Algolit cherchent à rendre
|
||
|
licence libre. Vous trouverez toutes les informa- les conventions visibles.
|
||
|
tions sur le site http://www.algolit.net.
|
||
|
J'écris : Je vis dans mon journal, je l'investis,
|
||
|
L'objectif principal d'Algolit est d'explorer le je le traverse. (Espèces d'espaces. Journal d'un
|
||
|
point de vue du conteur algorithmique. Quelles usager de l'espace, Galilée, Paris, 1974)
|
||
|
nouvelles formes de narration rendons-nous pos-
|
||
|
sibles en dialoguant avec ces agents machiniques ? Cette citation de Georges Perec dans Espèces d'es-
|
||
|
Les points de vue narratifs sont inhérents aux vi- paces pourrait être reprise par Algolit. Il ne
|
||
|
sions du monde et aux idéologies. Don Quichotte, s'agit pas des conventions de la page blanche et
|
||
|
par exemple, a été écrit d'un point de vue omni- du marché littéraire, comme Georges Perec l'a
|
||
|
scient à la troisième personne, montrant la rela- fait. Nous faisons référence aux conventions qui
|
||
|
tion de Cervantes à la tradition orale. La plupart restent souvent cachées derrière les interfaces et
|
||
|
des romans contemporains utilisent le point de vue les brevets. Comment les technologies sont-elles
|
||
|
de la première personne. Algolit souhaite parler conçues, mises en œuvre et utilisées, tant dans
|
||
|
au travers des algorithmes et vous montrer le rai- les universités que dans les entreprises ? Nous
|
||
|
sonnement de l'un des groupes les plus cachés de proposons des histoires qui révèlent le système
|
||
|
notre planète. hybride complexe qui rend possible l'apprentissage
|
||
|
automatique. Nous parlons des outils, des logiques
|
||
|
Écrire dans ou par le code, c'est créer de nou- et des idéologies derrière les interfaces. Nous
|
||
|
examinons également qui produit les outils, qui
|
||
|
gage humain de façon inattendue. Mais les tech- les met en œuvre et qui crée et accède aux grandes
|
||
|
niques d'apprentissage automatique ne sont acces- quantités de données nécessaires au développement
|
||
|
sibles qu'à ceux qui savent lire, écrire et exécu- de machines de prédiction. On pourrait dire, en un
|
||
|
ter du code. La fiction est un moyen de combler le clin d'œil, que nous sommes les collaborateurs de
|
||
|
fossé entre les histoires qui existent dans les cette nouvelle tribu d'hybrides humain-robot.
|
||
|
articles scientifiques, les manuels techniques, et
|
||
|
les histoires diffusées par les médias, souvent
|
||
|
limitées aux reportages superficiels et à la fa-
|
||
|
brication de mythes. En créant des œuvres algolit-
|
||
|
téraires, nous offrons aux humains une introduc-
|
||
|
tion aux techniques qui co-modèlent leur vie
|
||
|
quotidienne.
|
||
|
|
||
|
|
||
|
--- Qu'est-ce que la littérature ? ---
|
||
|
|
||
|
Algolit comprend la notion de littérature comme
|
||
|
beaucoup d'autres auteurs expérimentaux : elle in-
|
||
|
clut toute la production linguistique, du diction-
|
||
|
|
||
|
4
|
||
|
writers write writers write writers write writers write writers write writers write writ
|
||
|
rs write writers write writers write writers write writers write
|
||
|
writers write writers write writers write writers write
|
||
|
writers write writers write writers write writers write
|
||
|
writers write writers write writers write
|
||
|
writers write writers write writers write
|
||
|
writers write writers write writers write
|
||
|
writers write writers write
|
||
|
writers write writers write writers write
|
||
|
writers write writers write
|
||
|
writers write writers write
|
||
|
writers write writers write
|
||
|
writers write writers write
|
||
|
writers write writers write
|
||
|
writers write writers write
|
||
|
writers write writers write
|
||
|
writers write writers write
|
||
|
writers write writ
|
||
|
rs write writers write
|
||
|
writers write writers write
|
||
|
writers write
|
||
|
writers write writers write
|
||
|
writers write writer
|
||
|
write writers write
|
||
|
writers write writ
|
||
|
rs write writers write
|
||
|
writers write
|
||
|
writers write writers write
|
||
|
writers write
|
||
|
writers write w
|
||
|
iters write writers write
|
||
|
writers write
|
||
|
writers write
|
||
|
writers write writers write
|
||
|
writers write
|
||
|
writers write
|
||
|
writers write
|
||
|
writers write writer
|
||
|
write writers write
|
||
|
writers write
|
||
|
writers write
|
||
|
writers write
|
||
|
writers write
|
||
|
writers write
|
||
|
writers write writ
|
||
|
rs write writers write
|
||
|
writers write
|
||
|
writers write
|
||
|
writers write
|
||
|
writers write
|
||
|
writers write
|
||
|
writers write
|
||
|
writers write
|
||
|
writers write
|
||
|
writers write
|
||
|
writers write
|
||
|
writers write
|
||
|
writers write
|
||
|
writers write
|
||
|
writers write
|
||
|
writers write
|
||
|
writers write
|
||
|
writers write
|
||
|
writers write
|
||
|
writers write
|
||
|
writers write
|
||
|
writers write
|
||
|
writers write
|
||
|
writers write
|
||
|
5
|
||
|
o 4n c ,, 5é éno i4 rgt2o i +-+-+-+-+-+-+-+ 7no +-+-+-+-+-+ 5 n 5 7 8 9M e9w 7e c 6 1484 ié 3e5
|
||
|
6 e6 re t6n6 7 r r na h |w|r|i|t|e|r|s| io |w|r|i|t|e| 1pee1 er 74 t 71lcc o 53 mmP9 2i3f
|
||
|
2o'r 7s e 52die 8 3u ro s q 6 4 +-+-+-+-+-+-+-+ s +-+-+-+-+-+ oo1e ps 8e 3usb7 wr s8n l1 f e elu
|
||
|
ii, r9 a t r9 t 13 a q 9s nd 3d e.e-i2t 19 7 l t 1aa m3 m ir l2 4 1 e4 5 d 6e
|
||
|
a 5 81d a e7 r sn n 9 5 s4 5 rt u 1 3 or t irbr e 8Qwo s99pca s n 92 9s le r9
|
||
|
7 e8a8 r 85 n i +-+-+-+-+ +-+-+-+-+-+-+-+ t i +-+-+-+-+ r3 t n r pfc3 d 9,e 8oe i fr
|
||
|
2é s9 i ias6 6 )4 |d|a|t|a| |w|o|r|k|e|r|s| |w|o|r|k| i3a o1 rrn m 7 f l 9 n
|
||
|
7 L e e J8 o +-+-+-+-+ +-+-+-+-+-+-+-+ 5 +-+-+-+-+ 61 u 5 725f 3 w i 61 - 8 ed
|
||
|
a 4ca td +-+-+-+-+ +-+-+-+-+-+-+-+ é +-+-+-+-+-+ e n w 671 5 iT b de 4 a4
|
||
|
p 2 7 |m|a|n|y| |a|u|t|h|o|r|s| e |w|r|i|t|e| t 8 e8 é 6 a ml 4 L 2 e7 2
|
||
|
' t n a 2 +-+-+-+-+ +-+-+-+-+-+-+-+ e +-+-+-+-+-+ 2 o wr o 1v 2 3ers i o i 9
|
||
|
8 e s e2 +-+-+-+-+-+ +-+-+-+-+-+ +-+-+-+-+-+ a1 r 26 6 rn e ii , d œ 6 '
|
||
|
t o 3 |e|v|e|r|y| |h|u|m|a|n| |b|e|i|n|g| d u 1 o e d v4q 7 t e e
|
||
|
el a e r +-+-+-+-+-+ +-+-+-+-+-+ +-+-+-+-+-+ 54 n a-ra m1i 8 i 5 1 2 s
|
||
|
r 8 +-+-+-+ +-+-+-+ +-+-+-+-+-+-+ +-+-+ 7 e ou l i w l 9
|
||
|
2 , e l |w|h|o| |h|a|s| |a|c|c|e|s|s| |t|o| i tu 8 t , 5 s 2 o e
|
||
|
va r +-+-+-+ +-+-+-+ +-+-+-+-+-+-+ +-+-+ n 5' c t C g s
|
||
|
4 r 4 p +-+-+-+ +-+-+-+-+-+-+-+-+ t +-+-+-+-+-+-+-+-+-+ t 7 e 9o ,4 43
|
||
|
6 43 i |t|h|e| |i|n|t|e|r|n|e|t| |i|n|t|e|r|a|c|t|s| r 1 p 7 i
|
||
|
l G +-+-+-+ +-+-+-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+-+ q e e
|
||
|
8 3 g e e +-+-+ +-+-+-+-+-+ +-+-+-+-+-+-+ s 2 8 t
|
||
|
1 f a |w|e| |c|h|a|t|,| |w|r|i|t|e|,|
|
||
|
a œ 9 e sx ee r 3 +-+-+ +-+-+-+-+-+ +-+-+-+-+-+-+ s 8e e
|
||
|
4 e t e 9 +-+-+-+-+-+-+ +-+-+-+-+ +-+-+-+ 6 or 2
|
||
|
l 3 c 4 r7 |c|l|i|c|k|,| |l|i|k|e| |a|n|d| 6r
|
||
|
4 6 1 1 t +-+-+-+-+-+-+ +-+-+-+-+ +-+-+-+ e
|
||
|
9 l e +-+-+-+-+-+ 7 s s d
|
||
|
n r d |s|h|a|r|e| o3 9
|
||
|
na B e n n +-+-+-+-+-+ u 2
|
||
|
r9 e 45 1 +-+-+ a +-+-+-+-+-+ +-+-+-+ +-+-+-+-+
|
||
|
a - t |w|e| |l|e|a|v|e| |o|u|r| |d|a|t|a| 4 O
|
||
|
o 5 m n +-+-+ +-+-+-+-+-+ +-+-+-+ +-+-+-+-+ 7 s a8
|
||
|
a l 1 +-+-+ t +-+-+-+-+ +-+-+-+-+-+-+-+-+-+ i
|
||
|
9 7 |w|e| |f|i|n|d| |o|u|r|s|e|l|v|e|s| 5 e
|
||
|
i a r s +-+-+ +-+-+-+-+ +-+-+-+-+-+-+-+-+-+ o l
|
||
|
e 0 i +-+-+-+-+-+-+-+ +-+-+ +-+-+-+-+-+-+ g e n
|
||
|
1 e |w|r|i|t|i|n|g| |i|n| |P|y|t|h|o|n|
|
||
|
e +-+-+-+-+-+-+-+ +-+-+ +-+-+-+-+-+-+ 6
|
||
|
d +-+-+-+-+ +-+-+-+-+-+-+ s 4 1 e a
|
||
|
w |s|o|m|e| |n|e|u|r|a|l| 6 9 ,
|
||
|
s o 3 +-+-+-+-+ +-+-+-+-+-+-+ r d
|
||
|
, u +-+-+-+-+-+-+-+-+ i +-+-+-+-+-+ r s
|
||
|
|n|e|t|w|o|r|k|s| c |w|r|i|t|e| r s
|
||
|
3 +-+-+-+-+-+-+-+-+ +-+-+-+-+-+ c
|
||
|
a +-+-+-+-+-+ +-+-+-+-+-+-+-+ +-+-+-+-+-+-+ r
|
||
|
|h|u|m|a|n| |e|d|i|t|o|r|s| |a|s|s|i|s|t| 7 2 4 7
|
||
|
r +-+-+-+-+-+ +-+-+-+-+-+-+-+ +-+-+-+-+-+-+ t
|
||
|
i +-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+-+-+-+ v l t 2 e
|
||
|
|p|o|e|t|s|,| |p|l|a|y|w|r|i|g|h|t|s| r e
|
||
|
+-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+-+-+-+
|
||
|
+-+-+ +-+-+-+-+-+-+-+-+-+ +-+-+-+-+-+-+ 4n N 8
|
||
|
a 9 5 |o|r| |n|o|v|e|l|i|s|t|s| |a|s|s|i|s|t| 5 4
|
||
|
+-+-+ +-+-+-+-+-+-+-+-+-+ +-+-+-+-+-+-+ w 7 i
|
||
|
r i n
|
||
|
2
|
||
|
4 s 3
|
||
|
l 4
|
||
|
r
|
||
|
l 8
|
||
|
a o
|
||
|
, 4 5
|
||
|
i 6 r
|
||
|
n 7
|
||
|
5
|
||
|
s s
|
||
|
r
|
||
|
e
|
||
|
l a r
|
||
|
|
||
|
6
|
||
|
V V V V V V V V % % %% % % % %%% % %%% %
|
||
|
V V V V V V V V V V V V V V V V % % 0 % % % %
|
||
|
V % V V V V V % V V V % % 00 0 % % 0 % % % %
|
||
|
% % % % % % % % 0 __ 0 0 _ % _ _ %% % %
|
||
|
% % % 0 / / __ _ _ __ _ _| |__ | (_) ___ __ _ %
|
||
|
ÉCRIVAINS % / / / _` | | '_ \| | | | '_ \| | |/ __/ _` | ____ %%
|
||
|
% % % / /__| (_| | | |_) | |_| | |_) | | | (_| (_| | /___/%
|
||
|
% 0 \____/\__,_| | .__/ \__,_|_.__/|_|_|\___\__,_|
|
||
|
V V V V V V V V % _ _|_| % _ 0 0 % %
|
||
|
V V V V V V V V V 0 | |_(_) ___ _ __ % __| | ___ %%
|
||
|
V % V V V V V V V | __| |/ _ \| '_ \ / _` |/ _ \ % % %%
|
||
|
V V V V V V V V V V V V V V V V | |_| | (_) | | | | | (_| | __/ %
|
||
|
V V % V V V V V V V \__|_|\___/|_| |_| \__,_|\___| 0 %
|
||
|
% % ___ _ % 0
|
||
|
Les Data Workers ont besoin de don- 0 0 0 / \__ _| |_ __ _
|
||
|
nées pour travailler. Dans le / /\ / _` | __/ _` |
|
||
|
contexte d'Algolit, celles-ci % 0 % / /_// (_| | || (_| | 0
|
||
|
prennent la forme du langage écrit. 0 /___,' \__,_|\__\__,_|
|
||
|
L'apprentissage automatique repose __ __ _ % 0 %
|
||
|
sur de nombreux types d'écriture. 0 0 / / /\ \ \___ _ __| | _____ _ __ ___ 0
|
||
|
Les auteurs humains écrivent sous \ \/ \/ / _ \| '__| |/ / _ \ '__/ __|
|
||
|
forme de publications. Celles-ci \ /\ / (_) | | | < __/ | \__ \ 0
|
||
|
sont organisées en archives et en 0 \/ \/ \___/|_| |_|\_\___|_| |___/
|
||
|
cours de numérisation. Mais il 0 0 0 0 0
|
||
|
existe d'autres types d'écriture.
|
||
|
On pourrait dire que chaque être Toutes les œuvres visibles dans l'exposition, ainsi que les histoires
|
||
|
humain avec un accès à Internet de- contextuelles et quelques textes supplémentaires ont été rassemblés
|
||
|
vient un écrivain lorsqu'il inter- dans cette publication. Elle existe en français et en anglais.
|
||
|
agit avec des algorithmes. En ajou- %
|
||
|
tant des commentaires, en écrivant % Cette publication est réalisée en suivant un flux de travail en
|
||
|
des mails ou des articles Wikipé- texte brut, basé sur divers outils de traitement de texte et de
|
||
|
dia, en cliquant et en aimant. calcul. Le format de fichier 'texte brut' est le format le plus
|
||
|
utilisé dans les modèles d'apprentissage automatique. C'est un
|
||
|
Les algorithmes d'apprentissage au- type de document dans lequel il n'existe pas de différence struc-
|
||
|
tomatique ne sont pas critiques : turelle entre les en-têtes et les paragraphes. Ce format a été le
|
||
|
ils prennent tout ce qu'on leur point de départ d'un processus de conception graphique ludique,
|
||
|
donne, peu importe le style d'écri- dans lequel les pages sont soigneusement comptées, page par page,
|
||
|
ture, le CV de l'auteur ou ses ligne par ligne et caractère par caractère.
|
||
|
fautes d'orthographe. D’ailleurs,
|
||
|
plus il y a d’erreurs, mieux Chaque page contient 110 caractères par ligne et 70 lignes par page.
|
||
|
c’est : la variété leur apprend à La mise-en-page est donc le résultat d'un acte de calcul de mots,
|
||
|
anticiper les textes inattendus. d'espaces et de lignes. Il joue avec des choix aléatoires, des motifs
|
||
|
Les auteurs humains quant à eux ne programmés et des polices ASCII/UNICODE, afin de spéculer sur la
|
||
|
sont souvent pas conscients de ce matérialité du texte numérique et d'explorer les interrelations
|
||
|
qui advient de leur travail. entre l'acte de compter et d'écrire avec des mots et des numéros.
|
||
|
|
||
|
La plupart des textes que nous uti- Textes: Cristina Cochior, Sarah Garcin, Gijs de Heij, An Mertens,
|
||
|
lisons sont en anglais, certains en François Zajéga, Louise Dekeuleneer, Florian Van de Weyer,
|
||
|
français, d'autres en néerlandais. Laetitia Trozzi, Rémi Forte, Guillaume Slizewicz.
|
||
|
Souvent, nous nous retrouvons à %
|
||
|
écrire en Python, le langage de Traductions & relectures: deepl.com, Michel Cleempoel,
|
||
|
programmation que nous utilisons. Elodie Mugrefya, Patrick Lennon, Emma Kraak. %
|
||
|
Les algorithmes peuvent aussi être
|
||
|
des écrivains. Certains réseaux de Mise-en-page & couverture: Manetta Berends
|
||
|
neurones écrivent leurs propres https://git.vvvvvvaria.org/mb/data-workers-publication
|
||
|
règles et génèrent leurs propres
|
||
|
textes. Et pour les modèles qui Police: GNU Unifont, OGRE
|
||
|
luttent encore contre les ambiguï- Imprimante: PrinterPro, Rotterdam
|
||
|
tés du langage naturel, il existe Papier: Glossy MC 90gr
|
||
|
des éditeurs humains pour les ai-
|
||
|
der. Poètes, dramaturges ou roman- Editeur responsable: Constant vzw/asbl
|
||
|
ciers commencent leur nouvelle car- Rue du Fortstraat 5, 1060, Bruxelles
|
||
|
rière comme assistants de l'IA.
|
||
|
Licence: Algolit, Data Workers, mars 2019, Bruxelles. %
|
||
|
Copyleft: cette oeuvre est libre, vous pouvez la redistribuer
|
||
|
et/ou la modifier selon les termes de la Licence Art Libre.
|
||
|
|
||
|
Version en ligne: http://www.algolit.net/index.php/Data_Workers_FR
|
||
|
Sources: https://gitlab.constantvzw.org/algolit/mundaneum
|
||
|
7
|
||
|
% % % % % % %% % % % %%
|
||
|
% % % % % %% % % % % %% % % % % % %% %
|
||
|
% % % % 0 % % 00 0 % % %
|
||
|
%% % % %% % % 0 0 % 0 0 % % % % %
|
||
|
% __ % 0 0 %% 0 % _ % 0 _
|
||
|
/ / ___ _ __ ___ __| | ___ __ _ ___| |_ %
|
||
|
% % / / / _ \ | '_ \ / _ \ / _` |/ __/ _` / __| __|
|
||
|
% % % % 0 / /__| __/ | |_) | (_) | (_| | (_| (_| \__ \ |_
|
||
|
% % % % % \____/\___| | .__/ \___/ \__,_|\___\__,_|___/\__| % %
|
||
|
% % 0 00 % |_| 0 000 0 % 0 0
|
||
|
% % 0 _ % ___ _ 0 0
|
||
|
% 0 __| | ___ / \__ _| |_ __ _
|
||
|
% %% % % / _` |/ _ \ / /\ / _` | __/ _` | %
|
||
|
| (_| | __/ / /_// (_| | || (_| | 0 %
|
||
|
% % 0 \__,_|\___| /___,' \__,_|\__\__,_| 0
|
||
|
|
||
|
% __ __ _ 0 0 %
|
||
|
/ / /\ \ \___ _ __| | _____ _ __ ___
|
||
|
% 0 \ \/ \/ / _ \| '__| |/ / _ \ '__/ __| % 0
|
||
|
0 \ /\ / (_) | | | < __/ | \__ \ 0
|
||
|
% \/ \/ \___/|_| |_|\_\___|_| |___/
|
||
|
0 0 0 0 0
|
||
|
% %
|
||
|
Par Algolit
|
||
|
|
||
|
Lors des réunions mensuelles d'Algolit, nous étudions des manuels
|
||
|
% et expérimentons avec des outils d'apprentissage automatique pour
|
||
|
le traitement de texte. Mais nous partageons aussi énormément
|
||
|
d'histoires. Avec ce podcast, nous espérons recréer cette atmo-
|
||
|
sphère. %
|
||
|
%%
|
||
|
Pour les non-initiés, les algorithmes ne deviennent visibles dans
|
||
|
% les médias que lorsqu'ils se révèlent capables d'une performance
|
||
|
exceptionnelle, comme l'Alpha Go, ou quand ils se trompent d'une
|
||
|
façon terrifiante et fantastique. Mais les humains qui tra-
|
||
|
vaillent sur le terrain créent leur propre culture en ligne et
|
||
|
% hors ligne. Ils partagent leurs meilleures histoires et expé-
|
||
|
riences lors de réunions en direct, de conférences de recherche
|
||
|
% ou de compétitions annuelles comme celle du Kaggle. Ces histoires
|
||
|
qui contextualisent les outils et les pratiques peuvent être drô-
|
||
|
les, tristes, choquantes et intéressantes.
|
||
|
%
|
||
|
Ce sont souvent des histoires d'apprentissage par l’expérience.
|
||
|
La mise en œuvre des algorithmes dans la société génère de nou-
|
||
|
velles conditions de travail, de stockage, d'échange, de compor-
|
||
|
tement et de copier-coller. À leur manière, ces histoires contex-
|
||
|
tuelles saisissent l’élan d’une histoire anthropo-machinique plus
|
||
|
large, écrite par de nombreuses voix et à pleine vitesse. Elles
|
||
|
sont aussi reprises dans la publication de l'exposition.
|
||
|
|
||
|
--- %
|
||
|
% %
|
||
|
Voix: Elodie Mugrefya, Michel Cleempoel, Géraldine Renauld,
|
||
|
An Mertens, Donatella Portoghese, Peter Westenberg.
|
||
|
|
||
|
Composition: Javier Lloret %
|
||
|
|
||
|
Enregistrements: David Stampfli
|
||
|
%
|
||
|
Textes: Cristina Cochior, An Mertens
|
||
|
|
||
|
%
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
8
|
||
|
0 0 0 00 0 0 00
|
||
|
00 0 00 0
|
||
|
0 0 _ _ 0 _
|
||
|
% /\/\ __ _ _ __| | _| |__ ___ | |_ 0
|
||
|
/ \ / _` | '__| |/ / '_ \ / _ \| __| 0
|
||
|
/ /\/\ \ (_| | | | <| |_) | (_) | |_
|
||
|
\/ \/\__,_|_| |_|\_\_.__/ \___/ \__|
|
||
|
0 0 ___ _ _ 0 0
|
||
|
% % % %% %%% % 0 0 % % / __\ |__ __ _(_)_ __ % %%%
|
||
|
% % % % % %% % %%% / / | '_ \ / _` | | '_ \ % % %
|
||
|
% %% %% % % % % % % / /___| | | | (_| | | | | | 0 0 %
|
||
|
% % % % % %% \____/|_| |_|\__,_|_|_| |_| 0 % % %
|
||
|
% % 0 % 000 % % %
|
||
|
% % % % %% % % % % %%
|
||
|
% Par Florian Van de Weyer, étudiant Arts²/Section Arts Numériques %
|
||
|
% %
|
||
|
% % % Markbot Chain est une expérimentation sociale dans laquelle le
|
||
|
public a une influence directe sur le résultat. L'intention est
|
||
|
% de l'intégrer au cœur d'un processus de génération de texte sans
|
||
|
% % % appliquer de filtre sur ses entrées. Le bot fonctionnera durant
|
||
|
toute la durée de l'exposition sans être remis à zéro.
|
||
|
% % % %
|
||
|
% Toutes les questions présentes dans la base de données mise à %
|
||
|
% disposition par le Mundaneum ont été répertoriées automatique-
|
||
|
% ment. Ces questions sont ensuite posées aléatoirement au public
|
||
|
via un terminal. En y répondant, les personnes alimentent une
|
||
|
autre base de données. Après chaque entrée, cette dernière permet
|
||
|
de générer une série de phrases en utilisant diverses configura-
|
||
|
tions des chaînes de Markov, un algorithme qui est fort utilisé
|
||
|
dans la génération de spam. Les phrases ainsi générées sont affi-
|
||
|
chées dans la fenêtre, et une nouvelle question est posée.
|
||
|
% % % % %
|
||
|
%
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
9
|
||
|
RÉCITS CONTEXTUALISÉS
|
||
|
AUTOUR DES ECRIVAINS
|
||
|
|
||
|
|
||
|
|
||
|
--- Les programmeurs créent Les lignes directrices suivantes sont copiées du
|
||
|
les data workers en écrivant --- site Web de Microsoft. Elles décrivent comment le
|
||
|
style de Cortana doit être respecté par les entre-
|
||
|
Récemment, nous avons constaté une étrange obser- prises qui élargissent ses services. Les tra-
|
||
|
vation : la plupart des programmeurs de langages vailleurs écrivains, programmeurs et romanciers
|
||
|
et de paquets que nous utilisons sont européens. qui développent les réponses de Cortana, doivent
|
||
|
suivre ces directives. Sa personnalité et son
|
||
|
Python, par exemple, le principal langage utilisé image de marque sont en jeu. Car la cohérence est
|
||
|
dans le monde entier pour le traitement du langa- un outil important pour solliciter la confiance de
|
||
|
ge, a été inventé en 1991 par le programmeur néer- l’humain.
|
||
|
landais Guido Van Rossum. Celui-ci a ensuite tra-
|
||
|
versé l'Atlantique où il a rejoint Google pendant Quelle est la personnalité de Cortana ?
|
||
|
sept ans. Maintenant il est actif chez Dropbox.
|
||
|
'Cortana est attentionnée, sensible et solidaire.
|
||
|
Scikit Learn, le couteau suisse open source des
|
||
|
outils d'apprentissage automatique, a été initié Elle est sympathique mais orientée vers des
|
||
|
comme un projet Google Summer of Code à Paris par solutions.
|
||
|
le chercheur français David Cournapeau. Par la
|
||
|
suite, il a été repris par Matthieu Brucher dans Elle ne commente pas les informations personnelles
|
||
|
le cadre de sa thèse à l'Université de la Sorbonne ou le comportement de l'utilisateur, en particu-
|
||
|
à Paris. Puis il a été adopté en 2010 par l'INRA, lier si ces informations sont sensibles.
|
||
|
l'Institut National de l'Informatique et des Ma-
|
||
|
thématiques Appliquées. Elle ne fait pas de suppositions sur ce que l'uti-
|
||
|
lisateur veut, surtout elle n'incite pas à l'achat.
|
||
|
Keras, une bibliothèque de réseaux de neurones
|
||
|
open source écrite en Python, est développée par Elle travaille pour l'utilisateur. Elle ne repré-
|
||
|
François Chollet, un chercheur français qui tra- sente aucune entreprise, service ou produit.
|
||
|
vaille dans l'équipe Brain de Google.
|
||
|
Elle ne s'attribue pas le mérite ou la responsabi-
|
||
|
Gensim, une bibliothèque open source pour Python lité des choses qu'elle n'a pas faites.
|
||
|
utilisée pour créer des modèles sémantiques non
|
||
|
supervisés à partir de texte brut, a été écrite Elle dit la vérité sur ses capacités
|
||
|
par Radim Řehůřek. C'est un informaticien tchèque et ses limites.
|
||
|
qui dirige une entreprise de conseil à Bristol, au
|
||
|
Royaume-Uni. Elle ne présume rien de vos capacités physiques,
|
||
|
de votre sexe, de votre âge ou de toute autre
|
||
|
Et pour finir cette petite série, nous avons aussi caractéristique déterminante.
|
||
|
considéré Pattern, une bibliothèque souvent utili-
|
||
|
sée pour le web-mining et l'apprentissage automa- Elle ne suppose pas savoir ce que l'utilisateur
|
||
|
tique. Pattern a été développé et publié sous une ressent à propos de quelque chose.
|
||
|
license libre en 2012 par Tom De Smedt et Walter
|
||
|
Daelemans. Tous deux sont chercheurs au CLIPS, le Elle est amicale mais professionnelle.
|
||
|
Centre de Linguistique Informatique et de Psycho-
|
||
|
linguistique de l'Université d'Anvers. Elle se garde d'émoticons dans les tâches.
|
||
|
Un point c’est tout.
|
||
|
|
||
|
--- Cortana parle --- Elle n'utilise pas d'argot culturel
|
||
|
ou professionnel spécifique.
|
||
|
Les dispositifs d’intelligence artificielle qui
|
||
|
nous assistent, ont souvent besoin de leurs Ce n'est pas un bot de support.'
|
||
|
propres assistants, humains. Les travailleurs in-
|
||
|
jectent de l'humour et de l'intelligence dans le Les humains interviennent en détail lors de la
|
||
|
langage des machines. Cortana est un exemple de ce programmation des réponses que Cortana donne.
|
||
|
type d'écriture mixte. Elle est l'assistante numé- Comment Cortana doit-elle réagir lorsqu'on lui
|
||
|
rique développée par Microsoft. Sa mission est propose des actions 'inappropriées' ? Son jeu
|
||
|
d'aider les utilisateurs à être plus productifs et d'actrice sexuée imité par la technologie soulève
|
||
|
créatifs. La 'personnalité' de Cortana a été fa- des questions à propos des relations de pouvoir
|
||
|
çonnée au fil des ans. Il est important qu'elle dans le monde actuel.
|
||
|
conserve son caractère dans toutes ses interac-
|
||
|
tions avec les utilisateurs. Elle est conçue pour Voyez la réponse que Cortana donne à la question :
|
||
|
nous rendre confiants. Cela se reflète dans ses - Cortana, qui est ton papa ?
|
||
|
réponses. - Techniquement parlant, c'est Bill Gates.
|
||
|
Rien de grave.
|
||
|
|
||
|
10
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
--- Apprentissage Open Source --- comme le français - aux langues construites comme
|
||
|
le langage de programmation ou l'espéranto, for-
|
||
|
Les licences de droits d'auteur cloisonnent une mées intentionnellement par l’entremise de l’homme
|
||
|
grande partie des pratiques d'écriture, de lecture pour répondre à un besoin précis.' Une langue of-
|
||
|
et d'apprentissage machiniques. Cela signifie ficielle avec une académie régulatrice, telle que
|
||
|
qu'ils ne sont disponibles que pour les humains le français standard avec l'Académie française,
|
||
|
travaillant dans cette entreprise spécifique. est classée comme langue naturelle. Ses points
|
||
|
Certaines entreprises participent à des conférences normatifs ne le rendent pas assez construit pour
|
||
|
dans le monde entier et partagent leurs connais- être classé comme un langage construit ou assez
|
||
|
sances dans des articles en ligne. Même si elles contrôlé pour être classé comme un langage naturel
|
||
|
partagent leur code, souvent elles ne mettent pas contrôlé.
|
||
|
à disposition les grandes quantités de données né-
|
||
|
cessaires à la formation des modèles. Ainsi, le 'langage naturel' est un terme de sub-
|
||
|
stitution qui se réfère à toutes les langues, au-
|
||
|
Nous avons pu apprendre l'apprentissage automati- delà de leur hybridité. Le 'traitement du langage
|
||
|
que, à lire et à écrire dans le contexte d'Algolit naturel', est au contraire une pratique
|
||
|
grâce à des chercheurs universitaires qui par- construite. Ce qui nous intéresse, c'est la créa-
|
||
|
tagent leurs résultats par le biais d’articles ou tion d'un langage construit pour classer les lan-
|
||
|
par la publication de leur code en ligne. En tant gages naturels qui, par leur évolution, présentent
|
||
|
qu'artistes, nous pensons qu'il est important des problèmes de catégorisation.
|
||
|
d'adopter cette attitude. C'est pourquoi nous do-
|
||
|
cumentons nos réunions. Nous partageons autant que Références :
|
||
|
possible les outils que nous créons et les textes
|
||
|
que nous utilisons sur notre dépôt de code en https://hiphilangsci.net/2013/05/01/on-the-histo-
|
||
|
ligne et ceci, sous licence libre. ry-of-the-question-of-whether-natural-language-is-
|
||
|
illogical/
|
||
|
Nous éprouvons une grande joie quand nos travaux
|
||
|
sont repris par d'autres, modifiés, personnalisés Livre : Neural Network Methods for Natural Lan-
|
||
|
et redistribués. N'hésitez donc pas à copier et à guage Processing, Yoav Goldberg, Bar Ilan Univer-
|
||
|
tester le code sur notre site web. Si les sources sity, avril 2017.
|
||
|
d'un projet particulier n’y sont pas, vous pouvez
|
||
|
toujours nous contacter via la liste de diffusion.
|
||
|
Vous trouverez un lien vers notre dépot git, nos
|
||
|
etherpads et notre wiki sur http://www.algolit.net.
|
||
|
|
||
|
|
||
|
--- Langage naturel pour
|
||
|
l'intelligence artificielle ---
|
||
|
|
||
|
Le traitement du langage naturel (NLP) est un
|
||
|
terme collectif qui désigne le traitement informa-
|
||
|
tique automatique des langues humaines. Cela com-
|
||
|
prend les algorithmes utilisant, comme entrée, du
|
||
|
texte produit par l'homme et qui tentent de le re-
|
||
|
produire. Les humains semblent compter de plus en
|
||
|
plus sur ce type de présence algorithmique. Nous
|
||
|
produisons de plus en plus de textes chaque année
|
||
|
et nous nous attendons à ce que les interfaces in-
|
||
|
formatiques communiquent avec nous dans notre
|
||
|
propre langue. Le traitement du langage naturel
|
||
|
est très difficile, car le langage humain est par
|
||
|
nature ambigu, en constante évolution et mal défini.
|
||
|
|
||
|
Mais qu'entend-on par 'naturel' dans le traitement
|
||
|
du langage naturel ? Certains humains diront que
|
||
|
la langue est une technologie en soi. Selon Wiki-
|
||
|
pédia, 'Une langue dite « naturelle » est une
|
||
|
langue qui s'est formée petit à petit, évoluant
|
||
|
avec le temps, et fait partie du langage naturel.
|
||
|
Son origine est bien souvent floue et peut être
|
||
|
retracée plus ou moins clairement par la linguis-
|
||
|
tique comparée. On oppose les langues naturelles -
|
||
|
|
||
|
|
||
|
11
|
||
|
0 12 3 4 5 67 8 9 0
|
||
|
12 3 4 5 67 8 9 0 12
|
||
|
3 4 5 67 8 9 0 1 2
|
||
|
3 4 5 6 7 8 9 0 1 2 3
|
||
|
4 56 7 8 9 01 2 3
|
||
|
4 56 7 8 9 01 2 3
|
||
|
4 56 7 8 9 01 2 3
|
||
|
4 56 7 8 9 0 1 2 3 4
|
||
|
5 6 7 8 9 0 1 2 3 45 6
|
||
|
7 8 90 1 2 3 45 6
|
||
|
7 8 90 1 2 3 45 6
|
||
|
7 8 90 1 2 3 4 5 6
|
||
|
7 8 9 0 1 2 3 4 5 6
|
||
|
7 89 0 1 2 34 5 6
|
||
|
7 89 0 1 2 34 5 6
|
||
|
7 89 0 1 2 34 5 6 7
|
||
|
89 0 1 2 3 4 5 6 7 8 9
|
||
|
0 1 2 3 4 5 6 78 9
|
||
|
0 1 23 4 5 6 78 9 0
|
||
|
1 23 4 5 6 78 9 0
|
||
|
1 23 4 5 6 78 9 0
|
||
|
1 2 3 4 5 6 7 8 9 0
|
||
|
1 2 3 4 5 67 8 9 0 12
|
||
|
3 4 5 67 8 9 0 12
|
||
|
3 4 5 67 8 9 0 12 3
|
||
|
4 5 6 7 8 9 0 1 2 3
|
||
|
4 5 6 7 8 9 01 2 3
|
||
|
4 56 7 8 9 01 2 3
|
||
|
4 56 7 8 9 01 2 3
|
||
|
4 56 7 8 9 01 2 3 4
|
||
|
5 6 7 8 9 0 1 2 3 4 5 6
|
||
|
7 8 90 1 2 3 45 6
|
||
|
7 8 90 1 2 3 45 6
|
||
|
7 8 90 1 2 3 45 6
|
||
|
7 8 90 1 2 3 4 5 6 7
|
||
|
8 9 0 1 2 3 4 5 6 7
|
||
|
89 0 1 2 34 5 6 7
|
||
|
89 0 1 2 34 5 6 7 89
|
||
|
0 1 2 34 5 6 7 8 9
|
||
|
0 1 2 3 4 5 6 7 8 9
|
||
|
0 1 23 4 5 6 78 9 0
|
||
|
1 23 4 5 6 78 9 0
|
||
|
1 23 4 5 6 78 9 0
|
||
|
1 23 4 5 6 7 8 9 0
|
||
|
1 2 3 4 5 6 7 8 9 0 12 3
|
||
|
4 5 67 8 9 0 12 3
|
||
|
4 5 67 8 9 0 12 3
|
||
|
4 5 67 8 9 0 12 3
|
||
|
4 5 6 7 8 9 0 1 2 3
|
||
|
4 5 6 7 8 9 01 2 3 4
|
||
|
56 7 8 9 01 2 3 4
|
||
|
56 7 8 9 01 2 3 4 5
|
||
|
6 7 8 9 0 1 2 3 4 5 6
|
||
|
7 8 9 0 1 2 3 45 6
|
||
|
7 8 90 1 2 3 45 6
|
||
|
7 8 90 1 2 3 45 6
|
||
|
7 8 90 1 2 3 45 6 7
|
||
|
8 9 0 1 2 3 4 5 6 7
|
||
|
8 9 0 1 2 34 5 6 7 89
|
||
|
0 1 2 34 5 6 7 89 0
|
||
|
1 2 34 5 6 7 89 0
|
||
|
1 2 34 5 6 7 8 9 0
|
||
|
1 2 3 4 5 6 7 8 9 0
|
||
|
1 23 4 5 6 78 9 0
|
||
|
1 23 4 5 6 78 9 0
|
||
|
1 23 4 5 6 78 9 0 1
|
||
|
2 3 4 5 6 7 8 9 0 1 2 3
|
||
|
4 5 67 8 9 0 12 3
|
||
|
4 5 67 8 9 0 12 3
|
||
|
12
|
||
|
oracles predict oracles predict oracles predict oracles predict oracles predict oracles predic
|
||
|
oracles predict oracles predict oracles predict oracles predict orac
|
||
|
es predict oracles predict oracles predict oracles predict
|
||
|
racles predict oracles predict oracles predict oracles predic
|
||
|
oracles predict oracles predict oracles predict
|
||
|
oracles predict oracles predict oracles predict
|
||
|
oracles predict oracles predict or
|
||
|
cles predict oracles predict oracles predict
|
||
|
oracles predict oracles predict
|
||
|
oracles predict oracles predict oracles pr
|
||
|
dict oracles predict oracles predict
|
||
|
oracles predict oracles predict
|
||
|
oracles predict oracles predict
|
||
|
oracles predict oracles predict
|
||
|
oracles predict oracles predict
|
||
|
oracles predict orac
|
||
|
es predict oracles predict
|
||
|
oracles predict oracles predict
|
||
|
oracles predict oracles predic
|
||
|
oracles predict
|
||
|
oracles predict oracles predict
|
||
|
oracles predict
|
||
|
oracles predict oracles predict
|
||
|
oracles predict
|
||
|
racles predict oracles predict
|
||
|
oracles predict
|
||
|
oracles predict oracles predict
|
||
|
oracles predict
|
||
|
oracles predict orac
|
||
|
es predict oracles predict
|
||
|
oracles predict
|
||
|
oracles predict
|
||
|
racles predict oracles predict
|
||
|
oracles predict
|
||
|
oracles predict
|
||
|
oracles predict
|
||
|
racles predict oracles predict
|
||
|
oracles predict
|
||
|
oracles predict
|
||
|
oracles predict
|
||
|
oracles predict
|
||
|
oracles predict or
|
||
|
cles predict oracles predic
|
||
|
oracles predict
|
||
|
oracles predict
|
||
|
oracles predict
|
||
|
oracles predict
|
||
|
oracles predict
|
||
|
oracles predict
|
||
|
oracles predict
|
||
|
oracles predict
|
||
|
oracles predict
|
||
|
oracles predict
|
||
|
oracles predict
|
||
|
oracles predict
|
||
|
oracles predict
|
||
|
oracles predict
|
||
|
oracles predict
|
||
|
oracles predict
|
||
|
oracles predict
|
||
|
oracles predict
|
||
|
oracles predict
|
||
|
oracles predict
|
||
|
oracles predict
|
||
|
oracles predict
|
||
|
oracles predict
|
||
|
oracles predict
|
||
|
oracles predict
|
||
|
oracles predict
|
||
|
13
|
||
|
a9p3 7 -839 6 4a o 4% 3 3r +-+-+-+-+-+-+-+ z3 +-+-+-+-+-+-+-+ nt %u l c ew a5 g |i ras 21 7
|
||
|
1 , 1 n ev 6 0 e _s 4 77e |o|r|a|c|l|e|s| 6 _n |p|r|e|d|i|c|t| tla 7486 r 5lvt7 + 2 r
|
||
|
Cu i li t8er 1 n s i 8 1 2 +-+-+-+-+-+-+-+ pt +-+-+-+-+-+-+-+ se dp u4e r r p r5 9 t55 3m
|
||
|
é518 1 8p 2 e na13 , ah é1 n ) urg p4 ao5 t42 n.9 rn tt m e 3 8 9 16e9ma 5te -9 t
|
||
|
3 i 2a m2 l294e 9a 7 q2 7|5 5 e d + 9r i P ep 7 pl 6 4 79s Ge u p rs C 6s3 1a e9
|
||
|
8e i+ u ll +-+-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+ l l +-+-+-+-+-+-+-+-+ +-+-+-+ s i 6sihfr nzlWnk
|
||
|
t 62 e n |m|a|c|h|i|n|e| |l|e|a|r|n|i|n|g| d |a|n|a|l|y|s|e|s| |a|n|d| oon 9 7c r4 téed elrid
|
||
|
\ l i 5d 2s +-+-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+ lc +-+-+-+-+-+-+-+-+ +-+-+-+ xr e fer 8t 1 nse 5t s 3
|
||
|
, i6u4reet %o 9 t -9e 3 é a a +-+-+-+-+-+-+-+-+ - e 6o i 9 6 d 7l2 8nu e
|
||
|
w8 e s d t7 t i k3h cm f o ip w |p|r|e|d|i|c|t|s| s 3 a-6 e 8e t ru M9p 6
|
||
|
s4 1 4s o 1 p1i s5i 9n u ,| 6 9o +-+-+-+-+-+-+-+-+ u 7 9 r txb a o Ed o eu n
|
||
|
9 oo | t 9 1V -88 lo, +-+-+-+-+-+-+ e7 +-+-+-+-+ +-+-+-+-+-+-+-+ c 9la r% t é r
|
||
|
6 2 d te | + s o- |m|o|d|e|l|s| l h |h|a|v|e| |l|e|a|r|n|e|d| t8n 6o 4 t, r 6-
|
||
|
ee o l àtt +-+-+-+-+-+-+ +-+-+-+-+ +-+-+-+-+-+-+-+ f e r ur i e lg
|
||
|
e i t t e l 17o + o 9 +-+-+-+-+-+-+ _ +-+-+-+ +-+-+-+-+ S+ ceart i 0 g 6i t
|
||
|
4 1l . - ôpt d n |m|o|d|e|l|s| e |a|r|e| |u|s|e|d| 9g 9 9 -l a r 8 6
|
||
|
s9c w 9 r 9 5 % w +-+-+-+-+-+-+ t +-+-+-+ +-+-+-+-+ '4s , o 5 _7 2ee e
|
||
|
2 u d5 5 au c e i +-+-+-+-+ +-+-+-+-+-+-+-+-+-+ pr 7 4 a
|
||
|
4 5 r r 1i w 4 é w |t|h|e|y| l |i|n|f|l|u|e|n|c|e| 1 f 3 e4 nf 565 v
|
||
|
7t i s94 s 4 1 a 7 / r +-+-+-+-+ , +-+-+-+-+-+-+-+-+-+ ou d 3 _ t m ms ane
|
||
|
a 4 t 9 , e u +-+-+-+-+ +-+-+-+-+ +-+-+-+-+-+ +-+-+-+ u _a c 1 29r 8e 128
|
||
|
6 a 9 5 g 2 t |t|h|e|y| |h|a|v|e| |t|h|e|i|r| |s|a|y| 6 2 a
|
||
|
9 ia e n 4 r 58 +-+-+-+-+ t +-+-+-+-+ +-+-+-+-+-+ +-+-+-+ 5 b f e q
|
||
|
e64re o +-+-+-+-+-+-+-+-+-+-+-+ ni s se r a r l n r
|
||
|
74 r |i|n|f|o|r|m|a|t|i|o|n| r 6 6 i l bdn p w _
|
||
|
7 Na 48 e- +-+-+-+-+-+-+-+-+-+-+-+ | r 8 t 2 | e o e
|
||
|
e a 2 et s3 +-+-+-+-+-+-+-+-+-+-+ o +-+-+-+-+-+-+-+-+-+-+ s o 8 3 8 ,
|
||
|
s s t |e|x|t|r|a|c|t|i|o|n| e2 |r|e|c|o|g|n|i|z|e|s| 8 a 2 4
|
||
|
t m 5c +-+-+-+-+-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+-+-+ t r s t ee
|
||
|
c r 4 7 e 3 +-+-+-+-+ 8 1 e t s r ai
|
||
|
d 8 . 8u n |t|e|x|t| 2 a6 U r v 4 4
|
||
|
i9 o a o 6 +-+-+-+-+ 94 l a r x
|
||
|
l +-+-+-+-+-+-+-+-+-+-+-+-+-+-+ +-+-+-+-+-+-+-+ 2f 6 r mn a
|
||
|
t t c |c|l|a|s|s|i|f|i|c|a|t|i|o|n| d |d|e|t|e|c|t|s| n t /
|
||
|
5 e +-+-+-+-+-+-+-+-+-+-+-+-+-+-+ l +-+-+-+-+-+-+-+ o 6 i o -
|
||
|
8 p n 6 2 4 3 s os + 3 3, e 4o 5
|
||
|
6 8 l f 2 e 28S l
|
||
|
t 1 5 wo 9 9 s e
|
||
|
6 + p - D c
|
||
|
4 a i 7 u r s 9 7 n + +
|
||
|
r l - % a d n p ln
|
||
|
e 4 i r r
|
||
|
4 o 8 e e e
|
||
|
8 l | s r 8
|
||
|
+ m 3 o M 6 i 7 a
|
||
|
u s + 4 | F p c 5 . 3e i c
|
||
|
a e v rl n d9 9 6 - r
|
||
|
w j e + i 7 u e 3
|
||
|
9 2 a 4 6 é s p
|
||
|
d e t l b 9 4 5
|
||
|
8 r| r a ' o
|
||
|
t n 9 r d n n
|
||
|
8 e s 3 3 7 1e s r
|
||
|
e e r s 5
|
||
|
. e I e e 4
|
||
|
k | e
|
||
|
8 i 3 + M 8 a t 1 O s t v
|
||
|
u 9 I 1 r
|
||
|
5 3 n e o n
|
||
|
4 r 1
|
||
|
e rr t 9 Lf
|
||
|
8 , 6 3
|
||
|
| 3 c 5 +
|
||
|
n 6
|
||
|
b 8
|
||
|
d u 1
|
||
|
7 9 v
|
||
|
m a e
|
||
|
|
||
|
14
|
||
|
V % V V % V V V V V % % % % % % % % % % % % % % % %
|
||
|
V V V V V V V V V V V V V V V V % 0 %% % % % 0 % % 0 % % %
|
||
|
V V V V V V V V % V % % 0 % % %% 00 0 0 % %
|
||
|
% 00 % % ___ _ _ 0 _ _ _ _ 0
|
||
|
% % % % % % / ( ) /_\ | | __ _ ___ | (_) |_| |_ ___
|
||
|
% ORACLES % 0 00 / /|/ //_\\| |/ _` |/ _ \| | | __| __/ _ \ ____ %
|
||
|
% % / /___/ _ \ | (_| | (_) | | | |_| || __/ /___/ %
|
||
|
% \____/\_/ \_/_|\__, |\___/|_|_|\__|\__\___| 0
|
||
|
V V V V V V % V V 0 % |___/ 0 0 %
|
||
|
V V V V V V V V V V V V V V V V %% % _ 00 0 % 0
|
||
|
V V V V V V % V V V 0 _ __ __ _| |_ ___ _ _ _ __ 0 % %
|
||
|
V V V V V % V V V | '__/ _` | __/ _ \ | | | '__| 0
|
||
|
V V V V V V V V V V V V V V V V 0 % | | | (_| | || __/ |_| | | %
|
||
|
V V V V V V V V V |_| \__,_|\__\___|\__,_|_| 0
|
||
|
% 00 0 0 0
|
||
|
L'apprentissage automatique est % %
|
||
|
principalement utilisé pour analy- par Algolit
|
||
|
ser et prédire des situations à
|
||
|
partir de cas existants. Dans cette L'Algolittérateur est construit à l'aide d'un réseau de neurone
|
||
|
exposition, nous nous concentrons et des œuvres mises à disposition par le Mundaneum. L'Algolitté-
|
||
|
sur les modèles d'apprentissage au- rateur vous aide à écrire un texte dans le style du Bureau des
|
||
|
tomatique pour le traitement de Institutions Internationales.
|
||
|
texte ou le traitement du ‘langage %
|
||
|
naturel', ‘nlp’ en bref. Ces mo- Vous pouvez choisir une phrase de départ dans l’œuvre originale
|
||
|
dèles ont appris à effectuer une et indiquer si l'Algolittérateur produit les phrases suivantes %
|
||
|
tâche spécifique sur base de textes basées sur un apprentissage primitif, intermédiaire ou final.
|
||
|
existants. Les modèles sont utili- % La machine propose un paragraphe que vous pouvez éditer. Si vous
|
||
|
sés par les moteurs de recherche, êtes satisfait du résultat, vous pouvez l'envoyer à l’imprimante
|
||
|
les traductions automatiques et les et ramener le texte chez vous comme souvenir.
|
||
|
résumés, en repérant les tendances
|
||
|
des réseaux de nouveaux médias et ---
|
||
|
des fils d’actualité. Ils in-
|
||
|
fluencent ce que l'on voit en tant Concept, code & interface : Gijs de Heij & An Mertens
|
||
|
qu'utilisateur, mais ont aussi leur
|
||
|
mot à dire dans le cours des Technique : Recurrent Neural Network
|
||
|
bourses mondiales ou dans la détec-
|
||
|
tion de la cybercriminalité et du Modèle original : Andrej Karphaty, Justin Johnson %
|
||
|
vandalisme.
|
||
|
Sources : https://gitlab.constantvzw.org/algolit/algoliterator.clone
|
||
|
Deux tâches principales se pré-
|
||
|
sentent dans la compréhension d’une
|
||
|
langue. L'extraction de l'informa-
|
||
|
tion porte sur les concepts et les 00 0 0 0
|
||
|
relations entre les concepts. Elle 0 0
|
||
|
permet de reconnaître les sujets, 00 0 0 _ _ 0
|
||
|
les lieux et les personnes d’un 0 0 /\/\ ___ | |_ ___ __| | __ _ _ __ ___
|
||
|
texte, de faire un résumé, de poser 0 / \ / _ \| __/ __| / _` |/ _` | '_ \/ __|
|
||
|
des questions et d'y répondre. 0 / /\/\ \ (_) | |_\__ \ | (_| | (_| | | | \__ \
|
||
|
L'autre tâche est la classification \/ \/\___/ \__|___/ \__,_|\__,_|_| |_|___/
|
||
|
du texte. Vous pouvez entraîner un _ _ __ 0 0
|
||
|
oracle pour détecter si un mail est 0 | ( )__\__ _ __ __ _ ___ ___ 0
|
||
|
du spam ou non, écrit par un homme | |/_\/ __| '_ \ / _` |/ __/ _ \
|
||
|
ou une femme, plutôt positif ou né- | //__\__ \ |_) | (_| | (_| __/ 00
|
||
|
gatif. 0 |_\__/|___/ .__/ \__,_|\___\___|
|
||
|
0 |_| 0 0 00
|
||
|
Dans cette zone, vous pouvez voir 0 0 0 0
|
||
|
certains de ces modèles à l'œuvre.
|
||
|
Au cours de votre voyage dans l'ex- Par Algolit
|
||
|
position, vous découvrirez les dif-
|
||
|
férentes étapes qu'une machine-hu- 'Word embeddings' désignent des techniques de modélisation du
|
||
|
maine doit franchir pour arriver à langage qui, par de multiples opérations mathématiques, tracent
|
||
|
un modèle final. des mots dans un espace vectoriel multidimensionnel. Lorsque les
|
||
|
mots sont 'embedded' ou intégrés, ils se transforment de symboles
|
||
|
distincts en objets mathématiques, qui peuvent être multipliés,
|
||
|
divisés, ajoutés ou soustraits.
|
||
|
%
|
||
|
En distribuant les mots le long des nombreuses lignes diagonales
|
||
|
de l'espace vectoriel multidimensionnel, leurs nouveaux place-
|
||
|
|
||
|
15
|
||
|
ments géométriques deviennent impossibles à percevoir par les hu-
|
||
|
% % mains. Cependant, ce que l'on gagne, ce sont des façons multiples %
|
||
|
% % % % % %% et simultanées d'organisation des mots. Les opérations algé-
|
||
|
% %% % % % briques rendent les relations entre les vecteurs à nouveau com-
|
||
|
% % % % % préhensibles. % % % % % %%
|
||
|
% % % % %%%% % % % %
|
||
|
% % Cette installation utilise gensim, une boîte à outils open source %
|
||
|
% % % % % pour le language de programmation Python, qui permet de créer des
|
||
|
% % % % % espaces de vecteurs et des modèles thématiques. Elle manipule le
|
||
|
% % texte selon les relations mathématiques qui émergent entre les %
|
||
|
% % % % mots, une fois qu'ils ont été tracés dans l'espace de vecteurs.
|
||
|
% % % % %%
|
||
|
% ---
|
||
|
%
|
||
|
% Concept & interface: Cristina Cochior %
|
||
|
%
|
||
|
% % % Technique: word embeddings, word2vec
|
||
|
% %
|
||
|
Modèle original: Radim Rehurek et Petr Sojka
|
||
|
%
|
||
|
%
|
||
|
0 0
|
||
|
% 0 0 0 0
|
||
|
___ _ 0 % 0 _
|
||
|
/ __\ | __ _ ___ ___ ___ _ __ | | ___ 0
|
||
|
% 0 / / | |/ _` / __/ __|/ _ \ '__| | |/ _ \
|
||
|
% / /___| | (_| \__ \__ \ __/ | | | __/
|
||
|
0 0 \____/|_|\__,_|___/___/\___|_| |_|\___| 0
|
||
|
0 0 _
|
||
|
0 _ __ ___ ___ _ __ __| | ___
|
||
|
0 0 | '_ ` _ \ / _ \| '_ \ / _` |/ _ \
|
||
|
| | | | | | (_) | | | | (_| | __/ 0
|
||
|
|_| |_| |_|\___/|_| |_|\__,_|\___|
|
||
|
0 0 0 %
|
||
|
|
||
|
Par Algolit
|
||
|
%
|
||
|
La construction du Mundaneum a été 'l'œuvre de la vie' du biblio-
|
||
|
thécaire Paul Otlet. Selon son but, ce cerveau mécanique collec-
|
||
|
tif aurait abrité et distribué tout ce qui a été couché sur pa-
|
||
|
% pier. Chaque document aurait été classé selon la Classification
|
||
|
décimale universelle. En utilisant des télégraphes et surtout des
|
||
|
trieurs, le Mundaneum aurait été en mesure de répondre à toutes
|
||
|
les questions posées par n'importe qui.
|
||
|
|
||
|
Avec la collection de publications numérisées que nous avons re-
|
||
|
çue du Mundaneum, nous construisions une machine de prédiction
|
||
|
qui essaie de classer la phrase que vous tapez dans l'une des
|
||
|
principales catégories de la Classification décimale universelle.
|
||
|
Vous êtes également témoin de la façon dont la machine 'pense'.
|
||
|
Pendant l'exposition, ce modèle est régulièrement mis à jour à
|
||
|
l'aide des données nettoyées et annotées, ajoutées par les visiteurs
|
||
|
dans les installations 'Nettoyage pour Poèmes' et 'L'Annotateur'.
|
||
|
|
||
|
Les classes principales de la Classification Décimale Universelle
|
||
|
sont les suivantes:
|
||
|
|
||
|
0 - Généralités (Sciences et connaissance ; organisation. infor-
|
||
|
matique, information, documentation, bibliothéconomie. institu-
|
||
|
tions, publications)
|
||
|
|
||
|
1 - Philosophie et psychologie
|
||
|
|
||
|
2 - Religion, théologie
|
||
|
|
||
|
3 - Sciences sociales (Statistique. Économie. Commerce. Droit.
|
||
|
Gouvernement. Affaires militaires. Assistance sociale.
|
||
|
Assurances. Éducation. Folklore)
|
||
|
|
||
|
16
|
||
|
% % % % %% % 4 - inoccupée %% % % %% % % %
|
||
|
% % % % % % %% % % % % % % %%%
|
||
|
% % % % % % 5 - Sciences pures (Mathématiques, sciences exactes et naturel-
|
||
|
% % % % % % % % % les) % %% % % %% % % %
|
||
|
% %% % % % % % % % % %
|
||
|
%% 6 - Sciences appliquées. Médecine. Technologie %
|
||
|
% % % % % % % % %%% %
|
||
|
% 7 - Arts. Divertissements. Sports % % %
|
||
|
% % % % % % % % % %
|
||
|
% % % % 8 - Langue. Linguistique. Littérature %
|
||
|
% % % % % % %
|
||
|
% 9 - Géographie. Biographie. Histoire %
|
||
|
% %
|
||
|
% --- %
|
||
|
% %
|
||
|
Concept, code, interface: Sarah Garcin, Gijs de Heij, An Mertens
|
||
|
%
|
||
|
|
||
|
00 0 0 % 0 0 %
|
||
|
0 0 % 0 0
|
||
|
% ___ _
|
||
|
/ _ \___ ___ _ __ | | ___
|
||
|
0 / /_)/ _ \/ _ \| '_ \| |/ _ \
|
||
|
/ ___/ __/ (_) | |_) | | __/ 0
|
||
|
% \/ \___|\___/| .__/|_|\___| 0
|
||
|
00 |_|
|
||
|
0 _ _ _ _
|
||
|
0 __| | ___ _ __( ) |_ | |__ __ ___ _____
|
||
|
0 / _` |/ _ \| '_ \/| __| | '_ \ / _` \ \ / / _ \ %
|
||
|
| (_| | (_) | | | || |_ | | | | (_| |\ V / __/
|
||
|
\__,_|\___/|_| |_| \__| |_| |_|\__,_| \_/ \___| 0 %
|
||
|
|
||
|
% 0 _ % 0 _ _ %
|
||
|
0 | |__ _ 0 _| |_| |_ ___ _ __ ___
|
||
|
0 00 | '_ \| | | | __| __/ _ \| '_ \/ __| 0
|
||
|
| |_) | |_| | |_| || (_) | | | \__ \ 0
|
||
|
0 |_.__/ \__,_|\__|\__\___/|_| |_|___/
|
||
|
0
|
||
|
|
||
|
Par Algolit
|
||
|
|
||
|
Depuis les débuts de l'intelligence artificielle (IA), les cher-
|
||
|
cheurs ont spéculé sur la possibilité pour les ordinateurs de
|
||
|
pouvoir penser et communiquer comme des humains. Dans les années
|
||
|
1980, il y a eu une première révolution dans le traitement du
|
||
|
langage naturel (NLP), le sous-domaine de l'intelligence artifi-
|
||
|
% cielle (IA) qui concerne les interactions linguistiques entre les
|
||
|
ordinateurs et les humains. Récemment, des modèles linguistiques
|
||
|
pré-entraînés ont atteint des résultats de pointe sur un large
|
||
|
éventail de tâches de NLP, ce qui intensifie encore les attentes
|
||
|
d'un avenir avec l'IA.
|
||
|
|
||
|
Cette œuvre sonore, composée de fragments sonores de documen-
|
||
|
taires scientifiques et de matériel audiovisuel lié à l'IA datant
|
||
|
de la deuxième moitié du XXe siècle, explore les espoirs, les
|
||
|
craintes et les frustrations provoqués par ces attentes.
|
||
|
%
|
||
|
---
|
||
|
|
||
|
Concept, édition : Javier Lloret
|
||
|
|
||
|
Listes des sources : 'The Machine that Changed the World :
|
||
|
Episode IV -- The Thinking Machine', 'The Imitation Game', 'Maniac',
|
||
|
'Halt & Catch Fire', 'Ghost in the Shell', 'Computer Chess',
|
||
|
'2001: A Space Odyssey', Ennio Morricone, Gijs Gieskes, André Castro.
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
17
|
||
|
RÉCITS CONTEXTUALISÉS
|
||
|
AUTOUR DES ORACLES
|
||
|
|
||
|
|
||
|
|
||
|
Les Oracles sont un type particulier de modèles Sweeney a fondé son enquête sur des recherches
|
||
|
algorithmiques qui servent à prédire ou à profi- portant sur 2184 prénoms racisés sur deux sites
|
||
|
ler. Ils sont largement utilisés dans les smart- Web. 88 % des prénoms, identifiés comme étant don-
|
||
|
phones, les ordinateurs et les tablettes. Les nés à un plus grand nombre de bébés noirs, sont
|
||
|
Oracles peuvent être créés à l'aide de différentes considérés comme prédictifs de la race, contre
|
||
|
techniques. L’une d’entre elles consiste à définir 96 % de blancs. Les prénoms qui sont principale-
|
||
|
manuellement les règles. Ces modèles sont appelés ment donnés à des bébés noirs, comme DeShawn, Dar-
|
||
|
'rule-based models'. Ils sont utiles pour des nell et Jermaine, ont généré des annonces mention-
|
||
|
tâches spécifiques, comme par exemple, la détec- nant une arrestation dans 81 à 86 % des recherches
|
||
|
tion de la mention d'une certaine molécule dans un de noms sur un site, et dans 92 à 95 % des cas sur
|
||
|
article scientifique. Ils sont performants, même l'autre. Les noms qui sont principalement attri-
|
||
|
avec très peu de données d'entraînement. bués aux blancs, comme Geoffrey, Jill et Emma,
|
||
|
n'ont pas donné les mêmes résultats. Le mot 'ar-
|
||
|
Mais il y a aussi les Oracles d'apprentissage au- restation' n'est apparu que dans 23 à 29 % des re-
|
||
|
tomatique ou les Oracles statistiques, qui peuvent cherches de noms blancs sur un site, et 0 à 60 %
|
||
|
être divisés en deux : les Oracles 'supervisés' sur l'autre.
|
||
|
et 'non supervisés'. Pour la création de modèles
|
||
|
d'apprentissage automatique supervisés, les hu- Sur le site affichant le plus de publicité, un nom
|
||
|
mains annotent les données d'entraînement avant d'identification noir était 25 % plus susceptible
|
||
|
de les envoyer à la machine. Chaque texte est jugé d'obtenir une publicité suggérant un dossier d'ar-
|
||
|
par au moins 3 humains: par exemple, s’il s’agit restation. Quelques noms n'ont pas suivi ces modè-
|
||
|
de spam ou non, s’il est positif ou négatif. Les les : Dustin, un nom donné principalement aux bé-
|
||
|
Oracles d'apprentissage automatique non supervisés bés blancs, a généré une publicité suggérant une
|
||
|
n'ont pas besoin de cette étape mais nécessitent arrestation dans 81 et 100 % des cas. Il est im-
|
||
|
de grandes quantités de données. C’est également à portant de garder à l'esprit que l'apparition de
|
||
|
la machine de tracer ses propres motifs ou 'règles l'annonce est liée au nom lui-même et non au fait
|
||
|
grammaticales'. Enfin, les experts font la diffé- qu'il ait un dossier d'arrestation dans la base de
|
||
|
rence entre les Oracles basés sur l'apprentissage données de l'entreprise.
|
||
|
automatique classique et ceux basés sur des ré-
|
||
|
seaux de neurones. Vous en apprendrez plus à ce Référence : https://dataprivacylab.org/
|
||
|
sujet dans la zone Lecteurs. projects/onlineads/1071-1.pdf
|
||
|
|
||
|
Les humains ont tendance à exagérer la performance
|
||
|
des Oracles. Parfois, ces Oracles apparaissent --- Qu'est-ce qu'un bon employé ? ---
|
||
|
quand il y a un disfonctionnement. Dans les commu-
|
||
|
niqués de presse, ces situations souvent drama- Depuis 2015, Amazon compte environ 575 000 tra-
|
||
|
tiques sont appelées des 'leçons'. Malgré la pro- vailleurs, et ils leur en faut plus. Par consé-
|
||
|
messe de leurs performances, beaucoup de problèmes quent, ils ont mis sur pied une équipe de 12 per-
|
||
|
restent à résoudre. Comment s'assurer que les sonnes pour créer un modèle qui trouverait de bons
|
||
|
Oracles soient justes, que chaque être humain candidats en parcourant des sites de demande d'em-
|
||
|
puisse les consulter, qu'ils soient compréhen- ploi. L'outil attribuerait aux candidats une note
|
||
|
sibles par un large public ? Même au-delà, des allant de une à cinq étoiles. Le potentiel a ali-
|
||
|
questions existentielles persistent. Avons-nous menté le mythe : l'équipe voulait un logiciel qui
|
||
|
besoin de tous les types d'intelligences artifi- recracherait les cinq meilleurs sur une liste de
|
||
|
cielles ? Et qui définit ce qui est juste ou injuste ? 100 candidats humains pour les embaucher. !!!
|
||
|
|
||
|
Le groupe a créé 500 modèles algorithmiques, cen-
|
||
|
--- Adsense racial --- trés sur des fonctions et des lieux de travail
|
||
|
spécifiques. Ils ont appris à reconnaître 50 000
|
||
|
Latanya Sweeney, professeur en Gouvernance et termes qui figuraient sur les lettres d’anciens
|
||
|
Technologie à l'Université de Harvard, a documenté candidats. Les algorithmes ont appris à accorder
|
||
|
une 'leçon' classique sur le développement des peu d'importance aux compétences communes aux can-
|
||
|
Oracles. En 2013, Sweeney, d'origine afro-améri- didats en IT, comme la capacité d'écrire du code
|
||
|
caine, a googlé son nom. Elle a immédiatement reçu informatique, mais ils ont aussi reproduit les er-
|
||
|
une publicité pour un service qui lui offrait 'de reurs de leurs créateurs. Juste avant d'approuver
|
||
|
voir le casier judiciaire de Latanya Sweeney'. un modèle, l’entreprise s’est rendue compte que
|
||
|
Sweeney, qui n'a pas de casier judiciaire, a dès les modèles ont décidé que les candidats masculins
|
||
|
lors entamé une étude. Elle a commencé à comparer étaient préférables. Ils pénalisaient les candida-
|
||
|
la publicité que Google AdSense offrait à diffé- tures qui comprenaient le mot ‘femmes’ ou ‘féminin’,
|
||
|
rents noms racisés identifiables. Elle a découvert comme dans 'capitaine de club d'échecs féminin'.
|
||
|
qu'elle recevait plus d’annonces de ce type en re-
|
||
|
cherchant des noms ethniques non-blancs qu'avec Et ils ont rétrogradé les diplômées de deux
|
||
|
des noms traditionnellement perçus comme blancs. universités réservées aux femmes.
|
||
|
|
||
|
18
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
Ceci est dû à l'utilisation pour leur entraînement sein de la communauté du machine learning. Ces mo-
|
||
|
des demandes d'emploi reçues par Amazon sur une dèles fallacieux ou biaisés sont synonymes d’une
|
||
|
période de 10 ans. Durant cette période, l'entre- discrimination automatisée. La question se pose:
|
||
|
prise avait surtout embauché des hommes. Au lieu est-il vraiment possible d'éliminer complètement
|
||
|
de fournir la prise de décision 'équitable' que les préjugés de ces modèles ?
|
||
|
l'équipe d'Amazon avait promise, les modèles re-
|
||
|
flétaient une tendance biaisée dans l'industrie Certains affirment que oui, d'autres sont en
|
||
|
technologique. Mais ils l'ont aussi amplifiée et désaccord. Avant de soumettre le modèle à une in-
|
||
|
rendu invisible. Les activistes et les critiques génierie inversée, nous devrions nous demander si
|
||
|
affirment qu'il pourrait être extrêmement diffi- nous en avons besoin tout court. Ces chercheurs
|
||
|
cile de poursuivre un employeur en cas d’embauche ont suivi une troisième voie. En reconnaissant la
|
||
|
automatisée : les candidats à un emploi pourraient discrimination qui trouve son origine dans le lan-
|
||
|
ne jamais savoir que des logiciels intelligents gage, ces modèles deviennent pour eux des outils
|
||
|
ont été utilisés dans ce processus. de sensibilisation, en visualisant le problème.
|
||
|
|
||
|
Référence : https://www.reuters.com/article/us- L'équipe de la Standford University a développé un
|
||
|
amazon-com-jobs-automation-insight/amazonscraps- modèle d'analyse des ‘word embeddings’ entraîné
|
||
|
secret-ai-recruiting-tool-that-showed-bias- sur 100 ans de textes. Pour l'analyse contemporai-
|
||
|
against-women-idUSKCN1MK08G ne, ils ont utilisé les Google News word2vec Vec-
|
||
|
tors, un paquet prêt à l’emploi, téléchargeable,
|
||
|
entraîné sur le Google News Dataset. Pour l'ana-
|
||
|
--- Quantification de 100 ans lyse historique, ils ont utilisé des 'word embed-
|
||
|
de stéréotypes sexuels et ethniques --- dings' qui ont été entraînés sur Google Books et
|
||
|
The Corpus of Historical American English
|
||
|
Dan Jurafsky est le co-auteur de 'Speech and Lan- (COHA https://corpus.byu.edu/coha/) avec plus de
|
||
|
guage Processing', un des ouvrages les plus in- 400 millions de mots de textes des années 1810 à
|
||
|
fluents pour l'étude du traitement du langage na- 2000. Afin de valider le modèle, ils ont entraîné
|
||
|
turel. Avec quelques collègues de l'Université de des ‘word embeddings’ du New York Times Annotated
|
||
|
Stanford, il a découvert en 2017 que les ‘word em- Corpus pour chaque année entre 1988 et 2005.
|
||
|
beddings’ peuvent être un outil puissant pour
|
||
|
quantifier systématiquement les stéréotypes com- Leur recherche montre que les ‘word embeddings’
|
||
|
muns ainsi que d'autres tendances historiques. reflètent l'évolution des stéréotypes sexistes et
|
||
|
ethniques au fil du temps. Ils quantifient comment
|
||
|
Les ‘word embeddings’ sont une technique qui tra- des préjugés spécifiques diminuent avec le temps
|
||
|
duit les mots en vecteurs numérotés dans un espace tandis que d'autres stéréotypes augmentent. Les
|
||
|
multidimensionnel. Les vecteurs qui apparaissent principales transitions révèlent des changements
|
||
|
proches l’un de l’autre, indiquent une significa- dans les descriptions de genre et de groupes eth-
|
||
|
tion similaire. Ainsi, tous les numéros seront re- niques lors du mouvement des femmes dans les an-
|
||
|
groupés, toutes les prépositions, les prénoms et nées 1960-70 et la croissance de la population
|
||
|
les professions, etc. Cela permet de faire des asio-américaine dans les années 1960 et 1980.
|
||
|
calculs avec les mots. Vous pourriez, par exemple,
|
||
|
soustraire Londres de Royaume-Unis et votre résul- Quelques exemples :
|
||
|
tat serait le même que de soustraire Paris de France.
|
||
|
Les dix professions les plus étroitement associées
|
||
|
Un exemple de leur recherche montre que le vecteur aux groupes ethniques dans le jeu de données de
|
||
|
de l'adjectif 'honorable' est plus proche du vec- Google News :
|
||
|
teur 'homme', alors que le vecteur 'soumis' est
|
||
|
plus proche de 'femme'. Ces stéréotypes sont alors - Hispanique : femme de ménage, maçon, artiste,
|
||
|
automatiquement appris par l'algorithme. Il concierge, danseur, mécanicien, photographe, bou-
|
||
|
s’avère problématique lorsque les 'embeddings' langer, caissier, chauffeur.
|
||
|
pré-entraînés sont utilisés pour des applications
|
||
|
sensibles comme les classements de recherche, les - Asiatique : professeur, fonctionnaire, secrétai-
|
||
|
recommandations de produits ou les traductions. Ce re, chef d'orchestre, physicien, scientifique,
|
||
|
risque est réel, car un grand nombre de ‘word em- chimiste, tailleur, comptable, ingénieur.
|
||
|
beddings’ pré-entraînés sont téléchargeables sous
|
||
|
forme de paquets prêts à l'emploi. - Blanc : forgeron, ferronnier, géomètre, shérif,
|
||
|
tisserand, administrateur, maçon, statisticien,
|
||
|
On sait que la langue reflète et maintient en vie ecclésiaste, photographe.
|
||
|
les stéréotypes culturels. L'utilisation des 'word
|
||
|
embeddings' pour repérer ces stéréotypes est moins Les 3 professions les plus masculines dans les
|
||
|
cher et prends moins de temps que les méthodes ma- années 1930 : ingénieur, avocat, architecte.
|
||
|
nuelles. Mais leur mise en oeuvre dans des modèles
|
||
|
de prédiction suscite beaucoup de discussions au Les 3 professions les plus féminines dans les
|
||
|
|
||
|
19
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
années 1930 : infirmière, femme de ménage, transparence. Il existe un livre sur la façon dont
|
||
|
aide-soignante. les préjugés dans les modèles d'IA peuvent briser
|
||
|
la vie des gens, intitulé 'Weapons of Math Destruction'.
|
||
|
Peu de choses ont changé dans les années 1990. On y parle de modèles d'IA aux États-Unis qui classent
|
||
|
les enseignants. C’est assez horrible parce qu'il y
|
||
|
Principales professions masculines : aura forcément des préjugés. D’après leur recherche,
|
||
|
architecte, mathématicien et géomètre. la façon d’aborder la question serait d'abord d’avoir
|
||
|
Les professions féminines restent les mêmes : un modèle open source, où l’on peut consulter le
|
||
|
infirmière, femme de ménage et sage-femme. code et voir quelles fonctionnalités sont utilisées
|
||
|
avec desd onnées ouvertes, afin que les gens
|
||
|
Mais qu'est-ce qui s'est passé dans cette puissent enquêter, trouver des préjugés, donner
|
||
|
recherche avec les afro-américains? leur feedback et faire un rapport. Il devrait y
|
||
|
avoir un moyen de réparer le système. Je ne pense pas
|
||
|
Référence : https://arxiv.org/abs/1711.08412 que toutes les entreprises vont dans cette direction,
|
||
|
mais Wikipédia, en raison des valeurs qu'elle défend,
|
||
|
est au moins plus transparente et pousse d'autres
|
||
|
--- Le Service ORES de Wikimedia --- personnes à faire de même.
|
||
|
|
||
|
L'ingénieur de logiciels Amir Sarabadani a présen- Référence : https://gitlab.constantvzw.org/algolit/
|
||
|
té le projet ORES à Bruxelles en novembre 2017 algolit/blob/master/algoliterary_encounter/
|
||
|
lors de notre Rencontre Algolittéraire. Cet 'Ob- Interview%20with%20Amir/AS.aac
|
||
|
jective Revision Evaluation Service' utilise l'ap-
|
||
|
prentissage automatique pour automatiser le tra-
|
||
|
vail critique sur Wikimedia, comme la détection du --- Tay ---
|
||
|
vandalisme et la suppression d'articles. Cristina
|
||
|
Cochior et Femke Snelting l'ont interviewé. Une histoire tristement célèbre est celle du pro-
|
||
|
gramme d'apprentissage automatique Tay, conçu par
|
||
|
Femke : Revenons à votre travail. Ces temps-ci, Microsoft. Tay était un chatbot qui imitait une
|
||
|
vous essayez de comprendre ce que signifie trouver adolescente sur Twitter. Elle a vécu moins de 24
|
||
|
des préjugés discriminatoires dans l'apprentissage heures avant d'être éteinte. Peu de gens savent
|
||
|
automatique. La proposition de Nicolas Malevé, qui qu'avant cet incident, Microsoft avait déjà en-
|
||
|
a donné l'atelier hier, était de ne pas essayer de traîné et publié XiaoIce sur WeChat, l'application
|
||
|
le réparer, ni de refuser d'interagir avec des de chat la plus utilisée en Chine. Le succès de
|
||
|
systèmes qui produisent de la discrimination, mais XiaoIce a été si prometteur qu'il a conduit au dé-
|
||
|
de travailler avec eux. Il considère que les pré- veloppement de son homologue américain. Cependant,
|
||
|
jugés sont inhérents à la connaissance humaine et les développeurs de Tay n'étaient pas préparés
|
||
|
que nous devons donc trouver des moyens de les pour le climat de la plateforme Twitter. Bien que
|
||
|
utiliser d'une façon ou d'une autre. Nous avons le bot savait distinguer un nom d'un adjectif, il
|
||
|
discuté un peu de ce que cela signifierait, com- n'avait aucune compréhension de la signification
|
||
|
ment cela fonctionnerait... Je me demandais donc réelle des mots. Le robot a rapidement commencé à
|
||
|
si vous aviez des idées sur cette question de par- reproduire les insultes raciales et d'autres lan-
|
||
|
tialité. gages discriminatoires qu'il a appris par les
|
||
|
autres utilisateurs de Twitter et les attaques de
|
||
|
Amir : La partialité à l'intérieur de Wikipédia trolls.
|
||
|
est une question délicate parce qu'elle se produit
|
||
|
à plusieurs niveaux. Un niveau très discuté est le L'apparition et la mort de Tay représentent une
|
||
|
système des références. Toutes les références ne prise de conscience importante. Elle a montré les
|
||
|
sont pas accessibles. Ce que la fondation Wikime- conséquences possibles de la corruption de l'ap-
|
||
|
dia a essayé de faire, c'est de donner un accès prentissage automatique, lorsque le contexte
|
||
|
gratuit aux bibliothèques payantes. Ils réduisent culturel dans lequel l'algorithme doit vivre
|
||
|
l'exclusion en n'utilisant que des références en n'est pas pris en compte.
|
||
|
libre accès. Un autre type de discrimination est
|
||
|
la connexion Internet, l'accès à Internet. Il y a Référence : https://chatbotslife.com/the-
|
||
|
beaucoup de gens qui ne l'ont pas. Une chose à accountability-of-ai-case-study-microsofts
|
||
|
propos de la Chine, c'est qu'Internet y est blo- -tay-experiment-ad577015181f
|
||
|
qué. Le contenu opposé au gouvernement de la Chine
|
||
|
au sein du Wikipédia chinois est plus élevé parce
|
||
|
que les éditeurs [qui peuvent accéder au site Web]
|
||
|
ne sont pas pro-gouvernement et essaient de le
|
||
|
rendre plus neutre. On le remarque donc à beaucoup
|
||
|
d'endroits. En ce qui concerne l'intelligence ar-
|
||
|
tificielle (IA) et le modèle que nous utilisons
|
||
|
chez Wikipedia, c'est plutôt une question de
|
||
|
|
||
|
20
|
||
|
cleaners clean cleaners clean cleaners clean cleaners clean cleaners clean cleaners clean
|
||
|
cleaners clean cleaners clean cleaners clean cleaners clean cleaners clean
|
||
|
cleaners clean cleaners clean cleaners clean cleaners clean
|
||
|
cleaners clean cleaners clean cleaners clean
|
||
|
cleaners clean cleaners clean cleaners clean cle
|
||
|
ners clean cleaners clean cleaners clean
|
||
|
cleaners clean cleaners clean cleaners clean
|
||
|
cleaners clean cleaners clean cleaners
|
||
|
lean cleaners clean cleaners clean
|
||
|
cleaners clean cleaners clean
|
||
|
cleaners clean cleaners clean cle
|
||
|
ners clean cleaners clean cleaners
|
||
|
clean cleaners clean cleaners
|
||
|
lean cleaners clean cleane
|
||
|
s clean cleaners clean
|
||
|
cleaners clean cleaners clean
|
||
|
cleaners clean cleaners clean
|
||
|
cleaners clean cleaners clean
|
||
|
cleaners clean
|
||
|
cleaners clean cleaners clean
|
||
|
cleaners clean cleaners clean
|
||
|
cleaners clean
|
||
|
cleaners clean cleaners clean
|
||
|
cleaners clean
|
||
|
cleaners clean cleaners clean
|
||
|
cleaners clean
|
||
|
cleaners clean cleaners
|
||
|
clean cleaners clean
|
||
|
cleaners clean
|
||
|
cleaners clean cleaners clean
|
||
|
cleaners clean
|
||
|
cleaners clean
|
||
|
cleaners clean cleaners
|
||
|
clean cleaners clean
|
||
|
cleaners clean
|
||
|
cleaners clean
|
||
|
cleaners clean cle
|
||
|
ners clean cleaners clean
|
||
|
cleaners clean
|
||
|
cleaners clean
|
||
|
cleaners clean
|
||
|
cleaners clean
|
||
|
cleaners clean
|
||
|
cleaners clean cleaners
|
||
|
lean cleaners clean
|
||
|
cleaners clean
|
||
|
cleaners clean
|
||
|
cleaners clean
|
||
|
cleaners clean
|
||
|
cleaners clean
|
||
|
cleaners clean
|
||
|
cleaners clean
|
||
|
cleaners clean
|
||
|
cleaners clean
|
||
|
cleaners clean
|
||
|
cleaners clean
|
||
|
cleaners clean
|
||
|
cleaners clean
|
||
|
cleaners clean
|
||
|
cleaners clean
|
||
|
cleaners clean
|
||
|
cleaners clean
|
||
|
cleaners clean
|
||
|
cleaners clean
|
||
|
cleaners clean
|
||
|
cleaners clean
|
||
|
cleaners clean
|
||
|
cleaners clean
|
||
|
cleaners clean
|
||
|
21
|
||
|
, i c i r e _1i 3 %3 +-+-+-+-+-+-+-+-+ 5 +-+-+-+-+-+ ’9 2 n 9s ea-si1it e5 2- l4snn -c 8 c
|
||
|
ro3 s 3ro7 l l à sl D |c|l|e|a|n|e|r|s| |c|l|e|a|n| l 8 d768 88oe o +a 6 lail 71ea
|
||
|
aa 3 i V0tnt + u| +-+-+-+-+-+-+-+-+ 8 +-+-+-+-+-+ opti9 o 7 uu5ouc 7 1 8 r _'8 nd
|
||
|
a1 ft 8 ts a 7 tt n3ie i 6b ed + r d 3a r u 9 rr2és0 p 23wV c 6st 2cà% i _ 7 a g |\
|
||
|
a u3+ g+it | n é 1sr6 ot r 1rn6 t a o e - a' +/, t 9 i hl55ls4 t4 e r 2 t - a l t9
|
||
|
6el 4 4c n 79 xp -an_w2m+o r din o, +-+-+ n +-+-+-+-+-+-+ ||6e g qes 6 2 s i m God76 e
|
||
|
oaed è h+ 4epe % p p ag lc w t 3 r |w|e| t s |h|e|l|p|e|d| _ 7r srt ed n % 9 9 eo19c ic ,
|
||
|
l3 4 u a pv i 9 u s- c g e7 +-+-+ r 6 +-+-+-+-+-+-+ r 7 or4 -s p 6e nl t x64 8)e t
|
||
|
+ 39 , - ru é% o r c a +-+-+ c r +-+-+-+-+-+-+-+ + - 4 w t 2r |slln 7ad+ 95 D
|
||
|
pi t ' i e n,pu ai5h u i l t |w|e| u |c|l|e|a|n|e|d| a +4 d r cL ,4 s 9 5
|
||
|
éil o _i |i r n | i3ei e 1 +-+-+ \ y +-+-+-+-+-+-+-+ d ii 4 b s 7 a e | re 0
|
||
|
t s u g98 4e 3, if uk +-+-+-+-+-+ +-+-+-+-+ +-+-+ +-+-+-+-+-+-+ r a s9 a 3| P 1 s9r
|
||
|
\e1 é i s is c |h|u|m|a|n| |w|o|r|k| - |i|s| |n|e|e|d|e|d| , r. ta pt 3 d0
|
||
|
r b d , an 9|an po d m +-+-+-+-+-+ +-+-+-+-+ at +-+-+ +-+-+-+-+-+-+ n -5 -+ o9 s Ds 1
|
||
|
i | d e471 +-+-+-+-+-+-+-+-+-+-+-+ 5 qel g8 2sM 4 4 | 8 - h jt5 8a 1 e
|
||
|
tr _ l ‘| du w e5a |p|o|o|r|l|y|-|p|a|i|d| o l g ste a h2 s ai f 4 1 M 7
|
||
|
v 3a o6 s l5 +-+-+-+-+-+-+-+-+-+-+-+ s t 4 |s u / 1e t t Ae c re 90t46 r 8 eu
|
||
|
-ve r r-elr e +-+-+-+-+-+-+-+-+-+-+-+ | +-+-+-+-+-+ +-+-+-+ 5 r 8 4 d ,lcp s s
|
||
|
o i l 2r |f|r|e|e|l|a|n|c|e|r|s| u |c|a|r|r|y| |o|u|t| S m n 1: e8l o D
|
||
|
s |i t9 sm _ +-+-+-+-+-+-+-+-+-+-+-+ 5 +-+-+-+-+-+ +-+-+-+ 1 s 4 à 5 t d e
|
||
|
we lr a à +-+-+-+-+-+-+-+-+-+-+ s +-+-+ +-+-+-+-+-+-+-+-+-+ +-+-+-+-+ h 4 5i
|
||
|
r r' dqe ean |v|o|l|u|n|t|e|e|r|s| L |d|o| |f|a|n|t|a|s|t|i|c| |w|o|r|k| u id t l
|
||
|
i o- - s 9e 7 +-+-+-+-+-+-+-+-+-+-+ +-+-+ +-+-+-+-+-+-+-+-+-+ +-+-+-+-+ + u -
|
||
|
5 -i 9 4 t +-+-+-+-+-+-+-+ +-+-+-+-+-+-+ +-+-+ +-+-+-+-+ e 9 4 4 i t
|
||
|
t l 7 r ré 2 |w|h|o|e|v|e|r| 1 |c|l|e|a|n|s| |u|p| |t|e|x|t| o n 6r a
|
||
|
sn l d n 1i esw +-+-+-+-+-+-+-+ +-+-+-+-+-+-+ +-+-+ +-+-+-+-+ 3 9 r p t n
|
||
|
ae i2 8 é _d 7 7 ê rs a c t e e 9r r6 i a
|
||
|
d il a t e n eê _ s e4t o L 6 ré s
|
||
|
i p nt 3c s é 8 2 e ot e a q l p cu e y
|
||
|
i 2 e a t c6 2 l m m u a
|
||
|
ot0e 6 h 6 r | 2 3 s + o o | i
|
||
|
t 8 u - , i 4 u 4 e \ n c 3l 3
|
||
|
r c t e7 n s 6 q a . u e a 4
|
||
|
i 4s le i e 3 g a é u 8 9 - t c n 9 | - o , p
|
||
|
5 s r c d 3 t r s d i e t 8 o
|
||
|
1 . n p 5 l 2 b c8 r ét 3 c
|
||
|
a 4 8 w r s % c 3 e 9
|
||
|
5 s l 4 u 3 - w1 e s 3 s t c +
|
||
|
. s nm 5 o 4 8
|
||
|
, h 2 s e a a g r tm 8 s g n
|
||
|
s c 3 oc e 1 a 2 u e t 2 cd
|
||
|
r 1 5 c lai % p4 e u 2
|
||
|
e a 9 a m s el9 uu
|
||
|
9 % / 6 34 u l 6 ô
|
||
|
7 s 4 e . e 9 a e
|
||
|
e h o n g 2 e ,
|
||
|
ip e 4 p e e o y o
|
||
|
u 5 5 oa t5 i 5 e t 2
|
||
|
c c u f l n . e t
|
||
|
+ i a u n e 5 é u s 2
|
||
|
w 6 a - p a
|
||
|
6 n l :| o l a - w
|
||
|
8 + è i cl w i e / 2
|
||
|
/ 1 c j
|
||
|
à u \ o s s D d 9
|
||
|
m p 7
|
||
|
+ 1 g 3 7s
|
||
|
t ' t d r 2
|
||
|
| p s 1 l e c 3
|
||
|
c q n
|
||
|
2 r V e
|
||
|
a a
|
||
|
4 4 s e o é +m y l D
|
||
|
sg a s - q e g s E
|
||
|
d a9 . g 6
|
||
|
6 i + s r'
|
||
|
u r k e a s- V d
|
||
|
ea 3 d e - r r g s a | 8 .
|
||
|
|
||
|
22
|
||
|
V V V % V % V V V V % % % % % % % % % % % % %
|
||
|
V V V V V V V V V V V V V V V V % %% % % % 0
|
||
|
V V % V V % V V V V % V % 0 % % % 0 % % 0 % 0 0 % %
|
||
|
% % % % % % __ % _ _ % % % 0 % %
|
||
|
% % % % % /\ \ \___| |_| |_ ___ _ _ __ _ __ _ ___
|
||
|
NETTOYEURS / \/ / _ \ __| __/ _ \| | | |/ _` |/ _` |/ _ \ %% % %
|
||
|
% % / /\ / __/ |_| || (_) | |_| | (_| | (_| | __/ 0
|
||
|
% % % %% % \_\ \/ \___|\__|\__\___/ \__, |\__,_|\__, |\___|
|
||
|
V V V % V V V V V % 0 0 |___/ 0 0 |___/ % % %
|
||
|
V V V % V V V V V
|
||
|
V V V V V V V V V V V V V V V V % 00 _ __ ___ _ _ _ __ _ _ _ __ % %
|
||
|
V V V V V V V V V 0 | '_ \ / _ \| | | | '__| | | | | '_ \
|
||
|
V V V V V V V V | |_) | (_) | |_| | | 0 | |_| | | | | % % %
|
||
|
V V V V V V V V V V V V V V V V | .__/ \___/ \__,_|_| \__,_|_| |_| %
|
||
|
V V V V V V V V V 0 0 |_| 0 %
|
||
|
% % 0 0 0 ___ 0 __ % %
|
||
|
Algolit choisit de travailler avec 0 / _ \___ \_\_ _ __ ___ ___ 0
|
||
|
des textes libres de droits. Cela 0 0 / /_)/ _ \ / _ \ '_ ` _ \ / _ \ %
|
||
|
signifie qu'ils sont publiés sous % 0 / ___/ (_) | __/ | | | | | __/ 00
|
||
|
une licence Creative Commons 4.0 - \/ 0 \___/ \___|_| |_| |_|\___|
|
||
|
ce qui est rare -, ou qu'ils sont 0 0
|
||
|
dans le domaine public parce que
|
||
|
l'auteur est mort il y a plus de 70 par Algolit % %
|
||
|
ans. C'est le cas des publications % %
|
||
|
du Mundaneum. Nous avons reçu 203 % Pour cette exposition, nous travaillons avec 3% des archives du
|
||
|
documents pour constituer des jeux Mundaneum. Ces documents ont d'abord été numérisés ou photogra-
|
||
|
de données qui sont maintenant dis- phiés. Pour rendre les documents consultables, ils sont transfor-
|
||
|
ponibles en ligne. L'inconvénient % més en texte à l'aide du logiciel de reconnaissance optique de
|
||
|
de ce choix est que nous sommes % caractères (OCR) basés sur des modèles algorithmiques entraînés à
|
||
|
souvent confrontés à de mauvais % base d'autres textes. Ils ont appris à identifier des caractères,
|
||
|
formats de texte. Cela signifie que des mots, des phrases et des paragraphes.
|
||
|
nous sommes souvent obligés de net-
|
||
|
toyer des documents. Nous ne sommes Le logiciel fait souvent des 'erreurs'. Il peut être perturbé par
|
||
|
pas seuls dans cette situation. un caractère erroné, une typographie inhabituelle ou la transpa-
|
||
|
rence de la page laissant apparaître le verso. Bien que ces er-
|
||
|
Les livres sont numérisés en haute reurs soient souvent considérées comme du bruit, elles peuvent
|
||
|
résolution, page par page. C'est un aussi être considérées comme des interprétations poétiques de
|
||
|
travail humain intensif et c'est l’algorithme. Elles nous montrent les limites de la machine. Et
|
||
|
souvent la raison pour laquelle les % elles révèlent également comment l’algorithme fonctionne, quelle
|
||
|
archives et les bibliothèques % % matière l’a alimenté lors de son entraînement et ce qu’ils ré-
|
||
|
transfèrent leurs collections à une vèlent des normes de ses fabricants. Dans cette installation,
|
||
|
société comme Google. Les photos vous pouvez choisir comment vous traitez les erreurs de lecture %
|
||
|
sont converties en texte via OCR de l'algorithme. Sélectionnez un degré de nettoyage poétique, im-
|
||
|
(Reconnaissance Optique de Caractè- primez votre poème et emportez-le chez vous.
|
||
|
res), des Data Workers qui recon- %
|
||
|
naissent les lettres. Dans l'exécu- --- %
|
||
|
tion de cette tâche, les algo- %
|
||
|
rithmes font des erreurs, en parti- Concept, code, interface: Gijs de Heij
|
||
|
culier lorsqu'ils doivent traiter
|
||
|
des polices anciennes et des pages
|
||
|
froissées. Ici aussi un travail hu-
|
||
|
main intensif est nécessaire pour
|
||
|
améliorer les textes. Cela est fait
|
||
|
par des freelances via des plate-
|
||
|
formes de micro-paiement comme Me-
|
||
|
chanical Turk ; ou par des volon-
|
||
|
taires, comme la communauté du Dis-
|
||
|
tributed Proofreaders Project, qui
|
||
|
fournit un travail incroyable. Quoi
|
||
|
qu’il en soit, le nettoyage des
|
||
|
textes est un travail énorme pour
|
||
|
lequel il n'y a pas encore d'auto-
|
||
|
matisation structurelle.
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
23
|
||
|
0 0 0 0
|
||
|
0 0 0
|
||
|
0 0 __ 0 _ 0 _
|
||
|
0 / / ___ _ __ _ __ ___ (_) ___| |_
|
||
|
/ / / _ \ | '_ \| '__/ _ \| |/ _ \ __|
|
||
|
/ /__| __/ | |_) | | | (_) | | __/ |_
|
||
|
\____/\___| | .__/|_| \___// |\___|\__| 0
|
||
|
0 |_| |__/
|
||
|
00 ___ _ 0 _ _ _ _ 0 _
|
||
|
/ (_)___| |_ _ __(_) |__ _ _| |_ ___ __| |
|
||
|
/ /\ / / __| __| '__| | '_ \| | | | __/ _ \/ _` |
|
||
|
/ /_//| \__ \ |_| | | | |_) | |_| | || __/ (_| |
|
||
|
/___,' |_|___/\__|_| |_|_.__/ \__,_|\__\___|\__,_|
|
||
|
|
||
|
0 ___ 0 __ _
|
||
|
0 / _ \_ __ ___ ___ / _|_ __ ___ __ _ __| | ___ _ __ ___
|
||
|
/ /_)/ '__/ _ \ / _ \| |_| '__/ _ \/ _` |/ _` |/ _ \ '__/ __|
|
||
|
/ ___/| | | (_) | (_) | _| | | __/ (_| | (_| | __/ | \__ \
|
||
|
% \/ |_| \___/ \___/|_| |_| \___|\__,_|\__,_|\___|_| |___/
|
||
|
|
||
|
0
|
||
|
%%% % % % %% % % %% 0 % % 0 % 0 % 00 % %
|
||
|
% % %%% % % %% % % %% 00 % 0 0 00 % 0 % %%
|
||
|
%%% % % % % % 0 0 % % 0 % 0 0 %
|
||
|
% % % %% % % % % % 0 0 % %
|
||
|
% %% % % % % %
|
||
|
%% % % par Algolit % % % % %
|
||
|
% % % % %
|
||
|
% % Distributed Proofreaders est une interface Web et une communauté
|
||
|
% internationale de bénévoles qui aident à convertir des livres du
|
||
|
% % % domaine public en livres électroniques. Pour cette exposition,
|
||
|
% ils ont relu des publications de Mundaneum parues avant 1923, qui
|
||
|
% % sont donc dans le domaine public aux États-Unis.
|
||
|
% % %
|
||
|
% Leur collaboration a été un grand soulagement pour les membres
|
||
|
% % % % d'Algolit. Moins de documents à nettoyer ! Tous les livres corri-
|
||
|
% gés sont disponibles dans les archives du Projet Gutenberg. An
|
||
|
Mertens a interviewé Linda Hamilton, directrice générale de Dis-
|
||
|
% tributed Proofreaders. %
|
||
|
% % %
|
||
|
--- %
|
||
|
|
||
|
Interview : An Mertens, Algolit et Linda Hamilton, Distributed
|
||
|
Proofreaders %
|
||
|
%
|
||
|
Montage : Michael Murtaugh, Constant
|
||
|
%
|
||
|
%
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
24
|
||
|
RÉCITS CONTEXTUALISÉS
|
||
|
AUTOUR DES NETTOYEURS
|
||
|
|
||
|
|
||
|
|
||
|
--- Projet Gutenberg et IDÉES
|
||
|
Distributed Proofreaders ---
|
||
|
|
||
|
Le projet Gutenberg est notre grotte d'Ali Baba. A. L'instinct de Mort et l'instinct de Vie :
|
||
|
Il offre plus de 58 000 livres électroniques gra-
|
||
|
tuits à télécharger ou à lire en ligne. Les œuvres L'Instinct de Mort : séparation ; catégorisation ;
|
||
|
sont acceptées sur Gutenberg lorsque leur droit avant-garde par excellence ; suivre le chemin pré-
|
||
|
d'auteur américain a expiré. Des milliers de béné- dit vers la mort - exécuter son propre code ;
|
||
|
voles numérisent et relisent des livres pour aider changement dynamique.
|
||
|
le projet. Une partie essentielle du travail est
|
||
|
réalisée dans le cadre du projet Distributed Proo- L'Instinct de Vie : l'unification ; le retour
|
||
|
freaders. Il s'agit d'une interface Web pour aider éternel ; la perpétuation et l'ENTRETIEN de la ma-
|
||
|
à convertir les livres du domaine public en livres tière ; les systèmes et opérations de survie ;
|
||
|
électroniques. Pensez aux fichiers texte, aux e- l'équilibre.
|
||
|
pubs, aux formats Kindle. En divisant la charge de
|
||
|
travail en pages individuelles, de nombreux béné-
|
||
|
voles peuvent travailler sur un livre en même B. Deux systèmes de base :
|
||
|
temps, ce qui accélère le processus de nettoyage.
|
||
|
Développement et entretien. La boule de cristal de
|
||
|
Pendant la relecture, les bénévoles reçoivent une chaque révolution : après la révolution, qui va
|
||
|
image scannée de la page et une version du texte, essayer de repérer le taux de discrimination dans
|
||
|
lue par un algorithme de reconnaissance optique la production ?
|
||
|
des caractères (OCR) entraîné pour reconnaître les
|
||
|
lettres dans les scans. Cela permet de comparer Développement : pure création individuelle ; le
|
||
|
facilement le texte à l'image, de le relire, de le nouveau ; le changement ; le progrès ; l'avancée ;
|
||
|
corriger et de le renvoyer sur le site. Un l'excitation ; la fuite ou s'enfuir.
|
||
|
deuxième bénévole se voit ensuite présenter le
|
||
|
travail du premier. Il vérifie et corrige le tra- Entretien : garder la poussière de la création in-
|
||
|
vail si nécessaire, et le soumet au site. Le livre dividuelle pure ; préserver le nouveau ; soutenir
|
||
|
passe ensuite par un troisième cycle de relecture le changement ; protéger le progrès ; défendre et
|
||
|
et deux autres cycles de mise en page à l'aide de prolonger l'avancée ; renouveler l'excitation ;
|
||
|
la même interface Web. Une fois que toutes les répéter le vol ; montrez votre travail/remontrez-
|
||
|
pages ont terminé ces étapes, un post-processeur le ; gardez le dépôt git mis à jour ; gardez
|
||
|
les assemble soigneusement dans un e-book et les l'analyse des données révélatrice.
|
||
|
soumet à l'archive du Projet Gutenberg.
|
||
|
Les systèmes de développement sont des systèmes de
|
||
|
Nous avons collaboré avec le Distributed Proofrea- rétroaction partielle avec une grande marge de
|
||
|
ders Project pour nettoyer les fichiers numérisés changement.
|
||
|
que nous avons reçus de la collection du Munda-
|
||
|
neum. De novembre 2018 jusqu'à la première mise en Les systèmes d'entretien sont des systèmes à ré-
|
||
|
ligne du livre 'L'Afrique aux Noirs' en février troaction directe avec peu de possibilités de mo-
|
||
|
2019, An Mertens a échangé environ 50 courriels dification.
|
||
|
avec Linda Hamilton, Sharon Joiner et Susan Han-
|
||
|
lon, toutes bénévoles du Distributed Proofreaders
|
||
|
Project. La conversation complète est publiée en- C. L'entretien est une corvée,
|
||
|
ligne. Cela pourrait vous inspirer à partager ça prend tout le temps.
|
||
|
des livres non disponibles en ligne.
|
||
|
L'esprit est éblouissant et s'irrite devant l'ennui.
|
||
|
|
||
|
--- Une version algolittéraire La culture attribue un statut médiocre aux emplois
|
||
|
du Manifeste sur l’entretien --- d'entretien = salaire minimum, les Mechanical
|
||
|
Turks d'Amazon = pratiquement aucun salaire.
|
||
|
En 1969, un an après la naissance de son premier
|
||
|
enfant, l'artiste new-yorkaise Mierle Laderman Nettoyer le set, marquer les données d'entraîne-
|
||
|
Ukeles a écrit un 'Manifesto for Maintenance' ment, corriger les fautes de frappe, modifier les
|
||
|
(Manifeste pour l'entretien). paramètres, terminer le rapport, satisfaire le de-
|
||
|
mandeur, télécharger la nouvelle version, joindre
|
||
|
Le Manifeste d'Ukeles appelle à une réévaluation les mots qui ont été mal reconnus par le logiciel
|
||
|
de l'état des travaux d'entretien dans l'espace de Reconnaissance Optique de Caractères, accomplir
|
||
|
privé, domestique et public. Ce qui suit est une ces tâches d'intelligence humaine, essayez de de-
|
||
|
version modifiée de son texte inspirée par le tra- viner la signification du formatage du demandeur,
|
||
|
vail des Nettoyeurs. vous devez accepter le 'hit' avant de pouvoir sou-
|
||
|
mettre les résultats, résumer l'image, ajouter la
|
||
|
|
||
|
25
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
case de délimitation, quelle est la similitude sé- des vidéos sur YouTube montrant aux 'turkers' com-
|
||
|
mantique de ce texte, vérifiez la qualité de la ment écrire un bot qui remplit des réponses pour
|
||
|
traduction, collecter vos micro-paiements, devenir vous.
|
||
|
un Mechanical Turk à succès.
|
||
|
Kristy Milland, une militante de Mechanical Turk,
|
||
|
Référence : https://www.arnolfini.org.uk/blog/ dit : 'Les travailleurs sur Mechanical Turk ont
|
||
|
manifesto-for-maintenance-art-1969 été très, très mal traités pendant 12 ans et,
|
||
|
d'une certaine façon, je vois cela comme un point
|
||
|
de résistance. Si nous étions payés équitablement
|
||
|
--- Une panique robotique chez sur la plateforme, personne ne prendrait le risque
|
||
|
le Mechanical Turk d'Amazon --- de perdre son compte de cette façon.'
|
||
|
|
||
|
Le Mechanical Turk d'Amazon prend le nom d'un au- Bai a créé un questionnaire pour les chercheurs en
|
||
|
tomate d'échecs du 18ème siècle. En fait, le Turc dehors de Mechanical Turk. Il dirige actuellement
|
||
|
mécanique n'était pas du tout une machine. C'était une recherche parmi les spécialistes des sciences
|
||
|
une illusion mécanique qui permettait à un maître sociales pour déterminer la quantité de données
|
||
|
d'échecs humain de se cacher à l'intérieur de la erronées utilisées, l'ampleur du problème et les
|
||
|
boîte et de l'utiliser manuellement. moyens de l'enrayer. Mais il est impossible à
|
||
|
l'heure actuelle d'estimer combien de jeux de don-
|
||
|
Pendant près de 84 ans, le Turc a remporté la plu- nées sont devenus peu fiables de cette façon-ci.
|
||
|
part des matchs joués lors de ses manifestations
|
||
|
en Europe et en Amérique. Napoléon Bonaparte se Références :
|
||
|
serait lui aussi laissé berner par cette ruse.
|
||
|
https://www.wired.com/story/amazon-mechanical-
|
||
|
Le Mechanical Turk d’Amazon est une plateforme en turk-bot-panic/
|
||
|
ligne à destination des humains pour exécuter des
|
||
|
tâches que les algorithmes ne parviennent pas à https://www.maxhuibai.com/blog/evidence-that-res-
|
||
|
faire. Il peut s'agir, par exemple, d'annoter des ponses-from-repeating-gps-are-random
|
||
|
phrases comme étant positives ou négatives, de re-
|
||
|
pérer des plaques d'immatriculation, de recon- http://timryan.web.unc.edu/2018/08/12/data-conta-
|
||
|
naître des visages. Les postes affichés sur cette mination-on-mturk/
|
||
|
plateforme sont souvent rémunérés moins d'un cen-
|
||
|
time par tâche. Les tâches les plus complexes ou
|
||
|
nécessitant le plus de connaissances peuvent être
|
||
|
payées jusqu'à plusieurs centimes. Pour gagner
|
||
|
leur vie, les 'turkers' doivent accomplir le plus
|
||
|
de tâches possible le plus rapidement possible, ce
|
||
|
qui entraîne d’inévitables erreurs. Les créateurs
|
||
|
des jeux de données doivent incorporer des
|
||
|
contrôles de qualité lorsqu'ils publient un tra-
|
||
|
vail sur la plate-forme. Ils doivent vérifier si
|
||
|
le 'turker' a réellement la capacité d'accomplir
|
||
|
la tâche, et ils doivent également vérifier les
|
||
|
résultats. De nombreux chercheurs universitaires
|
||
|
utilisent le Mechanical Turk pour des tâches qui
|
||
|
auraient été exécutées par des étudiants auparavant.
|
||
|
|
||
|
En août de l'année dernière, Max Hui Bai, un étu-
|
||
|
diant en psychologie de l'Université du Minnesota,
|
||
|
a découvert que les enquêtes qu'il a menées avec
|
||
|
Mechanical Turk étaient pleines de réponses ab-
|
||
|
surdes aux questions ouvertes. Il a retracé les
|
||
|
mauvaises réponses et a découvert qu'elles avaient
|
||
|
été soumises par des répondants ayant des coordon-
|
||
|
nées GPS en double. Cela a suscité des soupçons.
|
||
|
Bien qu'Amazon interdise explicitement aux robots
|
||
|
d'effectuer des travaux sur Mechanical Turk, l'en-
|
||
|
treprise ne publie pas les problèmes qu'ils
|
||
|
causent sur sa plate-forme. Les forums pour 'tur-
|
||
|
kers' sont pleins de conversations sur l'automati-
|
||
|
sation du travail, le partage de pratiques sur la
|
||
|
façon de créer des robots qui transgresseraient
|
||
|
les termes d'Amazon. Vous pouvez également trouver
|
||
|
|
||
|
26
|
||
|
informants inform informants inform informants inform informants inform informants inform info
|
||
|
mants inform informants inform informants inform informants inform informants i
|
||
|
form informants inform informants inform informants inform info
|
||
|
mants inform informants inform informants inform informants info
|
||
|
m informants inform informants inform informants inform
|
||
|
informants inform informants inform informants
|
||
|
inform informants inform informants inform
|
||
|
informants inform informants inform informants info
|
||
|
m informants inform informants inform
|
||
|
informants inform informants inform
|
||
|
informants inform informants inform in
|
||
|
ormants inform informants inform infor
|
||
|
ants inform informants inform info
|
||
|
mants inform informants inform
|
||
|
informants inform informants inform
|
||
|
informants inform informants inform
|
||
|
informants inform informants inform
|
||
|
informants inform infor
|
||
|
ants inform informants inform
|
||
|
informants inform informants inform
|
||
|
informants inform
|
||
|
informants inform informants inform
|
||
|
informants inform
|
||
|
informants inform informants inform
|
||
|
informants inform
|
||
|
informants inform informants inform
|
||
|
informants inform
|
||
|
informants inform informants
|
||
|
inform informants inform
|
||
|
informants inform
|
||
|
informants inform informants
|
||
|
inform informants inform
|
||
|
informants inform
|
||
|
informants inform
|
||
|
informants inform informants info
|
||
|
m informants inform
|
||
|
informants inform
|
||
|
informants inform
|
||
|
informants inform
|
||
|
informants inform informants
|
||
|
inform informants inform
|
||
|
informants inform
|
||
|
informants inform
|
||
|
informants inform
|
||
|
informants inform
|
||
|
informants inform
|
||
|
informants inform
|
||
|
informants inform
|
||
|
informants inform
|
||
|
informants inform
|
||
|
informants inform in
|
||
|
ormants inform info
|
||
|
mants inform infor
|
||
|
ants inform infor
|
||
|
ants inform info
|
||
|
mants inform in
|
||
|
ormants inform
|
||
|
informants inform
|
||
|
informants inform
|
||
|
informants inform
|
||
|
informants inform
|
||
|
informants inform
|
||
|
informants inform
|
||
|
informants inform
|
||
|
informants inform
|
||
|
informants inform
|
||
|
informants inform
|
||
|
informants inform
|
||
|
informants inform
|
||
|
27
|
||
|
i l e a3 r a 4rmo 24c +-+-+-+-+-+-+-+-+-+-+ s + +-+-+-+-+-+-+ ny. 2 h n s i l 7 s é n9r-
|
||
|
pc- , 92é né e r | |i|n|f|o|r|m|a|n|t|s| |i|n|f|o|r|m| 5 e 3 2| a m l + m r r
|
||
|
em ‘7r i,e e c én +-+-+-+-+-+-+-+-+-+-+ , +-+-+-+-+-+-+ 3 is o fIc éT o 8 ne3é3e-
|
||
|
t mm i 4e G 6 o i s 3 4ui t 3r -r é 8 m r ri r _ di453 f d c e u i-_tm- o | e n+ 9e
|
||
|
L u8 S n 9 r+seu 2 3 5 Ce m e 8u,é 9 r 2 9 u s l u 2e sm6èr rol6u r d eo s3+ e r
|
||
|
j . e 51i é d +-+-+-+-+ +-+-+-+-+-+-+-+ r +-+-+-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+-+ 7 p p i ae
|
||
|
m oi 6 96r5ol h5 0 |e|a|c|h| |d|a|t|a|s|e|t| |c|o|l|l|e|c|t|s| |d|i|f|f|e|r|e|n|t| p l o e
|
||
|
1 l i% m 1 - im t +-+-+-+-+ +-+-+-+-+-+-+-+ t +-+-+-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+-+ s lbai s / _t
|
||
|
P`ncr 3 wd _ tq% i c_ c ie3 a n-i +-+-+-+-+-+-+-+-+-+-+-+ +-+-+-+-+-+ _ 1 îtC toi ne
|
||
|
i p rm l l _ + 4 nn2 fi n e é d c\ _ |i|n|f|o|r|m|a|t|i|o|n| |a|b|o|u|t| ol t rm s8n
|
||
|
e \ om| - o i e o % a 8 é6 t ti5sv +-+-+-+-+-+-+-+-+-+-+-+ +-+-+-+-+-+ te r1is e
|
||
|
ri4l 2 sé n-t hn 1 m6tl-d5 4 _l sb +-+-+-+ +-+-+-+-+-+ a ori q 5l z8
|
||
|
o he w+ a 6 1 t oo3| b l eu |t|h|e| |w|o|r|l|d| i p y e sg j_
|
||
|
d a i - -tse f1 s n14 nl + r 0 r - +-+-+-+ +-+-+-+-+-+ m r_ rl D r o t s
|
||
|
3 ln i s lqe a rui +-+-+-+-+-+-+-+-+ a lr +-+-+-+ +-+-+-+-+-+-+ +-+-+-+-+ i _ a2
|
||
|
wo 7 3 6 n ,s c i - |d|a|t|a|s|e|t|s| |a|r|e| |i|m|b|u|e|d| |w|i|t|h| s e e ae i 3
|
||
|
i 6 h %2l p 8w d5l +-+-+-+-+-+-+-+-+ +-+-+-+ +-+-+-+-+-+-+ +-+-+-+-+ e x r s e u
|
||
|
. é r g ta n o 3 f n 5 u +-+-+-+-+-+-+-+-+-+-+-+ +-+-+-+-+ _ r 2 a 8 s o
|
||
|
d n + n r 9 a 1 e e i 5d |c|o|l|l|e|c|t|o|r|'|s| |b|i|a|s| u 886 u o
|
||
|
n t ae s1si mn42c e %tt 76 l 4 r é +-+-+-+-+-+-+-+-+-+-+-+ +-+-+-+-+ | de 1m tt37 r
|
||
|
s e 8e e +-+-+-+-+ +-+-+-+-+-+-+-+-+ o r( +-+-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+ s 9 t
|
||
|
s h s_9 1 L |s|o|m|e| |d|a|t|a|s|e|t|s| |c|o|m|b|i|n|e| |m|a|c|h|i|n|i|c| 74 v 7
|
||
|
m n c p| ? +-+-+-+-+ +-+-+-+-+-+-+-+-+ u +-+-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+ 1 à r 3u d p
|
||
|
i vc3n i aciéé e ’ e r 5 +| c/a aq +-+-+-+-+-+ +-+-+-+-+ +-+-+-+-+-+ + o 7 r
|
||
|
% r n o +er u ow i 3 n |l|o|g|i|c| |w|i|t|h| |h|u|m|a|n| a ls
|
||
|
au r, o t s - 7rV t % s e +-+-+-+-+-+ +-+-+-+-+ +-+-+-+-+-+ e0 m n
|
||
|
W r4 s - e 0 12 a r 6 nt | +-+-+-+-+-+ , sse r 1 | i
|
||
|
p f i 1u 5 i1 a r o + se |l|o|g|i|c| 5 ls c p d \
|
||
|
e ee l e q a s es rn c +-+-+-+-+-+ | t _ \ o
|
||
|
e ie % c +-+-+-+-+-+-+ +-+-+-+-+ e w 7 8
|
||
|
i ,_ jtl |m|o|d|e|l|s| |t|h|a|t| s p a i Sér é u e , 9 s
|
||
|
5- r6 p r o +-+-+-+-+-+-+ +-+-+-+-+ o 7 99 97/ | us q
|
||
|
o 1 0 d s i +-+-+-+-+-+-+-+ i 3 e e aê p i m e t
|
||
|
r h é em o 1 |r|e|q|u|i|r|e| c 9r 1e t p t
|
||
|
e p c %o 8 h +-+-+-+-+-+-+-+ ' f 4 é5 u a 9 s B
|
||
|
-c s i 5 +-+-+-+-+-+-+-+-+-+-+-+ r +-+-+-+-+-+-+-+-+ +-+-+-+ e
|
||
|
r u3 ts t l |s|u|p|e|r|v|i|s|i|o|n| |p |m|u|l|t|i|p|l|y| |t|h|e| b le s u 5 p r
|
||
|
h | +-+-+-+-+-+-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+ +-+-+-+ t u en o
|
||
|
o e 5 m a - e u h 6 +-+-+-+-+-+-+-+-+-+-+-+-+-+-+ i e q
|
||
|
n cc r \ n 9 |s|u|b|j|e|c|t|i|v|i|t|i|e|s| 8 _ e 7 s
|
||
|
cU f s n ô e +-+-+-+-+-+-+-+-+-+-+-+-+-+-+ 3 5 i t |
|
||
|
e e grr s sd +-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+-+ +-+-+-+-+ - la o
|
||
|
e +m r 4 8 |m|o|d|e|l|s| c |p|r|o|p|a|g|a|t|e| |w|h|a|t|
|
||
|
.e - \ o +-+-+-+-+-+-+ 5 +-+-+-+-+-+-+-+-+-+ +-+-+-+-+ m l 6 t
|
||
|
1 pv l _ sr +-+-+-+-+-+-+-+ +-+-+-+-+ V
|
||
|
m % v |t|h|e|y|'|v|e| |b|e|e|n| r 3 e ’ c e
|
||
|
i u 1 t t a +-+-+-+-+-+-+-+ +-+-+-+-+ cf 4 r q s
|
||
|
9 es e 8 o g g t +-+-+-+-+-+-+ r t e
|
||
|
7 _ - o 3 l 9 d |t|a|u|g|h|t| t 9 5u q|u p
|
||
|
2 ne 7 n g +-+-+-+-+-+-+ - 0
|
||
|
1 u +-+-+-+-+ +-+-+ +-+-+-+ r e X u 7 é
|
||
|
9 a ' é |s|o|m|e| |o|f| |t|h|e| 2 a |
|
||
|
e u p +-+-+-+-+ +-+-+ +-+-+-+ t 1 1 e
|
||
|
2 s e +-+-+-+-+-+-+-+-+ +-+-+-+-+ +-+-+ +-+-+-+-+-+-+-+ +-+-+
|
||
|
u _ |d|a|t|a|s|e|t|s| |p|a|s|s| |a|s| |d|e|f|a|u|l|t| |i|n|
|
||
|
l 4 f p i +-+-+-+-+-+-+-+-+ +-+-+-+-+ +-+-+ +-+-+-+-+-+-+-+ +-+-+ t
|
||
|
oc e d 6 t +-+-+-+ +-+-+-+-+-+-+-+ 1 5
|
||
|
2 pi |t|h|e| |m|a|c|h|i|n|e| 6 e d
|
||
|
I ,7 p +-+-+-+ +-+-+-+-+-+-+-+ l A
|
||
|
_ 4n s +-+-+-+-+-+-+-+-+ +-+-+-+-+-+ a
|
||
|
r p m D |l|e|a|r|n|i|n|g| |f|i|e|l|d| n
|
||
|
é m e o r _ t +-+-+-+-+-+-+-+-+ +-+-+-+-+-+ n é
|
||
|
s , +-+-+-+-+-+-+ p +-+-+-+-+-+ +-+-+-+-+-+-+-+-+ h
|
||
|
8 t d |h|u|m|a|n|s| |g|u|i|d|e| |m|a|c|h|i|n|e|s| c t
|
||
|
a mo 1 +-+-+-+-+-+-+ +-+-+-+-+-+ +-+-+-+-+-+-+-+-+ i
|
||
|
r i . g | c Q b 7
|
||
|
o 3 8 ê o | p è t e
|
||
|
ar 8 e 8 n 7 9 e o o a
|
||
|
|
||
|
28
|
||
|
V % V % V V V % V V V %% % % % % % % %%% % % %
|
||
|
V V V V V V V V V V V V V V V V % 0 % %% % % % 0 % %
|
||
|
V V V V V V % V V V % 0 0 0 % % % 0 %% % 0 % % %
|
||
|
% % %%% % % % % 00 % 0 0 _ _ 0 % % %%
|
||
|
% % %% % % % % % /\ /\ _ __ ___ ___| |_| |__ _ __ 0 ___ %
|
||
|
% INFORMATEURS % % % / / \ \ '_ \ / _ \ / _ \ __| '_ \| '_ \ / _ \ % ____
|
||
|
% % \ \_/ / | | | __/ | __/ |_| | | | | | | (_) | /___/ %
|
||
|
% % % % \___/|_| |_|\___| \___|\__|_| |_|_| |_|\___/
|
||
|
V V V V % V % V V V %
|
||
|
V V V V V V V V V V V V V V V V % 0 0 _ _ _ % %
|
||
|
V V V V V V V V V __ _ _ __ __ _ _ __ | |__ (_) ___ __| | ___ ___ %
|
||
|
V V V V V V V V / _` | '__/ _` | '_ \| '_ \| |/ _ \ / _` |/ _ \/ __|
|
||
|
V V V V V V V V V V V V V V V V | (_| | | | (_| | |_) | | | | | __/ | (_| | __/\__ \ %
|
||
|
V V V V V V V V V \__, | _| \__,_| .__/|_| |_|_|\___| \__,_|\___||___/
|
||
|
% |___/ |_| % 0 % 0
|
||
|
Les algorithmes d'apprentissage au- 0 0 _ 0 _ 0
|
||
|
tomatique ont besoin d'être guidés, (_) ___ _ ___ __ __| | ___
|
||
|
qu'ils soient supervisés ou non. 0 | |/ _ \ | | \ \/ / / _` |/ _ \ % % % %
|
||
|
Pour séparer une chose d'une autre, 000 | | __/ |_| |> < | (_| | __/ 0 %
|
||
|
ils ont besoin de matériel pour en 0 _/ |\___|\__,_/_/\_\ \__,_|\___|
|
||
|
extraire des motifs. L'être humain % 0 |__/ 0
|
||
|
doit choisir avec soin le matériel % _ __ 0
|
||
|
d'étude, adapté à la tâche de la % 0 __| | ___ _ __ _ __ _/_/ ___ ___ 0 %
|
||
|
machine. Il n'est pas logique d'en- / _` |/ _ \| '_ \| '_ \ / _ \/ _ \/ __|
|
||
|
traîner une machine avec des romans % 0 | (_| | (_) | | | | | | | __/ __/\__ \
|
||
|
du 19ème siècle si sa mission est \__,_|\___/|_| |_|_| |_|\___|\___||___/
|
||
|
d'analyser des Tweets. % 0 % 0 0 0 %
|
||
|
|
||
|
C'est là qu'interviennent les jeux par Algolit
|
||
|
de données : organisés en rangés et
|
||
|
en colonnes ordonnées, en attente Lors des réunions mensuelles Algolit nous cherchons ou créons
|
||
|
d'être lus par la machine. Chaque souvent des jeux de données. Parfois, nous utilisons des corpus
|
||
|
jeu de données recueille des infor- déjà existants, disponibles via le site Natural Language Toolkit
|
||
|
mations différentes sur le monde. nltk. NLTK contient, entre autres, la Déclaration universelle des
|
||
|
Comme toutes les collections, elles droits de l'Homme, les discours inauguraux des présidents améri-
|
||
|
sont imprégnées des stéréotypes et cains, ou des critiques de films du site Internet Movie Database
|
||
|
préjugés de ses créateurs. On en- (IMDb).
|
||
|
tend souvent l’expression : 'les
|
||
|
données sont le nouveau pétrole'. Chaque style d'écriture évoque des relations différentes entre
|
||
|
Si seulement les données étaient du les mots et reflète l'époque dont ils proviennent. En ce sens, le
|
||
|
pétrole ! Fuyantes, s’égouttant en gestionnaire de paquets Python pour le traitement du langage na-
|
||
|
graisse lourde, bouillonnantes et turel pourrait être considéré comme une capsule temporelle. Le
|
||
|
tressaillantes au contact d'une % matériel inclu a été sélectionné car jugé utile par une communau-
|
||
|
nouvelle matière. Au contraire, les té de chercheurs. Malgré les spécificités, chaque jeu de données
|
||
|
données sont supposées d'être devient universel par défaut, en étant à la disposition d'un pu-
|
||
|
propres. Lors de chaque processus, blic aussi large.
|
||
|
chaque questionnaire, chaque titre
|
||
|
de colonne, elles s’épurent, en ef- Nous examinons les jeux de données les plus couramment utilisés
|
||
|
façant peu à peu leurs caractéris- pour l'entraînement des modèles d'apprentissage automatique. De
|
||
|
tiques distinctes jusqu’à corres- quels matériaux sont-ils constitués ? Qui les a recueillis ?
|
||
|
pondre au moule du jeu de données. Quand ?
|
||
|
|
||
|
Certains jeux de données combinent ---
|
||
|
la logique machinique avec la lo-
|
||
|
gique humaine. Les modèles qui né- Concept, réalisation: Cristina Cochior
|
||
|
cessitent une supervision multi- %
|
||
|
plient les subjectivités des col- %
|
||
|
lecteurs de données et des annota-
|
||
|
teurs, puis propulsent et propagent
|
||
|
ce qui leur a été enseigné. Vous
|
||
|
découvrirez des extraits de cer-
|
||
|
tains jeux de données qui passent
|
||
|
par défaut dans le domaine de l'ap-
|
||
|
prentissage automatique, ainsi que
|
||
|
des histoires d'humains guidant des
|
||
|
machines.
|
||
|
|
||
|
|
||
|
|
||
|
29
|
||
|
0 0 0 0 0
|
||
|
___ 0 _ 0 0 _ _
|
||
|
/ ( ) /_\ _ __ _ __ ___ | |_ __ _| |_ ___ _ _ _ __
|
||
|
0 / /|/ //_\\| '_ \| '_ \ / _ \| __/ _` | __/ _ \| | | | '__| 0
|
||
|
/ /___/ _ \ | | | | | | (_) | || (_| | || __/| |_| | |
|
||
|
0 \____/\_/ \_/_| |_|_| |_|\___/ \__\__,_|\__\___| \__,_|_|
|
||
|
0 0
|
||
|
%% % % % % % % % % % %% % 0 % 0 % % % % 0 % %% % %
|
||
|
% % % %% % % % par Algolit % %% %% % % % 0
|
||
|
% % % % % % % %% %%% % % %
|
||
|
% %% %% % % %% % % L'Annotateur demande au visiteur de l'aider à annoter les archives
|
||
|
% % % % %% du Mundaneum. %% %% % % % % % %
|
||
|
% % % % % % % %
|
||
|
% Le processus d'annotation est une étape cruciale de l'apprentis- %
|
||
|
% sage automatique supervisé où l'algorithme reçoit des exemples de
|
||
|
% ce qu'il doit apprendre. Un filtre anti-spam sera alimenté
|
||
|
% d'exemples de spam et de messages réels. Ces exemples sont des
|
||
|
% % entrées du jeu de données prévues d'une étiquette, spam ou non spam.
|
||
|
% %
|
||
|
% % % L'annotation d'un jeu de données est un travail exécuté par des
|
||
|
humains, qui choisissent une étiquette pour chaque entrée du jeu
|
||
|
% de données. Pour assurer la qualité des étiquettes, plusieurs an-
|
||
|
notateurs doivent voir la même entrée et donner la même étiquette
|
||
|
avant qu'un exemple ne soit inclus dans les données d'entraîne-
|
||
|
ment. Une fois que toutes les données d'entraînement ont été pré-
|
||
|
vues d'une étiquette, l'ordinateur peut lancer le processus d'ap-
|
||
|
% % prentissage. %
|
||
|
%
|
||
|
Dans cette interface, nous vous demandons de nous aider à classer
|
||
|
% les textes nettoyés des archives du Mundaneum afin d'élargir
|
||
|
notre set d’entraînement et d'améliorer la qualité de l'installa-
|
||
|
% tion 'Classer le Monde' dans Oracles.
|
||
|
|
||
|
---
|
||
|
|
||
|
Concept, code, interface : Gijs de Heij
|
||
|
|
||
|
|
||
|
0 0 0
|
||
|
0 0 0
|
||
|
0 _ ___ ___ ___ 0
|
||
|
% 0 0 / |/ _ \ / _ \ / _ \ 0
|
||
|
0 0 0 0 | | | | | | | | | | | 0 0
|
||
|
% 00 0 | | |_| | |_| | |_| |
|
||
|
0 |_|\___/ \___/ \___/ 0
|
||
|
0 % 0 0 _
|
||
|
0 ___ _ _ _ __ ___ ___| |_ ___ 0
|
||
|
0 / __| | | | '_ \/ __|/ _ \ __/ __|
|
||
|
\__ \ |_| | | | \__ \ __/ |_\__ \
|
||
|
|___/\__, |_| |_|___/\___|\__|___/
|
||
|
0 0 |___/ 0
|
||
|
0 0 0 0
|
||
|
|
||
|
% par Algolit
|
||
|
|
||
|
Wordnet, créé en 1985, est une taxonomie hiérarchique qui décrit
|
||
|
% le monde. Elle s'inspire des théories de la mémoire sémantique
|
||
|
humaine développées à la fin des années 1960. Les noms, verbes,
|
||
|
adjectifs et adverbes sont regroupés en collections de synonymes
|
||
|
ou 'synsets', prévues de définitions, hypernymes, hyponymes, ....
|
||
|
Chaque synset exprime des concepts différents. ImageNet est un
|
||
|
jeu de données d'images basé sur la hiérarchie des noms de
|
||
|
WordNet 3.0. Chaque synset est représenté par des milliers
|
||
|
d'images. De 2010 à 2017, le Défi de Reconnaissance Visuelle de
|
||
|
ImageNet (ILSVRC) a été une référence clé dans la classification
|
||
|
des catégories d'objets pour les photos, ayant un impact majeur
|
||
|
sur les logiciels de photographie, les recherches d'images, la
|
||
|
reconnaissance d'images.
|
||
|
|
||
|
30
|
||
|
1000 synsets (édition vinyle) contient les 1000 synsets utilisés
|
||
|
dans ImageNet, enregistrés dans la meilleure qualité sonore que
|
||
|
ce format analogique permet. Ce travail souligne l'importance des
|
||
|
jeux de données utilisés pour former des modèles d'intelligence
|
||
|
artificielle qui fonctionnent sur des appareils que nous utili-
|
||
|
sons quotidiennement. Certains d'entre eux héritent de classifi-
|
||
|
%% % %% %%% % % % cations qui ont été conçues il y a plus de 30 ans. Le vinyle est
|
||
|
% % %%% % % % une invitation à les analyser en profondeur. % % %% % % %
|
||
|
% % % % % % % % % % % % % % % % %
|
||
|
% % % % % % % % --- % % % % % % % %
|
||
|
%% % % % % %% % % % % %
|
||
|
% % % Conception et enregistrement: Javier Lloret % % %
|
||
|
% %% % %% % %%% %
|
||
|
% % % Voix: Sara Hamadeh & Joseph Hughes % %
|
||
|
% % % % %
|
||
|
% % % % % %
|
||
|
0 % 0 % %
|
||
|
0 % 0 0 %
|
||
|
0 0 ____ _ % 00
|
||
|
% 0 0 /___ \_ _(_) 0
|
||
|
0 // / / | | | | % %
|
||
|
0 / \_/ /| |_| | | 0
|
||
|
% % 0 0 % 0 % \___,_\ \__,_|_|
|
||
|
% 0 0 _ _ 0 0 _
|
||
|
| ( )__ _ __ ___ _ __ ___ _ __| |_ ___
|
||
|
| |/ _ \ '_ ` _ \| '_ \ / _ \| '__| __/ _ \
|
||
|
% | | __/ | | | | | |_) | (_) | | | || __/ 0
|
||
|
|_|\___|_| |_| |_| .__/ \___/|_| \__\___|
|
||
|
|_| 0 0 0 0
|
||
|
0 0 0 %
|
||
|
%
|
||
|
% Qui l'emporte: rapport de création %
|
||
|
|
||
|
par Louise Dekeuleneer, étudiante Arts²/Option Communication Vi-
|
||
|
suelle
|
||
|
% %
|
||
|
Le français est une langue genrée, en effet beaucoup de mots sont
|
||
|
féminins ou masculins et peu sont neutres. Le but de ce projet
|
||
|
% est de montrer qu'une société patriarcale influence aussi la
|
||
|
langue même. Le travail s'est focalisé sur le fait de montrer si
|
||
|
plus de mots féminins ou masculins sont utilisés et de mettre en
|
||
|
valeur l'influence du contexte sur le genre des mots. À ce stade,
|
||
|
aucune conclusion n'est encore tirée.
|
||
|
% %
|
||
|
Des textes de loi datant de 1900 à 1910 mis à disposition par le
|
||
|
Mundaneum sont passés dans un algorithme qui fait du texte une
|
||
|
liste de mots. Ces mots sont alors comparés avec une autre liste
|
||
|
de mots francophones, dans laquelle il est spécifié si le mot est
|
||
|
masculin ou féminin. Cette liste de mots provient de Google
|
||
|
Books, qui a créé en 2012 une énorme base de données à partir de
|
||
|
tous les livres scannés et disponibles sur Google Books.
|
||
|
Les mots masculins sont surlignés d'une couleur et les féminins
|
||
|
d'une autre. Les mots qui ne sont pas genrés (adverbes, verbes,
|
||
|
...) ne sont pas surlignés. Le tout est enregistré en fichier
|
||
|
HTML pour qu'il puisse être directement ouvert dans une page web
|
||
|
et imprimé sans besoin de mise en page supplémentaire. C'est ain-
|
||
|
si que chaque texte a pu devenir un petit livret en changeant
|
||
|
% juste le texte d'entrée de l'algorithme.
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
31
|
||
|
RÉCITS CONTEXTUALISÉS
|
||
|
AUTOUR DES INFORMATEURS
|
||
|
|
||
|
|
||
|
|
||
|
--- Les jeux de données comme représentations --- Il était à Bruxelles en novembre 2017 lors de la
|
||
|
Rencontre Algolittéraire.
|
||
|
Les processus de collecte des données qui mènent à
|
||
|
la création du jeu de données soulèvent des ques- Femke : En considérant Wikipedia comme une commu-
|
||
|
tions importantes : qui est l'auteur des données ? nauté vivante, chaque nouvelle page change le pro-
|
||
|
Qui a le privilège de collectionner ? Pour quelle jet. Chaque modification est en quelque sorte une
|
||
|
raison la sélection a-t-elle été faite ? Que contribution à un organisme vivant de la connais-
|
||
|
manque-t-il ? sance. Donc, si au sein de cette communauté vous
|
||
|
essayez de distinguer ce qui rend service à la
|
||
|
L'artiste Mimi Onuoha donne un exemple excellent communauté et de généraliser ceci dans un modèle –
|
||
|
de l'importance des stratégies de collection. Elle car je pense que c'est ce que l'algorithme de la
|
||
|
choisit le cas des statistiques relatives aux bonne ou mauvaise foi essaie de faire - vous le
|
||
|
crimes haineux. En 2012, le Programme de déclara- faites sur base d'une généralisation de l'idée
|
||
|
tion uniforme de la criminalité (DUC) du FBI a en- abstraite de Wikipedia, et non sur base de l'orga-
|
||
|
registré 5 796 crimes haineux. Toutefois, le Bu- nisme vivant. Ce qui m'intéresse dans la relation
|
||
|
entre le vandalisme et ce débat, c'est la façon
|
||
|
a établi 293 800 rapports sur de tels cas. C'est dont nous pouvons comprendre la dynamique conven-
|
||
|
plus de 50 fois plus. La différence entre les tionnelle de ces processus d'apprentissage automa-
|
||
|
chiffres peut s'expliquer par la façon dont les tique. Si on distingue la bonne ou la mauvaise foi
|
||
|
données ont été recueillies. Dans le premier cas, sur base d’étiquettes préexistantes et qu’on la
|
||
|
les organismes d'application de la loi de tout le reproduit ensuite dans des modèles algorithmiques,
|
||
|
pays ont volontairement signalé des cas. Pour le comment tenir compte des changements qui se pro-
|
||
|
deuxième, le Bureau des statistiques a distribué duisent, c’est-à-dire de la vie réelle du projet?
|
||
|
l'enquête nationale sur la victimisation directe-
|
||
|
ment aux foyers des victimes de crimes motivés Amir : C'est une discussion intéressante. Premiè-
|
||
|
par la haine. rement, ce que nous appelons la bonne ou la mau-
|
||
|
vaise foi provient de la communauté elle-même;
|
||
|
Dans le domaine du traitement du langage naturel, nous ne faisons pas l'annotation nous-mêmes, c’est
|
||
|
le matériel avec lequel les modèles d'apprentis- la communauté qui le fait. Ainsi, dans beaucoup de
|
||
|
sage automatique travaillent est le texte, mais Wikipedias de langues différentes, la définition
|
||
|
les mêmes questions se posent : qui sont les au- de ce qui est la bonne ou la mauvaise foi sera
|
||
|
teurs des textes qui composent les jeux de don- différente. Wikimedia essaie de refléter ce qui se
|
||
|
nées ? Au cours de quelle période les données ont- trouve à l'intérieur de l'organisme et non de
|
||
|
elles été recueillies ? Quel type de vision du changer l'organisme lui-même. Si l'organisme
|
||
|
monde représentent-elles ? change et que nous constatons que la définition de
|
||
|
la bonne foi à Wikipédia a été modifié, nous met-
|
||
|
En 2017, l'algorithme Top Stories de Google a pla- tons en œuvre cette boucle de rétroaction qui per-
|
||
|
cé un fil de discussion trompeur du site 4chan en met aux gens de porter un jugement sur leurs modi-
|
||
|
haut de la page de résultats lors de la recherche fications à l'intérieur de leur communauté. S'ils
|
||
|
du tireur de Las Vegas. Le nom et le portrait sont en désaccord avec l'annotation, nous pouvons
|
||
|
d'une personne innocente étaient liés au crime. revenir au modèle et modifier l'algorithme pour
|
||
|
Bien que Google ait changé son algorithme quelques refléter ce changement. C'est une sorte de boucle
|
||
|
heures seulement après que l'erreur ait été décou- fermée : vous changez les choses et si quelqu'un
|
||
|
verte, cela a sérieusement affecté la personne. voit qu'il y a un problème, il nous le dit et nous
|
||
|
Une autre question persiste : pourquoi Google n'a- pouvons modifier l'algorithme. C'est un projet en
|
||
|
t-il pas exclu le site de ragôts 4chan du jeu des cours.
|
||
|
données d'entraînement ?
|
||
|
Référence : https://gitlab.constantvzw.org/algolit/
|
||
|
Références : algolit/blob/master/algoliterary_encounter/
|
||
|
Interview%20with%20Amir/AS.aac
|
||
|
https://points.datasociety.net/the-point-of-
|
||
|
collection-8ee44ad7c2fa
|
||
|
--- Comment faire connaître
|
||
|
https://arstechnica.com/information-technology/ votre jeu de données ---
|
||
|
2017/10/google-admits-citing-4chan-to-spread-
|
||
|
fake-vegas-shooter-news/ NLTK signifie Natural Language Toolkit. Pour les
|
||
|
programmeurs qui traitent le langage naturel avec
|
||
|
Python, c'est une bibliothèque essentielle. De
|
||
|
--- L'annotation pour un Oracle nombreux rédacteurs de tutoriels recommandent aux
|
||
|
qui détecte le vandalisme sur Wikipédia --- programmeurs d'apprentissage automatique de com-
|
||
|
mencer par les jeux de données NLTK intégrés. Il
|
||
|
Ce fragment est extrait d'une interview avec Amir compte 71 collections différentes, avec un total
|
||
|
Sarabadani, ingénieur de logiciels chez Wikimedia. de près de 6000 éléments.
|
||
|
|
||
|
32
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
Parmi eux, on trouve le corpus Movie Review pour plement sensationnels : bary pepper , adam gold-
|
||
|
l'analyse des sentiments. Ou le corpus Brown, qui berg , vin diesel , giovanni ribisi , davies et
|
||
|
a été créé dans les années 1960 par Henry Kučera burns . le film se clôture avec des scènes de ba-
|
||
|
et W. Nelson Francis à l'Université Brown de Rhode taille extraordinaires .
|
||
|
Island. Il y a aussi le corpus de la Déclaration
|
||
|
des droits de l'homme, qui est couramment utilisé
|
||
|
pour vérifier si un code peut fonctionner dans --- Les ouroboros de l'apprentissage automatique ---
|
||
|
plusieures langues. Le corpus contient la Déclara-
|
||
|
tion des droits de l'homme dans 372 langues du Wikipédia est devenue une source d'apprentissage
|
||
|
monde entier. non seulement pour les humains, mais aussi pour
|
||
|
les machines. Ses articles sont des sources de
|
||
|
Mais quel est le processus pour faire accepter un premier ordre pour l’entraînement de modèles. Le
|
||
|
jeu de données dans la bibliothèque NLTK de nos matériel avec lequel les machines sont entraînées
|
||
|
jours ? Sur la page Github, l'équipe nltk décrit est identique au contenu qu'elles ont aidé à
|
||
|
les exigences suivantes : écrire. En fait, au début de Wikipédia, de nom-
|
||
|
breux articles ont été écrits par des robots. Ram-
|
||
|
- Ne rajoutez que les corpus qui ont obtenu un ni- bot, par exemple, était un robot controversé sur
|
||
|
veau de notabilité de base. Cela signifie qu'il la plateforme anglophone. Il est l'auteur de 98%
|
||
|
existe une publication qui le décrit et une commu- des pages décrivant les villes américaines.
|
||
|
nauté de programmeurs qui l'utilisent.
|
||
|
A cause de ces interventions de robots thématiques
|
||
|
- Assurez-vous d'avoir l'autorisation de redistri- et régulières, les modèles de prédiction qui sont
|
||
|
buer les données et de pouvoir les documenter. Ce- entraînés sur le dump de Wikipedia ont une vision
|
||
|
la signifie qu'il est préférable de publier le jeu unique de la composition des articles. Par exem-
|
||
|
de données sur un site Web externe avec une li- ple, un modèle thématique entraîné sur l'ensemble
|
||
|
cence. des articles de Wikipédia associe 'rivière' à
|
||
|
'Roumanie' et 'village' à 'Turquie'. C'est parce
|
||
|
- Utilisez les lecteurs de corpus NLTK existants qu'il y a plus de 10000 pages écrites sur les vil-
|
||
|
lorsque c'est possible, ou bien apportez un lec- lages en Turquie. Cela devrait suffire à susciter
|
||
|
teur de corpus bien documenté à NLTK. Cela signi- des envies de voyage, mais c'est bien trop par
|
||
|
fie que vous devez organiser vos données de ma- rapport à d'autres pays. L'asymétrie provoque une
|
||
|
nière à ce qu'elles puissent être facilement lues fausse corrélation et doit être corrigée. La plu-
|
||
|
à l'aide du code NLTK. part des modèles tentent d'exclure le travail de
|
||
|
ces auteurs robots prolifiques.
|
||
|
Référence : http://www.nltk.org/
|
||
|
Référence : https://blog.lateral.io/2015/06/the-
|
||
|
unknown-perils-of-mining-wikipedia/
|
||
|
--- Extrait d'une critique positive d'un film IMdB
|
||
|
du jeu de données NLTK ---
|
||
|
|
||
|
corpus : movie_reviews
|
||
|
|
||
|
fichier : pos/cv998_14111.txt
|
||
|
|
||
|
le deuxième film épique de steven spielberg sur la
|
||
|
seconde guerre mondiale est un chef-d'œuvre incon-
|
||
|
testé du cinéma . spielberg , encore étudiant en
|
||
|
cinéma , a réussi à ressusciter le genre de la
|
||
|
guerre en produisant l'un de ses films les plus
|
||
|
poignants et les plus puissants . il a également
|
||
|
réussi à faire briller tom hanks , qui livre une
|
||
|
performance époustouflante . pendant environ 160
|
||
|
de ses 170 minutes, ' sauver le soldat ryan ' est
|
||
|
sans faille . littéralement . l ' histoire est as-
|
||
|
sez simple . après l ' invasion du jour J ( dont
|
||
|
les séquences sont tout à fait spectaculaires ),
|
||
|
capt . john miller ( joué par tom hanks ) et son
|
||
|
équipe sont forcés à chercher un soldat . james
|
||
|
ryan ( joué par matt damon ), dont les frères sont
|
||
|
tous morts au combat. une fois qu ' ils l ' ont
|
||
|
trouvé , ils doivent le ramener immédiatement pour
|
||
|
qu'il puisse rentrer chez lui . la compagnie de
|
||
|
miller est composée d ' acteurs aux jeux tout sim-
|
||
|
|
||
|
33
|
||
|
0 12 3 4 5 67 8 9 0
|
||
|
12 3 4 5 67 8 9 0 12
|
||
|
3 4 5 67 8 9 0 1 2
|
||
|
3 4 5 6 7 8 9 0 1 2 3
|
||
|
4 56 7 8 9 01 2 3
|
||
|
4 56 7 8 9 01 2 3
|
||
|
4 56 7 8 9 01 2 3
|
||
|
4 56 7 8 9 0 1 2 3 4
|
||
|
5 6 7 8 9 0 1 2 3 45 6
|
||
|
7 8 90 1 2 3 45 6
|
||
|
7 8 90 1 2 3 45 6
|
||
|
7 8 90 1 2 3 4 5 6
|
||
|
7 8 9 0 1 2 3 4 5 6
|
||
|
7 89 0 1 2 34 5 6
|
||
|
7 89 0 1 2 34 5 6
|
||
|
7 89 0 1 2 34 5 6 7
|
||
|
89 0 1 2 3 4 5 6 7 8 9
|
||
|
0 1 2 3 4 5 6 78 9
|
||
|
0 1 23 4 5 6 78 9 0
|
||
|
1 23 4 5 6 78 9 0
|
||
|
1 23 4 5 6 78 9 0
|
||
|
1 2 3 4 5 6 7 8 9 0
|
||
|
1 2 3 4 5 67 8 9 0 12
|
||
|
3 4 5 67 8 9 0 12
|
||
|
3 4 5 67 8 9 0 12 3
|
||
|
4 5 6 7 8 9 0 1 2 3
|
||
|
4 5 6 7 8 9 01 2 3
|
||
|
4 56 7 8 9 01 2 3
|
||
|
4 56 7 8 9 01 2 3
|
||
|
4 56 7 8 9 01 2 3 4
|
||
|
5 6 7 8 9 0 1 2 3 4 5 6
|
||
|
7 8 90 1 2 3 45 6
|
||
|
7 8 90 1 2 3 45 6
|
||
|
7 8 90 1 2 3 45 6
|
||
|
7 8 90 1 2 3 4 5 6 7
|
||
|
8 9 0 1 2 3 4 5 6 7
|
||
|
89 0 1 2 34 5 6 7
|
||
|
89 0 1 2 34 5 6 7 89
|
||
|
0 1 2 34 5 6 7 8 9
|
||
|
0 1 2 3 4 5 6 7 8 9
|
||
|
0 1 23 4 5 6 78 9 0
|
||
|
1 23 4 5 6 78 9 0
|
||
|
1 23 4 5 6 78 9 0
|
||
|
1 23 4 5 6 7 8 9 0
|
||
|
1 2 3 4 5 6 7 8 9 0 12 3
|
||
|
4 5 67 8 9 0 12 3
|
||
|
4 5 67 8 9 0 12 3
|
||
|
4 5 67 8 9 0 12 3
|
||
|
4 5 6 7 8 9 0 1 2 3
|
||
|
4 5 6 7 8 9 01 2 3 4
|
||
|
56 7 8 9 01 2 3 4
|
||
|
56 7 8 9 01 2 3 4 5
|
||
|
6 7 8 9 0 1 2 3 4 5 6
|
||
|
7 8 9 0 1 2 3 45 6
|
||
|
7 8 90 1 2 3 45 6
|
||
|
7 8 90 1 2 3 45 6
|
||
|
7 8 90 1 2 3 45 6 7
|
||
|
8 9 0 1 2 3 4 5 6 7
|
||
|
8 9 0 1 2 34 5 6 7 89
|
||
|
0 1 2 34 5 6 7 89 0
|
||
|
1 2 34 5 6 7 89 0
|
||
|
1 2 34 5 6 7 8 9 0
|
||
|
1 2 3 4 5 6 7 8 9 0
|
||
|
1 23 4 5 6 78 9 0
|
||
|
1 23 4 5 6 78 9 0
|
||
|
1 23 4 5 6 78 9 0 1
|
||
|
2 3 4 5 6 7 8 9 0 1 2 3
|
||
|
4 5 67 8 9 0 12 3
|
||
|
4 5 67 8 9 0 12 3
|
||
|
34
|
||
|
readers read readers read readers read readers read readers read readers read readers re
|
||
|
d readers read readers read readers read readers read readers re
|
||
|
d readers read readers read readers read readers read
|
||
|
readers read readers read readers read re
|
||
|
ders read readers read readers read readers re
|
||
|
d readers read readers read readers r
|
||
|
ad readers read readers read
|
||
|
readers read readers read readers read
|
||
|
readers read readers read
|
||
|
readers read readers read readers read
|
||
|
readers read readers read
|
||
|
readers read readers read
|
||
|
readers read readers read
|
||
|
readers read readers read
|
||
|
readers read readers read
|
||
|
readers read readers read
|
||
|
readers read readers
|
||
|
read readers read
|
||
|
readers read readers read
|
||
|
readers read readers read
|
||
|
readers read
|
||
|
readers read readers read
|
||
|
readers read
|
||
|
readers read readers read
|
||
|
readers read
|
||
|
readers read readers read
|
||
|
readers read
|
||
|
readers read readers re
|
||
|
d readers read
|
||
|
readers read
|
||
|
readers read readers read
|
||
|
readers read
|
||
|
readers read
|
||
|
readers read re
|
||
|
ders read readers read
|
||
|
readers read
|
||
|
readers read
|
||
|
readers read
|
||
|
readers read readers r
|
||
|
ad readers read
|
||
|
readers read
|
||
|
readers read
|
||
|
readers read
|
||
|
readers read
|
||
|
readers read
|
||
|
readers read
|
||
|
readers read readers
|
||
|
read readers read
|
||
|
readers read
|
||
|
readers read
|
||
|
readers read
|
||
|
readers read
|
||
|
readers read
|
||
|
readers read
|
||
|
readers read
|
||
|
readers read
|
||
|
readers read
|
||
|
readers read
|
||
|
readers read
|
||
|
readers read
|
||
|
readers read
|
||
|
readers read
|
||
|
readers read
|
||
|
readers read
|
||
|
readers read
|
||
|
readers read
|
||
|
readers read
|
||
|
readers read
|
||
|
readers read r
|
||
|
35
|
||
|
9 nl i 5 ' r c +-+-+-+-+-+-+-+ a +-+-+-+-+ -o on an r e c coeun b 9 em t
|
||
|
-rm6 n r r 5ui rt s r ar |r|e|a|d|e|r|s| mg |r|e|a|d| s-dn + 1 tm n u7| 1eo+ iuae3Mii+u e3 l
|
||
|
i e t e t % c_ | 5l +-+-+-+-+-+-+-+ qc +-+-+-+-+ nem e ic-7- r o + g i_ 6é
|
||
|
1 4i + c s r74 ss a_ 9é- S t 8ra | 3 tl nr , mmr 6 i1 8 + 4'99 m u a t7% s_,
|
||
|
é 2 8 un e 8/n 2m c5 2nsr u 0 2t ) 6 v 5 lu6je_r a \ r su r5 9 sdaur o eu h p
|
||
|
r 3 e tes 7ei I t% 9 +-+ +-+-+-+-+-+-+-+-+ | +-+-+-+-+-+-+-+-+-+-+-+ 6 | /s l3 e pu5 n e
|
||
|
47 Mr t rd l ' + n 3 |a| |c|o|m|p|u|t|e|r| u |u|n|d|e|r|s|t|a|n|d|s| +- c 7r s ph r o6 9a
|
||
|
do 1 2² 1 | +-+ +-+-+-+-+-+-+-+-+ 5 +-+-+-+-+-+-+-+-+-+-+-+ e n s nse tk l â0 ’ é|
|
||
|
d é. s ees e n +-+-+-+ +-+-+-+-+-+-+ tLo +-+-+-+-+-+-+-+-+-+ Cnr1 5l _ rUt g od
|
||
|
17 s8 | s 9 8+ 7 |a|l|l| |m|o|d|e|l|s| u |t|r|a|n|s|l|a|t|e| % s _ a n t 2 ,- r rer
|
||
|
u1a1 p et _ |n s 9_l1 u +-+-+-+ +-+-+-+-+-+-+ % +-+-+-+-+-+-+-+-+-+ w ae m ssI |o i um.i é|r
|
||
|
sarpé u m ou_ | , o +-+-+-+-+ +-+-+-+-+-+-+ r l +-+-+-+-+-+ 1hff 0 g M l a 5 ,7 |y
|
||
|
s Sr c r xàd 5 e |s|o|m|e| |m|o|d|e|l|s| f |c|o|u|n|t| 3nrpds6 eo a t i rn e c + 7 n
|
||
|
1 V d eie e -5;d +-+-+-+-+ +-+-+-+-+-+-+ è +-+-+-+-+-+ l x n é r45er é -a i _ l 2 i o 61
|
||
|
’h e| et - 9 e\ +s +-+-+-+-+ +-+-+-+-+-+-+ We +-+-+-+-+-+-+-+ t s t s 5 2 i 1 | etu
|
||
|
+ld t er |s|o|m|e| |m|o|d|e|l|s| |r|e|p|l|a|c|e| s p e. _ r8ai 7 ss n - g s
|
||
|
nc ( - 1 e u. +-+-+-+-+ +-+-+-+-+-+-+ +-+-+-+-+-+-+-+ e h i\ S r_ e ie _ lés
|
||
|
aa% rnsl .7 ,a m 5 a p n 6 s 5 n e s 8 8 | 4 77 n i ttl a ,
|
||
|
6 t e o le r- oa e l3i _n e ws lo i i C a t66r r ses n2 5q 6 s e
|
||
|
7 e nn s l 5 e s_ év r o e t +\p \ 7 2 it e 1 e 8 t %
|
||
|
. a ) e a ee8 emu r | eun t n s 8eel e o 9 p s eei e ee l
|
||
|
r 1 '6 ts teae 4 a , n n t 66 n o n e3o e èla en tu + , hw 8 18
|
||
|
6 5ée t i w rm x + 2 ç e td eu aen % +i n r 76 c 59u 4u ea
|
||
|
u 7 cse ise i oa m _ n o ) t g h 3 2 4 ll u 7l
|
||
|
à ad l a 64,F As9 m%s s f w8 ts t 3 s7m t a ndn h4 3 n + s t n
|
||
|
4 |s6 6 1rr r n e d D r_1 - 33 2 \o 2 o r m5 s _5n 9ii a
|
||
|
8i 4 465 _ i sé 1 2 s f r9 l e o j r1i e le 6 c t e p
|
||
|
V u t 7le s / 2 d 89 t 6r 2 , b r ht r p , 4lt e
|
||
|
, 1 3d s é - t 2 e u e oe . u u. s 7 e 3
|
||
|
rdt i 4 n 4 8 n m p o l a 8 r 7 i w
|
||
|
n s V1 he ud T M| o a A n 4 5 u 5 c O ua h4 s e de
|
||
|
_7 c 3 a h n 8 5 u u , n ê p d n v u 9
|
||
|
r i e i i 4 f | 7 c d d 8 s r + r
|
||
|
s m 8 v i 0 s , r - 5 5 r 1 e t
|
||
|
' e d 3 6 nz - e et na 7 | n n s i aa s e s e
|
||
|
p t , + d r 0 2 a be / n id a gu % + c ' id 8e r m
|
||
|
s sv - c r _ ;u 7 i _ 6 % i s é a d e
|
||
|
a t tn i + l a r s à d 2 o 1 b _ t 7t e nn c
|
||
|
7 en e a 1 s u é h 7q e i 39 me c 1 m
|
||
|
s é 0 9 u 4 l 1 e r 62 vs t k ne 6 ee
|
||
|
d a s 2 n e N r à | 4 9 s
|
||
|
de a a 4 1 3 o 7 r 4 9
|
||
|
6 , r u a t ' n m f es e c / e
|
||
|
m p 1 a8p k e , n e t _ 9 r t \
|
||
|
s6 t wo _ u es 7 o 5
|
||
|
r 8 u n _ 5 - 8 et p m V 2 r 3 e
|
||
|
. t + e ir \ c e , 5 pN
|
||
|
p l lp | _ as l e o 8 p
|
||
|
o b tu 8 m d 5 93 s8 c c s 4 .
|
||
|
s 6 5 9 0 et . d i
|
||
|
t p% 7 -i n e 1
|
||
|
4 r r m O l e , e u f a e4 v f
|
||
|
7 é 6 9 6é | + l
|
||
|
a 0c n \ é \ 0u - e a
|
||
|
t u 3a ,, _ b
|
||
|
| a n o 1 9 o
|
||
|
uu - I e o 4 3 r r x à d
|
||
|
i V r 4 r ê 9 i u
|
||
|
o a o + ' c i 8 6 o
|
||
|
p % e s % c sn 8 e s
|
||
|
i 9 6 v se n l
|
||
|
i l 2g i n c / m a t + e
|
||
|
n i a _ r 93
|
||
|
h i s + p 4 S d6
|
||
|
1 r és 3 3 % n ) c
|
||
|
l | i l d a R
|
||
|
5m h i 6 n o 6
|
||
|
m s p 6 e - t i
|
||
|
|
||
|
36
|
||
|
V % V V V % V V V V %% % % % % % % % % % %%
|
||
|
V V V V V V V V V V V V V V V V % 0 % % %% % % % % % 0 %% %
|
||
|
V V V V V V V V % V % 0 __ _____ ___ _____ ___ ___ % % %
|
||
|
% % % % 0 0 / / ___ /__ \/ __\ % \_ \/ \/ __\ % % %
|
||
|
%% % LECTEURS % % % % / / / _ \ / /\/ _\____ / /\/ /\ / _\ % %
|
||
|
% 0 % / /__| __/ / / / /|_____/\/ /_/ /_// / %
|
||
|
%% % \____/\___| \/ \/ \____/___,'\/ %
|
||
|
V V V V V V V V % % % % % 0 % 0 0
|
||
|
V V V V V V V V V V V V V V V V % %
|
||
|
V V V V % V V V V V par Algolit
|
||
|
V V V V V V V V % % %
|
||
|
V V V V V V V V V V V V V V V V Le TF-IDF (Term Frequency-Inverse Document Frequency) est une mé-
|
||
|
V V V V V V V V V thode de pondération utilisée dans la recherche de textes. Cette
|
||
|
mesure statistique permet d'évaluer l'importance d'un terme %
|
||
|
Nous communiquons avec les ordina- contenu dans un document, relativement à une collection ou un
|
||
|
teurs au moyens de langages. Nous corpus de documents. Le poids augmente proportionnellement au
|
||
|
cliquons sur des icônes sous forme % nombre d'occurrences du mot dans le document. Il varie également %
|
||
|
de mots, nous tapons des mots sur en fonction de la fréquence du mot dans le corpus. Le TF-IDF est
|
||
|
des claviers, nous utilisons notre notamment utilisé dans la classification des spams.
|
||
|
voix pour leur donner des instruc-
|
||
|
tions. Parfois, nous confions nos Une interface web met en scène cet algorithme à travers des ani-
|
||
|
pensées les plus intimes à notre mations permettant de comprendre les différentes étapes de clas-
|
||
|
ordinateur en oubliant qu'il s'agit sification d’un texte. Comment un programme basé sur le TF-IDF
|
||
|
d’une calculatrice avancée. Un or- lit un texte ? Comment transforme-t-il les mots en nombres ?
|
||
|
dinateur comprend chaque mot comme
|
||
|
une combinaison de zéros et de uns. ---
|
||
|
Une lettre est lue comme un numéro
|
||
|
ASCII spécifique : 'A' majuscule Concept, code, animation : Sarah Garcin
|
||
|
est 001. %
|
||
|
00 0
|
||
|
Dans tous les 'rule-based models', 0 0 ___ 0 _ _ 0 _ 0 0
|
||
|
l'apprentissage automatique clas- / __\ _| | |_(_)_ _____ _ __ 0
|
||
|
sique et les réseaux de neurones, 0 % / / | | | | | __| \ \ / / _ \ '__|
|
||
|
les mots subissent une traduction 0 / /__| |_| | | |_| |\ V / __/ |
|
||
|
en chiffres pour saisir le sens sé- \____/\__,_|_|\__|_| \_/ \___|_| 0
|
||
|
mantique du langage. Cela se fait _ _ 0 %
|
||
|
en comptant. Certains modèles % _ _ _ __ /_\ _ __| |__ _ __ ___ %
|
||
|
comptent la fréquence des mots sim- 0 | | | | '_ \ //_\\| '__| '_ \| '__/ _ \
|
||
|
ples, d'autres la fréquence des 0 | |_| | | | | / _ \ | | |_) | | | __/
|
||
|
combinaisons de mots, d'autres en- \__,_|_| |_| \_/ \_/_| |_.__/|_| \___|
|
||
|
core la fréquence des noms, des ad- 0 0 % 0 0
|
||
|
jectifs, des verbes ou des phrases
|
||
|
de noms et de verbes. Certains rem- par Algolit
|
||
|
placent simplement les mots d'un
|
||
|
texte par leur numéro d'index. Les % La nature de mots est une catégorie que nous apprenons à l'éco-
|
||
|
nombres optimisent la vitesse opé- le : nom, verbe, adjectif, adverbe, pronom, préposition, conjonc-
|
||
|
rationnelle des processus informa- tion, interjection, et parfois chiffre, article, ou déterminant. %
|
||
|
tiques, ce qui conduit à des pré- Dans le traitement du langage naturel, il existe de nombreux écrits
|
||
|
dictions rapides, mais ils sup- qui permettent d'analyser des phrases. Cela signifie que l'algorithme
|
||
|
priment aussi les liens symboliques peut déterminer la nature de chaque mot d'une même phrase. 'Cultiver
|
||
|
que les mots peuvent avoir. Nous un arbre' utilise cette technique pour définir tous les noms dans une
|
||
|
présentons ici quelques techniques phrase spécifique. Chaque nom est alors remplacé par sa définition.
|
||
|
destinées à rendre un texte intel- Cela permet à la phrase de grandir de façon autonome et infinie. La
|
||
|
ligible pour une machine. recette de 'Cultiver un arbre' s'inspire de la 'Littérature Définiti-
|
||
|
onnelle', une contrainte inventée par Marcel Benabou en 1966 au sein
|
||
|
de l’Oulipo. Dans une phrase donnée, on remplace chaque élément signi-
|
||
|
ficatif (nom, adjectif, verbe, adverbe) par l'une de ses définitions
|
||
|
dans un dictionnaire donné ; on répète l'opération sur la nouvelle
|
||
|
phrase reçue, et ainsi de suite.
|
||
|
|
||
|
Le dictionnaire utilisé dans cet ouvrage est Wordnet. Wordnet est une
|
||
|
combinaison d'un dictionnaire et d'un thésaurus qui peut être lu par
|
||
|
des machines. Selon Wikipédia, il a été créé dans le Cognitive Science
|
||
|
Laboratory de l'Université de Princeton à partir de 1985.
|
||
|
|
||
|
---
|
||
|
|
||
|
Concept, code & interface : An Mertens & Gijs de Heij
|
||
|
|
||
|
37
|
||
|
% % % % % % % % % % % %% % % % % % % %
|
||
|
% % % % % % %% % %
|
||
|
% % % %% % % %
|
||
|
% % 0 % % % % 0 0 %
|
||
|
% 0 00 0 0 % %
|
||
|
% 0 0 __ __ _ 0
|
||
|
% % 0 / / ___ / /(_)_ ___ __ ___ % 0
|
||
|
% % % / / / _ \ / / | \ \ / / '__/ _ \ %
|
||
|
% % % / /__| __/ / /__| |\ V /| | | __/ %
|
||
|
0 0 % \____/\___| \____/_| \_/ |_| \___|
|
||
|
% % % _ ___ 0 0 0 0 _ 0 %
|
||
|
% % % % % __| | ___ / \___ _ __ ___ __ _(_)_ __
|
||
|
% % % / _` |/ _ \ / /\ / _ \ '_ ` _ \ / _` | | '_ \
|
||
|
% % | (_| | __/ / /_// __/ | | | | | (_| | | | | | %
|
||
|
% % \__,_|\___| /___,' \___|_| |_| |_|\__,_|_|_| |_| %
|
||
|
% % 0 0 _ 0 0
|
||
|
% __| | __ _ _ __ ___ _ _ _ __ 00 0
|
||
|
% % / _` |/ _` | '_ \/ __| | | | | '_ \
|
||
|
% 0 | (_| | (_| | | | \__ \ | |_| | | | | 0
|
||
|
\__,_|\__,_|_| |_|___/ \__,_|_| |_| 0
|
||
|
0 __ 0 0 _ 0 0 %
|
||
|
/ _\ __ _ ___ 0 __| | ___
|
||
|
0 \ \ / _` |/ __| / _` |/ _ \
|
||
|
% % 0 _\ \ (_| | (__ | (_| | __/ 0 0 %
|
||
|
% 0 \__/\__,_|\___| \__,_|\___| 0
|
||
|
% % 0 % 0 _ 0
|
||
|
0 % 0 % /\/\ ___ | |_ ___ 0
|
||
|
0 0 / \ / _ \| __/ __| %
|
||
|
/ /\/\ \ (_) | |_\__ \ 0
|
||
|
\/ \/\___/ \__|___/ 0
|
||
|
0 0 0 00
|
||
|
%
|
||
|
% par Algolit
|
||
|
|
||
|
Le modèle du 'sac de mots' est une représentation simplifiée du
|
||
|
texte utilisé dans le traitement du langage naturel. Dans ce mo-
|
||
|
dèle, un texte est représenté sous forme de collection de mots
|
||
|
% uniques, sans tenir compte de la grammaire, de la ponctuation et
|
||
|
même de l'ordre des mots. Le modèle transforme le texte en une
|
||
|
liste de mots et leur occurrence dans le texte, littéralement un
|
||
|
sac de mots.
|
||
|
|
||
|
Cette forte réduction de la langue fut un choc au début de nos
|
||
|
expériences en apprentissage automatique. Le sac de mots est sou-
|
||
|
% vent utilisé comme référent, sur base duquel le nouveau modèle
|
||
|
doit s’efforcer d’être plus performant. Il peut comprendre le su-
|
||
|
jet d'un texte en reconnaissant les mots les plus fréquents ou
|
||
|
% importants. On mesure souvent les similitudes des textes en com-
|
||
|
parant leurs sacs de mots. %
|
||
|
|
||
|
% Pour cet ouvrage, l'article 'Le Livre de Demain' de l'ingénieur
|
||
|
G. Vander Haeghen, publié en 1907 dans le Bulletin de l'Institut In-
|
||
|
ternational de Bibliographie, a été littéralement réduit à un sac de
|
||
|
mots. Vous pouvez acheter votre exemplaire à l'accueil du Mundaneum.
|
||
|
|
||
|
---
|
||
|
|
||
|
Concept & réalisation: An Mertens
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
38
|
||
|
__ 0 _ 0 0 0
|
||
|
/ / ___ ___| |_ _ _ _ __ ___ ___
|
||
|
/ / / _ \/ __| __| | | | '__/ _ \/ __|
|
||
|
% %% % % % %% % / /__| __/ (__| |_| |_| | | | __/\__ \ %% % % %%
|
||
|
% % %% % 0 \____/\___|\___|\__|\__,_|_| \___||___/ %% % %
|
||
|
% % % % % %% _ % 0 % _ _ _ 0 % %
|
||
|
% % % % % % __ _| | __ _ ___ _ __(_) |_| |__ % %
|
||
|
% % / _` | |/ _` |/ _ \| '__| | __| '_ \ % ____
|
||
|
% | (_| | | (_| | (_) | | | | |_| | | | /___/ %
|
||
|
% % \__,_|_|\__, |\___/|_| |_|\__|_| |_| %
|
||
|
% % % % |___/ % % % 0 _ % %
|
||
|
% _ __ ___ (_) __ _ _ _ ___ ___ __| |_ _ % 0
|
||
|
% | '_ ` _ \| |/ _` || | | |/ _ \/ __| / _` | | | | 0 %
|
||
|
| | | | | | | (_| || |_| | __/\__ \ | (_| | |_| | 0 0
|
||
|
|_| |_| |_|_|\__, | \__,_|\___||___/ \__,_|\__,_|
|
||
|
% % % |_| _ 0 _ _ % %
|
||
|
% 0 % _ __ ___ _ __| |_ _ __ __ _(_) |_ 0 %
|
||
|
% 0 | '_ \ / _ \| '__| __| '__/ _` | | __|
|
||
|
% % 0 0 | |_) | (_) | | | |_| | | (_| | | |_ 0 0
|
||
|
0 0 | .__/ \___/|_| \__|_| \__,_|_|\__|
|
||
|
0 |_| % 0 _ _ %
|
||
|
% % _ __ 0 __ _ _ __| | ___ __| | ___ 0
|
||
|
| '_ \ / _` | '__| |/ _ \ / _` |/ _ \ 0
|
||
|
| |_) | (_| | | | | __/ | (_| | __/ %
|
||
|
0 | .__/ \__,_|_| |_|\___| \__,_|\___|
|
||
|
% % |_|__ 0 _ _ 0 _ 0 0 0
|
||
|
0 / __\ ___ _ __| |_(_) | | ___ _ __
|
||
|
0 /__\/// _ \ '__| __| | | |/ _ \| '_ \ 0
|
||
|
/ \/ \ __/ | | |_| | | | (_) | | | | 0 0
|
||
|
0 \_____/\___|_| \__|_|_|_|\___/|_| |_| 0 0 %
|
||
|
0 0 0
|
||
|
|
||
|
% par Guillaume Slizewicz (Espèces urbaines)
|
||
|
%
|
||
|
'Un code télégraphique du portrait parlé', écrit en 1907, est une
|
||
|
% tentative de traduire en chiffres le 'portrait parlé', technique
|
||
|
de description du visage créée par Alphonse Bertillon, créateur
|
||
|
de l'anthropométrie judiciaire. En appliquant ce code, Otlet es-
|
||
|
pérait que les visages des criminels et des fugitifs pourraient
|
||
|
être facilement communiqués par voie télégraphique. Dans sa for-
|
||
|
me, son contenu et son ambition, ce texte représente la relation
|
||
|
% complexe que nous entretenons avec les technologies documen-
|
||
|
taires. Ce document a été choisi comme base pour la création des
|
||
|
installations suivantes pour trois raisons.
|
||
|
|
||
|
- Premièrement, ce texte est un algorithme en soi, un algorithme
|
||
|
de compression, ou pour être plus précis, la présentation d'un
|
||
|
algorithme de compression. Il tente de réduire la taille de l'in-
|
||
|
formation tout en la gardant lisible pour la personne possédant
|
||
|
le code. À cet égard, elle est étroitement liée à la façon dont
|
||
|
nous créons notre technologie, à la recherche d'une plus grande
|
||
|
efficacité, de résultats plus rapides et de méthodes moins coû-
|
||
|
teuses. Il représente notre appétit de chiffrement qui s'étend au
|
||
|
monde entier, notre envie de mesurer les plus petites choses,
|
||
|
d'étiqueter les différences les plus infimes... Ce texte incarne
|
||
|
en lui-même la vision du Mundaneum.
|
||
|
|
||
|
- Deuxièmement, on y traite des raisons et des mises en œuvre de
|
||
|
nos technologies. La présence de ce texte dans les archives sé-
|
||
|
lectionnées est presque ironique à une époque où la reconnais-
|
||
|
sance faciale et la surveillance des données font la une des
|
||
|
journaux. Ce texte présente les mêmes caractéristiques que cer-
|
||
|
taines technologies d'aujourd'hui : il est motivé par un contrôle
|
||
|
social, classifie les personnes, pose les bases d'une société de
|
||
|
surveillance. Les caractéristiques physionomiques sont au cœur de
|
||
|
récentes controverses : les photos d'identité ont été standardi-
|
||
|
sées par Bertillon, elles sont maintenant utilisées pour entraî-
|
||
|
ner des réseau neuronaux à identifier les criminels, les systèmes
|
||
|
|
||
|
39
|
||
|
de reconnaissance faciale permettent des arrestations via notre
|
||
|
% % % %% % % % % % %% infrastructure de caméras de surveillance et certains affirment que
|
||
|
% % % % % % % % les caractéristiques physiques peuvent prédire l'orientation sexuelle.
|
||
|
% % % % % % % % % % % % %
|
||
|
% % % % - Le dernier point concerne la façon dont, en tant que témoignage
|
||
|
% % écrit, ce texte représente l'évolution de notre techno-structure:
|
||
|
% %% % % % % ce que nos outils nous permettent de faire, ce qu'ils nous inter-
|
||
|
% % disent, ce qu'ils entravent, ce qu'ils nous font retenir et ce
|
||
|
% % qu'ils nous font oublier. Ce document permet une classification
|
||
|
% entre les personnes, et instaure une normalité. Il brise un % %
|
||
|
% continuum en morceaux, et permet les stigmatisations et les dis- %
|
||
|
% % criminations. D'un autre côté, ce document semble également obso-
|
||
|
% lète aujourd'hui, car cette techno-structure n'a pas besoin de
|
||
|
% % descriptions écrites aussi détaillées sur les fugitifs, les cri-
|
||
|
% % minels ou les citoyens. Nous pouvons maintenant trouver des em-
|
||
|
preintes digitales, des scanners d'iris ou des informations ADN
|
||
|
% dans de grands jeux de données et les comparer directement. Par-
|
||
|
fois, les systèmes agissent indépendamment, sans surveillance hu-
|
||
|
maine et reconnaissent directement l'identité d'une personne par
|
||
|
ses traits faciaux ou sa démarche. Ces machines n'utilisent pas
|
||
|
un langage alphabétique complexe pour décrire un visage, mais des
|
||
|
% listes de chiffres. Ainsi, tous les mots utilisés dans ce docu-
|
||
|
ment semblent désuets, datés. Avons-nous oublié ce que certains
|
||
|
d'entre eux signifient ? La photographie nous a-t-elle fait ou-
|
||
|
blier comment décrire les visages ? Les assistants vocaux nous
|
||
|
l'apprendront-il de nouveau ?
|
||
|
% %
|
||
|
Écrire avec Otlet
|
||
|
|
||
|
Ecrire avec Otlet est un générateur de personnages qui utilise le
|
||
|
code du portrait parlé comme base de données. Des nombres aléa-
|
||
|
toires sont générés et traduits en un ensemble de caractéris-
|
||
|
tiques humaines. En créant des instances uniques, l'algorithme
|
||
|
révèle la richesse de la description qui est possible avec 'Un
|
||
|
code du portrait' tout en incorporant ses nuances.
|
||
|
|
||
|
Interprétation du portrait parlé de Bertillon
|
||
|
%
|
||
|
Ce travail établit un parallèle entre le système dit de "Ber-
|
||
|
tillonage" et les systèmes actuels de description de visage. Une
|
||
|
% webcam associée à un algorithme de reconnaissance faciale capte
|
||
|
le visage du spectateur et le traduit en chiffres sur un écran,
|
||
|
en l'imprimant à côté des visages annotés par Bertillon.
|
||
|
%
|
||
|
00 0 0
|
||
|
0 0 0 000 0
|
||
|
0 % __ 0 _
|
||
|
/ / ___ _ __ ___ _ __ __| |_ _
|
||
|
% / / / _ \ | '_ \ / _ \ '_ \ / _` | | | | %
|
||
|
/ /__| __/ | |_) | __/ | | | (_| | |_| |
|
||
|
0 \____/\___| | .__/ \___|_| |_|\__,_|\__,_| 0
|
||
|
% |_| 0 0 0 0 0
|
||
|
00 0
|
||
|
par Laetitia Trozzi, étudiante Arts²/Section Arts Numériques %
|
||
|
%
|
||
|
Quoi de mieux pour découvrir Paul Otlet et sa passion pour la
|
||
|
littérature que de jouer au pendu? À travers ce jeu simple, qui
|
||
|
consiste à deviner les lettres manquantes dans un mot, le but est
|
||
|
de faire découvrir au public des termes et des faits liés à un
|
||
|
% des créateurs du mundaneum.
|
||
|
|
||
|
En utilisant un algorithme de détection de fréquence de mots dans
|
||
|
un texte, une série de mots significatifs ont été isolés dans la
|
||
|
bibliographie de Paul Otlet. Cette série de mots a ensuite été
|
||
|
intégrée à un jeu du pendu présenté dans un terminal. La diffi-
|
||
|
culté du jeu augmente graduellement en proposant au joueur des
|
||
|
mots de plus en plus longs. Durant les phases de jeux, des infor-
|
||
|
mations sont affichées en lien avec la vie et l'œuvre de Paul Otlet.
|
||
|
|
||
|
40
|
||
|
RÉCITS CONTEXTUALISÉS
|
||
|
AUTOUR DES LECTEURS
|
||
|
|
||
|
|
||
|
|
||
|
Naive Bayes, Support Vector Machines ou Régression lettre de suicide a été écrite par quelqu'un
|
||
|
Linéaire sont considérés comme des algorithmes d'autre.
|
||
|
classiques d'apprentissage automatique. Ils fonc-
|
||
|
tionnent bien lorsqu'ils apprennent avec de petits Comment une machine analyse-t-elle les textes pour
|
||
|
jeux de données. Mais ils nécessitent souvent des vous identifier ? La caractéristique la plus ro-
|
||
|
lecteurs complexes. La tâche accomplie par les buste pour la reconnaissance de l'auteur est four-
|
||
|
lecteurs est également appelée 'feature enginee- nie par la technique des N-grammes de caractères.
|
||
|
ring'. Cela signifie qu'un être humain doit consa- Elle est utilisée dans des cas qui présentent une
|
||
|
crer du temps à une analyse exploratoire approfon- grande variété dans les thématiques et les genres
|
||
|
die du jeu de données. d’écriture. Lors de l'utilisation des N-grammes de
|
||
|
caractères, les textes sont considérés comme des
|
||
|
Leurs caractéristiques peuvent être la fréquence séquences de caractères. Considérons le trigramme
|
||
|
des mots ou des lettres, mais aussi des éléments des caractères. Toutes les séquences de trois ca-
|
||
|
syntaxiques comme les noms, les adjectifs ou les ractères qui se chevauchent sont isolées. Par
|
||
|
verbes. Les caractéristiques les plus importantes exemple, le trigramme de caractères de 'suicide',
|
||
|
pour la tâche à résoudre doivent être soigneuse- serait, 'sui', 'uic', 'ici', 'cid' et 'ide'. Les
|
||
|
ment sélectionnées et transmises à l'algorithme N-grammes de caractères sont très simples, ils
|
||
|
classique d'apprentissage automatique. Ce proces- sont indépendants du langage et tolérants au
|
||
|
sus diffère de celui des réseaux de neurones. Lors bruit. De plus, les fautes d'orthographe ne com-
|
||
|
de l'utilisation d'un réseau de neurones, il n'est promettent pas la technique.
|
||
|
pas nécessaire de recourir au 'feature enginee-
|
||
|
ring'. Les humains peuvent transmettre les données Les motifs trouvés avec les N-grammes de carac-
|
||
|
directement au réseau et obtiennent généralement tères se concentrent sur les choix stylistiques
|
||
|
de bonnes performances dès le départ. Cela permet qui sont faits inconsciemment par l'auteur. Les
|
||
|
d'économiser beaucoup de temps et de ressources. modèles restent stables sur toute la longueur du
|
||
|
texte, ce qui est important pour reconnaître l’au-
|
||
|
L'inconvénient de la collaboration avec les ré- teur. D'autres types d'expériences pourraient in-
|
||
|
seaux de neurones est que vous avez besoin de clure la longueur des mots ou des phrases, la ri-
|
||
|
beaucoup plus de données pour entraîner votre mo- chesse du vocabulaire, la fréquence des mots de
|
||
|
dèle de prédiction. Pensez à au moins 1 Go de fi- fonction et même les mesures syntaxiques ou séman-
|
||
|
chiers texte. Pour vous donner une référence, 1 tiques.
|
||
|
A4, soit un fichier texte de 5000 caractères, ne
|
||
|
pèse que 5 Ko. Il vous faudrait donc 8.589.934 Cela signifie non seulement que votre empreinte
|
||
|
pages. Traiter plus de données sous-entend d'avoir physique est unique, mais qu’il en va de même de
|
||
|
accès à ces données et surtout, d'avoir beaucoup la façon dont vous composez vos pensées !
|
||
|
plus de puissance de traitement.
|
||
|
La même technique n-gramme a découvert que 'The
|
||
|
Cuckoo's Calling', un roman de Robert Galbraith, a
|
||
|
--- Les N-grammes de caractères pour la reconnais- en fait été écrit par... J.K. Rowling !
|
||
|
sance d'un auteur ---
|
||
|
Références :
|
||
|
Imaginez... vous travaillez pour une entreprise - Essai: On the Robustness of Authorship Attribu-
|
||
|
depuis plus de dix ans. Vous avez écrit des tonnes tion Based on Character N-gram Features, Efsta-
|
||
|
de courriels, d'articles, de notes internes et de thios Stamatatos, in Journal of Law & Policy, Vo-
|
||
|
rapports sur des sujets et dans des genres très lume 21, Issue 2, 2013.
|
||
|
différents. Tous vos écrits, ainsi que ceux de vos - Article: https://www.scientificamerican.com/ar-
|
||
|
collègues, sont sauvegardés en toute sécurité sur ticle/how-a-computer-program-helped-show-jk-row-
|
||
|
les serveurs de l'entreprise. ling-write-a-cuckoos-calling/
|
||
|
|
||
|
Un jour, vous tombez amoureuse d'une collègue.
|
||
|
Après un certain temps, vous réalisez que cette --- Histoire des N-grammes ---
|
||
|
personne est non seulement folle et hystérique
|
||
|
mais qu'elle dépend beaucoup de vous. Le jour où L'algorithme des N-grammes peut être retracé jus-
|
||
|
vous décidez de rompre, votre ex élabore un plan qu'aux travaux de Claude Shannon en théorie de
|
||
|
pour vous tuer. Elle réussit. Pas de chance. Une l'information. Dans l'article 'A mathematical
|
||
|
lettre de suicide signée de votre nom est retrou- theory of communication', publié en 1948, Claude
|
||
|
vée à côté de votre cadavre. Celle-ci raconte que Shannon réalise la première instance d'un modèle
|
||
|
vous avez décidé de mettre fin à votre vie à cause de langage naturel à base des N-grammes. Il a posé
|
||
|
de problèmes émotionnels. Vos meilleurs amis ne la question suivante : étant donné la séquence des
|
||
|
croient pas au suicide. Ils décident de porter lettres, quelle est la probabilité de la prochaine
|
||
|
l'affaire devant les tribunaux. Et là, à partir lettre ? Si vous lisez l'extrait suivant, pouvez-
|
||
|
des textes que vous et d'autres avez produits, un vous nous dire par qui il a été écrit ? Shakespeare
|
||
|
modèle d'apprentissage automatique révèle que la ou un robot N-grammes ?
|
||
|
|
||
|
41
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
SEBASTIEN : Dois-je rester debout pliquer un mouvement boursier basé sur d'autres
|
||
|
jusqu'à la rupture. facteurs que les facteurs purement économiques. La
|
||
|
BIRON : Cache ta tête. Bourse et 'l'opinion publique' s'influencent mu-
|
||
|
VENTIDIUS : Il se rendit à Athènes, où, par le tuellement. De nombreuses recherches sont effec-
|
||
|
voeu. que j'ai fait pour m'occuper de toi. tuées sur la façon d'utiliser 'l'opinion publique'
|
||
|
FALSTAFF : Mon bon fripouille. pour prédire les tendances dans le cours des actions.
|
||
|
|
||
|
Vous aviez peut-être deviné, en considérant le su- 'L'opinion publique' est évaluée à partir de
|
||
|
jet de ce récit, qu'un algorithme N-grammes a gé- grandes quantités de données publiques, comme les
|
||
|
néré ce texte. Le modèle est entraîné sur l'oeuvre tweets, les blogs ou la presse en ligne. Des re-
|
||
|
complète de Shakespeare. Alors que les algorithmes cherches montrent que l'évolution des cours bour-
|
||
|
plus récents, tels que les réseaux de neurones ré- siers peut, dans une certaine mesure, être prédit
|
||
|
cursifs de CharRNN, deviennent célèbres pour leurs en examinant 'l'opinion publique' à travers l'ana-
|
||
|
performances, les N-grammes exécutent encore beau- lyse des données automatique. On trouve de nom-
|
||
|
coup de tâches NLP. Elles sont utilisés dans la breux articles scientifiques en ligne, qui ana-
|
||
|
traduction automatique, la reconnaissance vocale, lysent la presse sur le 'sentiment' qui y est ex-
|
||
|
la correction orthographique, la détection d'enti- primé. Un article peut être annoté comme plus ou
|
||
|
tés, l'extraction d'informations, etc. moins positif ou négatif. Les articles de presse
|
||
|
annotés sont ensuite utilisés pour entraîner un
|
||
|
Référence : http://www.math.harvard.edu/~ctm/ho- modèle d’apprentissage automatique, qui permet de
|
||
|
me/text/others/shannon/entropy/entropy.pdf prédire les tendances boursières, en les marquant
|
||
|
comme 'à la baisse' ou 'à la hausse'. Quand une
|
||
|
entreprise fait mauvaise presse, les traders
|
||
|
--- Dieu dans Google Books --- vendent. Au contraire, si les nouvelles sont bon-
|
||
|
nes, ils achètent.
|
||
|
En 2006, Google crée un jeu de données de N-
|
||
|
grammes à partir de sa collection de livres numé- Un article de Haikuan Liu de l'Université Natio-
|
||
|
risés pour le mettre en ligne. Récemment, ils ont nale Australienne affirme que le temps des verbes
|
||
|
également réalisé une visionneuse de N-grammes. utilisés dans les tweets peut être un indicateur
|
||
|
Cela a permis de nombreuses recherches sociolin- de la fréquence des transactions financières. Son
|
||
|
guistiques. Par exemple, en octobre 2018, le New idée s'inspire du fait que la conjugaison des
|
||
|
York Times Magazine a publié un article d'opinion verbes est utilisée en psychologie pour détecter
|
||
|
intitulé 'It's Getting Harder to Talk About God'. les premiers stades de la dépression humaine.
|
||
|
L'auteur, Jonathan Merritt, avait analysé la men-
|
||
|
tion du mot 'Dieu' dans le jeu de données de Référence : Grammatical Feature Extraction and
|
||
|
Google à l'aide du visualiseur de N-grammes. Analysis of Tweet Text: An Application towards
|
||
|
Il a conclu qu'il y a eu un déclin dans l'usage du Predicting Stock Trends, The Australian National
|
||
|
mot depuis le 20ème siècle. Le corpus de Google University (ANU)
|
||
|
contient des textes du 16e jusqu'au 21e siècle.
|
||
|
Cependant l'auteur a manqué d'observer la popula-
|
||
|
rité croissante des revues scientifiques vers le --- Sac de mots ---
|
||
|
début du 20ème siècle. Ce nouveau genre, dans le-
|
||
|
quel le mot Dieu n'apparaît pas, a fait basculer Dans le traitement du langage naturel, le 'sac de
|
||
|
le jeu des données. Si la littérature scientifique mots' est considéré comme un modèle simple. Il dé-
|
||
|
était retirée du corpus, la fréquence du mot pouille un texte de son contexte et le décompose
|
||
|
'Dieu' s'écoulerait toujours comme l'ondulation dans sa collection de mots uniques. Ensuite, ces
|
||
|
douce d'une vague lointaine. mots sont comptés. Dans les phrases précédentes,
|
||
|
par exemple, le mot 'mots' est mentionné trois
|
||
|
Référence : https://www.nytimes.com/2018/10/13/ fois, mais ce n'est pas nécessairement un indica-
|
||
|
opinion/sunday/talk-god-sprituality-christian.html teur de l'objet du texte.
|
||
|
|
||
|
La première apparition de l'expression 'sac de
|
||
|
--- Les traits grammaticaux extraits mots' semble remonter à 1954. Zellig Harris a pu-
|
||
|
de Twitter influencent le marché boursier --- blié un article dans le contexte des études lin-
|
||
|
guistiques, intitulé 'Distributional Structure'.
|
||
|
Les frontières entre les disciplines académiques Dans la partie intitulée 'Le sens en fonction de
|
||
|
s'estompent. La recherche économique mélangée à la la distribution', il dit que 'le langage n'est pas
|
||
|
psychologie, aux sciences sociales, aux concepts seulement un sac de mots, mais aussi un outil aux
|
||
|
cognitifs et émotionnels créent un nouveau sous- propriétés particulières qui ont été façonnées au
|
||
|
domaine économique, appelé 'l'économie comporte- cours de son utilisation. Le travail du linguiste
|
||
|
mentale'. est précisément de découvrir ces propriétés, que
|
||
|
ce soit pour l'analyse descriptive ou pour la syn-
|
||
|
Cela signifie que les chercheurs commencent à ex- thèse du système quasi-linguistique.'
|
||
|
|
||
|
42
|
||
|
learners learn learners learn learners learn learners learn learners learn learners learn
|
||
|
learners learn learners learn learners learn learners learn learners learn
|
||
|
learners learn learners learn learners learn learners learn
|
||
|
learners learn learners learn learners learn
|
||
|
learners learn learners learn learners learn lea
|
||
|
ners learn learners learn learners learn
|
||
|
learners learn learners learn learners learn
|
||
|
learners learn learners learn learners
|
||
|
earn learners learn learners learn
|
||
|
learners learn learners learn
|
||
|
learners learn learners learn lea
|
||
|
ners learn learners learn learners
|
||
|
learn learners learn learners
|
||
|
earn learners learn learne
|
||
|
s learn learners learn
|
||
|
learners learn learners learn
|
||
|
learners learn learners learn
|
||
|
learners learn learners learn
|
||
|
learners learn
|
||
|
learners learn learners learn
|
||
|
learners learn learners learn
|
||
|
learners learn
|
||
|
learners learn learners learn
|
||
|
learners learn
|
||
|
learners learn learners learn
|
||
|
learners learn
|
||
|
learners learn learners
|
||
|
learn learners learn
|
||
|
learners learn
|
||
|
learners learn learners learn
|
||
|
learners learn
|
||
|
learners learn
|
||
|
learners learn learners
|
||
|
learn learners learn
|
||
|
learners learn
|
||
|
learners learn
|
||
|
learners learn lea
|
||
|
ners learn learners learn
|
||
|
learners learn
|
||
|
learners learn
|
||
|
learners learn
|
||
|
learners learn
|
||
|
learners learn
|
||
|
learners learn learners
|
||
|
earn learners learn
|
||
|
learners learn
|
||
|
learners learn
|
||
|
learners learn
|
||
|
learners learn
|
||
|
learners learn
|
||
|
learners learn
|
||
|
learners learn
|
||
|
learners learn
|
||
|
learners learn
|
||
|
learners learn
|
||
|
learners learn
|
||
|
learners learn
|
||
|
learners learn
|
||
|
learners learn
|
||
|
learners learn
|
||
|
learners learn
|
||
|
learners learn
|
||
|
learners learn
|
||
|
learners learn
|
||
|
learners learn
|
||
|
learners learn
|
||
|
learners learn
|
||
|
learners learn
|
||
|
learners learn
|
||
|
43
|
||
|
c us 'l8 t n | d c ri i s +-+-+-+-+-+-+-+-+ o +-+-+-+-+-+ 3ini sst5 dl e or%tu ed5 u_
|
||
|
u1u t r éa n 86 Mi V |l|e|a|r|n|e|r|s| |l|e|a|r|n| / nV 8 r _ u s 9e 5mn ieo
|
||
|
a i8- | 3 se7 |s dtr +-+-+-+-+-+-+-+-+ iT +-+-+-+-+-+ 9l l o é e e r | _ _ ve- e
|
||
|
f ym it 1es3 63 d 9s5ue8 | s / , ,4 7 asr 9 d % 6sd il43 23 G |r o9c n % Dm u
|
||
|
i db o /mé eev oeut r +5o e s v9c + 7r i a 3 lii| p f H1 oo y L n7 eu
|
||
|
s + -0 i _ean, rsm 0 +-+-+-+-+-+-+-+-+ s +-+-+-+ +-+-+-+-+-+-+-+ i qua u utn i + + l e
|
||
|
i_ t l 3 b% 7 éo s fn |l|e|a|r|n|e|r|s| r. |a|r|e| |p|a|t|t|e|r|n| rld 3s o l to N ,A 1 s
|
||
|
e s v l c ud ri5o +-+-+-+-+-+-+-+-+ e +-+-+-+ +-+-+-+-+-+-+-+ %9e-am | e e l
|
||
|
rea r- 36 1- r u . 4 --é e `t i +-+-+-+-+-+-+-+ t c e a srn 9p 8 3 fm
|
||
|
eg u% 1k 6d g r- e s2 |f|i|n|d|e|r|s| , I u_o t s it n 8d d e
|
||
|
5,e - 9 et 2 A o 2e - e ae r l e +-+-+-+-+-+-+-+ % n u +pa+ un8ne r
|
||
|
- r a ,n _ng |e r fhs +-+-+-+-+-+-+-+-+ 2 +-+-+-+ +-+-+-+-+-+-+-+-+ e j hlqi n oae c7 r
|
||
|
6 t 9 % r e 6n ei enn |l|e|a|r|n|e|r|s| /i |a|r|e| |c|r|a|w|l|i|n|g| e 68 t 2c+ y t
|
||
|
5 u , 4 u e t e +-+-+-+-+-+-+-+-+ a +-+-+-+ +-+-+-+-+-+-+-+-+ 6 n c5 b u45i u t| n
|
||
|
_ 7 i e l a 1 A78 it t +-+-+-+-+-+-+-+ +-+-+-+-+ 2 iid d ,a éc
|
||
|
O n %t/ / h 4 r i6 7 sna p s |t|h|r|o|u|g|h| |d|a|t|a| e V lauae9n 5 9 l1
|
||
|
e é Iho e t c t3 e 1 7 m ndm . 2 +-+-+-+-+-+-+-+ +-+-+-+-+ i ea s n p n c2 is
|
||
|
|\ 5 6 / ac r4 o +-+-+-+-+-+-+-+-+ -ad6 +-+-+-+-+-+-+-+-+ +-+-+-+-+ +-+-+-+-+ e3 cv 8
|
||
|
s u% - t e 1 3o |l|e|a|r|n|e|r|s| e m |g|e|n|e|r|a|t|e| |s|o|m|e| |k|i|n|d| t L
|
||
|
s 4rr s t - us l +-+-+-+-+-+-+-+-+ / | +-+-+-+-+-+-+-+-+ +-+-+-+-+ +-+-+-+-+ ae r
|
||
|
g '- ê u u 2 -4 48 9s +-+-+ +-+-+-+-+-+-+-+-+ m s +i 39 +7p o - di
|
||
|
o t2 4 e l a os b i o |o|f| |s|p|e|c|i|f|i|c| f -p e e 24 7 e
|
||
|
r -e o lr 3i dh t t C o +-+-+ +-+-+-+-+-+-+-+-+ ee3 r 4 r | i nd
|
||
|
id ei t e 7m 6 g t p + é e e +-+-+-+-+-+-+-+-+-+ s _ a n i i l t w ' o
|
||
|
r c 7 s_- l ea t ' - |'|g|r|a|m|m|a|r|'| o 0 t 1 u n uf -
|
||
|
teu| c_n e o5 e e % d+ re 5 t +-+-+-+-+-+-+-+-+-+ n s o etps r m a iu a
|
||
|
r u s 5 +-+-+-+-+-+-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+ 2ain d%
|
||
|
p 7,s0 .e e 1r gt _ |c|l|a|s|s|i|f|i|e|r|s| ir |g|e|n|e|r|a|t|e|,| |e|v|a|l|u|a|t|e| ê sa, g
|
||
|
te ( i m e + +-+-+-+-+-+-+-+-+-+-+-+ a +-+-+-+-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+ es a _ s
|
||
|
e dr p ' o U + p' +-+-+-+ +-+-+-+-+-+-+-+-+ l o n8 - r 8
|
||
|
r6 o é s re eA a s r' n c t 5 |a|n|d| |r|e|a|d|j|u|s|t| o u r + n2o t o
|
||
|
t % 4 iinu g 4 7s p u u- e 7 +-+-+-+ +-+-+-+-+-+-+-+-+ ' u tn + - e
|
||
|
l/ v 2 ni 2 a +-+-+-+-+-+-+-+-+ u +-+-+-+-+-+-+-+-+-+-+ +-+-+-+ 35 8 _ p
|
||
|
_ %o dh 9 ee i s |l|e|a|r|n|e|r|s| 3a |u|n|d|e|r|s|t|a|n|d| |a|n|d| s ee c i %
|
||
|
m qra st +-+-+-+-+-+-+-+-+ h +-+-+-+-+-+-+-+-+-+-+ +-+-+-+ d+ g a n
|
||
|
p s eh . t r - d si r-i i +-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+ n 6 9 r
|
||
|
s e i i 2 t t ae i |r|e|v|e|a|l| |p|a|t|t|e|r|n|s| m e ' eg
|
||
|
e i - tB i \m t +-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+ 1 t e 45
|
||
|
5 s u iee i i ,l 7t +-+-+-+-+-+-+-+-+ +-+-+-+-+-+ +-+-+-+-+-+-+ 43 l u .a d r
|
||
|
n 59n e l w 8a |l|e|a|r|n|e|r|s| 8 |d|o|n|'|t| |a|l|w|a|y|s| l i i d r
|
||
|
l è p m r 0 i +-+-+-+-+-+-+-+-+ % +-+-+-+-+-+ +-+-+-+-+-+-+ 4 i ee t 5
|
||
|
m -8 p t a O en v6 +-+-+-+-+-+-+-+-+-+-+-+-+ +-+-+-+-+ p é t
|
||
|
i 2 '4 uf e c l t |d|i|s|t|u|i|n|g|u|i|s|h| |w|e|l|l| m l e+
|
||
|
di ' y 9 r +-+-+-+-+-+-+-+-+-+-+-+-+ +-+-+-+-+ z 1 - d
|
||
|
n5 de . e 2 r _ +-+-+-+-+-+ +-+-+-+-+-+-+-+-+ 6 t f d
|
||
|
_ , 2 l csi d |w|h|i|c|h| |p|a|t|t|e|r|n|s| r i a.
|
||
|
v a l 9 i s 9 sk +-+-+-+-+-+ +-+-+-+-+-+-+-+-+ 3 a
|
||
|
l | 9 al +-+-+-+-+-+-+ +-+-+ +-+-+-+-+-+-+-+-+ hsé
|
||
|
3 e s r A e s 9 r |s|h|o|u|l|d| |b|e| |r|e|p|e|a|t|e|d| i i
|
||
|
r u ue I C _ 4 m +-+-+-+-+-+-+ +-+-+ +-+-+-+-+-+-+-+-+ +
|
||
|
e n i v 6s e /a 5 7C r _
|
||
|
a r 1 t r V e r i e nu l n ' r64
|
||
|
l e ei a _ 6 e t n s
|
||
|
roe l e 2 6e n a 9
|
||
|
o g . e - /q Z m 7 .1 1 |n . q 8 9p s7
|
||
|
h o u fe 6 r n a ê n 5 4
|
||
|
- nn n i u . r dt | r t 4V
|
||
|
9 7 n l s e - i 9n 9
|
||
|
4 n m 8 r n a_ 4
|
||
|
1 s b , ui + % e \ e e s
|
||
|
s | _ 0 i il s a
|
||
|
6e a + e d 9 p t a t
|
||
|
e e ' r i 9 t 9 _ n i s
|
||
|
- n r s7 s e 9 m +
|
||
|
è e Q 8e . t s5 eo t c b ' 1
|
||
|
% 0 s _ b n n 4
|
||
|
% v e ' it 2 r u
|
||
|
o r pu p r
|
||
|
|
||
|
44
|
||
|
V V V V V V V V % %% % % % % % % % % % % % % %
|
||
|
V V V V V V V V V V V V V V V V % %%% % 0 %% % 0 0 %% %%
|
||
|
V V V % V V V V V V % % % 0 __ 0 % % % %% % % % %
|
||
|
% % % 0 %% 0 \ \ ___ _ _ ___ ____ __ _ _ _ % %
|
||
|
%% % % % % 0 \ \/ _ \| | | |/ _ \_ / / _` | | | | %
|
||
|
% APPRENANTS 0 /\_/ / (_) | |_| | __// / | (_| | |_| | 0 %
|
||
|
% % % % \___/ \___/ \__,_|\___/___| \__,_|\__,_|
|
||
|
V V V V V V V V % % __ _ 0 %%% %
|
||
|
V V V V V V V V V V V V V V V V 0 % /\ \ \__ _(_)_ _____ % 0 %
|
||
|
V V V V V V V V V / \/ / _` | \ \ / / _ \ 0 %
|
||
|
V V V V V V V V % / /\ / (_| | |\ V / __/ 0 0
|
||
|
V V V V V V V V V V V V V V V V 0 \_\ \/ \__,_|_| \_/ \___| % %
|
||
|
V V V V V V V V V 0 0 ___ 0 0 0 %
|
||
|
/ __\ __ _ _ _ ___ ___ 0 0 00
|
||
|
Les Apprenants sont les algorithmes 0 /__\/// _` | | | |/ _ \/ __| %
|
||
|
qui distinguent les pratiques d'ap- 0 / \/ \ (_| | |_| | __/\__ \ %
|
||
|
prentissage automatique des autres 0 \_____/\__,_|\__, |\___||___/ 0
|
||
|
pratiques algorithmiques. Les Ap- % 0 % % |___/ 0 0 0 %
|
||
|
prenants sont aussi appelés classi- 0 0 0 0 0 0
|
||
|
ficateurs. Ce sont des chercheurs
|
||
|
de motifs, capables de fouiller par Algolit %
|
||
|
dans les données et de générer une % %
|
||
|
sorte de 'grammaire' spécifique. Dans l'apprentissage automatique, les méthodes Naive Bayes sont
|
||
|
Les Apprenants sont souvent basés des classificateurs probabilistes simples qui sont largement uti-
|
||
|
sur des techniques statistiques. lisés pour filtrer le spam et décider si un texte est positif ou
|
||
|
Chacun d'entre eux présente des ca- négatif.
|
||
|
ractéristiques individuelles. Cer-
|
||
|
tains ont besoin d'une grande quan- Ils nécessitent une petite quantité de données d'entraînement
|
||
|
tité de données d'entraînement pour pour estimer les paramètres nécessaires. Ils peuvent être extrê-
|
||
|
fonctionner, d'autres peuvent s'en mement rapides par rapport à des méthodes plus sophistiquées. Ils
|
||
|
tirer avec un petit jeu de données sont difficiles à généraliser, ce qui signifie qu'ils exécutent
|
||
|
annotées. Certains s'acquittent des tâches très spécifiques, exigeant d'être entraînés avec le
|
||
|
bien de tâches de classification, même style de données que celui qui sera utilisé par la suite.
|
||
|
comme l'identification des spam,
|
||
|
d'autres sont plus aptes à prédire Ce jeu vous permet de jouer selon les règles de Naive Bayes. Tout
|
||
|
les chiffres, comme les températu- en exécutant manuellement le code, vous créez votre propre modèle
|
||
|
res, les distances, les valeurs ludique qui 'fonctionne'. Un peu de prudence s'impose : parce que
|
||
|
boursières, et ainsi de suite. vous ne l'entraînez qu'en 6 phrases - au lieu de 2000 au minimum
|
||
|
- il n'est pas représentatif du tout !
|
||
|
La terminologie de l'apprentissage
|
||
|
automatique n'est pas encore com- ---
|
||
|
plètement établie. Selon le domaine
|
||
|
(les statistiques, l'informatique Concept & réalisation: An Mertens
|
||
|
ou les sciences humaines) ils sont
|
||
|
appelés par des mots différents.
|
||
|
Lorsque nous parlons d’Apprenants,
|
||
|
nous parlons des fonctions imbri-
|
||
|
quées qui ont la capacité de géné-
|
||
|
rer d'autres fonctions, de les éva-
|
||
|
luer et de les réajuster en fonc-
|
||
|
tion des données. Les Apprenants
|
||
|
sont bons pour comprendre et révé-
|
||
|
ler les motifs. Mais ils ne dis-
|
||
|
tinguent pas toujours bien quels
|
||
|
motifs doivent être répétés.
|
||
|
|
||
|
Dans les logiciels, il n'est pas
|
||
|
toujours possible de distinguer les
|
||
|
éléments caractéristiques des clas-
|
||
|
sificateurs, car ils sont cachés
|
||
|
dans des modules ou bibliothèques
|
||
|
sous-jacents. Les programmeurs
|
||
|
peuvent les invoquer en utilisant
|
||
|
une seule ligne de code. Par consé-
|
||
|
quent, pour cette exposition, nous
|
||
|
avons développé deux jeux de table
|
||
|
qui montrent en détail le processus
|
||
|
d'apprentissage de classificateurs
|
||
|
simples, mais fréquemment utilisés.
|
||
|
45
|
||
|
0 0
|
||
|
0 0 0
|
||
|
__ 0 __ 0 _
|
||
|
\ \ ___ _ _ ___ ____ \_\_ | | __ _
|
||
|
\ \/ _ \| | | |/ _ \_ / / _` | | |/ _` |
|
||
|
/\_/ / (_) | |_| | __// / | (_| | | | (_| |
|
||
|
\___/ \___/ \__,_|\___/___| \__,_| |_|\__,_|
|
||
|
__ __ 0 _
|
||
|
/__\ _/_/ __ _ _ __ ___ ___ ___(_) ___ _ __
|
||
|
/ \/// _ \/ _` | '__/ _ \/ __/ __| |/ _ \| '_ \ %
|
||
|
/ _ \ __/ (_| | | | __/\__ \__ \ | (_) | | | |
|
||
|
\/ \_/\___|\__, |_| \___||___/___/_|\___/|_| |_|
|
||
|
0 |___/
|
||
|
__ _ __ _ 0 0
|
||
|
/ /(_)_ __ _/_/ __ _(_)_ __ ___ 0 0
|
||
|
/ / | | '_ \ / _ \/ _` | | '__/ _ \
|
||
|
/ /__| | | | | __/ (_| | | | | __/ 0
|
||
|
\____/_|_| |_|\___|\__,_|_|_| \___| 0
|
||
|
0 0 0
|
||
|
|
||
|
par Algolit
|
||
|
|
||
|
La régression linéaire est l'un des algorithmes les plus connus
|
||
|
et les mieux compris en statistique et en apprentissage automa- %
|
||
|
%
|
||
|
% % % % %% % % tique. Il existe depuis près de 200 ans. C'est un modèle at-
|
||
|
% % % % % trayant parce que la représentation est très simple. En statisti-
|
||
|
% % % % que, la régression linéaire est une méthode statistique qui per-
|
||
|
% % met de résumer et d'étudier les relations entre deux paramètres %
|
||
|
% % % quantitatifs. % % % % %% %
|
||
|
% % % % % %%
|
||
|
% % % En jouant à ce jeu, vous réaliserez qu'en tant que joueur, vous
|
||
|
% % % % avez beaucoup de décisions à prendre. Vous découvrirez ce que si-
|
||
|
% gnifie créer un jeu de données cohérent, de décider ce qu’il doit
|
||
|
% % inclure. Si tout se passe bien, vous ressentirez le besoin de mo- %
|
||
|
% difier vos données afin d'obtenir de meilleurs résultats. Cela %
|
||
|
fait partie de l'art de l'approximation qui est à la base de
|
||
|
% % toutes les pratiques d'apprentissage automatique.
|
||
|
% %
|
||
|
% % ---
|
||
|
% %
|
||
|
% Concept & réalisation: An Mertens %
|
||
|
% %% % %
|
||
|
% %
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
46
|
||
|
% % 0 0 0 0 % %
|
||
|
0 0 _____ % _ _ __ _
|
||
|
/__ \_ __ __ _(_) |_ _/_/ 0 __| | ___ 0
|
||
|
0 / /\/ '__/ _` | | __/ _ \ / _` |/ _ \
|
||
|
/ / | | | (_| | | || __/ | (_| | __/ 0
|
||
|
\/ |_| \__,_|_|\__\___| \__,_|\___|
|
||
|
_ 0 0 0 0
|
||
|
__| | ___ ___ _ _ _ __ ___ ___ _ __
|
||
|
/ _` |/ _ \ / __| | | | '_ ` _ \ / _ \ '_ \ ____
|
||
|
| (_| | (_) | (__| |_| | | | | | | __/ | | | /___/
|
||
|
\__,_|\___/ \___|\__,_|_| |_| |_|\___|_| |_|
|
||
|
_ _ _ 0 _____ 0 _ 0
|
||
|
| |_ __ _| |_ (_) ___ _ __ /__ \_ __ ___ (_)___ 00
|
||
|
| __/ _` | __|| |/ _ \| '_ \ / /\/ '__/ _ \| / __| %
|
||
|
| || (_| | |_ | | (_) | | | |_ / / | | | (_) | \__ \
|
||
|
\__\__,_|\__||_|\___/|_| |_(_) \/ |_| \___/|_|___/
|
||
|
0 0__0 0 0 _
|
||
|
_ __ ___ \_\ _ __ ___ ___ ___ __ _| | __ _ ___ %
|
||
|
| '_ \ / _ \ / _ \ '_ ` _ \ / _ \/ __| / _` | |/ _` |/ _ \ ____
|
||
|
| |_) | (_) | __/ | | | | | __/\__ \ | (_| | | (_| | (_) | /___/
|
||
|
0 | .__/ \___/ \___|_| |_| |_|\___||___/ \__,_|_|\__, |\___/
|
||
|
|_| _ _ _ 0 _ 0 |___/
|
||
|
_ __(_) |_| |__ _ __ ___ (_) __ _ _ _ ___ ___
|
||
|
| '__| | __| '_ \| '_ ` _ \| |/ _` | | | |/ _ \/ __|
|
||
|
| | | | |_| | | | | | | | | | (_| | |_| | __/\__ \
|
||
|
|_| |_|\__|_| |_|_| |_| |_|_|\__, |\__,_|\___||___/
|
||
|
0 0 0 |_|
|
||
|
00
|
||
|
par Rémi Forte, designer-chercheur à l’Atelier national de re-
|
||
|
cherche typographique, Nancy, France
|
||
|
|
||
|
sérigraphie sur papier, 60 × 80 cm, 25 ex., 2019, en vente à la
|
||
|
réception du Mundaneum.
|
||
|
%
|
||
|
Sous la forme de trois affiches, ces poèmes opèrent une relecture
|
||
|
algorithmique et poétique du 'Traité de documentation' de Paul
|
||
|
Otlet. Ils sont le résultat d’un même algorithme basé sur les
|
||
|
règles mystérieuses de l'intuition humaine. Il est appliqué à
|
||
|
trois fragments prélevés dans l’ouvrage de Paul Otlet et se veut
|
||
|
représentatif de sa pratique bibliologique. Pour chaque fragment,
|
||
|
l’algorithme découpe le texte, puis mots et signes de ponctuation
|
||
|
sont comptabilisés et réordonnés en une liste. À chaque ligne,
|
||
|
% % % % %%% % % % les éléments se combinent et épuisent la syntaxe du fragment sé- % %
|
||
|
% % % % % % lectionné. % %%% % % % % % %
|
||
|
% % % % % % % % % % % % % %% %
|
||
|
% %% % Le langage de Paul Otlet reste perceptible mais exacerbé jusqu’à
|
||
|
% % % % % l’absurde. Pour le lecteur, la systématisation du texte est dé-
|
||
|
% % % concertante et ses habitudes de lecture sont bousculées. Cons- %
|
||
|
% % % truite selon une équation mathématique, la composition typogra- %
|
||
|
|
||
|
% phique de l’affiche est tout aussi systématique que le poème. Ce-
|
||
|
pendant, des frictions surviennent ponctuellement ; boucle après
|
||
|
% % boucle, les lignes s’étendent jusqu’à mordre la colonne voisine.
|
||
|
Des superpositions se créent et des mots se trouvent dissimulés
|
||
|
% par d’autres. Ces télescopages dessinent des parcours de lecture
|
||
|
% % % alternatifs. % %
|
||
|
% %
|
||
|
% %
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
47
|
||
|
RÉCITS CONTEXTUALISÉS
|
||
|
AUTOUR DES APPRENANTS
|
||
|
|
||
|
|
||
|
|
||
|
--- Naive Bayes & Viagra --- Pierre-Simon Laplace, son inventeur. Le mathémati-
|
||
|
cien aurait échoué à créditer les travaux des
|
||
|
L'algorithme Naive Bayes est un Apprenant célèbre autres. Par conséquent, il a souffert d’accusa-
|
||
|
qui réussit bien avec peu de données. Nous l'ap- tions largement diffusées contre sa réputation. Ce
|
||
|
pliquons tout le temps. Christian & Griffiths af- n'est que 150 ans plus tard que l'accusation s'est
|
||
|
firment dans leur livre, 'Algorithms to Live by', avérée fausse.
|
||
|
que 'nos jours sont remplis de petites données'.
|
||
|
Imaginez par exemple que vous vous trouviez à un Avançons en 1939, alors que le règne de Bayes de-
|
||
|
arrêt de bus dans une ville étrangère. L'autre meure pratiquement tabou, mort et enterré dans le
|
||
|
personne qui se tient là attend depuis 7 minutes. domaine de la statistique. Lorsque la France est
|
||
|
Qu'est-ce que vous faites ? Décidez-vous d'atten- occupée en 1940 par l'Allemagne, qui contrôle les
|
||
|
dre ? Et si oui, pour combien de temps ? Quand al- usines et les fermes européennes, la plus grande
|
||
|
lez-vous envisager d'autres options ? Un autre inquiétude de Winston Churchill est le péril U-
|
||
|
exemple. Imaginez qu’un ami demande conseil sur boot. Les opérations de sous-marin étaient étroi-
|
||
|
une relation. Il est avec son nouveau partenaire tement contrôlées par le quartier général allemand
|
||
|
depuis un mois. Doit-il l'inviter à l’accompagner en France. Chaque sous-marin partait en mer sans
|
||
|
à un mariage de famille ? ordres, et les recevait sous forme de messages ra-
|
||
|
dio codés après avoir atteint l'Atlantique. Les
|
||
|
Les croyances préexistantes sont cruciales pour messages étaient cryptés par des machines à
|
||
|
que Naive Bayes fonctionne. L'idée est de calculer brouiller les mots, appelées Enigma machines.
|
||
|
les probabilités sur base de ces connaissances Enigma ressemblait à une machine à écrire compli-
|
||
|
préalables et d'une situation spécifique. quée. Elle est inventée par la société allemande
|
||
|
Scherbius & Ritter après la première guerre mon-
|
||
|
Le théorème a été formulé dans les années 1740 par diale, lorsque le besoin de machines d'encodage de
|
||
|
le révérend et mathématicien amateur Thomas Bayes. messages est devenu douloureusement évident.
|
||
|
Il a consacré sa vie à résoudre la question de sa-
|
||
|
voir comment gagner à la loterie. Mais la règle de Curieusement, et heureusement pour Naive Bayes et
|
||
|
Bayes a été rendue célèbre dans sa forme actuelle le monde, à l'époque le gouvernement britannique
|
||
|
par le mathématicien Pierre-Simon Laplace en et les systèmes d'éducation considéraient les ma-
|
||
|
thématiques appliquées et les statistiques sans
|
||
|
temps après la mort de La Place, la théorie tombe aucun rapport avec la résolution pratique des pro-
|
||
|
dans l'oubli jusqu'à ce qu'elle soit à nouveau dé- blèmes. Les données statistiques ont été jugées
|
||
|
terrée pendant la Seconde Guerre mondiale dans le gênantes en raison de leur caractère détaillé.
|
||
|
but de briser le code Enigma. Ainsi, les données du temps de guerre étaient sou-
|
||
|
vent analysées non pas par des statisticiens, mais
|
||
|
La plupart des personnes sont aujourd'hui entrées par des biologistes, des physiciens et des mathé-
|
||
|
en contact avec Naive Bayes par le biais de leurs maticiens théoriques. Aucun d'entre eux ne savait
|
||
|
dossiers de courrier indésirable. Naive Bayes est qu'en ce qui concerne les statistiques sophistiquées,
|
||
|
un algorithme largement utilisé pour la détection la règle de Bayes était considérée non- scientifique.
|
||
|
du spam. C’est une coïncidence que le Viagra, mé-
|
||
|
dicament contre la dysfonction érectile, a été ap- C'est le désormais célèbre Alan Turing, mathémati-
|
||
|
prouvé par la FDA (US Food & Drug Administration) cien, informaticien, logicien, cryptanalyste, phi-
|
||
|
en 1997, au moment où environ 10 millions d'utili- losophe et biologiste théorique, qui a utilisé le
|
||
|
sateurs dans le monde avaient des comptes de mes- système de probabilités des règles de Bayes pour
|
||
|
sagerie Web gratuits. Les sociétés de vente concevoir la 'bombe'. Il s'agissait d'une machine
|
||
|
avaient l’intelligence d'utiliser la publicité électromécanique à grande vitesse pour tester tous
|
||
|
massive par e-mail : c'était un média intime, à les arrangements possibles qu'une machine Enigma
|
||
|
l'époque réservé à la communication privée. En produirait. Afin de déchiffrer les codes navals
|
||
|
2001, le premier programme SpamAssasin s'appuyant des U-boot, Turing simplifie le système de la
|
||
|
sur Naive Bayes a été téléchargé sur SourceForge, 'bombe' en utilisant des méthodes baysiennes. La
|
||
|
réduisant ainsi le marketing 'guerilla par cour- 'bombe' a transformé le quartier général du
|
||
|
riel'. Royaume-Uni en une usine de décryptage. L'histoire
|
||
|
est bien illustrée dans 'The Imitation Game', un
|
||
|
Référence : Machine Learners, by Adrian MacKenzie, film de Morten Tyldum, sorti en 2014.
|
||
|
The MIT Press, Cambridge, US, November 2017.
|
||
|
|
||
|
--- Une histoire sur les petits pois ---
|
||
|
--- Naive Bayes & Enigma ---
|
||
|
En statistique, la régression linéaire est une mé-
|
||
|
Cette histoire de Naive Bayes fait partie du livre thode d'apprentissage supervisé. Après l'entraîne-
|
||
|
'The theory that would not die', écrit par Sharon ment avec des données annotées, le modèle tente de
|
||
|
Bertsch McGrayne. Elle décrit entre autres comment prédire les valeurs de nouvelles données incon-
|
||
|
Naive Bayes est vite oubliée après la mort de nues. La régression linéaire permet de résumer et
|
||
|
|
||
|
48
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
d'étudier les relations entre deux éléments, afin j'ai toujours soutenu qu'à l'exception des imbéci-
|
||
|
de voir s'il existe une corrélation entre eux. les, les hommes ne différaient pas beaucoup sur le
|
||
|
S'il y a une corrélation positive, la connaissance plan intellectuel, seulement sur le plan du zèle
|
||
|
d'un élément aide à prédire l'autre. Par exemple, et du labeur'. Heureusement, l'étude moderne de
|
||
|
étant donné la critique d'un film, nous pouvons l'hérédité a réussi à éliminer le mythe de la dif-
|
||
|
prédire le nombre moyen d'étoiles qui lui sont at- férence génétique fondée sur la race.
|
||
|
tribuées, plutôt que de simplement dire si la cri-
|
||
|
tique est positive ou négative. La raison pour laquelle nous l'évoquons dans cette
|
||
|
série, c'est qu'il a été parmi les premiers scien-
|
||
|
Parfois, les figures que nous rencontrons en grat- tifiques à utiliser des méthodes statistiques dans
|
||
|
tant sous la surface ne sont pas à notre goût. ses recherches. Sa principale contribution dans ce
|
||
|
L'idée de régression vient de Sir Francis Galton, domaine a été l'analyse de régression linéaire,
|
||
|
un scientifique influent du 19e siècle. Il a passé qui a fondé les bases d'une grande partie de la
|
||
|
sa vie à étudier le problème de l'hérédité - pour statistique moderne. Alors que nous nous engageons
|
||
|
comprendre à quel point les caractéristiques d'une dans le domaine de l'apprentissage automatique, Algolit
|
||
|
génération d'êtres vivants se manifestent dans la essaie de ne pas oublier que les systèmes d'ordre ont
|
||
|
génération suivante. Il a établi le domaine de du pouvoir, et que ce pouvoir n'a pas toujours été
|
||
|
l'eugénisme et l'a défini comme 'l'étude des orga- exercé au bénéfice de tout le monde. L'apprentissage
|
||
|
nismes sous contrôle social qui peuvent améliorer automatique a hérité de nombreux aspects de la
|
||
|
ou altérer les qualités raciales des générations recherche statistique, certains plus agréables que
|
||
|
futures, que ce soit physiquement ou mentalement'. d'autres.Nous devons nous méfier, car ces visions
|
||
|
Par conséquent, son nom a marqué l'histoire et du mondes'infiltrent dans les modèles algorithmiques
|
||
|
l'héritage du racisme scientifique. qui créent des ordres aujourd'hui.
|
||
|
|
||
|
Galton a d'abord abordé le problème de l'hérédité Références :
|
||
|
en examinant les caractéristiques du petit pois
|
||
|
doux. Il a choisi le petit pois parce que l'espèce http://galton.org/letters/darwin/correspon-
|
||
|
peut s'auto-fertiliser. Les plantes femelles hé- dence.htm
|
||
|
ritent des variations génétiques des plantes mères
|
||
|
sans la contribution d'un deuxième parent. Cette https://www.tandfonline.com/doi/-
|
||
|
caractéristique élimine la nécessité de traiter full/10.1080/10691898.2001.11910537
|
||
|
avec des sources multiples.
|
||
|
http://www.paramoulipist.be/?p=1693
|
||
|
En 1875, Galton a distribué des paquets de graines
|
||
|
de petits pois à sept amis. Chaque ami recevait
|
||
|
des graines de poids uniforme, mais il y avait des --- Perceptron ---
|
||
|
variations importantes d'un paquet à l'autre. Les
|
||
|
amis de Galton ont récolté les graines des nou- Nous nous trouvons dans une décennie où les ré-
|
||
|
velles générations de plantes et les lui ont ren- seaux de neurones suscitent beaucoup d'attention.
|
||
|
dues. Il a ensuite tracé le poids des graines fe- Cela n'a pas toujours été le cas. L'étude des ré-
|
||
|
melles contre le poids des graines mères. Il a dé- seaux de neurones remonte aux années 1940, lorsque
|
||
|
couvert que le poids médian des graines femelles la première métaphore des neurones est apparue. Le
|
||
|
d'une taille particulière de la semence mère dé- neurone n'est pas la seule référence biologique
|
||
|
crivait approximativement une ligne droite avec dans le domaine de l'apprentissage automatique -
|
||
|
une pente positive inférieure à 1,0. Les premières pensez au mot corpus ou formation. Le neurone ar-
|
||
|
idées de Galton sur la régression sont nées de ce tificiel a été construit en relation étroite avec
|
||
|
diagramme bidimensionnel qui compare la taille des son homologue biologique.
|
||
|
petits pois femelles à celle des petits pois
|
||
|
mères. Il a utilisé cette représentation de ses Le psychologue Frank Rosenblatt s'est inspiré des
|
||
|
données pour illustrer les fondements de ce que travaux de son collègue Donald Hebb sur le rôle
|
||
|
les statisticiens appellent encore aujourd'hui la des neurones dans l'apprentissage humain. Hebb a
|
||
|
régression. Pour Galton, c'était aussi une façon déclaré que 'les cellules qui communiquent, se
|
||
|
de décrire les avantages de l'eugénisme. mettent ensemble.' Sa théorie est maintenant à la
|
||
|
base de l'apprentissage associatif humain, mais
|
||
|
La recherche de Galton été appréciée par de nom- aussi de l'apprentissage en réseau de neurones non
|
||
|
breux intellectuels de son temps. En 1869, dans supervisé. Il a poussé Rosenblatt à développer
|
||
|
'Hereditary Genius', Galton affirme que le génie l'idée du neurone artificiel. En 1962, il crée le
|
||
|
est principalement une question d'ascendance. Il Perceptron. Le Perceptron est un modèle qui ap-
|
||
|
croyait qu'il y avait une explication biologique à prend par la pondération des entrées.
|
||
|
l'inégalité sociale entre les races. Galton a même
|
||
|
persuadé son demi-cousin Charles Darwin de ses Il a été mis de côté par les chercheurs, parce
|
||
|
idées. Après avoir lu l'article de Galton, Darwin qu'il ne peut gérer que la classification binaire.
|
||
|
a déclaré : 'Vous avez converti un adversaire, car Cela signifie que les données doivent être sépa-
|
||
|
|
||
|
49
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
rables linéairement, comme par exemple hommes et 'deep learning'. Les tarifs de location de TPU
|
||
|
femmes, noir et blanc. Il est clair que ce type de vont de de 8$/h à 394$/h. Si vous êtes comme nous,
|
||
|
données est très rare dans le monde réel. Lorsque et vous ne voulez pas travailler avec des sollu-
|
||
|
le soi-disant premier hiver de l'Intelligence Ar- tions prêtes à l'emploi, et vous souhaitez ouvrir
|
||
|
tificielle (IA) est arrivé en 1974-1980 et que le la boîte noire, BERT exige de faire des économies
|
||
|
financement consacré à cette recherche a diminué, pour pouvoir l’utiliser.
|
||
|
le Perceptron a également été négligé. Pendant 10
|
||
|
ans, il est resté inactif. Lorsque le printemps Références :
|
||
|
s'installe à la fin des années 1980, de nouvelles
|
||
|
générations de chercheurs le reprennent et l'uti- https://ai.googleblog.com/2018/11/open-sourcing-
|
||
|
lisent pour construire des réseaux de neurones. bert-state-of-art-pre.html
|
||
|
Ceux-ci contiennent de multiples couches de Per-
|
||
|
ceptrons. C'est ainsi que les réseaux de neurones https://towardsdatascience.com/deconstructing-
|
||
|
voient la lumière. On pourrait dire que cette sai- bert-distilling-6-patterns-from-100-million-
|
||
|
son d'apprentissage automatique est particulière- parameters-b49113672f77
|
||
|
ment chaude, mais il faut un autre hiver pour
|
||
|
connaître un été.
|
||
|
|
||
|
|
||
|
--- BERT ---
|
||
|
|
||
|
Certains articles en ligne disent que l'année 2018
|
||
|
a marqué un tournant dans le domaine du traitement
|
||
|
du langage naturel. Une série de modèles de 'deep
|
||
|
learning' ont permis d'obtenir des résultats ex-
|
||
|
cellents pour des tâches comme les réponses aux
|
||
|
questions ou la classification des sentiments.
|
||
|
L'algorithme BERT de Google est entré dans les
|
||
|
concours d'apprentissage automatique de l'année
|
||
|
dernière comme un 'modèle gagnant'. Il témoigne
|
||
|
d’une performance supérieure sur une grande varié-
|
||
|
té de tâches.
|
||
|
|
||
|
BERT est pré-entraîné; ses poids sont appris à
|
||
|
l'avance grâce à deux tâches non supervisées. Cela
|
||
|
signifie que BERT n'a pas besoin d'être entraîné à
|
||
|
partir de zero pour chaque nouvelle tâche. Vous
|
||
|
n'avez qu'à affiner ses poids.
|
||
|
|
||
|
Cela signifie également qu'un programmeur souhai-
|
||
|
tant utiliser BERT ne sait plus sur quels para-
|
||
|
mètres BERT est réglé, ni à base de quelles don-
|
||
|
nées il a appris ses performances.
|
||
|
|
||
|
BERT signifie 'Bidirectional Encoder Representa-
|
||
|
tions from Transformers'. Cela signifie que BERT
|
||
|
permet un entraînement bidirectionnel. Le modèle
|
||
|
apprend le contexte d'un mot à partir de son envi-
|
||
|
ronnement, à gauche et à droite d'un mot. En tant
|
||
|
que tel, il peut faire la différence entre 'Je
|
||
|
suis pile à l’heure' et 'Je l’ai mis sur la pile'.
|
||
|
|
||
|
Quelques faits :
|
||
|
|
||
|
- BERT_large, avec 345 millions de paramètres, est
|
||
|
le plus grand modèle du genre. Il est manifeste-
|
||
|
ment supérieur à BERT_base, qui utilise la même
|
||
|
architecture avec 'seulement' 110 millions de pa-
|
||
|
ramètres, pour les tâches à petite échelle.
|
||
|
|
||
|
- Pour exécuter BERT, vous devez utiliser les TPU.
|
||
|
Ce sont les processeurs (CPU) de Google spéciale-
|
||
|
ment conçus pour TensorFLow, la plateforme de
|
||
|
|
||
|
50
|
||
|
0 12 3 4 5 67 8 9 0
|
||
|
12 3 4 5 67 8 9 0 12
|
||
|
3 4 5 67 8 9 0 1 2
|
||
|
3 4 5 6 7 8 9 0 1 2 3
|
||
|
4 56 7 8 9 01 2 3
|
||
|
4 56 7 8 9 01 2 3
|
||
|
4 56 7 8 9 01 2 3
|
||
|
4 56 7 8 9 0 1 2 3 4
|
||
|
5 6 7 8 9 0 1 2 3 45 6
|
||
|
7 8 90 1 2 3 45 6
|
||
|
7 8 90 1 2 3 45 6
|
||
|
7 8 90 1 2 3 4 5 6
|
||
|
7 8 9 0 1 2 3 4 5 6
|
||
|
7 89 0 1 2 34 5 6
|
||
|
7 89 0 1 2 34 5 6
|
||
|
7 89 0 1 2 34 5 6 7
|
||
|
89 0 1 2 3 4 5 6 7 8 9
|
||
|
0 1 2 3 4 5 6 78 9
|
||
|
0 1 23 4 5 6 78 9 0
|
||
|
1 23 4 5 6 78 9 0
|
||
|
1 23 4 5 6 78 9 0
|
||
|
1 2 3 4 5 6 7 8 9 0
|
||
|
1 2 3 4 5 67 8 9 0 12
|
||
|
3 4 5 67 8 9 0 12
|
||
|
3 4 5 67 8 9 0 12 3
|
||
|
4 5 6 7 8 9 0 1 2 3
|
||
|
4 5 6 7 8 9 01 2 3
|
||
|
4 56 7 8 9 01 2 3
|
||
|
4 56 7 8 9 01 2 3
|
||
|
4 56 7 8 9 01 2 3 4
|
||
|
5 6 7 8 9 0 1 2 3 4 5 6
|
||
|
7 8 90 1 2 3 45 6
|
||
|
7 8 90 1 2 3 45 6
|
||
|
7 8 90 1 2 3 45 6
|
||
|
7 8 90 1 2 3 4 5 6 7
|
||
|
8 9 0 1 2 3 4 5 6 7
|
||
|
89 0 1 2 34 5 6 7
|
||
|
89 0 1 2 34 5 6 7 89
|
||
|
0 1 2 34 5 6 7 8 9
|
||
|
0 1 2 3 4 5 6 7 8 9
|
||
|
0 1 23 4 5 6 78 9 0
|
||
|
1 23 4 5 6 78 9 0
|
||
|
1 23 4 5 6 78 9 0
|
||
|
1 23 4 5 6 7 8 9 0
|
||
|
1 2 3 4 5 6 7 8 9 0 12 3
|
||
|
4 5 67 8 9 0 12 3
|
||
|
4 5 67 8 9 0 12 3
|
||
|
4 5 67 8 9 0 12 3
|
||
|
4 5 6 7 8 9 0 1 2 3
|
||
|
4 5 6 7 8 9 01 2 3 4
|
||
|
56 7 8 9 01 2 3 4
|
||
|
56 7 8 9 01 2 3 4 5
|
||
|
6 7 8 9 0 1 2 3 4 5 6
|
||
|
7 8 9 0 1 2 3 45 6
|
||
|
7 8 90 1 2 3 45 6
|
||
|
7 8 90 1 2 3 45 6
|
||
|
7 8 90 1 2 3 45 6 7
|
||
|
8 9 0 1 2 3 4 5 6 7
|
||
|
8 9 0 1 2 34 5 6 7 89
|
||
|
0 1 2 34 5 6 7 89 0
|
||
|
1 2 34 5 6 7 89 0
|
||
|
1 2 34 5 6 7 8 9 0
|
||
|
1 2 3 4 5 6 7 8 9 0
|
||
|
1 23 4 5 6 78 9 0
|
||
|
1 23 4 5 6 78 9 0
|
||
|
1 23 4 5 6 78 9 0 1
|
||
|
2 3 4 5 6 7 8 9 0 1 2 3
|
||
|
4 5 67 8 9 0 12 3
|
||
|
4 5 67 8 9 0 12 3
|
||
|
51
|
||
|
█▒░░ ▓▒█░░▒▓███▀▒░ ░▒ ▒ ░ ▒▒▓██▒ ░░ ▒░ ░ ▒ ░▓ ░▒▓ ▒ ▒█░░▒█▓▒░▓▒ ▒▓▒▒░ ▒ ▒▒ ▓▒░ ▒░▓ █ ▒░ █░█ ▓▒░ ▒▓░░
|
||
|
▓ ▒░ ▒▒ ░▒░▒▓ ░ ░ ▒ ░ ▒ ▒ ░ ░ ░▒░ ░▒ ░ ▒ ░▒░▓░ ▒ ░ ▒ ░▒░ ░ ░▒ ▒░░ ░ ▒ ░░▓ ░ ▓▓░░ ░░▒▒▓░
|
||
|
░ ▒ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░░ ░ ▒ ░ ░ ░ ░ ░ ░░ ░ ░ ░ ░ ░ ░ ░ ░
|
||
|
░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░
|
||
|
░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░
|
||
|
|
||
|
░ tion est une étape cru- voit en tant qu'utilisa- sition d'occurrences de
|
||
|
░ ciale de l'apprentissage teur, mais ont aussi lettres ou de mots, ce
|
||
|
░ ░ ░ ░ automatique supervisé leur mot à dire dans les qui donne des tables de
|
||
|
░ ░ ░ ░ durant laquelle l'algo- fluctuations du cours probabilité de transi-
|
||
|
░ ░ rithme reçoit des des bourses mondiales ou tion qui peuvent être
|
||
|
░ ░ exemples de ce qu'il dans la détection de la calculées sans aucune
|
||
|
░ GLOSSAIRE ░ doit apprendre. Un cybercriminalité et du compréhension sémantique
|
||
|
░ filtre anti-spam sera vandalisme. ou grammaticale du lan-
|
||
|
░ ░ ░ alimenté d'exemples de gage naturel. Cet algo-
|
||
|
░ ░ ░ ░ messages spams et de * APPRENTISSAGE AUTOMA- rithme peut être utilisé
|
||
|
░ messages réels. Ces TIQUE CLASSIQUE pour analyser des tex-
|
||
|
░ exemples consistent en Naive Bayes, Support tes, mais aussi pour les
|
||
|
░ un message, l'entrée, Vector Machines ou Ré- recombiner. Il est lar-
|
||
|
accompagné d'une éti- gression Linéaire sont gement utilisé pour la
|
||
|
Vous trouverez ci-des- quette considérés comme des al- génération de spam.
|
||
|
sous un glossaire non- spam ou non spam. L'an- gorithmes classiques
|
||
|
exhaustif reprenant des notation d'un jeu de d'apprentissage automa- * CONSTANT
|
||
|
termes fréquemment uti- données est un travail tique. Ils fonctionnent Constant est une asso-
|
||
|
lisés dans l'exposition. exécuté par des humains, bien lorsqu'ils ap- ciation sans but lucra-
|
||
|
Il est conçu comme une qui choisissent une éti- prennent avec de petits tif d’artistes autogé-
|
||
|
aide pour les visiteurs quette pour chaque élé- jeux de données. Mais rés, basée à Bruxelles
|
||
|
connaissant peu le voca- ment du jeu de données. ils nécessitent souvent depuis 1997 et active
|
||
|
bulaire lié au domaine Pour assurer la qualité des lecteurs complexes. dans les domaines de
|
||
|
du traitement des des étiquettes, plu- La tâche accomplie par l’art, des médias et de
|
||
|
langues naturelles sieurs annotateurs les lecteurs est égale- la technologie. Algolit
|
||
|
(NLP), Algolit ou le doivent voir le même ment appelée 'feature est né en 2012 comme un
|
||
|
Mundaneum. élément, la même entrée, engineering' (voir ci- projet de Constant.
|
||
|
et donner la même éti- dessous). Cela signifie http://constantvzw.org
|
||
|
* ALGOLIT quette avant qu'un qu'un être humain doit
|
||
|
Un groupe bruxellois exemple ne soit inclus consacrer du temps à une * DATA WORKERS
|
||
|
spécialisé dans la re- dans les données d'en- analyse exploratoire ap- Intelligences artifi-
|
||
|
cherche artistique sur traînement. profondie du jeu de don- cielles développées pour
|
||
|
les algorithmes et la nées. servir, divertir, enre-
|
||
|
littérature. Chaque * APPRENTISSAGE gistrer et connaître les
|
||
|
mois, le groupe se AUTOMATIQUE * BAG OF WORDS humains. Le travail de
|
||
|
réunit pour expérimenter OU MACHINE LEARNING Le modèle du sac de mots ces entités machiniques
|
||
|
avec du code et des Modèles algorithmiques est une représentation est généralement dissi-
|
||
|
textes publiés sous li- basés sur la statisti- simplifiée du texte uti- mulé derrière des inter-
|
||
|
cences libres. que, principalement uti- lisé dans le traitement faces et des brevets.
|
||
|
http://www.algolit.net lisés pour analyser et du langage naturel. Dans Dans l'exposition, les
|
||
|
prédire des situations à ce modèle, un texte est conteurs algorithmiques
|
||
|
* ALGOLITTÉRAIRE partir de cas existants. représenté sous la forme quittent leur monde sou-
|
||
|
Terme inventé par Algo- Dans cette exposition, d'une collection de mots terrain invisible pour
|
||
|
lit pour des oeuvres qui nous nous concentrons uniques, sans tenir devenir nos interlocu-
|
||
|
explorent le point de sur les modèles d'ap- compte de la grammaire, teurs.
|
||
|
vue du conteur algorith- prentissage automatique de la ponctuation ni
|
||
|
mique. Quelles nouvelles pour le traitement de même de leur ordre dans * DONNÉES D’ENTRAÎNEMENT
|
||
|
formes de narration ren- texte ou le traitement le texte. Ce modèle Les algorithmes d'ap-
|
||
|
dons-nous possibles en du langage naturel (voir transforme un texte en prentissage automatique
|
||
|
dialoguant avec les al- NLP). Ces modèles ont une liste de mots asso- ont besoin d'être gui-
|
||
|
gorithmes ? appris à effectuer une ciés à leur fréquence dés. Pour séparer une
|
||
|
tâche spécifique sur la littéralement un sac de chose d'une autre, faire
|
||
|
* ALGORITHME base de textes exis- mots. Le sac de mots est des distinctions, ils
|
||
|
Un ensemble d'instruc- tants. Ils sont utilisés souvent utilisé comme ont besoin de motifs.
|
||
|
tions dans un langage de par les moteurs de re- référence, c'est sur Ils les trouvent dans
|
||
|
programmation spécifi- cherche, les traductions cette base qu'on évalue- les textes qui leur sont
|
||
|
que, qui permettent de automatiques, et per- ra la performance d'un donnés, les données
|
||
|
produire un résultat mettent de générer des nouveau modèle. d’entraînement. L'être
|
||
|
(output) à partir de résumés et de repérer humain doit choisir avec
|
||
|
données (inputs). les tendances sur les * CHAÎNE DE MARKOV soin un matériel d’en-
|
||
|
réseaux sociaux et des Algorithme qui scanne un traînement adapté à la
|
||
|
* ANNOTATION fils d’actualité. Ils texte à la recherche de tâche de la machine. Il
|
||
|
Le processus d'annota- influencent ce que l'on la probabilité de tran- n'est pas logique d’en-
|
||
|
52
|
||
|
█▒░░ ▓▒█░░▒▓███▀▒░ ░▒ ▒ ░ ▒▒▓██▒ ░░ ▒░ ░ ▒ ░▓ ░▒▓ ▒ ▒█░░▒█▓▒░▓▒ ▒▓▒▒░ ▒ ▒▒ ▓▒░ ▒░▓ █ ▒░ █░█ ▓▒░ ▒▓░░
|
||
|
▓ ▒░ ▒▒ ░▒░▒▓ ░ ░ ▒ ░ ▒ ▒ ░ ░ ░▒░ ░▒ ░ ▒ ░▒░▓░ ▒ ░ ▒ ░▒░ ░ ░▒ ▒░░ ░ ▒ ░░▓ ░ ▓▓░░ ░░▒▒▓░
|
||
|
░ ▒ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░░ ░ ▒ ░ ░ ░ ░ ░ ░░ ░ ░ ░ ░ ░ ░ ░ ░
|
||
|
░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░
|
||
|
░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░
|
||
|
|
||
|
traîner une machine avec tion par autrui en vue sujets à des droits explorent et
|
||
|
des romans du 19ème de sa diffusion sont d'auteur soit parce que construisent des modèles
|
||
|
siècle si sa mission est permises, techniquement ces derniers sont expi- d'apprentissage automa-
|
||
|
d'analyser des Tweets. et légalement, ceci afin rés. Le projet fut lancé tique, collaborent avec
|
||
|
de garantir certaines par Michael Hart en 1971 d'autres et participent
|
||
|
* DUMP libertés induites, dont et nommé en hommage à à des concours pour re-
|
||
|
Terme anglais signifiant le contrôle du programme l'imprimeur allemand du lever des défis. Environ
|
||
|
‘dépôt, décharge, déver- par l'utilisateur et la XVe siècle Johannes Gu- un demi-million d’utili-
|
||
|
ser massivement’. En in- possibilité de partage tenberg. (Wikipedia) sateurs sont actifs sur
|
||
|
formatique, le terme entre individus. Ces Kaggle. Kaggle a été
|
||
|
dump désigne générale- droits peuvent être sim- * HENRI LA FONTAINE fondée par Goldbloom et
|
||
|
ment une copie brute plement disponibles – Henri La Fontaine Ben Hamner en 2010 et
|
||
|
d’une base de données; cas du domaine public – (1854-1943) est un homme acquise par Google en
|
||
|
par exemple pour effec- ou bien établis par une politique, féministe et mars 2017.
|
||
|
tuer une sauvegarde de licence, dite 'libre', pacifiste belge. Il re-
|
||
|
données ou pour les uti- basée sur le droit d'au- çoit le Prix Nobel de la * LANGAGE NATUREL
|
||
|
liser ailleurs. Les teur. Les 'licences co- paix en 1913 en raison Selon Wikipédia, 'Une
|
||
|
dumps sont souvent pu- pyleft' garantissent le de son engagement au langue dite « naturel-
|
||
|
bliées par des projets maintien de ces droits sein du Bureau Interna- le » est une langue qui
|
||
|
de logiciels libres et aux utilisateurs même tional de la Paix et de s'est formée petit à pe-
|
||
|
de contenu libre, tels pour les travaux déri- sa contribution à l'or- tit, évoluant avec le
|
||
|
que Wikipédia, pour per- vés. Les logiciels ganisation du mouvement temps, et qui fait par-
|
||
|
mettre la réutilisation libres constituent une pacifiste. En 1895, en- tie du langage naturel.
|
||
|
ou la dérivation(fork) alternative à ceux qui semble avec Paul Otlet, Son origine est bien
|
||
|
de la base de données. ne le sont pas, quali- il créent ensemble souvent floue et peut
|
||
|
fiés de 'propriétaires' l'Institut international être retracée plus ou
|
||
|
* FEATURE ENGINEERING ou de 'privateurs'. (Wi- de bibliographie qui de- moins clairement par la
|
||
|
Processus utilisant la kipedia) viendra le Mundaneum. Au linguistique comparée.
|
||
|
connaissance du domaine sein de cette institu- On oppose les langues
|
||
|
des données pour créer * GIT tion, qui visait à ras- naturelles - comme le
|
||
|
les caractéristiques qui Un système logiciel per- sembler l'ensemble des français - aux langues
|
||
|
font fonctionner les al- mettant de suivre les connaissances du monde, construites comme le
|
||
|
gorithmes d'apprentis- changements dans le code il contribue à mettre au langage de programmation
|
||
|
sage machine. En source pendant le déve- point le système de ou l'espéranto, formées
|
||
|
d'autres termes, un être loppement d'un logiciel. Classification décimale intentionnellement par
|
||
|
humain doit consacrer du Il est conçu pour coor- universelle (CDU). l’entremise de l’homme
|
||
|
temps à une analyse ex- donner le travail des pour remplir un besoin
|
||
|
ploratoire approfondie programmeurs, mais il * IA OU INTELLIGENCES précis.'
|
||
|
du jeu de données, afin peut être utilisé pour ARTIFICIELLES
|
||
|
d'en définir les princi- suivre les changements L'intelligence artifi- * LITTÉRATURE
|
||
|
pales caractéristiques. dans n'importe quel en- cielle (IA) est 'l'en- Algolit comprend la no-
|
||
|
Ces caractéristiques semble de fichiers. semble des théories et tion de littérature
|
||
|
peuvent être la fré- Avant d’initier un nou- des techniques mises en comme beaucoup d'autres
|
||
|
quence des mots ou des veau projet, les pro- œuvre en vue de réaliser auteurs expérimentaux
|
||
|
lettres, mais aussi des grammeurs créent un ‘dé- des machines capables de elle inclut toute la
|
||
|
éléments syntaxiques pôt git’ dans lequel ils simuler l'intelligence. production linguistique,
|
||
|
comme les noms, les ad- publieront toutes les Elle correspond donc à du dictionnaire à la Bi-
|
||
|
jectifs ou les verbes. parties du code. Les dé- un ensemble de concepts ble, de l'œuvre entière
|
||
|
Les caractéristiques les pôts git d’Algolit se et de technologies plus de Virginia Woolf à
|
||
|
plus importantes pour la trouvent ici qu'à une discipline au- toutes les versions des
|
||
|
tâche à résoudre doivent https://gitlab.- tonome constituée. D'au- Conditions d'utilisation
|
||
|
être soigneusement sé- constantvzw.org/algolit. tres, remarquant la dé- publiées par Google de-
|
||
|
lectionnées pour être finition peu précise de puis son existence. En
|
||
|
transmises à un algo- * GUTENBERG.ORG l'IA, notamment la CNIL, ce sens, le code de pro-
|
||
|
rithme classique d'ap- Le projet Gutenberg est la définissent comme ‘le grammation peut aussi
|
||
|
prentissage automatique. une bibliothèque de ver- grand mythe de notre être de la littérature.
|
||
|
sions électroniques temps'. (Wikipedia)
|
||
|
* FLOSS OU LOGICIELS libres de livres physi- * MECHANICAL TURK
|
||
|
LIBRES ET OPEN SOURCE quement existants. Les * KAGGLE Le Mechanical Turk d’A-
|
||
|
Un logiciel libre est un textes fournis sont es- Plateforme en ligne où mazon est une plateforme
|
||
|
logiciel dont l'utilisa- sentiellement du domaine les utilisateurs en ligne à destination
|
||
|
tion, l'étude, la modi- public, soit parce trouvent et publient des des humains conçue pour
|
||
|
fication et la duplica- qu'ils n'ont jamais été ensembles de données, exécuter des tâches que
|
||
|
53
|
||
|
█▒░░ ▓▒█░░▒▓███▀▒░ ░▒ ▒ ░ ▒▒▓██▒ ░░ ▒░ ░ ▒ ░▓ ░▒▓ ▒ ▒█░░▒█▓▒░▓▒ ▒▓▒▒░ ▒ ▒▒ ▓▒░ ▒░▓ █ ▒░ █░█ ▓▒░ ▒▓░░
|
||
|
▓ ▒░ ▒▒ ░▒░▒▓ ░ ░ ▒ ░ ▒ ▒ ░ ░ ░▒░ ░▒ ░ ▒ ░▒░▓░ ▒ ░ ▒ ░▒░ ░ ░▒ ▒░░ ░ ▒ ░░▓ ░ ▓▓░░ ░░▒▒▓░
|
||
|
░ ▒ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░░ ░ ▒ ░ ░ ░ ░ ░ ░░ ░ ░ ░ ░ ░ ░ ░ ░
|
||
|
░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░
|
||
|
░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░
|
||
|
|
||
|
les algorithmes ne par- (1854-1943), homme d'É- dire des situations par- * PYTHON
|
||
|
viennent pas à faire. Il tat et prix Nobel de la ticulières ou à profiler Le principal langage de
|
||
|
peut s'agir, par exem- paix, créent le Munda- des habitudes d’usagers. programmation utilisé
|
||
|
ple, d'annoter des neum. Le projet vise à Elles sont largement dans le monde entier
|
||
|
phrases comme étant po- rassembler toute la utilisés dans les smart- pour le traitement du
|
||
|
sitives ou négatives, de connaissance du monde et phones, les ordinateurs langage, inventé en 1991
|
||
|
repérer des plaques à la classer à l'aide du et les tablettes. par le programmeur néer-
|
||
|
d'immatriculation, de système de Classifica- landais Guido Van Ros-
|
||
|
reconnaître des visages. tion décimale univer- * OULIPO sum.
|
||
|
Les annonces que l'on selle (UDC) qu'ils in- Le collectif Oulipo,
|
||
|
trouve sur cette plate- ventent. acronyme d'Ouvroir de * RECONNAISSANCE OPTIQUE
|
||
|
forme sont souvent rému- Littérature Potentielle, DE CARACTÈRES (ROC)
|
||
|
nérés moins d'un centime * NATURAL LANGUAGE est une grande source en anglais optical cha-
|
||
|
par tâche. Les tâches PROCESSING (NLP) d'inspiration pour Algo- racter recognition
|
||
|
les plus complexes ou Le traitement du langage lit. Oulipo a été créé à (OCR), ou océrisation,
|
||
|
nécessitant le plus de naturel (NLP) est un Paris par les écrivains désigne les procédés in-
|
||
|
connaissances peuvent terme collectif qui dé- Raymond Queneau et Fran- formatiques permettant
|
||
|
être payées jusqu'à plu- signe le traitement in- çois Le Lionnais. Ils la traduction d'images
|
||
|
sieurs centimes. De nom- formatique automatique ont ancré leur pratique de textes scannés en fi-
|
||
|
breux chercheurs univer- des langues humaines. dans l'avant-garde euro- chiers de texte manipu-
|
||
|
sitaires utilisent le Cela comprend les algo- péenne du XXe siècle et lables.
|
||
|
Mechanical Turk pour des rithmes utilisant, comme dans la tradition expé-
|
||
|
tâches qui auraient été données, du texte pro- rimentale des années 60. * RÉSEAUX DE NEURONES
|
||
|
exécutées par des étu- duit par l'homme et qui Pour Oulipo, la création Systèmes informatiques
|
||
|
diants auparavant. tentent de le repro- de règles devient la inspirés des réseaux
|
||
|
duire. condition permettant de neuronaux biologiques
|
||
|
* MODÈLES D’APPRENTIS- générer de nouveaux tex- trouvés dans le cerveau
|
||
|
SAGE AUTOMATIQUE SUPER- * N-GRAMMES DE tes, ou ce qu'ils ap- des animaux. Un réseau
|
||
|
VISÉ CARACTÈRES pellent la littérature de neurone n'est pas un
|
||
|
Pour la création de mo- une technique utilisée potentielle. Plus tard, algorithme, mais plutôt
|
||
|
dèles d'apprentissage pour la reconnaissance en 1981, ils ont égale- un cadre dans lequel de
|
||
|
automatique supervisés, de la paternité d’une ment créé ALAMO - Ate- nombreux algorithmes
|
||
|
les humains annotent les oeuvre. Lors de l'utili- lier de Littérature As- d'apprentissage machine
|
||
|
échantillons d'entraîne- sation des N-grammes de sistée par la Mathéma- différents travaillent
|
||
|
ment avant de les en- caractères, les textes tique et les Ordina- ensemble et traitent des
|
||
|
voyer à la machine. sont considérés comme teurs. données complexes. De
|
||
|
Chaque texte est jugé des séquences de carac- tels systèmes ‘appren-
|
||
|
par au moins 3 humains tères. Considérons le * PAUL OTLET nent’ à exécuter des
|
||
|
par exemple, s’il s’agit trigramme des carac- Paul Otlet (1868 - 1944) tâches en observant des
|
||
|
de spam ou non, s’il est tères. Toutes les sé- était un auteur, entre- exemples, généralement
|
||
|
positif ou négatif. quences de trois carac- preneur, visionnaire, sans être programmés à
|
||
|
tères qui se chevauchent avocat et militant pour priori avec des règles
|
||
|
* MODÈLES D’APPRENTIS- sont isolées. Par exem- la paix belge ; il est spécifiques. Par exem-
|
||
|
SAGE AUTOMATIQUE NON- ple, le trigramme de ca- l'une des nombreuses ple, un algorithme de
|
||
|
SUPERVISÉ ractères de suicide', personnes qui ont été reconnaissance de chat
|
||
|
Les modèles d'apprentis- serait, 'Sui,' uic', considérées comme le apprendra à identifier
|
||
|
sage automatique non su- uic', 'ici', 'cid', etc. père des sciences de les images qui
|
||
|
pervisés n'ont pas be- Les motifs trouvés avec l'information, un do- contiennent des chats en
|
||
|
soin de l’étape d’anno- les N-grammes de carac- maine qu'il a appelé ‘la observant des images qui
|
||
|
tations des données par tères se concentrent sur documentation’. Otlet a ont été étiquetées ma-
|
||
|
des humains. Par contre, les choix stylistiques créé la Classification nuellement comme ‘chat’
|
||
|
ils nécessitent de qui sont faits incons- décimale universelle, ou ‘pas chat’. Il utili-
|
||
|
grandes quantités de ciemment par l'auteur. qui s'est répandue dans sera ces exemple pour
|
||
|
données pour s’entraî- Ces modèles restent les bibliothèques. Avec générer ce qu'il consi-
|
||
|
ner. stables sur toute la Henri La Fontaine, il dère être un chat et
|
||
|
longueur du texte. crée le Palais Mondial, pourra identifier les
|
||
|
* MUNDANEUM qui devient le Munda- chats dans d'autres
|
||
|
À la fin du 19ème siè- * ORACLE neum, pour abriter les images. Il le fera sans
|
||
|
cle, deux jeunes ju- Les Oracles sont un type collections et les acti- aucune connaissance
|
||
|
ristes belges, Paul Ot- particulier de modèles vités de leurs diffé- préalable sur les chats.
|
||
|
let (1868-1944), 'père algorithmiques souvent rents organismes et ins- Il générera automatique-
|
||
|
de la documentation', basés sur la statisti- tituts. ment ses propres carac-
|
||
|
et Henri La Fontaine que, qui servent à pré- téristiques d'identifi-
|
||
|
54
|
||
|
█▒░░ ▓▒█░░▒▓███▀▒░ ░▒ ▒ ░ ▒▒▓██▒ ░░ ▒░ ░ ▒ ░▓ ░▒▓ ▒ ▒█░░▒█▓▒░▓▒ ▒▓▒▒░ ▒ ▒▒ ▓▒░ ▒░▓ █ ▒░ █░█ ▓▒░ ▒▓░░
|
||
|
▓ ▒░ ▒▒ ░▒░▒▓ ░ ░ ▒ ░ ▒ ▒ ░ ░ ░▒░ ░▒ ░ ▒ ░▒░▓░ ▒ ░ ▒ ░▒░ ░ ░▒ ▒░░ ░ ▒ ░░▓ ░ ▓▓░░ ░░▒▒▓░
|
||
|
░ ▒ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░░ ░ ▒ ░ ░ ░ ░ ░ ░░ ░ ░ ░ ░ ░ ░ ░ ░
|
||
|
░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░
|
||
|
░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░
|
||
|
|
||
|
cation à partir du maté- Une méthode de pondéra-
|
||
|
riel d'apprentissage qui tion utilisée dans la
|
||
|
lui est donné. recherche de textes.
|
||
|
Cette mesure statistique
|
||
|
* RULE-BASED MODELS permet d'évaluer l'im-
|
||
|
Les Oracles peuvent être portance d'un terme
|
||
|
créés à l'aide de diffé- contenu dans un docu-
|
||
|
rentes techniques. L’une ment, relativement à une
|
||
|
d’entre elles consiste à collection ou un corpus
|
||
|
définir manuellement les de textes. Le poids aug-
|
||
|
règles. Ces modèles sont mente proportionnelle-
|
||
|
appelés 'rule-based mo- ment au nombre d'occur-
|
||
|
dels' (modèles basés sur rences du mot dans le
|
||
|
des règles), et se si- document. Il varie éga-
|
||
|
tuent à l’opposé des mo- lement en fonction de la
|
||
|
dèles statistiques. Ils fréquence du mot dans le
|
||
|
sont utiles pour des corpus. Le TF-IDF est
|
||
|
tâches spécifiques, notamment utilisé dans
|
||
|
comme par exemple, la la classification des
|
||
|
détection de la mention spams.
|
||
|
d'une certaine molécule
|
||
|
dans un article scienti- * 'WORD EMBEDDINGS'
|
||
|
fique. Ils sont perfor- Techniques de modélisa-
|
||
|
mants, même avec très tion du langage qui, par
|
||
|
peu de données d'entraî- de multiples opérations
|
||
|
nement. mathématiques, tracent
|
||
|
des mots dans un espace
|
||
|
* SENTIMENT ANALYSIS vectoriel multidimen-
|
||
|
Également appelé 'opi- sionnel. Lorsque les
|
||
|
nion mining' (sondage mots sont 'embedded' ou
|
||
|
d'opinion). Une tâche intégrés, ils se trans-
|
||
|
fondamentale de l'ana- forment de symboles dis-
|
||
|
lyse des sentiments tincts en objets mathé-
|
||
|
consiste à classer un matiques, qui peuvent
|
||
|
texte donné comme posi- être multipliés, divi-
|
||
|
tif, négatif ou neutre. sés, ajoutés ou sous-
|
||
|
La classification avan- traits.
|
||
|
cée des sentiments 'au-
|
||
|
delà de la polarité' * WORDNET
|
||
|
examine, par exemple, Wordnet est une combi-
|
||
|
les états émotionnels naison d'un dictionnaire
|
||
|
tels que 'en colère', et d'un thésaurus qui
|
||
|
'triste' et 'heureux'. peut être lu par des ma-
|
||
|
L'analyse du sentiment chines. Selon Wikipédia,
|
||
|
est largement appliquée il a été créé dans le
|
||
|
aux actions des utilisa- Cognitive Science Labo-
|
||
|
teurs tels que les cri- ratory de l'Université
|
||
|
tiques et les réponses de Princeton à partir de
|
||
|
aux enquêtes, les com- 1985.
|
||
|
mentaires et les mes-
|
||
|
sages sur les médias so-
|
||
|
ciaux, et les documents
|
||
|
de santé. Elle est inté-
|
||
|
grée dans des applica-
|
||
|
tions qui vont du marke-
|
||
|
ting au service à la
|
||
|
clientèle, des transac-
|
||
|
tions boursières à la
|
||
|
médecine clinique.
|
||
|
|
||
|
* TF-IDF (TERM FREQUENCY
|
||
|
- INVERSE DOCUMENT
|
||
|
FREQUENCY)
|
||
|
55
|
||
|
◝ humans learn with machines ◜ ◡ machines learn from machines ◞ ◡ machines learn with humans ◞ ◝
|
||
|
humans learn from machines ◟ ◜ machines learn with machines ◠ ◜ machines learn from humans ◟ ◠
|
||
|
humans learn with humans ◞ ◝ humans learn from humans ◞ ◠ humans learn with machines ◟ ◡ mac
|
||
|
ines learn from machines ◡ ◡ machines learn with humans ◟ ◡ humans learn from machines ◝ ◟
|
||
|
achines learn with machines ◠ ◝ machines learn from humans ◜ ◝ humans learn with humans ◞ ◞
|
||
|
humans learn from humans ◡ ◞ humans learn with machines ◠ ◠ machines learn from machines ◠
|
||
|
machines learn with humans ◞ ◜ humans learn from machines ◜ ◠ machines learn with machines ◝
|
||
|
◜ machines learn from humans ◜ ◠ humans learn with humans ◝ ◟ humans learn from humans ◞
|
||
|
◜ humans learn with machines ◡ ◡ machines learn from machines ◡ ◟ machines learn with humans
|
||
|
◠ ◠ humans learn from machines ◡ ◜ machines learn with machines ◜ ◟ machines learn from
|
||
|
umans ◟ ◞ humans learn with humans ◞ ◟ humans learn from humans ◜ ◠ humans learn with ma
|
||
|
hines ◜ ◠ machines learn from machines ◝ ◠ machines learn with humans ◝ ◞ humans learn f
|
||
|
om machines ◝ ◡ machines learn with machines ◜ ◡ machines learn from humans ◜ ◠ humans l
|
||
|
arn with humans ◡ ◡ humans learn from humans ◝ ◞ humans learn with machines ◟ ◡ machines
|
||
|
learn from machines ◜ ◜ machines learn with humans ◠ ◞ humans learn from machines ◝ ◠ ma
|
||
|
hines learn with machines ◟ ◟ machines learn from humans ◝ ◠ humans learn with humans ◟
|
||
|
humans learn from humans ◝ ◜ humans learn with machines ◠ ◝ machines learn from machines ◞
|
||
|
◠ machines learn with humans ◝ ◟ humans learn from machines ◟ ◞ machines learn with machines
|
||
|
◜ ◞ machines learn from humans ◞ ◡ humans learn with humans ◠ ◞ humans learn from human
|
||
|
◠ ◜ humans learn with machines ◡ ◞ machines learn from machines ◜ ◠ machines learn w
|
||
|
th humans ◡ ◝ humans learn from machines ◝ ◟ machines learn with machines ◠ ◠ machine
|
||
|
learn from humans ◞ ◟ humans learn with humans ◠ ◞ humans learn from humans ◠ ◠ huma
|
||
|
s learn with machines ◡ ◡ machines learn from machines ◜ ◞ machines learn with humans ◡
|
||
|
◟ humans learn from machines ◜ ◜ machines learn with machines ◜ ◝ machines learn from human
|
||
|
◜ ◠ humans learn with humans ◝ ◡ humans learn from humans ◡ ◞ humans learn with mach
|
||
|
nes ◜ ◝ machines learn from machines ◝ ◜ machines learn with humans ◞ ◜ humans learn
|
||
|
rom machines ◞ ◝ machines learn with machines ◞ ◜ machines learn from humans ◡ ◞ huma
|
||
|
s learn with humans ◟ ◜ humans learn from humans ◞ ◡ humans learn with machines ◝ ◝ m
|
||
|
chines learn from machines ◜ ◟ machines learn with humans ◡ ◟ humans learn from machines ◠
|
||
|
◝ machines learn with machines ◜ ◡ machines learn from humans ◞ ◝ humans learn with huma
|
||
|
s ◝ ◠ humans learn from humans ◞ ◜ humans learn with machines ◠ ◝ machines learn from
|
||
|
machines ◟ ◡ machines learn with humans ◝ ◝ humans learn from machines ◞ ◞ machines l
|
||
|
arn with machines ◠ ◠ machines learn from humans ◠ ◡ humans learn with humans ◜ ◜ hum
|
||
|
ns learn from humans ◞ ◞ humans learn with machines ◡ ◝ machines learn from machines ◟
|
||
|
◝ machines learn with humans ◠ ◟ machines learn with humans ◠ ◜ machines learn from
|
||
|
machines ◡ ◜ humans learn with machines ◞ ◟ humans learn from humans ◜ ◡ humans learn
|
||
|
with humans ◝ ◞ machines learn from humans ◜ ◝ machines learn with machines ◜ ◠ human
|
||
|
learn from machines ◡ ◝ machines learn with humans ◝ ◜ machines learn from machines ◜
|
||
|
◞ humans learn with machines ◠ ◝ humans learn from humans ◠ ◝ humans learn with humans ◞
|
||
|
◡ machines learn from humans ◜ ◝ machines learn with machines ◠ ◟ humans learn from machi
|
||
|
es ◜ ◟ machines learn with humans ◝ ◝ machines learn from machines ◞ ◜ humans learn w
|
||
|
th machines ◝ ◡ humans learn from humans ◝ ◝ humans learn with humans ◠ ◠ machines le
|
||
|
rn from humans ◝ ◡ machines learn with machines ◡ ◡ humans learn from machines ◠ ◞ ma
|
||
|
hines learn with humans ◝ ◜ machines learn from machines ◜ ◝ humans learn with machines ◠
|
||
|
◞ humans learn from humans ◝ ◡ humans learn with humans ◞ ◡ machines learn from humans ◟
|
||
|
◟ machines learn with machines ◝ ◝ humans learn from machines ◜ ◟ machines learn with
|
||
|
umans ◡ ◝ machines learn from machines ◡ ◝ humans learn with machines ◞ ◜ humans lear
|
||
|
from humans ◜ ◝ humans learn with humans ◞ ◡ machines learn from humans ◝ ◡ machines
|
||
|
learn with machines ◞ ◟ humans learn from machines ◜ ◞ machines learn with humans ◟ ◡
|
||
|
machines learn from machines ◜ ◝ humans learn with machines ◠ ◠ humans learn from humans ◠
|
||
|
◝ humans learn with humans ◟ ◞ machines learn from humans ◝ ◠ machines learn with machines
|
||
|
◜ ◟ humans learn from machines ◠ ◝ machines learn with humans ◝ ◜ machines learn from ma
|
||
|
hines ◟ ◟ humans learn with machines ◞ ◡ humans learn from humans ◝ ◝ humans learn with
|
||
|
umans ◡ ◝ machines learn from humans ◝ ◡ machines learn with machines ◟ ◞ humans learn f
|
||
|
om machines ◝ ◟ machines learn with humans ◝ ◜ machines learn from machines ◝ ◠ humans l
|
||
|
arn with machines ◠ ◠ humans learn from humans ◟ ◜ humans learn with humans ◟ ◝ machines
|
||
|
learn from humans ◡ ◡ machines learn with machines ◜ ◜ humans learn from machines ◠ ◟ ma
|
||
|
hines learn with humans ◞ ◜ machines learn from machines ◠ ◜ humans learn with machines ◜
|
||
|
◞ humans learn from humans ◝ ◟ humans learn with humans ◟ ◞ machines learn from humans ◟
|
||
|
◝ machines learn with machines ◡ ◜ humans learn from machines ◠ ◠ machines learn with humans ◞
|
||
|
◡ machines learn from machines ◟ ◝ humans learn with machines ◜ ◞ humans learn from huma
|
||
|
s ◝ ◞ humans learn with humans ◜ ◟ machines learn from humans ◜ ◞ machines learn with ma
|
||
|
hines ◝ ◞ humans learn from machines ◝ ◜ machines learn with humans ◟ ◜ machines learn from
|
||
|
machines ◡ ◟ humans learn with machines ◞ ◠ humans learn from humans ◞ ◟ humans learn with
|
||
|
umans ◠ ◜ machines learn from humans ◡ ◠ machines learn with machines ◠ ◝ humans learn from
|
||
|
machines ◠ ◜ machines learn with humans ◞ ◠ machines learn from machines ◞ ◠ humans learn w
|
||
|
th machines ◜ ◟ humans learn from humans ◝ ◠ humans learn with humans ◝ ◟ machines learn from
|
||
|
humans ◜ ◜ machines learn with machines ◠ ◞ humans learn from machines ◠ ◡ machines learn with
|
||
|
machines ◡ ◟ humans learn with machines ◞ ◠ humans learn from humans ◞ ◟ humans learn with mach
|
||
|
ines ◝ ◞ humans learn from machines ◝ ◜ machines learn with humans ◟ ◜ machines learn from hum
|