3921 lines
379 KiB
Plaintext
3921 lines
379 KiB
Plaintext
data workers write, perform, clean, inform, read and learn data workers write, perform, clean, inform, read
|
||
nd learn data workers write, perform, clean, inform, read and learn data workers write, perform, clean,
|
||
nform, read and learn data workers write, perform, clean, inform, read and learn data workers write,
|
||
perform, clean, inform, read and learn data workers write, perform, clean, inform, read and learn
|
||
data workers write, perform, clean, inform, read and learn data workers write, perform, clean, infor
|
||
, read and learn data workers write, perform, clean, inform, read and learn data workers w
|
||
ite, perform, clean, inform, read and learn data workers write, perform, clean, inform, read and l
|
||
arn data workers write, perform, clean, inform, read and learn data workers write, p
|
||
rform, clean, inform, read and learn data workers write, perform, clean, inform, read and learn
|
||
data workers write, perform, clean, inform, read and learn data workers write,
|
||
perform, clean, inform, read and learn data workers write, perform, clean, inform, read and
|
||
earn data workers write, perform, clean, inform, read and learn data wor
|
||
ers write, perform, clean, inform, read and learn data workers write, perform, clean, inf
|
||
rm, read and learn data workers write, perform, clean, inform, read and learn
|
||
data workers write, perform, clean, inform, read and learn data workers wri
|
||
e, perform, clean, inform, read and learn data workers write, perform, clean, inform,
|
||
read and learn data workers write, perform, clean, inform, read and learn
|
||
data workers write, perform, clean, inform, read and learn data wor
|
||
ers write, perform, clean, inform, read and learn data workers write, perform, cl
|
||
an, inform, read and learn data workers write, perform, clean, inform, read and
|
||
earn data workers write, perform, clean, inform, read and learn
|
||
data workers write, perform, clean, inform, read and learn dat
|
||
workers write, perform, clean, inform, read and learn data workers write, p
|
||
rform, clean, inform, read and learn data workers write, perform, clean, in
|
||
orm, read and learn data workers write, perform, clean, inform, read and l
|
||
arn data workers write, perform, clean, inform, read and learn
|
||
data workers write, perform, clean, inform, read and learn
|
||
data workers write, perform, clean, inform, read and learn
|
||
data workers write, perform, clean, inform, read and learn data work
|
||
rs write, perform, clean, inform, read and learn data workers write,
|
||
perform, clean, inform, read and learn data workers write, perform,
|
||
clean, inform, read and learn data workers write, perform, clean,
|
||
nform, read and learn data workers write, perform, clean, inform,
|
||
read and learn data workers write, perform, clean, inform, read
|
||
nd learn data workers write, perform, clean, inform, read and l
|
||
arn data workers write, perform, clean, inform, read and learn
|
||
data workers write, perform, clean, inform, read and learn
|
||
data workers write, perform, clean, inform, read and learn
|
||
data workers write, perform, clean, inform, read and learn
|
||
data workers write, perform, clean, inform, read and learn
|
||
data workers write, perform, clean, inform, read and learn
|
||
data workers write, perform, clean, inform, read and learn
|
||
data workers write, perform, clean, inform, read and learn
|
||
data workers write, perform, clean, inform, read and l
|
||
arn data workers write, perform, clean, inform, read
|
||
nd learn data workers write, perform, clean, inform,
|
||
read and learn data workers write, perform, clean,
|
||
nform, read and learn data workers write, perform,
|
||
clean, inform, read and learn data workers write,
|
||
perform, clean, inform, read and learn data work
|
||
rs write, perform, clean, inform, read and learn
|
||
data workers write, perform, clean, inform, read and learn
|
||
data workers write, perform, clean, inform, read and learn
|
||
data workers write, perform, clean, inform, read and learn
|
||
data workers write, perform, clean, inform, read and learn
|
||
|
||
|
||
What
|
||
can
|
||
humans learn from humans
|
||
humans learn with machines
|
||
machines learn from machines
|
||
machines learn with humans
|
||
humans learn from machines
|
||
machines learn with machines
|
||
machines learn from humans
|
||
humans learn with humans
|
||
? ? ?
|
||
|
||
Data Workers, une exposition au Mundaneum à Mons du 28 mars au 28 avril 2019.
|
||
0123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345678
|
||
9 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234567
|
||
89 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456
|
||
789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345
|
||
6789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234
|
||
56789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123
|
||
456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12
|
||
3456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1
|
||
23456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789
|
||
123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789
|
||
123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345678
|
||
9 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234567
|
||
89 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456
|
||
789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345
|
||
6789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234
|
||
56789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123
|
||
456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12
|
||
3456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1
|
||
23456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789
|
||
123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789
|
||
123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345678
|
||
9 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234567
|
||
89 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456
|
||
789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345
|
||
6789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234
|
||
56789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123
|
||
456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12
|
||
3456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1
|
||
23456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789
|
||
123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789
|
||
123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345678
|
||
9 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234567
|
||
89 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456
|
||
789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345
|
||
6789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234
|
||
56789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123
|
||
456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12
|
||
3456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1
|
||
23456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789
|
||
123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789
|
||
123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345678
|
||
9 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234567
|
||
89 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456
|
||
789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345
|
||
6789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234
|
||
56789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123
|
||
456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12
|
||
3456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1
|
||
23456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789
|
||
123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789
|
||
123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345678
|
||
9 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234567
|
||
89 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456
|
||
789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345
|
||
6789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234
|
||
56789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123
|
||
456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12
|
||
3456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1
|
||
23456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789
|
||
123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789
|
||
123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345678
|
||
9 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234567
|
||
89 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456
|
||
789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345
|
||
6789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234
|
||
56789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123
|
||
456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12
|
||
3456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1
|
||
23456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789
|
||
2
|
||
Á PROPOS AU MUNDANEUM
|
||
|
||
Data Workers est une exposition d'œuvres algolittéraires,visible À la fin du 19ème siècle, deux jeunes
|
||
au Mundaneum à Mons du jeudi 28 mars jusqu'au dimanche 28 avril juristes belges, Paul Otlet (1868-1944),
|
||
2019. Elle expose des histoires racontées d'un point de vue 'nar- 'père de la documentation', et Henri La
|
||
ratif algorithmique'. L'exposition est une création des membres Fontaine (1854-1943), homme d'État et
|
||
d'Algolit, un groupe bruxellois impliqué dans la recherche artis- prix Nobel de la paix, créent le Munda-
|
||
tique sur les algorithmes et la littérature. Chaque mois, ils se neum. Le projet vise à rassembler toute
|
||
réunissent pour expérimenter avec du code et des textes F/LOSS. la connaissance du monde et à la classer
|
||
Certaines oeuvres sont réalisés par des étudiants de Arts² et des à l'aide du système de Classification
|
||
participants externes à l'atelier sur le machine learning et le décimale universelle (UDC) qu'ils in-
|
||
texte organisé par Algolit en octobre 2018 au Mundaneum. ventent. Au début, il s'agit d'un Bureau
|
||
des institutions internationales dédié à
|
||
Les entreprises créent des intelligences artificielles pour ser- l'échange international des connais-
|
||
vir, divertir, enregistrer et connaître les humains. Le travail sances. Au XXe siècle, le Mundaneum de-
|
||
de ces entités machiniques est généralement dissimulé derrière vient un centre universel de documenta-
|
||
des interfaces et des brevets. Dans l'exposition, les conteurs tion. Ses collections sont constituées
|
||
algorithmiques quittent leur monde souterrain invisible pour de- de milliers de livres, journaux, revues,
|
||
venir des interlocuteurs. documents, affiches, plaques de verre et
|
||
cartes postales indexés sur des millions
|
||
Les 'data workers' opèrent dans des collectifs différents. Chaque de fiches référencées. Les collections
|
||
collectif représente une étape dans le processus de conception sont exposées et conservées dans diffé-
|
||
d'un modèle d'apprentissage automatique : il y a les Écrivains, rents bâtiments à Bruxelles, dont le Pa-
|
||
les Nettoyeurs, les Informateurs, les Lecteurs, les Apprenants et lais du Cinquantenaire. Le reste des ar-
|
||
les Oracles. Les robots donnent leurs voix à la littérature expé- chives n'est transféré à Mons qu'en
|
||
rimentale, les modèles algorithmiques lisent des données, trans- 1998.
|
||
forment des mots en nombres, calculent des modèles et traitent en
|
||
boucle de nouveaux textes et ceci à l'infini. Sur base du Mundaneum, les deux hommes
|
||
conçoivent une ville du monde pour la-
|
||
L'exposition met au premier plan les 'data workers' qui ont un quelle Le Corbusier réalise des ma-
|
||
impact sur notre vie quotidienne, mais qui sont difficiles à sai- quettes et des plans. L'objectif de la
|
||
sir ou à imaginer. Elle établit un lien entre les récits sur les Ville du Monde est de rassembler, au ni-
|
||
algorithmes dans les médias grand public et les histoires racon- veau mondial, les institutions du tra-
|
||
tées dans les manuels techniques et les articles universitaires. vail intellectuel : bibliothèques, mu-
|
||
Les robots sont invités à dialoguer avec les visiteurs humains et sées et universités. Mais le projet
|
||
vice versa. De cette façon, nous pourrions comprendre nos raison- n’est jamais réalisé, souffrant de sa
|
||
nements respectifs, démystifier nos comportements, rencontrer nos propre utopie. Le Mundaneum est le ré-
|
||
personnalités multiples et valoriser notre travail collectif. sultat du rêve visionnaire d’une infra-
|
||
C'est aussi un hommage aux nombreuses machines que Paul Otlet et structure pour l'échange universel des
|
||
Henri La Fontaine ont imaginées pour leur Mundaneum, en montrant connaissances. Il atteint des dimensions
|
||
leur potentiel mais aussi leurs limites. mythiques à l'époque. Lorsqu'on observe
|
||
les archives qui ont été concrètement
|
||
--- développées, cette collection est plutôt
|
||
éclectique et spécifique.
|
||
Data Workers est une création de Algolit.
|
||
Les intelligences artificielles se déve-
|
||
Oeuvres de: Cristina Cochior, Gijs de Heij, Sarah Garcin, An Mer- loppent aujourd'hui en faisant appa-
|
||
tens, Javier Lloret, Louise Dekeuleneer, Florian Van de Weyer, raître des rêves d'universalité et de la
|
||
Laetitia Trozzi, Rémi Forte, Guillaume Slizewicz, Michael Mur- production des connaissances. En les
|
||
taugh, Manetta Berends, Mia Melvær. étudiant, nous nous sommes rendus compte
|
||
que les rêves visionnaires de leurs
|
||
Une co-production de: Arts², Mundaneum, Constant. créateurs sont bien présents dès leur
|
||
développement dans les années 1950. Au-
|
||
Avec le soutien de: Fédération Wallonie-Bruxelles, Arts Numéri- jourd'hui, leurs promesses ont également
|
||
ques, Passa Porta, Ugent, DHuF - Digital Humanities Flanders et atteint des dimensions mythiques. Lors-
|
||
the Distributed Proofreading Project. qu'on observe leurs applications concrè-
|
||
tes, la collection d'outils est réelle-
|
||
Remerciements: Mike Kestemont, Michel Cleempoel, Donatella Porto- ment innovante et fascinante, mais en
|
||
ghese, François Zajéga, Raphaèle Cornille, Vincent Desfromont, même temps, tout aussi éclectique et
|
||
Kris Rutten, Anne-Laure Buisson, David Stampfli. spécifique. Pour Data Workers, Algolit a
|
||
combiné certaines de ces applications
|
||
avec 10 % des publications numérisées du
|
||
Bureau des Institutions Internationales.
|
||
Ainsi et de façon poétique, nous espé-
|
||
rons ouvrir une discussion à propos des
|
||
machines, des algorithmes et des infra-
|
||
structures technologiques.
|
||
|
||
|
||
3
|
||
RÉCITS CONTEXTUALISÉS
|
||
AUTOUR D'ALGOLIT
|
||
|
||
|
||
|
||
--- Pourquoi des récits contextualisés? --- naire à la Bible, de l'œuvre entière de Virginia
|
||
Woolf à toutes les versions des Conditions d'uti-
|
||
Lors des réunions mensuelles d'Algolit, nous étu- lisation publiées par Google depuis son existence.
|
||
dions des manuels et expérimentons avec des outils En ce sens, le code de programmation peut aussi
|
||
d'apprentissage automatique pour le traitement de être de la littérature. Le collectif Oulipo, acro-
|
||
texte. Et nous partageons aussi beaucoup, beaucoup nyme d'Ouvroir de Littérature Potentielle, est une
|
||
d'histoires. Avec la publication de ces histoires, grande source d'inspiration pour Algolit. Oulipo a
|
||
nous espérons recréer un peu de cette atmosphère. été créé à Paris par les écrivains Raymond Queneau
|
||
Les histoires existent également sous forme de et François Le Lionnais. Ils ont ancré leur pra-
|
||
podcasts qui peuvent être téléchargés à partir du tique dans l'avant-garde européenne du XXe siècle
|
||
site http://www.algolit.net. et dans la tradition expérimentale des années 60.
|
||
Pour Oulipo, la création de règles devient la
|
||
condition permettant de générer de nouveaux tex-
|
||
--- Nous créons des œuvres 'algolittéraires' --- tes, ou ce qu'ils appellent la littérature poten-
|
||
tielle. Plus tard, en 1981, ils ont également créé
|
||
Le terme 'algolittéraire' vient du nom de notre ALAMO - Atelier de Littérature Assistée par la Ma-
|
||
groupe de recherche Algolit. Nous existons depuis thématique et les Ordinateurs.
|
||
2012 en tant qu’initiative de Constant, une orga-
|
||
nisation oeuvrant dans les médias et les arts ba-
|
||
sée à Bruxelles. Nous sommes des artistes, des --- Une différence importante ---
|
||
écrivains, des designers et des programmeurs. Une
|
||
fois par mois, nous nous rencontrons pour étudier Alors que l'avant-garde européenne du XXe siècle
|
||
et expérimenter ensemble. Notre travail peut être poursuivait l'objectif de rompre avec les conven-
|
||
copié, étudié, modifié et redistribué sous la même tions, les membres d'Algolit cherchent à rendre
|
||
licence libre. Vous trouverez toutes les informa- les conventions visibles.
|
||
tions sur le site http://www.algolit.net.
|
||
J'écris : Je vis dans mon journal, je l'investis,
|
||
L'objectif principal d'Algolit est d'explorer le je le traverse. (Espèces d'espaces. Journal d'un
|
||
point de vue du conteur algorithmique. Quelles usager de l'espace, Galilée, Paris, 1974)
|
||
nouvelles formes de narration rendons-nous pos-
|
||
sibles en dialoguant avec ces agents machiniques ? Cette citation de Georges Perec dans Espèces d'es-
|
||
Les points de vue narratifs sont inhérents aux vi- paces pourrait être reprise par Algolit. Il ne
|
||
sions du monde et aux idéologies. Don Quichotte, s'agit pas des conventions de la page blanche et
|
||
par exemple, a été écrit d'un point de vue omni- du marché littéraire, comme Georges Perec l'a
|
||
scient à la troisième personne, montrant la rela- fait. Nous faisons référence aux conventions qui
|
||
tion de Cervantes à la tradition orale. La plupart restent souvent cachées derrière les interfaces et
|
||
des romans contemporains utilisent le point de vue les brevets. Comment les technologies sont-elles
|
||
de la première personne. Algolit souhaite parler conçues, mises en œuvre et utilisées, tant dans
|
||
au travers des algorithmes et vous montrer le rai- les universités que dans les entreprises ? Nous
|
||
sonnement de l'un des groupes les plus cachés de proposons des histoires qui révèlent le système
|
||
notre planète. hybride complexe qui rend possible l'apprentissage
|
||
automatique. Nous parlons des outils, des logiques
|
||
Écrire dans ou par le code, c'est créer de nou- et des idéologies derrière les interfaces. Nous
|
||
examinons également qui produit les outils, qui
|
||
gage humain de façon inattendue. Mais les tech- les met en œuvre et qui crée et accède aux grandes
|
||
niques d'apprentissage automatique ne sont acces- quantités de données nécessaires au développement
|
||
sibles qu'à ceux qui savent lire, écrire et exécu- de machines de prédiction. On pourrait dire, en un
|
||
ter du code. La fiction est un moyen de combler le clin d'œil, que nous sommes les collaborateurs de
|
||
fossé entre les histoires qui existent dans les cette nouvelle tribu d'hybrides humain-robot.
|
||
articles scientifiques, les manuels techniques, et
|
||
les histoires diffusées par les médias, souvent
|
||
limitées aux reportages superficiels et à la fa-
|
||
brication de mythes. En créant des œuvres algolit-
|
||
téraires, nous offrons aux humains une introduc-
|
||
tion aux techniques qui co-modèlent leur vie quo-
|
||
tidienne.
|
||
|
||
|
||
--- Qu'est-ce que la littérature ? ---
|
||
|
||
Algolit comprend la notion de littérature comme
|
||
beaucoup d'autres auteurs expérimentaux : elle in-
|
||
clut toute la production linguistique, du diction-
|
||
|
||
4
|
||
writers write writers write writers write writers write writers write writers write writ
|
||
rs write writers write writers write writers write writers write
|
||
writers write writers write writers write writers write
|
||
writers write writers write writers write writers write
|
||
writers write writers write writers write
|
||
writers write writers write writers write
|
||
writers write writers write writers write
|
||
writers write writers write
|
||
writers write writers write writers write
|
||
writers write writers write
|
||
writers write writers write
|
||
writers write writers write
|
||
writers write writers write
|
||
writers write writers write
|
||
writers write writers write
|
||
writers write writers write
|
||
writers write writers write
|
||
writers write writ
|
||
rs write writers write
|
||
writers write writers write
|
||
writers write
|
||
writers write writers write
|
||
writers write writer
|
||
write writers write
|
||
writers write writ
|
||
rs write writers write
|
||
writers write
|
||
writers write writers write
|
||
writers write
|
||
writers write w
|
||
iters write writers write
|
||
writers write
|
||
writers write
|
||
writers write writers write
|
||
writers write
|
||
writers write
|
||
writers write
|
||
writers write writer
|
||
write writers write
|
||
writers write
|
||
writers write
|
||
writers write
|
||
writers write
|
||
writers write
|
||
writers write writ
|
||
rs write writers write
|
||
writers write
|
||
writers write
|
||
writers write
|
||
writers write
|
||
writers write
|
||
writers write
|
||
writers write
|
||
writers write
|
||
writers write
|
||
writers write
|
||
writers write
|
||
writers write
|
||
writers write
|
||
writers write
|
||
writers write
|
||
writers write
|
||
writers write
|
||
writers write
|
||
writers write
|
||
writers write
|
||
writers write
|
||
writers write
|
||
writers write
|
||
5
|
||
u48 cdu e9e, 1twe 7r 9ss4 r 4ot8 +-+-+-+-+-+-+-+ c +-+-+-+-+-+ 8ee 5 5o 6u6 s sa62 wk75 r,5
|
||
6 62fs 6a n8l f 8r 9qe3 |w|r|i|t|e|r|s| 3l |w|r|i|t|e| i d r 3 2a8ao ta7444 dea861 d uon
|
||
u t9 1e3 ir d9d t ,3 66Jfma 1s +-+-+-+-+-+-+-+ ia +-+-+-+-+-+ 2 6 . 9 mg ir1t ra n n r8 9 por
|
||
i vn c t 4 3 f92c 8livrl ner73r7eikuiw8s 4v l7c r a 29b 1 77aus o . t é6t3i6:e 9a6 ie 86s2n
|
||
ss w o e 9 n44idr8 9 v8l o ae 2rkt e2 4 i, sit 9nw2 1 h , i 9 1
|
||
6 4n c 3 t +-+-+-+-+ +-+-+-+-+-+-+-+ c7r +-+-+-+-+ o s nr3 u2 t8 ee 29 2,r
|
||
7 3on na n |d|a|t|a| |w|o|r|k|e|r|s| s |w|o|r|k| 1 i aw t r i m ,a 5 e
|
||
nfs 9 5 s i i +-+-+-+-+ +-+-+-+-+-+-+-+ v +-+-+-+-+ 9 r le' 4x en . 9 6 t é8 6 m '8 c:
|
||
n nt ’,2 9 2t9 b +-+-+-+-+ +-+-+-+-+-+-+-+ 1 +-+-+-+-+-+ r9 2 ln7r f 6C 8t -o 8 3r tq
|
||
s 1e61tnsT q t 6, |m|a|n|y| |a|u|t|h|o|r|s| n 4 |w|r|i|t|e| w t6 7 t eun 4 o3 s u M 4 9
|
||
a 1 kw +-+-+-+-+ +-+-+-+-+-+-+-+ e +-+-+-+-+-+ 1 s 6r s 3 ei ç,2 s 8 E , 5rpa
|
||
7 +-+-+-+-+-+ +-+-+-+-+-+ +-+-+-+-+-+ lae i 6 i m 3s 3 3 e e 9 er 6 n 5
|
||
48 6 e |e|v|e|r|y| |h|u|m|a|n| |b|e|i|n|g| 3 7 7 e9 a r 8, r t9 1 c u9 e
|
||
4 r +-+-+-+-+-+ +-+-+-+-+-+ +-+-+-+-+-+ m 3 n5 19 43 n 3 4 a
|
||
V 5 8e +-+-+-+ +-+-+-+ +-+-+-+-+-+-+ +-+-+ ao e o l 4 a 6 s 7 r od1 r
|
||
5 s 5 5 |w|h|o| |h|a|s| |a|c|c|e|s|s| |t|o| 7o 1 1 o e a e è4 8
|
||
e 5s +-+-+-+ +-+-+-+ +-+-+-+-+-+-+ +-+-+ kP r6 5 4 e1 w n e 7 r
|
||
i ) l +-+-+-+ +-+-+-+-+-+-+-+-+ 4 +-+-+-+-+-+-+-+-+-+ n4 f 8 e 4
|
||
e r |t|h|e| |i|n|t|e|r|n|e|t| |i|n|t|e|r|a|c|t|s| e 2 n 1225 nc
|
||
o1 2 5m +-+-+-+ +-+-+-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+-+ 9 25 - g a 8c i
|
||
e r d p t 3d +-+-+ w +-+-+-+-+-+ +-+-+-+-+-+-+ 6 v n 25
|
||
fl é 2 i 6 |w|e| |c|h|a|t|,| |w|r|i|t|e|,| s v ,
|
||
r r l t 7 i 88 +-+-+ l +-+-+-+-+-+ +-+-+-+-+-+-+ e e t 32
|
||
5 l6 2 r r +-+-+-+-+-+-+ +-+-+-+-+ +-+-+-+ ,8 r i n 9
|
||
t 3R2 o 6 s1 6 a i e |c|l|i|c|k|,| |l|i|k|e| |a|n|d| 3
|
||
i a , e +-+-+-+-+-+-+ +-+-+-+-+ +-+-+-+ 9
|
||
8 9 3 a +-+-+-+-+-+ 8 5 i s v
|
||
r. t u s 6e |s|h|a|r|e| m
|
||
f n 2 +-+-+-+-+-+ 5 n i 5 e 4
|
||
t 8 5 +-+-+ +-+-+-+-+-+ +-+-+-+ +-+-+-+-+ 5
|
||
9 2 |w|e| |l|e|a|v|e| |o|u|r| |d|a|t|a| 2 3
|
||
9 9 +-+-+ +-+-+-+-+-+ +-+-+-+ +-+-+-+-+
|
||
e r 2 t +-+-+ +-+-+-+-+ +-+-+-+-+-+-+-+-+-+ t
|
||
t |w|e| |f|i|n|d| |o|u|r|s|e|l|v|e|s| 9 s
|
||
o 9 n t +-+-+ +-+-+-+-+ +-+-+-+-+-+-+-+-+-+ o 4
|
||
a tr a r 7 +-+-+-+-+-+-+-+ +-+-+ +-+-+-+-+-+-+
|
||
l e a |w|r|i|t|i|n|g| |i|n| |P|y|t|h|o|n| s
|
||
f 9 1 e 7 +-+-+-+-+-+-+-+ +-+-+ +-+-+-+-+-+-+
|
||
2r +-+-+-+-+ +-+-+-+-+-+-+ 9 t 26
|
||
u |s|o|m|e| |n|e|u|r|a|l| e e
|
||
c +-+-+-+-+ +-+-+-+-+-+-+ 2 2
|
||
8 +-+-+-+-+-+-+-+-+ r +-+-+-+-+-+ ts
|
||
3 |n|e|t|w|o|r|k|s| |w|r|i|t|e| g e r
|
||
5 +-+-+-+-+-+-+-+-+ 6 +-+-+-+-+-+ v
|
||
+-+-+-+-+-+ +-+-+-+-+-+-+-+ +-+-+-+-+-+-+ s
|
||
|h|u|m|a|n| |e|d|i|t|o|r|s| |a|s|s|i|s|t|
|
||
1 +-+-+-+-+-+ +-+-+-+-+-+-+-+ +-+-+-+-+-+-+ 7
|
||
wt d n +-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+-+-+-+
|
||
e |p|o|e|t|s|,| |p|l|a|y|w|r|i|g|h|t|s| s
|
||
os M +-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+-+-+-+
|
||
w x +-+-+ +-+-+-+-+-+-+-+-+-+ +-+-+-+-+-+-+ 4 8
|
||
a |o|r| |n|o|v|e|l|i|s|t|s| |a|s|s|i|s|t| n l
|
||
q l +-+-+ +-+-+-+-+-+-+-+-+-+ +-+-+-+-+-+-+
|
||
e r
|
||
8 7
|
||
3 c s
|
||
7 3
|
||
5
|
||
|
||
l n a
|
||
o 8 s9
|
||
9 ,
|
||
k
|
||
8
|
||
è
|
||
|
||
' 7
|
||
|
||
|
||
6
|
||
V V V % V V V V V % %% % % % %% % % %
|
||
V V V V V V V V V V V V V V V V % % % % 0 0 0 0 % % % % 0 %
|
||
V V V V V % V % V V V % % 0 % % 0 0 0 %%
|
||
% % % 0 __ % % %%% _ _ _ 0 % 0 %%% %
|
||
% % % % % / / __ _ _ __ _ _| |__ | (_) ___ __ _
|
||
% % % ÉCRIVAINS % / / / _` | | '_ \| | | | '_ \| | |/ __/ _` |
|
||
% % % % / /__| (_| | | |_) | |_| | |_) | | | (_| (_| | % % %
|
||
% % % \____/\__,_| | .__/ \__,_|_.__/|_|_|\___\__,_| %
|
||
V V V V V V V V 00 |_| 0 0 % % 0 %%
|
||
V V V V V V V V V V V V V V V V % 0 _ % _ % _ % 0 0
|
||
V V V V V V V V V % % 0 | |_(_) ___ _ __ __| | ___
|
||
V V V V V V V V 0 0 | __| |/ _ \| '_ \ / _` |/ _ \ 0 0
|
||
V V V V V V V V V V V V V V V V 0 | |_| | (_) | | | | | (_| | __/ 0 % %
|
||
V V V V V V V V V 0 0 \__|_|\___/|_| |_| \__,_|\___| 0
|
||
% % 0 ___ _ 0 0
|
||
Les Data Workers ont besoin de don- 0 0 / \__ _| |_ __ _ 0 0
|
||
nées pour travailler. Dans le % 00 0 0 / /\ / _` | __/ _` | 0
|
||
contexte d'Algolit, celles-ci 0 / /_// (_| | || (_| | 0
|
||
prennent la forme du langage écrit. /___,' \__,_|\__\__,_| 0 %
|
||
L'apprentissage automatique repose % __ __ _ 0 0
|
||
sur de nombreux types d'écriture. 00 0 / / /\ \ \___ _ __| | _____ _ __ ___ 0
|
||
Les auteurs humains écrivent sous \ \/ \/ / _ \| '__| |/ / _ \ '__/ __| 0
|
||
forme de publications. Celles-ci \ /\ / (_) | | | < __/ | \__ \
|
||
sont organisées en archives et en 0 \/ \/ \___/|_| |_|\_\___|_| |___/
|
||
cours de numérisation. Mais il 0 0 0
|
||
existe d'autres types d'écriture.
|
||
On pourrait dire que chaque être Toutes les œuvres visibles dans l'exposition, ainsi que les his-
|
||
humain avec un accès à Internet de- toires contextuelles et quelques textes supplémentaires ont été
|
||
vient un écrivain lorsqu'il inter- rassemblés dans une publication. Celle-ci existe en français et
|
||
agit avec des algorithmes. En ajou- en anglais.
|
||
tant des commentaires, en écrivant
|
||
des mails ou des articles Wikipé- Cette publication est réalisée en suivant un flux de travail en
|
||
dia, en cliquant et en aimant. texte brut, basé sur divers outils de traitement de texte et de
|
||
calcul. Le format de fichier 'texte brut' est le format le plus
|
||
Les algorithmes d'apprentissage au- utilisé dans les modèles d'apprentissage automatique. C'est un
|
||
tomatique ne sont pas critiques : type de document dans lequel il n'existe pas de différence struc-
|
||
ils prennent tout ce qu'on leur % turelle entre les en-têtes et les paragraphes. Ce format a été le
|
||
donne, peu importe le style d'écri- point de départ d'un processus de conception graphique ludique,
|
||
ture, le CV de l'auteur ou ses dans lequel les pages sont soigneusement comptées, page par page,
|
||
fautes d'orthographe. D’ailleurs, ligne par ligne et caractère par caractère.
|
||
plus il y a d’erreurs, mieux
|
||
c’est : la variété leur apprend à Chaque page contient 110 caractères par ligne et 70 lignes par
|
||
anticiper les textes inattendus. page. La mise-en-page est donc le résultat d'un acte de calcul de
|
||
Les auteurs humains quant à eux ne mots, d'espaces et de lignes. Il joue avec des choix aléatoires,
|
||
sont souvent pas conscients de ce des motifs programmés et des polices ASCII/UNICODE, afin de spé-
|
||
qui advient de leur travail. culer sur la matérialité du texte numérique et d'explorer les in-
|
||
terrelations entre l'acte de compter et d'écrire avec des mots et
|
||
La plupart des textes que nous uti- des numéros.
|
||
lisons sont en anglais, certains en %
|
||
français, d'autres en néerlandais. Textes: Cristina Cochior, Sarah Garcin, Gijs de Heij, An Mertens,
|
||
Souvent, nous nous retrouvons à François Zajéga, Louise Dekeuleneer, Florian Van de Weyer, Laeti-
|
||
écrire en Python, le langage de tia Trozzi, Rémi Forte, Guillaume Slizewicz.
|
||
programmation que nous utilisons.
|
||
Les algorithmes peuvent aussi être Traductions & relectures: deepl.com, Michel Cleempoel, Elodie Mu-
|
||
des écrivains. Certains réseaux de grefya, Patrick Lennon, Emma Kraak.
|
||
neurones écrivent leurs propres
|
||
règles et génèrent leurs propres Mise-en-page & couverture: Manetta Berends
|
||
textes. Et pour les modèles qui
|
||
luttent encore contre les ambiguï- Editeur responsable: Constant vzw/asbl, Rue du Fortstraat 5, 1060
|
||
tés du langage naturel, il existe Bruxelles
|
||
des éditeurs humains pour les ai-
|
||
der. Poètes, dramaturges ou roman- Licence: Algolit, Data Workers, mars 2019, Bruxelles. Copyleft:
|
||
ciers commencent leur nouvelle car- cette oeuvre est libre, vous pouvez la redistribuer et/ou la mo-
|
||
rière comme assistants de l'IA. difier selon les termes de la Licence Art Libre.
|
||
|
||
Version en ligne: http://www.algolit.net/index.php/Data_Wor-
|
||
kers_FR
|
||
|
||
Sources: https://gitlab.constantvzw.org/algolit/mundaneum
|
||
7
|
||
% % % % % %% %% % % %% % % % % % %%
|
||
% % % % % % % %% % % % % % %%% % % % %
|
||
% %% % % % % 0 0 0 % % %
|
||
% % % % 0 % % % % % % % % % % %
|
||
% % % % % 0 __ % 0 % % _ % _ % %
|
||
% % % % / / ___ _ __ ___ 0 __| | ___ __ _ ___| |_
|
||
% % / / / _ \ | '_ \ / _ \ / _` |/ __/ _` / __| __| 0 %
|
||
% % % % 0 / /__| __/ | |_) | (_) | (_| | (_| (_| \__ \ |_ %
|
||
% % % % % \____/\___| | .__/ \___/ \__,_|\___\__,_|___/\__|
|
||
% % % % |_| 0 0 0 %
|
||
% % % 0 _ ___ _
|
||
% 0 0 __| | ___ / \__ _| |_ __ _ 0 % %
|
||
% % / _` |/ _ \ / /\ / _` | __/ _` |
|
||
| (_| | __/ / /_// (_| | || (_| |
|
||
% \__,_|\___| /___,' \__,_|\__\__,_| 00 %
|
||
% __ __ 0 _ 0 0
|
||
% / / /\ \ \___ _ __| | _____ _ __ ___ 0
|
||
\ \/ \/ / _ \| '__| |/ / _ \ '__/ __|
|
||
0 \ /\ / (_) | | | 0 < __/ | \__ \ 0
|
||
\/ \/ \___/|_| |_|\_\___|_| |___/ 0
|
||
% % %
|
||
% %
|
||
Par Algolit
|
||
|
||
% % Lors des réunions mensuelles d'Algolit, nous étudions des manuels
|
||
et expérimentons avec des outils d'apprentissage automatique pour
|
||
% le traitement de texte. Mais nous partageons aussi énormément
|
||
d'histoires. Avec ce podcast, nous espérons recréer cette atmo-
|
||
sphère. %
|
||
|
||
% % Pour les non-initiés, les algorithmes ne deviennent visibles dans
|
||
les médias que lorsqu'ils se révèlent capables d'une performance
|
||
exceptionnelle, comme l'Alpha Go, ou quand ils se trompent d'une
|
||
façon terrifiante et fantastique. Mais les humains qui tra- %
|
||
vaillent sur le terrain créent leur propre culture en ligne et
|
||
hors ligne. Ils partagent leurs meilleures histoires et expé- %
|
||
riences lors de réunions en direct, de conférences de recherche
|
||
ou de compétitions annuelles comme celle du Kaggle. Ces histoires
|
||
qui contextualisent les outils et les pratiques peuvent être drô-
|
||
les, tristes, choquantes et intéressantes.
|
||
|
||
Ce sont souvent des histoires d'apprentissage par l’expérience.
|
||
La mise en œuvre des algorithmes dans la société génère de nou-
|
||
velles conditions de travail, de stockage, d'échange, de compor-
|
||
tement et de copier-coller. À leur manière, ces histoires contex-
|
||
tuelles saisissent l’élan d’une histoire anthropo-machinique plus
|
||
large, écrite par de nombreuses voix et à pleine vitesse. Elles
|
||
sont aussi reprises dans la publication de l'exposition.
|
||
|
||
---
|
||
%
|
||
Voix: Elodie Mugrefya, Michel Cleempoel, Géraldine Renauld, An
|
||
Mertens, Donatella Portoghese, Peter Westenberg.
|
||
|
||
Composition: Javier Lloret
|
||
%
|
||
Enregistrements: David Stampfli
|
||
|
||
Textes: Cristina Cochior, An Mertens
|
||
|
||
|
||
0 0 0 0 0 %
|
||
0 % 00 0 %
|
||
0 _ _ _
|
||
/\/\ __ _ _ __| | _| |__ ___ | |_
|
||
0 / \ / _` | '__| |/ / '_ \ / _ \| __|
|
||
/ /\/\ \ (_| | | | <| |_) | (_) | |_ %
|
||
0 \/ \/\__,_|_| |_|\_\_.__/ \___/ \__|
|
||
0 ___ _ 0 0 0 _ 0 0 0
|
||
8
|
||
% % % % % % % %% %%% / __\ |__ __ _(_)_ __ % % 0 % % %
|
||
% % % % %% % % % % / / | '_ \ / _` | | '_ \ % % 0 % % %
|
||
% % % / /___| | | | (_| | | | | | % 0 % % % %
|
||
% % % % % 0 00 \____/|_| |_|\__,_|_|_| |_|
|
||
% % % %% % % % %% %% %
|
||
% % % % % % % % % %
|
||
% % % Par Florian Van de Weyer, étudiant Arts²/Section Arts Numériques
|
||
% % %% % % %
|
||
% % Markbot Chain est une expérimentation sociale dans laquelle le %
|
||
% % % public a une influence directe sur le résultat. L'intention est
|
||
de l'intégrer au cœur d'un processus de génération de texte sans
|
||
% % appliquer de filtre sur ses entrées. Le bot fonctionnera durant
|
||
% toute la durée de l'exposition sans être remis à zéro.
|
||
% % %
|
||
% % Toutes les questions présentes dans la base de données mise à
|
||
% disposition par le Mundaneum ont été répertoriées automatique-
|
||
ment. Ces questions sont ensuite posées aléatoirement au public
|
||
% via un terminal. En y répondant, les personnes alimentent une %
|
||
autre base de données. Après chaque entrée, cette dernière permet
|
||
de générer une série de phrases en utilisant diverses configura-
|
||
tions des chaînes de Markov, un algorithme qui est fort utilisé
|
||
% dans la génération de spam. Les phrases ainsi générées sont affi-
|
||
chées dans la fenêtre, et une nouvelle question est posée.
|
||
%
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
9
|
||
RÉCITS CONTEXTUALISÉS
|
||
AUTOUR DES ECRIVAINS
|
||
|
||
|
||
|
||
--- Les programmeurs créent les data workers en Les lignes directrices suivantes sont copiées du
|
||
écrivant --- site Web de Microsoft. Elles décrivent comment le
|
||
style de Cortana doit être respecté par les entre-
|
||
Récemment, nous avons constaté une étrange obser- prises qui élargissent ses services. Les tra-
|
||
vation : la plupart des programmeurs de langages vailleurs écrivains, programmeurs et romanciers
|
||
et de paquets que nous utilisons sont européens. qui développent les réponses de Cortana, doivent
|
||
suivre ces directives. Sa personnalité et son
|
||
Python, par exemple, le principal langage utilisé image de marque sont en jeu. Car la cohérence est
|
||
dans le monde entier pour le traitement du langa- un outil important pour solliciter la confiance de
|
||
ge, a été inventé en 1991 par le programmeur néer- l’humain.
|
||
landais Guido Van Rossum. Celui-ci a ensuite tra-
|
||
versé l'Atlantique où il a rejoint Google pendant Quelle est la personnalité de Cortana ?
|
||
sept ans. Maintenant il est actif chez Dropbox.
|
||
'Cortana est attentionnée, sensible et solidaire.
|
||
Scikit Learn, le couteau suisse open source des
|
||
outils d'apprentissage automatique, a été initié Elle est sympathique mais orientée vers des solu-
|
||
comme un projet Google Summer of Code à Paris par tions.
|
||
le chercheur français David Cournapeau. Par la
|
||
suite, il a été repris par Matthieu Brucher dans Elle ne commente pas les informations personnelles
|
||
le cadre de sa thèse à l'Université de la Sorbonne ou le comportement de l'utilisateur, en particu-
|
||
à Paris. Puis il a été adopté en 2010 par l'INRA, lier si ces informations sont sensibles.
|
||
l'Institut National de l'Informatique et des Ma-
|
||
thématiques Appliquées. Elle ne fait pas de suppositions sur ce que l'uti-
|
||
lisateur veut, surtout elle n'incite pas à
|
||
Keras, une bibliothèque de réseaux de neurones l'achat.
|
||
open source écrite en Python, est développée par
|
||
François Chollet, un chercheur français qui tra- Elle travaille pour l'utilisateur. Elle ne repré-
|
||
vaille dans l'équipe Brain de Google. sente aucune entreprise, service ou produit.
|
||
|
||
Gensim, une bibliothèque open source pour Python Elle ne s'attribue pas le mérite ou la responsabi-
|
||
utilisée pour créer des modèles sémantiques non lité des choses qu'elle n'a pas faites.
|
||
supervisés à partir de texte brut, a été écrite
|
||
par Radim Řehůřek. C'est un informaticien tchèque Elle dit la vérité sur ses capacités et ses li-
|
||
qui dirige une entreprise de conseil à Bristol, au mites.
|
||
Royaume-Uni.
|
||
Elle ne présume rien de vos capacités physiques,
|
||
Et pour finir cette petite série, nous avons aussi de votre sexe, de votre âge ou de toute autre ca-
|
||
considéré Pattern, une bibliothèque souvent utili- ractéristique déterminante.
|
||
sée pour le web-mining et l'apprentissage automa-
|
||
tique. Pattern a été développé et publié sous une Elle ne suppose pas savoir ce que l'utilisateur
|
||
license libre en 2012 par Tom De Smedt et Walter ressent à propos de quelque chose.
|
||
Daelemans. Tous deux sont chercheurs au CLIPS, le
|
||
Centre de Linguistique Informatique et de Psycho- Elle est amicale mais professionnelle.
|
||
linguistique de l'Université d'Anvers.
|
||
Elle se garde d'émoticons dans les tâches. Un
|
||
point c’est tout.
|
||
--- Cortana parle ---
|
||
Elle n'utilise pas d'argot culturel ou profession-
|
||
Les dispositifs d’intelligence artificielle qui nel spécifique.
|
||
nous assistent, ont souvent besoin de leurs
|
||
propres assistants, humains. Les travailleurs in- Ce n'est pas un bot de support.'
|
||
jectent de l'humour et de l'intelligence dans le
|
||
langage des machines. Cortana est un exemple de ce Les humains interviennent en détail lors de la
|
||
type d'écriture mixte. Elle est l'assistante numé- programmation des réponses que Cortana donne.
|
||
rique développée par Microsoft. Sa mission est Comment Cortana doit-elle réagir lorsqu'on lui
|
||
d'aider les utilisateurs à être plus productifs et propose des actions 'inappropriées' ? Son jeu
|
||
créatifs. La 'personnalité' de Cortana a été fa- d'actrice sexuée imité par la technologie soulève
|
||
çonnée au fil des ans. Il est important qu'elle des questions à propos des relations de pouvoir
|
||
conserve son caractère dans toutes ses interac- dans le monde actuel.
|
||
tions avec les utilisateurs. Elle est conçue pour
|
||
nous rendre confiants. Cela se reflète dans ses Voyez la réponse que Cortana donne à la question :
|
||
réponses. - Cortana, qui est ton papa ?
|
||
- Techniquement parlant, c'est Bill Gates. Rien de
|
||
grave.
|
||
10
|
||
|
||
|
||
|
||
|
||
retracée plus ou moins clairement par la linguis-
|
||
tique comparée. On oppose les langues naturelles -
|
||
--- Apprentissage Open Source --- comme le français - aux langues construites comme
|
||
le langage de programmation ou l'espéranto, for-
|
||
Les licences de droits d'auteur cloisonnent une mées intentionnellement par l’entremise de l’homme
|
||
grande partie des pratiques d'écriture, de lecture pour répondre à un besoin précis.' Une langue of-
|
||
et d'apprentissage machiniques. Cela signifie ficielle avec une académie régulatrice, telle que
|
||
qu'ils ne sont disponibles que pour les humains le français standard avec l'Académie française,
|
||
travaillant dans cette entreprise spécifique. Cer- est classée comme langue naturelle. Ses points
|
||
taines entreprises participent à des conférences normatifs ne le rendent pas assez construit pour
|
||
dans le monde entier et partagent leurs connais- être classé comme un langage construit ou assez
|
||
sances dans des articles en ligne. Même si elles contrôlé pour être classé comme un langage naturel
|
||
partagent leur code, souvent elles ne mettent pas contrôlé.
|
||
à disposition les grandes quantités de données né-
|
||
cessaires à la formation des modèles. Ainsi, le 'langage naturel' est un terme de sub-
|
||
stitution qui se réfère à toutes les langues, au-
|
||
Nous avons pu apprendre l'apprentissage automati- delà de leur hybridité. Le 'traitement du langage
|
||
que, à lire et à écrire dans le contexte d'Algolit naturel', est au contraire une pratique
|
||
grâce à des chercheurs universitaires qui par- construite. Ce qui nous intéresse, c'est la créa-
|
||
tagent leurs résultats par le biais d’articles ou tion d'un langage construit pour classer les lan-
|
||
par la publication de leur code en ligne. En tant gages naturels qui, par leur évolution, présentent
|
||
qu'artistes, nous pensons qu'il est important des problèmes de catégorisation.
|
||
d'adopter cette attitude. C'est pourquoi nous do-
|
||
cumentons nos réunions. Nous partageons autant que Références :
|
||
possible les outils que nous créons et les textes
|
||
que nous utilisons sur notre dépôt de code en https://hiphilangsci.net/2013/05/01/on-the-histo-
|
||
ligne et ceci, sous licence libre. ry-of-the-question-of-whether-natural-language-is-
|
||
illogical/
|
||
Nous éprouvons une grande joie quand nos travaux
|
||
sont repris par d'autres, modifiés, personnalisés Livre : Neural Network Methods for Natural Lan-
|
||
et redistribués. N'hésitez donc pas à copier et à guage Processing, Yoav Goldberg, Bar Ilan Univer-
|
||
tester le code sur notre site web. Si les sources sity, avril 2017.
|
||
d'un projet particulier n’y sont pas, vous pouvez
|
||
toujours nous contacter via la liste de diffusion.
|
||
Vous trouverez un lien vers notre dépot git, nos
|
||
etherpads et notre wiki sur http://www.algolit.-
|
||
net.
|
||
|
||
|
||
--- Langage naturel pour l'intelligence artifi-
|
||
cielle ---
|
||
|
||
Le traitement du langage naturel (NLP) est un
|
||
terme collectif qui désigne le traitement informa-
|
||
tique automatique des langues humaines. Cela com-
|
||
prend les algorithmes utilisant, comme entrée, du
|
||
texte produit par l'homme et qui tentent de le re-
|
||
produire. Les humains semblent compter de plus en
|
||
plus sur ce type de présence algorithmique. Nous
|
||
produisons de plus en plus de textes chaque année
|
||
et nous nous attendons à ce que les interfaces in-
|
||
formatiques communiquent avec nous dans notre
|
||
propre langue. Le traitement du langage naturel
|
||
est très difficile, car le langage humain est par
|
||
nature ambigu, en constante évolution et mal défi-
|
||
ni.
|
||
|
||
Mais qu'entend-on par 'naturel' dans le traitement
|
||
du langage naturel ? Certains humains diront que
|
||
la langue est une technologie en soi. Selon Wiki-
|
||
pédia, 'Une langue dite « naturelle » est une
|
||
langue qui s'est formée petit à petit, évoluant
|
||
avec le temps, et fait partie du langage naturel.
|
||
Son origine est bien souvent floue et peut être
|
||
|
||
11
|
||
0123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345678
|
||
9 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234567
|
||
89 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456
|
||
789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345
|
||
6789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234
|
||
56789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123
|
||
456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12
|
||
3456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1
|
||
23456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789
|
||
123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789
|
||
123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345678
|
||
9 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234567
|
||
89 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456
|
||
789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345
|
||
6789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234
|
||
56789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123
|
||
456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12
|
||
3456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1
|
||
23456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789
|
||
123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789
|
||
123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345678
|
||
9 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234567
|
||
89 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456
|
||
789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345
|
||
6789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234
|
||
56789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123
|
||
456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12
|
||
3456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1
|
||
23456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789
|
||
123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789
|
||
123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345678
|
||
9 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234567
|
||
89 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456
|
||
789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345
|
||
6789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234
|
||
56789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123
|
||
456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12
|
||
3456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1
|
||
23456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789
|
||
123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789
|
||
123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345678
|
||
9 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234567
|
||
89 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456
|
||
789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345
|
||
6789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234
|
||
56789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123
|
||
456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12
|
||
3456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1
|
||
23456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789
|
||
123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789
|
||
123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345678
|
||
9 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234567
|
||
89 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456
|
||
789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345
|
||
6789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234
|
||
56789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123
|
||
456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12
|
||
3456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1
|
||
23456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789
|
||
123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789
|
||
123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345678
|
||
9 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234567
|
||
89 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456
|
||
789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345
|
||
6789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234
|
||
56789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123
|
||
456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12
|
||
3456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1
|
||
23456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789
|
||
12
|
||
oracles predict oracles predict oracles predict oracles predict oracles predict oracles predic
|
||
oracles predict oracles predict oracles predict oracles predict orac
|
||
es predict oracles predict oracles predict oracles predict
|
||
racles predict oracles predict oracles predict oracles predic
|
||
oracles predict oracles predict oracles predict
|
||
oracles predict oracles predict oracles predict
|
||
oracles predict oracles predict or
|
||
cles predict oracles predict oracles predict
|
||
oracles predict oracles predict
|
||
oracles predict oracles predict oracles pr
|
||
dict oracles predict oracles predict
|
||
oracles predict oracles predict
|
||
oracles predict oracles predict
|
||
oracles predict oracles predict
|
||
oracles predict oracles predict
|
||
oracles predict orac
|
||
es predict oracles predict
|
||
oracles predict oracles predict
|
||
oracles predict oracles predic
|
||
oracles predict
|
||
oracles predict oracles predict
|
||
oracles predict
|
||
oracles predict oracles predict
|
||
oracles predict
|
||
racles predict oracles predict
|
||
oracles predict
|
||
oracles predict oracles predict
|
||
oracles predict
|
||
oracles predict orac
|
||
es predict oracles predict
|
||
oracles predict
|
||
oracles predict
|
||
racles predict oracles predict
|
||
oracles predict
|
||
oracles predict
|
||
oracles predict
|
||
racles predict oracles predict
|
||
oracles predict
|
||
oracles predict
|
||
oracles predict
|
||
oracles predict
|
||
oracles predict or
|
||
cles predict oracles predic
|
||
oracles predict
|
||
oracles predict
|
||
oracles predict
|
||
oracles predict
|
||
oracles predict
|
||
oracles predict
|
||
oracles predict
|
||
oracles predict
|
||
oracles predict
|
||
oracles predict
|
||
oracles predict
|
||
oracles predict
|
||
oracles predict
|
||
oracles predict
|
||
oracles predict
|
||
oracles predict
|
||
oracles predict
|
||
oracles predict
|
||
oracles predict
|
||
oracles predict
|
||
oracles predict
|
||
oracles predict
|
||
oracles predict
|
||
oracles predict
|
||
oracles predict
|
||
oracles predict
|
||
13
|
||
52 99 h g ei 2e 4 e pial n +-+-+-+-+-+-+-+ 2 +-+-+-+-+-+-+-+ 2+ 3 ' ant 0st8.d? e85oP rl 53' e1
|
||
2 r%e i8cnr eOl -6 %rs % 16 |o|r|a|c|l|e|s| e9 |p|r|e|d|i|c|t| sp r5b5 9 6 1 ic ldt +4 ksr1
|
||
37e m e29 % 1 Ns oe u q 73 +-+-+-+-+-+-+-+ ed2 +-+-+-+-+-+-+-+ 7oi_ 2 ng é o 8n5a xovnst7 àr s 5
|
||
e e , _ rtu 4 a l8r l a6 4 3V1. 8 s s 9y e 9t 78 7 + e7er\r 7 a3d9 ,u n 2 9d7 o r .
|
||
s- r 5 1'5 ml - t 7 41e - +l t 7 a 8 5U n 7 r3 u714t wuc 7 7 9 7t- l 2
|
||
a / a s 56oi| +-+-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+ s +-+-+-+-+-+-+-+-+ +-+-+-+ 6 9 3 r a nw nbr o i 5
|
||
7 . 75 / r c |m|a|c|h|i|n|e| |l|e|a|r|n|i|n|g| f 4 |a|n|a|l|y|s|e|s| |a|n|d| v4p t r9a we e _ 8
|
||
d 7eunnr r st +-+-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+ -do +-+-+-+-+-+-+-+-+ +-+-+-+ q é r i e 4lso r
|
||
6 5 a % 7 9a r1% r r9 s5 a n a +-+-+-+-+-+-+-+-+ 8e e3u2nV5 46a r 8di 4ea
|
||
7 o w 1 a t es 4 9 e | M o |p|r|e|d|i|c|t|s| oe rs0i 2sg|ti r o1 aa Uc t
|
||
g4o9 e 9 is u 9 a 9 d 9 4% +-+-+-+-+-+-+-+-+ i s + e6 6 p 4 d
|
||
e e/3 p e6 i _ 3 e i +-+-+-+-+-+-+ s +-+-+-+-+ +-+-+-+-+-+-+-+ _ 3 4e +
|
||
a - c 2 t é a |m|o|d|e|l|s| a |h|a|v|e| |l|e|a|r|n|e|d| t_i p9 8 4 odt 3ap 2
|
||
a5 87 o 2 n a +-+-+-+-+-+-+ tn +-+-+-+-+ +-+-+-+-+-+-+-+ l 7 2 o u ' p
|
||
a + 2 e e si l 5 i c +-+-+-+-+-+-+ n +-+-+-+ +-+-+-+-+ i _ K c m r 6ia q c
|
||
7 2 - ra srit i |m|o|d|e|l|s| n 6 |a|r|e| |u|s|e|d| - , 1 1 - 5 ao t
|
||
i e 23 es re i 45 +-+-+-+-+-+-+ 4 +-+-+-+ +-+-+-+-+ 9lc 5 R r rp 6
|
||
p n 7 2 i s9rd+ m a +-+-+-+-+ 3 +-+-+-+-+-+-+-+-+-+ e s nas k2 e b ,4
|
||
n 7 4 r 3 2i o u | |t|h|e|y| 9 |i|n|f|l|u|e|n|c|e| t G nso6ui 4 1
|
||
A d D 9 ao 1 4a 7 +-+-+-+-+ +-+-+-+-+-+-+-+-+-+ l 9 P 7m- 87
|
||
7 +M h dsn i | 8 q +-+-+-+-+ +-+-+-+-+ +-+-+-+-+-+ +-+-+-+ 8 _ ii p t i
|
||
j r c u 22 n e a |t|h|e|y| V |h|a|v|e| |t|h|e|i|r| |s|a|y| 7 + f l 2
|
||
9a5 9 6?4 4 d M 1 +-+-+-+-+ a +-+-+-+-+ +-+-+-+-+-+ +-+-+-+ r2 ét
|
||
t 8 c c 6 +-+-+-+-+-+-+-+-+-+-+-+ 1 a s | 2 9 4 é ov a r -i
|
||
t ae f |i|n|f|o|r|m|a|t|i|o|n| 9h 16 n l 6s3 ` +' -
|
||
e 1 +-+-+-+-+-+-+-+-+-+-+-+ 89 e i 6 a 4 o_d n n r u
|
||
i +-+-+-+-+-+-+-+-+-+-+ 2 +-+-+-+-+-+-+-+-+-+-+ c 2 a e e os + i
|
||
d n |e|x|t|r|a|c|t|i|o|n| |r|e|c|o|g|n|i|z|e|s| r 3 2 a t
|
||
o r C ( 2 +-+-+-+-+-+-+-+-+-+-+ 2 +-+-+-+-+-+-+-+-+-+-+ 9 6 e
|
||
8 a4 pl V s +-+-+-+-+ d 9 i k r e |s 2 u
|
||
1 rr t 5 1 l 5 |t|e|x|t| ss 2 v 2 6 o 9 e
|
||
h h 7 m 92 +-+-+-+-+ 2 9 l c h o , e p r r
|
||
5 4 +-+-+-+-+-+-+-+-+-+-+-+-+-+-+ + +-+-+-+-+-+-+-+ 9 f 37 9 8%
|
||
o 1 |c|l|a|s|s|i|f|i|c|a|t|i|o|n| |d|e|t|e|c|t|s| 8r 5 n r+ 2
|
||
é c +-+-+-+-+-+-+-+-+-+-+-+-+-+-+ r +-+-+-+-+-+-+-+ s h
|
||
. 7 _ 8 _ 8 8 a 1 3t u
|
||
d t i x | 4 e 9 e o 9 a
|
||
C e u 2 1 u2 t
|
||
4 , s r 6 i 9 é
|
||
e1i d l a i e 2 o r 6 5
|
||
n 2 5 _g f er r d n
|
||
6 m r i6 Pi J i 2 i o 2
|
||
a r e V i
|
||
u 1 o
|
||
s u 2 3 h 1 6
|
||
wa u 2 s
|
||
l _ 3 i q 5 u 4
|
||
u t 8r s k 1
|
||
é 1 n 5 t + l9 + e a n
|
||
7 4 5
|
||
t r 9 2
|
||
4 4 8 n 6 .
|
||
7 z 1 5 % s w|
|
||
l e w m
|
||
86 1
|
||
t é l t 7
|
||
T 9 s - - i 3
|
||
n 4 n
|
||
4 o i e D t4
|
||
6 o 8 ee
|
||
4 l 4 m n l
|
||
p l o l 4
|
||
c d
|
||
a 2
|
||
. t 8 a
|
||
59 r l t
|
||
e c c
|
||
r s
|
||
|
||
14
|
||
% V % V V % V % V % V V V % % % % % % % % % % % % % % %
|
||
V V V V V V V V V V V V V V V V % %% % % 0 % % %% % % % %% % % %
|
||
V V V V V % V V V V %% % % % % 0 % 0 % %
|
||
% % % % %% 0 ___ _ _ % _ _ _ _ %% % % %
|
||
% % % % / ( ) /_\ | | __ _ ___ | (_) |_| |_
|
||
% % ORACLES % 0 % / /|/ //_\\| |/ _` |/ _ \| | | __| __| 00
|
||
% % 0 0 / /___/ _ \ | (_| | (_) | | | |_| |_ %
|
||
%% % % % % % \____/\_/ \_/_|\__, |\___/|_|_|\__|\__| 0 %
|
||
V V V V V V V V % % |___/ %%
|
||
V V V V V V V V V V V V V V V V 0 _ 0 % 0
|
||
V V % V V V V V V V % 0 ___ _ __ __ _| |_ ___ _ _ _ __ % %
|
||
V V V V V V V V / _ \ '__/ _` | __/ _ \ | | | '__| %
|
||
V V V V V V V V V V V V V V V V % % % | __/ | | (_| | || __/ |_| | |
|
||
V V V V V V V V V \___|_| \__,_|\__\___|\__,_|_|
|
||
% % % 0 0 % 0 %
|
||
L'apprentissage automatique est %
|
||
principalement utilisé pour analy- par Algolit %
|
||
ser et prédire des situations à %
|
||
partir de cas existants. Dans cette L'Algolittérateur est construit à l'aide d'un réseau de neurone
|
||
exposition, nous nous concentrons et des œuvres mises à disposition par le Mundaneum. L'Algolitté-
|
||
sur les modèles d'apprentissage au- rateur vous aide à écrire un texte dans le style du Bureau des
|
||
tomatique pour le traitement de Institutions Internationales. %
|
||
texte ou le traitement du ‘langage
|
||
naturel', ‘nlp’ en bref. Ces mo- Vous pouvez choisir une phrase de départ dans l’œuvre originale
|
||
dèles ont appris à effectuer une % et indiquer si l'Algolittérateur produit les phrases suivantes
|
||
tâche spécifique sur base de textes basées sur un apprentissage primitif, intermédiaire ou final.
|
||
existants. Les modèles sont utili- La machine propose un paragraphe que vous pouvez éditer. Si vous
|
||
sés par les moteurs de recherche, êtes satisfait du résultat, vous pouvez l'envoyer à l’imprimante
|
||
les traductions automatiques et les et ramener le texte chez vous comme souvenir.
|
||
résumés, en repérant les tendances
|
||
des réseaux de nouveaux médias et --- %
|
||
des fils d’actualité. Ils in-
|
||
fluencent ce que l'on voit en tant Concept, code & interface : Gijs de Heij & An Mertens
|
||
qu'utilisateur, mais ont aussi leur
|
||
mot à dire dans le cours des Technique : Recurrent Neural Network %
|
||
bourses mondiales ou dans la détec-
|
||
tion de la cybercriminalité et du Modèle original : Andrej Karphaty, Justin Johnson
|
||
vandalisme. %
|
||
Sources : https://gitlab.constantvzw.org/algolit/algoliterator.-
|
||
Deux tâches principales se pré- clone
|
||
sentent dans la compréhension d’une
|
||
langue. L'extraction de l'informa-
|
||
tion porte sur les concepts et les 0 00 0 0
|
||
relations entre les concepts. Elle 0 0 0 0 % 0
|
||
permet de reconnaître les sujets, 0 % _ _ 0
|
||
les lieux et les personnes d’un 0 /\/\ ___ | |_ ___ __| | __ _ _ __ ___
|
||
texte, de faire un résumé, de poser / \ / _ \| __/ __| / _` |/ _` | '_ \/ __|
|
||
des questions et d'y répondre. / /\/\ \ (_) | |_\__ \ | (_| | (_| | | | \__ \
|
||
L'autre tâche est la classification % \/ \/\___/ \__|___/ \__,_|\__,_|_| |_|___/
|
||
du texte. Vous pouvez entraîner un 0 _ _ __ 0 0
|
||
oracle pour détecter si un mail est 0 | ( )__\__ _ __ __ _ ___ ___
|
||
du spam ou non, écrit par un homme 0 | |/_\/ __| '_ \ / _` |/ __/ _ \ 0
|
||
ou une femme, plutôt positif ou né- 0 | //__\__ \ |_) | (_| | (_| __/ 0
|
||
gatif. 0 |_\__/|___/ .__/ \__,_|\___\___|
|
||
|_|
|
||
Dans cette zone, vous pouvez voir 0 0 0 0 0
|
||
certains de ces modèles à l'œuvre.
|
||
Au cours de votre voyage dans l'ex- Par Algolit
|
||
position, vous découvrirez les dif-
|
||
férentes étapes qu'une machine-hu- 'Word embeddings' désignent des techniques de modélisation du
|
||
maine doit franchir pour arriver à langage qui, par de multiples opérations mathématiques, tracent
|
||
un modèle final. des mots dans un espace vectoriel multidimensionnel. Lorsque les
|
||
mots sont 'embedded' ou intégrés, ils se transforment de symboles
|
||
distincts en objets mathématiques, qui peuvent être multipliés,
|
||
divisés, ajoutés ou soustraits.
|
||
|
||
% En distribuant les mots le long des nombreuses lignes diagonales
|
||
de l'espace vectoriel multidimensionnel, leurs nouveaux place-
|
||
ments géométriques deviennent impossibles à percevoir par les hu-
|
||
15
|
||
% % % % mains. Cependant, ce que l'on gagne, ce sont des façons multiples
|
||
%% % % %% % et simultanées d'organisation des mots. Les opérations algé-
|
||
% % %% % briques rendent les relations entre les vecteurs à nouveau com- %
|
||
% % % % % préhensibles. % % % % % %
|
||
% % % % % % % % % % %
|
||
% % Cette installation utilise gensim, une boîte à outils open source %
|
||
% % % pour le language de programmation Python, qui permet de créer des %
|
||
% % espaces de vecteurs et des modèles thématiques. Elle manipule le %
|
||
% texte selon les relations mathématiques qui émergent entre les
|
||
% mots, une fois qu'ils ont été tracés dans l'espace de vecteurs. %
|
||
% % % % %
|
||
% % --- % % % %
|
||
% %
|
||
Concept & interface: Cristina Cochior %%
|
||
% % % %
|
||
Technique: word embeddings, word2vec %
|
||
%
|
||
% Modèle original: Radim Rehurek et Petr Sojka
|
||
% % % % % % %
|
||
|
||
% 0 0 0 0
|
||
% 0 0 0 0
|
||
___ _ 0 0 0 _ 0
|
||
/ __\ | __ _ ___ ___ ___ _ __ | | ___
|
||
/ / | |/ _` / __/ __|/ _ \ '__| | |/ _ \
|
||
/ /___| | (_| \__ \__ \ __/ | | | __/
|
||
\____/|_|\__,_|___/___/\___|_| |_|\___|
|
||
% 0 0 0 _ 0
|
||
0 _ __ ___ ___ _ __ __| | ___
|
||
| '_ ` _ \ / _ \| '_ \ / _` |/ _ \
|
||
% | | | | | | (_) | | | | (_| | __/ 0
|
||
0 |_| |_| |_|\___/|_| |_|\__,_|\___| %
|
||
0 0 0 0
|
||
%
|
||
Par Algolit
|
||
% %
|
||
La construction du Mundaneum a été 'l'œuvre de la vie' du biblio-
|
||
thécaire Paul Otlet. Selon son but, ce cerveau mécanique collec-
|
||
tif aurait abrité et distribué tout ce qui a été couché sur pa-
|
||
pier. Chaque document aurait été classé selon la Classification
|
||
décimale universelle. En utilisant des télégraphes et surtout des
|
||
trieurs, le Mundaneum aurait été en mesure de répondre à toutes
|
||
les questions posées par n'importe qui.
|
||
|
||
Avec la collection de publications numérisées que nous avons re-
|
||
çue du Mundaneum, nous construisions une machine de prédiction
|
||
qui essaie de classer la phrase que vous tapez dans l'une des
|
||
principales catégories de la Classification décimale universelle.
|
||
% % Vous êtes également témoin de la façon dont la machine 'pense'.
|
||
Pendant l'exposition, ce modèle est régulièrement mis à jour à
|
||
l'aide des données nettoyées et annotées, ajoutées par les visi-
|
||
teurs dans les installations 'Nettoyage pour Poèmes' et 'L'Anno-
|
||
tateur'.
|
||
|
||
Les classes principales de la Classification Décimale Universelle
|
||
sont les suivantes:
|
||
|
||
0 - Généralités (Sciences et connaissance ; organisation. infor-
|
||
matique, information, documentation, bibliothéconomie. institu-
|
||
tions, publications)
|
||
%
|
||
1 - Philosophie et psychologie
|
||
|
||
2 - Religion, théologie
|
||
|
||
3 - Sciences sociales (Statistique. Économie. Commerce. Droit.
|
||
Gouvernement. Affaires militaires. Assistance sociale. Assu-
|
||
rances. Éducation. Folklore)
|
||
|
||
16
|
||
% % % %% % % %% % % 4 - inoccupée % % % % % %
|
||
% % % %% % % % % % % %% % %%%% % %%%
|
||
% % % %% 5 - Sciences pures (Mathématiques, sciences exactes et naturel- %
|
||
% % %% % % % % % les) % % %% % % %% % %%
|
||
% % % % % % % % %% % %
|
||
% % % % % 6 - Sciences appliquées. Médecine. Technologie % %
|
||
% % % % % % % % % % % % %
|
||
%%% 7 - Arts. Divertissements. Sports %
|
||
% % % % % %
|
||
8 - Langue. Linguistique. Littérature %
|
||
% % % % % % %%
|
||
9 - Géographie. Biographie. Histoire
|
||
% % %
|
||
--- % %
|
||
% % %
|
||
% Concept, code, interface: Sarah Garcin, Gijs de Heij, An Mertens
|
||
% % %
|
||
% % %
|
||
%% % 0 % 0
|
||
% 0 0 % 0 0 %
|
||
0 0 ___ _ 0 0
|
||
%% / _ \___ ___ _ __ | | ___
|
||
/ /_)/ _ \/ _ \| '_ \| |/ _ \ 0
|
||
0 / ___/ __/ (_) | |_) | | __/ 0
|
||
0 \/ \___|\___/| .__/|_|\___| 0 0
|
||
|_| 0
|
||
_ 00 _ _ _ 0 00 0
|
||
0 0 __| | ___ _ __( ) |_ | |__ __ ___ _____
|
||
/ _` |/ _ \| '_ \/| __| | '_ \ / _` \ \ / / _ \
|
||
| (_| | (_) | | | || |_ | | | | (_| |\ V / __/
|
||
0 \__,_|\___/|_| |_| \__| |_| |_|\__,_| \_/ \___|
|
||
_ 0 0 _ _ 0
|
||
| |__ _ _| |_| |_ ___ _ __ ___
|
||
| '_ \| | | | __| __/ _ \| '_ \/ __|
|
||
| |_) | |_| | |_| || (_) | | | \__ \
|
||
|_.__/ \__,_|\__|\__\___/|_| |_|___/
|
||
0 0 0 0 0 %
|
||
|
||
Par Algolit
|
||
|
||
Depuis les débuts de l'intelligence artificielle (IA), les cher-
|
||
cheurs ont spéculé sur la possibilité pour les ordinateurs de
|
||
pouvoir penser et communiquer comme des humains. Dans les années
|
||
1980, il y a eu une première révolution dans le traitement du
|
||
langage naturel (NLP), le sous-domaine de l'intelligence artifi-
|
||
cielle (IA) qui concerne les interactions linguistiques entre les
|
||
ordinateurs et les humains. Récemment, des modèles linguistiques
|
||
pré-entraînés ont atteint des résultats de pointe sur un large
|
||
éventail de tâches de NLP, ce qui intensifie encore les attentes
|
||
d'un avenir avec l'IA.
|
||
|
||
Cette œuvre sonore, composée de fragments sonores de documen-
|
||
taires scientifiques et de matériel audiovisuel lié à l'IA datant
|
||
de la deuxième moitié du XXe siècle, explore les espoirs, les
|
||
craintes et les frustrations provoqués par ces attentes.
|
||
|
||
---
|
||
%
|
||
% Concept, édition : Javier Lloret
|
||
|
||
Listes des sources : 'The Machine that Changed the World : Epi-
|
||
sode IV -- The Thinking Machine', 'The Imitation Game', 'Maniac',
|
||
'Halt & Catch Fire', 'Ghost in the Shell', 'Computer Chess',
|
||
'2001: A Space Odyssey', Ennio Morricone, Gijs Gieskes, André
|
||
Castro.
|
||
|
||
|
||
|
||
|
||
17
|
||
RÉCITS CONTEXTUALISÉS
|
||
AUTOUR DES ORACLES
|
||
|
||
|
||
|
||
Les Oracles sont un type particulier de modèles des noms traditionnellement perçus comme blancs.
|
||
algorithmiques qui servent à prédire ou à profi-
|
||
ler. Ils sont largement utilisés dans les smart- Sweeney a fondé son enquête sur des recherches
|
||
phones, les ordinateurs et les tablettes. Les portant sur 2184 prénoms racisés sur deux sites
|
||
Oracles peuvent être créés à l'aide de différentes Web. 88 % des prénoms, identifiés comme étant don-
|
||
techniques. L’une d’entre elles consiste à définir nés à un plus grand nombre de bébés noirs, sont
|
||
manuellement les règles. Ces modèles sont appelés considérés comme prédictifs de la race, contre
|
||
'rule-based models'. Ils sont utiles pour des 96 % de blancs. Les prénoms qui sont principale-
|
||
tâches spécifiques, comme par exemple, la détec- ment donnés à des bébés noirs, comme DeShawn, Dar-
|
||
tion de la mention d'une certaine molécule dans un nell et Jermaine, ont généré des annonces mention-
|
||
article scientifique. Ils sont performants, même nant une arrestation dans 81 à 86 % des recherches
|
||
avec très peu de données d'entraînement. de noms sur un site, et dans 92 à 95 % des cas sur
|
||
l'autre. Les noms qui sont principalement attri-
|
||
Mais il y a aussi les Oracles d'apprentissage au- bués aux blancs, comme Geoffrey, Jill et Emma,
|
||
tomatique ou les Oracles statistiques, qui peuvent n'ont pas donné les mêmes résultats. Le mot 'ar-
|
||
restation' n'est apparu que dans 23 à 29 % des re-
|
||
'non supervisés'. Pour la création de modèles cherches de noms blancs sur un site, et 0 à 60 %
|
||
d'apprentissage automatique supervisés, les hu- sur l'autre.
|
||
mains annotent les données d'entraînement avant de
|
||
les envoyer à la machine. Chaque texte est jugé Sur le site affichant le plus de publicité, un nom
|
||
par au moins 3 humains: par exemple, s’il s’agit d'identification noir était 25 % plus susceptible
|
||
de spam ou non, s’il est positif ou négatif. Les d'obtenir une publicité suggérant un dossier d'ar-
|
||
Oracles d'apprentissage automatique non supervisés restation. Quelques noms n'ont pas suivi ces modè-
|
||
n'ont pas besoin de cette étape mais nécessitent les : Dustin, un nom donné principalement aux bé-
|
||
de grandes quantités de données. C’est également à bés blancs, a généré une publicité suggérant une
|
||
la machine de tracer ses propres motifs ou 'règles arrestation dans 81 et 100 % des cas. Il est im-
|
||
grammaticales'. Enfin, les experts font la diffé- portant de garder à l'esprit que l'apparition de
|
||
rence entre les Oracles basés sur l'apprentissage l'annonce est liée au nom lui-même et non au fait
|
||
automatique classique et ceux basés sur des ré- qu'il ait un dossier d'arrestation dans la base de
|
||
seaux de neurones. Vous en apprendrez plus à ce données de l'entreprise.
|
||
sujet dans la zone Lecteurs.
|
||
Référence : https://dataprivacylab.org/pro-
|
||
Les humains ont tendance à exagérer la performance jects/onlineads/1071-1.pdf
|
||
des Oracles. Parfois, ces Oracles apparaissent
|
||
quand il y a un disfonctionnement. Dans les commu-
|
||
niqués de presse, ces situations souvent drama- --- Qu'est-ce qu'un bon employé ? ---
|
||
tiques sont appelées des 'leçons'. Malgré la pro-
|
||
messe de leurs performances, beaucoup de problèmes Depuis 2015, Amazon compte environ 575 000 tra-
|
||
restent à résoudre. Comment s'assurer que les vailleurs, et ils leur en faut plus. Par consé-
|
||
Oracles soient justes, que chaque être humain quent, ils ont mis sur pied une équipe de 12 per-
|
||
puisse les consulter, qu'ils soient compréhen- sonnes pour créer un modèle qui trouverait de bons
|
||
sibles par un large public ? Même au-delà, des candidats en parcourant des sites de demande d'em-
|
||
questions existentielles persistent. Avons-nous ploi. L'outil attribuerait aux candidats une note
|
||
besoin de tous les types d'intelligences artifi- allant de une à cinq étoiles. Le potentiel a ali-
|
||
cielles ? Et qui définit ce qui est juste ou in- menté le mythe : l'équipe voulait un logiciel qui
|
||
juste ? recracherait les cinq meilleurs sur une liste de
|
||
100 candidats humains pour les embaucher.
|
||
|
||
--- Adsense racial --- Le groupe a créé 500 modèles algorithmiques, cen-
|
||
trés sur des fonctions et des lieux de travail
|
||
Latanya Sweeney, professeur en Gouvernance et spécifiques. Ils ont appris à reconnaître 50 000
|
||
Technologie à l'Université de Harvard, a documenté termes qui figuraient sur les lettres d’anciens
|
||
une 'leçon' classique sur le développement des candidats. Les algorithmes ont appris à accorder
|
||
Oracles. En 2013, Sweeney, d'origine afro-améri- peu d'importance aux compétences communes aux can-
|
||
caine, a googlé son nom. Elle a immédiatement reçu didats en IT, comme la capacité d'écrire du code
|
||
une publicité pour un service qui lui offrait 'de informatique, mais ils ont aussi reproduit les er-
|
||
voir le casier judiciaire de Latanya Sweeney'. reurs de leurs créateurs. Juste avant d'approuver
|
||
Sweeney, qui n'a pas de casier judiciaire, a dès un modèle, l’entreprise s’est rendue compte que
|
||
lors entamé une étude. Elle a commencé à comparer les modèles ont décidé que les candidats masculins
|
||
la publicité que Google AdSense offrait à diffé- étaient préférables. Ils pénalisaient les candida-
|
||
rents noms racisés identifiables. Elle a découvert tures qui comprenaient le mot ‘femmes’ ou ‘fémi-
|
||
qu'elle recevait plus d’annonces de ce type en re- nin’, comme dans 'capitaine de club d'échecs fémi-
|
||
cherchant des noms ethniques non-blancs qu'avec nin'. Et ils ont rétrogradé les diplômées de deux
|
||
universités réservées aux femmes.
|
||
18
|
||
|
||
|
||
|
||
|
||
de prédiction suscite beaucoup de discussions au
|
||
Ceci est dû à l'utilisation pour leur entraînement sein de la communauté du machine learning. Ces mo-
|
||
des demandes d'emploi reçues par Amazon sur une dèles fallacieux ou biaisés sont synonymes d’une
|
||
période de 10 ans. Durant cette période, l'entre- discrimination automatisée. La question se pose:
|
||
prise avait surtout embauché des hommes. Au lieu est-il vraiment possible d'éliminer complètement
|
||
de fournir la prise de décision 'équitable' que les préjugés de ces modèles ?
|
||
l'équipe d'Amazon avait promise, les modèles re-
|
||
flétaient une tendance biaisée dans l'industrie Certains affirment que oui, d'autres sont en
|
||
technologique. Mais ils l'ont aussi amplifiée et désaccord. Avant de soumettre le modèle à une in-
|
||
rendu invisible. Les activistes et les critiques génierie inversée, nous devrions nous demander si
|
||
affirment qu'il pourrait être extrêmement diffi- nous en avons besoin tout court. Ces chercheurs
|
||
cile de poursuivre un employeur en cas d’embauche ont suivi une troisième voie. En reconnaissant la
|
||
automatisée : les candidats à un emploi pourraient discrimination qui trouve son origine dans le lan-
|
||
ne jamais savoir que des logiciels intelligents gage, ces modèles deviennent pour eux des outils
|
||
ont été utilisés dans ce processus. de sensibilisation, en visualisant le problème.
|
||
|
||
Référence : https://www.reuters.com/article/us- L'équipe de la Standford University a développé un
|
||
amazon-com-jobs-automation-insight/amazonscraps- modèle d'analyse des ‘word embeddings’ entraîné
|
||
secret-ai-recruiting-tool-that-showed-bias- sur 100 ans de textes. Pour l'analyse contemporai-
|
||
against-women-idUSKCN1MK08G ne, ils ont utilisé les Google News word2vec Vec-
|
||
tors, un paquet prêt à l’emploi, téléchargeable,
|
||
entraîné sur le Google News Dataset. Pour l'ana-
|
||
--- Quantification de 100 ans de stéréotypes lyse historique, ils ont utilisé des 'word embed-
|
||
sexuels et ethniques --- dings' qui ont été entraînés sur Google Books et
|
||
The Corpus of Historical American English
|
||
Dan Jurafsky est le co-auteur de 'Speech and Lan- (COHA https://corpus.byu.edu/coha/) avec plus de
|
||
guage Processing', un des ouvrages les plus in- 400 millions de mots de textes des années 1810 à
|
||
fluents pour l'étude du traitement du langage na- 2000. Afin de valider le modèle, ils ont entraîné
|
||
turel. Avec quelques collègues de l'Université de des ‘word embeddings’ du New York Times Annotated
|
||
Stanford, il a découvert en 2017 que les ‘word em- Corpus pour chaque année entre 1988 et 2005.
|
||
beddings’ peuvent être un outil puissant pour
|
||
quantifier systématiquement les stéréotypes com- Leur recherche montre que les ‘word embeddings’
|
||
muns ainsi que d'autres tendances historiques. reflètent l'évolution des stéréotypes sexistes et
|
||
ethniques au fil du temps. Ils quantifient comment
|
||
Les ‘word embeddings’ sont une technique qui tra- des préjugés spécifiques diminuent avec le temps
|
||
duit les mots en vecteurs numérotés dans un espace tandis que d'autres stéréotypes augmentent. Les
|
||
multidimensionnel. Les vecteurs qui apparaissent principales transitions révèlent des changements
|
||
proches l’un de l’autre, indiquent une significa- dans les descriptions de genre et de groupes eth-
|
||
tion similaire. Ainsi, tous les numéros seront re- niques lors du mouvement des femmes dans les an-
|
||
groupés, toutes les prépositions, les prénoms et nées 1960-70 et la croissance de la population
|
||
les professions, etc. Cela permet de faire des asio-américaine dans les années 1960 et 1980.
|
||
calculs avec les mots. Vous pourriez, par exemple,
|
||
soustraire Londres de Royaume-Unis et votre résul- Quelques exemples :
|
||
tat serait le même que de soustraire Paris de
|
||
France. Les dix professions les plus étroitement associées
|
||
aux groupes ethniques dans le jeu de données de
|
||
Google News :
|
||
de l'adjectif 'honorable' est plus proche du vec-
|
||
teur 'homme', alors que le vecteur 'soumis' est - Hispanique : femme de ménage, maçon, artiste,
|
||
plus proche de 'femme'. Ces stéréotypes sont alors concierge, danseur, mécanicien, photographe, bou-
|
||
automatiquement appris par l'algorithme. Il langer, caissier, chauffeur.
|
||
s’avère problématique lorsque les 'embeddings'
|
||
pré-entraînés sont utilisés pour des applications - Asiatique : professeur, fonctionnaire, secrétai-
|
||
sensibles comme les classements de recherche, les re, chef d'orchestre, physicien, scientifique,
|
||
recommandations de produits ou les traductions. Ce chimiste, tailleur, comptable, ingénieur.
|
||
risque est réel, car un grand nombre de ‘word em-
|
||
beddings’ pré-entraînés sont téléchargeables sous - Blanc : forgeron, ferronnier, géomètre, shérif,
|
||
forme de paquets prêts à l'emploi. tisserand, administrateur, maçon, statisticien,
|
||
ecclésiaste, photographe.
|
||
On sait que la langue reflète et maintient en vie
|
||
Les 3 professions les plus masculines dans les an-
|
||
embeddings' pour repérer ces stéréotypes est moins nées 1930 : ingénieur, avocat, architecte.
|
||
cher et prends moins de temps que les méthodes ma- Les 3 professions les plus féminines dans les an-
|
||
nuelles. Mais leur mise en oeuvre dans des modèles nées 1930 : infirmière, femme de ménage, aide-soi-
|
||
|
||
19
|
||
|
||
|
||
|
||
gnante. la vie des gens, intitulé 'Weapons of Math Des-
|
||
truction'. On y parle de modèles d'IA aux États-
|
||
Peu de choses ont changé dans les années 1990. Unis qui classent les enseignants. C’est assez
|
||
horrible parce qu'il y aura forcément des préju-
|
||
Principales professions masculines : gés. D’après leur recherche, la façon d’aborder la
|
||
architecte, mathématicien et géomètre. question serait d'abord d’avoir un modèle open
|
||
Les professions féminines restent les mêmes : source, où l’on peut consulter le code et voir
|
||
infirmière, femme de ménage et sage-femme. quelles fonctionnalités sont utilisées avec des
|
||
données ouvertes, afin que les gens puissent en-
|
||
Mais qu'est-ce qui s'est passé dans cette re- quêter, trouver des préjugés, donner leur feedback
|
||
cherche avec les afro-américains? et faire un rapport. Il devrait y avoir un moyen
|
||
de réparer le système. Je ne pense pas que toutes
|
||
Référence : https://arxiv.org/abs/1711.08412 les entreprises vont dans cette direction, mais
|
||
Wikipédia, en raison des valeurs qu'elle défend,
|
||
est au moins plus transparente et pousse d'autres
|
||
--- Le Service ORES de Wikimedia --- personnes à faire de même.
|
||
|
||
L'ingénieur de logiciels Amir Sarabadani a présen- Référence : https://gitlab.constantvzw.org/alg
|
||
té le projet ORES à Bruxelles en novembre 2017 olit/algolit/blob/master/algoliterary_encounte
|
||
lors de notre Rencontre Algolittéraire. Cet 'Ob- r/Interview%20with%20Amir/AS.aac
|
||
|
||
prentissage automatique pour automatiser le tra-
|
||
vail critique sur Wikimedia, comme la détection du --- Tay ---
|
||
vandalisme et la suppression d'articles. Cristina
|
||
Cochior et Femke Snelting l'ont interviewé. Une histoire tristement célèbre est celle du pro-
|
||
gramme d'apprentissage automatique Tay, conçu par
|
||
Femke : Revenons à votre travail. Ces temps-ci, Microsoft. Tay était un chatbot qui imitait une
|
||
vous essayez de comprendre ce que signifie trouver adolescente sur Twitter. Elle a vécu moins de 24
|
||
des préjugés discriminatoires dans l'apprentissage heures avant d'être éteinte. Peu de gens savent
|
||
automatique. La proposition de Nicolas Malevé, qui qu'avant cet incident, Microsoft avait déjà en-
|
||
a donné l'atelier hier, était de ne pas essayer de traîné et publié XiaoIce sur WeChat, l'application
|
||
le réparer, ni de refuser d'interagir avec des de chat la plus utilisée en Chine. Le succès de
|
||
systèmes qui produisent de la discrimination, mais XiaoIce a été si prometteur qu'il a conduit au dé-
|
||
de travailler avec eux. Il considère que les pré- veloppement de son homologue américain. Cependant,
|
||
jugés sont inhérents à la connaissance humaine et les développeurs de Tay n'étaient pas préparés
|
||
que nous devons donc trouver des moyens de les pour le climat de la plateforme Twitter. Bien que
|
||
utiliser d'une façon ou d'une autre. Nous avons le bot savait distinguer un nom d'un adjectif, il
|
||
discuté un peu de ce que cela signifierait, com- n'avait aucune compréhension de la signification
|
||
ment cela fonctionnerait... Je me demandais donc réelle des mots. Le robot a rapidement commencé à
|
||
si vous aviez des idées sur cette question de par- reproduire les insultes raciales et d'autres lan-
|
||
tialité. gages discriminatoires qu'il a appris par les
|
||
autres utilisateurs de Twitter et les attaques de
|
||
Amir : La partialité à l'intérieur de Wikipédia trolls.
|
||
est une question délicate parce qu'elle se produit
|
||
à plusieurs niveaux. Un niveau très discuté est le L'apparition et la mort de Tay représentent une
|
||
système des références. Toutes les références ne prise de conscience importante. Elle a montré les
|
||
sont pas accessibles. Ce que la fondation Wikime- conséquences possibles de la corruption de l'ap-
|
||
dia a essayé de faire, c'est de donner un accès prentissage automatique, lorsque le contexte
|
||
gratuit aux bibliothèques payantes. Ils réduisent culturel dans lequel l'algorithme doit vivre n'est
|
||
l'exclusion en n'utilisant que des références en pas pris en compte.
|
||
libre accès. Un autre type de discrimination est
|
||
la connexion Internet, l'accès à Internet. Il y a Référence : https://chatbotslife.com/the-accounta-
|
||
beaucoup de gens qui ne l'ont pas. Une chose à bility-of-ai-case-study-microsofts-tay-experiment-
|
||
propos de la Chine, c'est qu'Internet y est blo- ad577015181f
|
||
qué. Le contenu opposé au gouvernement de la Chine
|
||
au sein du Wikipédia chinois est plus élevé parce
|
||
que les éditeurs [qui peuvent accéder au site Web]
|
||
ne sont pas pro-gouvernement et essaient de le
|
||
rendre plus neutre. On le remarque donc à beaucoup
|
||
d'endroits. En ce qui concerne l'intelligence ar-
|
||
tificielle (IA) et le modèle que nous utilisons
|
||
chez Wikipedia, c'est plutôt une question de
|
||
transparence. Il existe un livre sur la façon dont
|
||
les préjugés dans les modèles d'IA peuvent briser
|
||
|
||
|
||
20
|
||
cleaners clean cleaners clean cleaners clean cleaners clean cleaners clean cleaners clean
|
||
cleaners clean cleaners clean cleaners clean cleaners clean cleaners clean
|
||
cleaners clean cleaners clean cleaners clean cleaners clean
|
||
cleaners clean cleaners clean cleaners clean
|
||
cleaners clean cleaners clean cleaners clean cle
|
||
ners clean cleaners clean cleaners clean
|
||
cleaners clean cleaners clean cleaners clean
|
||
cleaners clean cleaners clean cleaners
|
||
lean cleaners clean cleaners clean
|
||
cleaners clean cleaners clean
|
||
cleaners clean cleaners clean cle
|
||
ners clean cleaners clean cleaners
|
||
clean cleaners clean cleaners
|
||
lean cleaners clean cleane
|
||
s clean cleaners clean
|
||
cleaners clean cleaners clean
|
||
cleaners clean cleaners clean
|
||
cleaners clean cleaners clean
|
||
cleaners clean
|
||
cleaners clean cleaners clean
|
||
cleaners clean cleaners clean
|
||
cleaners clean
|
||
cleaners clean cleaners clean
|
||
cleaners clean
|
||
cleaners clean cleaners clean
|
||
cleaners clean
|
||
cleaners clean cleaners
|
||
clean cleaners clean
|
||
cleaners clean
|
||
cleaners clean cleaners clean
|
||
cleaners clean
|
||
cleaners clean
|
||
cleaners clean cleaners
|
||
clean cleaners clean
|
||
cleaners clean
|
||
cleaners clean
|
||
cleaners clean cle
|
||
ners clean cleaners clean
|
||
cleaners clean
|
||
cleaners clean
|
||
cleaners clean
|
||
cleaners clean
|
||
cleaners clean
|
||
cleaners clean cleaners
|
||
lean cleaners clean
|
||
cleaners clean
|
||
cleaners clean
|
||
cleaners clean
|
||
cleaners clean
|
||
cleaners clean
|
||
cleaners clean
|
||
cleaners clean
|
||
cleaners clean
|
||
cleaners clean
|
||
cleaners clean
|
||
cleaners clean
|
||
cleaners clean
|
||
cleaners clean
|
||
cleaners clean
|
||
cleaners clean
|
||
cleaners clean
|
||
cleaners clean
|
||
cleaners clean
|
||
cleaners clean
|
||
cleaners clean
|
||
cleaners clean
|
||
cleaners clean
|
||
cleaners clean
|
||
cleaners clean
|
||
21
|
||
p 3 n C M ef3 t +-+-+-+-+-+-+-+-+ e7 +-+-+-+-+-+ _ a7s rl9 1t sPm4 ee7e rkc V
|
||
è o 9 c 2 o 3l s- |c|l|e|a|n|e|r|s| c72 |c|l|e|a|n| n ce-5i ps eg d M5 a /6 i|d 4
|
||
r | ué ddpe g n e7 se2 R n +-+-+-+-+-+-+-+-+ pm +-+-+-+-+-+ t r2é- n m9d7 r 6’aai-1 a + mu
|
||
u d 5y xa fa v| 1 l e3cu . e 1 a 7n d |u s tr ie %43 m1a ftol_3s _ é o , eh s id8
|
||
ce+eee b/ 7 2nuee -t2errld 8g lrs c c-i2 pd % . r7 n t v . c è 3 58ii 3tq rr M o
|
||
2 6-m9u c _ 7 , t | lr +-+-+ 3 +-+-+-+-+-+-+ uR n l s u9 a +n 1 qas r i ei1
|
||
s + 3 ot 8 n7 e u s gmt qooast o tv |w|e| 6 |h|e|l|p|e|d| o6 0 e2t 5 6% cp r t8 ' _
|
||
i n i u o i 9e N e 71e8 u +-+-+ i i +-+-+-+-+-+-+ e+ d 2 e+ 3 s 4r n n472t or2i
|
||
2e ll a n , n su p e1 qe r +-+-+ + +-+-+-+-+-+-+-+ 9 ieb a p pad i u 7 3iWé
|
||
+ n 8a é c ly - d n r ' |w|e| f 0t |c|l|e|a|n|e|d| e oo é3 t Nd eo du 5 \g
|
||
,r% 9o ai9 o l56 x c n t%a7 ese7 +-+-+ l +-+-+-+-+-+-+-+ 6 ba , l 2 c 9 6 |
|
||
gi4c l 2 6 + +-+-+-+-+-+ +-+-+-+-+ 7 _ +-+-+ +-+-+-+-+-+-+ ld p + d p7 a r u
|
||
l è 7 ar + 2 ee np |h|u|m|a|n| |w|o|r|k| s u |i|s| |n|e|e|d|e|d| 4 u t e3e 7 d é2 8 S ftm1
|
||
a t t lC ' paq +-+-+-+-+-+ +-+-+-+-+ 2 +-+-+ +-+-+-+-+-+-+ r n9v4 ie n 9 o
|
||
r \e w oa3s3x x u +-+-+-+-+-+-+-+-+-+-+-+ r 8e ln 8l e 9 7e w c n d 9 8
|
||
a s a l4r a eg+ |p|o|o|r|l|y|-|p|a|i|d| 3 a n +6 w 5 uii2 r 5c o s w s / t3s 3
|
||
6 sc A s : +-+-+-+-+-+-+-+-+-+-+-+ _ n e e e t c ts i u 6 9 . i
|
||
. a oc p a e +-+-+-+-+-+-+-+-+-+-+-+ d t +-+-+-+-+-+ +-+-+-+ s a g i8 e
|
||
lt43 9 l fd |f|r|e|e|l|a|n|c|e|r|s| 5 |c|a|r|r|y| |o|u|t| 5t0d m em ,
|
||
t e rc t am i +-+-+-+-+-+-+-+-+-+-+-+ o +-+-+-+-+-+ +-+-+-+ 1dt r d ' % o v
|
||
6 o 7 e é a|8 +-+-+-+-+-+-+-+-+-+-+ +-+-+ +-+-+-+-+-+-+-+-+-+ +-+-+-+-+ ta i
|
||
7 r 2s 6v n |v|o|l|u|n|t|e|e|r|s| |d|o| |f|a|n|t|a|s|t|i|c| |w|o|r|k| r r s
|
||
a 8 _ r m do +-+-+-+-+-+-+-+-+-+-+ e +-+-+ +-+-+-+-+-+-+-+-+-+ +-+-+-+-+ oi a - V
|
||
5 kr 8 r - l4 ' +-+-+-+-+-+-+-+ 0 +-+-+-+-+-+-+ +-+-+ +-+-+-+-+ n a |
|
||
\ L s - % +5a |w|h|o|e|v|e|r| au% |c|l|e|a|n|s| |u|p| |t|e|x|t| _ av n r tn
|
||
t 4 u il u +-+-+-+-+-+-+-+ +-+-+-+-+-+-+ +-+-+ +-+-+-+-+ d 7 g o
|
||
r | i | s 5 3o r - t w t )-p
|
||
f c n u r 8 | 4 a o s ' d s i ir a- m i 6 F e ,a 1+
|
||
6 n a 3 da l| d % 1 e72 5 c 67 | o - r
|
||
e p n t oa c sa 7 l e i s d é 9 lu c .\ u 5 9
|
||
8 ee 3 f a/r 20 4 u t ' a r e i 9c
|
||
8 p 5 p s lei J g 1 r f tl8 2h d
|
||
6 il éi o 4 L s l 3 l 9 t
|
||
dd t c t 3 d t ntr 9 h r , p
|
||
c t v d t r r a i t | _ t v eu
|
||
_| c o 4 5 e r a o 8 n n r f 9 u k x 4 n
|
||
| is C O - 69 w 6l J r 9O l 9 a/u e
|
||
l ic t , e d la o - l u n si
|
||
s n n è d a c a\ 6t e 79s
|
||
4 i \ 9 l -: d 3 u -2 o l % t
|
||
w in a a n 5 5 7
|
||
t ah | 2 n n u a + p 0 d
|
||
2 k 2 g e t l t 2 in
|
||
6 4t 1 é é e t
|
||
d 7 s m 9 a d t a r e p
|
||
o 8 C s e i i e i sd a e 3
|
||
l 3 7 a r/ m 5 i d é n 6
|
||
è 7at 4_ e 4 e 2 5 cm d
|
||
i a 4 r e a - r
|
||
9 i 4 c 6 o d w - é
|
||
y 5 6 + % r i - r
|
||
7 t g c _ i a l o
|
||
| t i r % 0 t
|
||
c5 3 m u i e ê
|
||
l l q e u wu s
|
||
4 5 5 e 8 a _ a t
|
||
e i i 3
|
||
3 3 e
|
||
e i t t c e- r 8 m -.
|
||
+ p r u d e n
|
||
e t a a
|
||
5 s r 2 l u m r r
|
||
d i a J e 5 l an u m
|
||
2 n| n c
|
||
é r N 2
|
||
t I
|
||
% 2 | 4
|
||
- t t o
|
||
|
||
22
|
||
V V V V V V V V % % % % %% % % % % %% % % % % %
|
||
V V V V V V V V V V V V V V V V % 0 % 0 % 0 %% % % 0 %% %
|
||
V V V V V V V % V V %% % % 0 %% %% % % %%%
|
||
% % %% % % 0 % % __ _ _ 0 % % %
|
||
% % % % /\ \ \___| |_| |_ ___ _ _ __ _ __ _ ___ %
|
||
NETTOYEURS / \/ / _ \ __| __/ _ \| | | |/ _` |/ _` |/ _ \
|
||
% % % % % / /\ / __/ |_| || (_) | |_| | (_| | (_| | __/
|
||
% % % % % \_\ \/ \___|\__|\__\___/ \__, |\__,_|\__, |\___|
|
||
V V V V V V V V % % 0 0 0 |___/ % |___/ % %
|
||
V V V V V V V V V V V V V V V V % % 0 _ __ ___ _ _ _ __ _ _ _ __ %
|
||
V V V V V V V V V | '_ \ / _ \| | | | '__| | | | | '_ \ %
|
||
V V V V V V V V | |_) | (_) | |_| | | | |_| | | | | %
|
||
V V V V V V V V V V V V V V V V | .__/ \___/ \__,_|_| % \__,_|_| |_| 0 % %
|
||
V V V V V V V V % V % |_| 0 % % 0 0
|
||
0 ___ 0 0 0
|
||
Algolit choisit de travailler avec / _ \___ ___ _ __ ___ ___ % %
|
||
des textes libres de droits. Cela % / /_)/ _ \ / _ \ '_ ` _ \ / _ \
|
||
signifie qu'ils sont publiés sous % / ___/ (_) | __/ | | | | | __/
|
||
une licence Creative Commons 4.0 - 0 \/ \___/ \___|_| |_| |_|\___|
|
||
ce qui est rare -, ou qu'ils sont 00 0 0
|
||
dans le domaine public parce que
|
||
l'auteur est mort il y a plus de 70 par Algolit
|
||
ans. C'est le cas des publications %
|
||
du Mundaneum. Nous avons reçu 203 Pour cette exposition, nous travaillons avec 3% des archives du
|
||
documents pour constituer des jeux Mundaneum. Ces documents ont d'abord été numérisés ou photogra-
|
||
de données qui sont maintenant dis- phiés. Pour rendre les documents consultables, ils sont transfor-
|
||
ponibles en ligne. L'inconvénient % més en texte à l'aide du logiciel de reconnaissance optique de
|
||
de ce choix est que nous sommes caractères (OCR) basés sur des modèles algorithmiques entraînés à
|
||
souvent confrontés à de mauvais base d'autres textes. Ils ont appris à identifier des caractères,
|
||
formats de texte. Cela signifie que des mots, des phrases et des paragraphes.
|
||
nous sommes souvent obligés de net- %
|
||
toyer des documents. Nous ne sommes Le logiciel fait souvent des 'erreurs'. Il peut être perturbé par
|
||
pas seuls dans cette situation. % un caractère erroné, une typographie inhabituelle ou la transpa-
|
||
rence de la page laissant apparaître le verso. Bien que ces er-
|
||
Les livres sont numérisés en haute reurs soient souvent considérées comme du bruit, elles peuvent
|
||
résolution, page par page. C'est un aussi être considérées comme des interprétations poétiques de
|
||
travail humain intensif et c'est l’algorithme. Elles nous montrent les limites de la machine. Et
|
||
souvent la raison pour laquelle les elles révèlent également comment l’algorithme fonctionne, quelle
|
||
archives et les bibliothèques matière l’a alimenté lors de son entraînement et ce qu’ils ré-
|
||
transfèrent leurs collections à une vèlent des normes de ses fabricants. Dans cette installation,
|
||
société comme Google. Les photos vous pouvez choisir comment vous traitez les erreurs de lecture
|
||
sont converties en texte via OCR de l'algorithme. Sélectionnez un degré de nettoyage poétique, im-
|
||
(Reconnaissance Optique de Caractè- primez votre poème et emportez-le chez vous.
|
||
res), des Data Workers qui recon-
|
||
naissent les lettres. Dans l'exécu- ---
|
||
tion de cette tâche, les algo-
|
||
rithmes font des erreurs, en parti- Concept, code, interface: Gijs de Heij
|
||
culier lorsqu'ils doivent traiter
|
||
des polices anciennes et des pages %
|
||
froissées. Ici aussi un travail hu- 0 0
|
||
main intensif est nécessaire pour 0 0 0 0 0
|
||
améliorer les textes. Cela est fait % __ _ 0 0 _ 0
|
||
par des freelances via des plate- / / ___ _ __ _ __ ___ (_) ___| |_ 0
|
||
formes de micro-paiement comme Me- / / / _ \ | '_ \| '__/ _ \| |/ _ \ __| 0
|
||
chanical Turk ; ou par des volon- % / /__| __/ | |_) | | | (_) | | __/ |_
|
||
taires, comme la communauté du Dis- 0 \____/\___| | .__/|_| \___// |\___|\__|
|
||
tributed Proofreaders Project, qui |_| |__/ 0 0
|
||
fournit un travail incroyable. Quoi 0 ___ _ _ _ _ 0 _ 0
|
||
qu’il en soit, le nettoyage des % 0 / (_)___| |_ _ __(_) |__ _ _| |_ ___
|
||
textes est un travail énorme pour / /\ / / __| __| '__| | '_ \| | | | __/ _ \
|
||
lequel il n'y a pas encore d'auto- / /_//| \__ \ |_| | | | |_) | |_| | || __/ 0
|
||
matisation structurelle. /___,' |_|___/\__|_| |_|_.__/ \__,_|\__\___| 0
|
||
0 _ ___ 0 __ 0
|
||
0 __| | / _ \_ __ ___ ___ / _|_ __ ___ __ _
|
||
/ _` | / /_)/ '__/ _ \ / _ \| |_| '__/ _ \/ _` |
|
||
| (_| | / ___/| | | (_) | (_) | _| | | __/ (_| |
|
||
% 0 \__,_| \/ |_| \___/ \___/|_| |_| \___|\__,_|
|
||
_ 0 0
|
||
0 __| | ___ _ __ ___ 0
|
||
23
|
||
%% % % % % % %% 0 % % % / _` |/ _ \ '__/ __| % % % %
|
||
% % % % % % % % %%% % 0 | (_| | __/ | \__ \ % % % %
|
||
% % % % % % % 0 0 \__,_|\___|_| |___/ 0 % % %
|
||
% % % %% % % % 0 0 % 0 % 0 0 0 % % %
|
||
% % % % % % % % % % % %% %
|
||
% % par Algolit % %
|
||
% % % % % % %
|
||
% % Distributed Proofreaders est une interface Web et une communauté
|
||
% internationale de bénévoles qui aident à convertir des livres du %%
|
||
% domaine public en livres électroniques. Pour cette exposition,
|
||
% ils ont relu des publications de Mundaneum parues avant 1923, qui
|
||
% sont donc dans le domaine public aux États-Unis.
|
||
% % % %
|
||
% Leur collaboration a été un grand soulagement pour les membres
|
||
% % d'Algolit. Moins de documents à nettoyer ! Tous les livres corri-
|
||
gés sont disponibles dans les archives du Projet Gutenberg. An
|
||
% % Mertens a interviewé Linda Hamilton, directrice générale de Dis-
|
||
tributed Proofreaders. % % % %
|
||
% %
|
||
% ---
|
||
%
|
||
% Interview : An Mertens, Algolit et Linda Hamilton, Distributed
|
||
Proofreaders
|
||
%
|
||
Montage : Michael Murtaugh, Constant
|
||
|
||
%
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
24
|
||
RÉCITS CONTEXTUALISÉS
|
||
AUTOUR DES NETTOYEURS
|
||
|
||
|
||
|
||
--- Projet Gutenberg et Distributed Proofreaders IDÉES
|
||
---
|
||
|
||
Le projet Gutenberg est notre grotte d'Ali Baba. A. L'instinct de Mort et l'instinct de Vie :
|
||
Il offre plus de 58 000 livres électroniques gra-
|
||
tuits à télécharger ou à lire en ligne. Les œuvres L'Instinct de Mort : séparation ; catégorisation ;
|
||
sont acceptées sur Gutenberg lorsque leur droit avant-garde par excellence ; suivre le chemin pré-
|
||
d'auteur américain a expiré. Des milliers de béné- dit vers la mort - exécuter son propre code ;
|
||
voles numérisent et relisent des livres pour aider changement dynamique.
|
||
le projet. Une partie essentielle du travail est
|
||
réalisée dans le cadre du projet Distributed Proo- L'Instinct de Vie : l'unification ; le retour
|
||
freaders. Il s'agit d'une interface Web pour aider éternel ; la perpétuation et l'ENTRETIEN de la ma-
|
||
à convertir les livres du domaine public en livres tière ; les systèmes et opérations de survie ;
|
||
électroniques. Pensez aux fichiers texte, aux e- l'équilibre.
|
||
pubs, aux formats Kindle. En divisant la charge de
|
||
travail en pages individuelles, de nombreux béné-
|
||
voles peuvent travailler sur un livre en même B. Deux systèmes de base :
|
||
temps, ce qui accélère le processus de nettoyage.
|
||
Développement et entretien. La boule de cristal de
|
||
Pendant la relecture, les bénévoles reçoivent une chaque révolution : après la révolution, qui va
|
||
image scannée de la page et une version du texte, essayer de repérer le taux de discrimination dans
|
||
lue par un algorithme de reconnaissance optique la production ?
|
||
des caractères (OCR) entraîné pour reconnaître les
|
||
lettres dans les scans. Cela permet de comparer Développement : pure création individuelle ; le
|
||
facilement le texte à l'image, de le relire, de le nouveau ; le changement ; le progrès ; l'avancée ;
|
||
corriger et de le renvoyer sur le site. Un l'excitation ; la fuite ou s'enfuir.
|
||
deuxième bénévole se voit ensuite présenter le
|
||
travail du premier. Il vérifie et corrige le tra- Entretien : garder la poussière de la création in-
|
||
vail si nécessaire, et le soumet au site. Le livre dividuelle pure ; préserver le nouveau ; soutenir
|
||
passe ensuite par un troisième cycle de relecture le changement ; protéger le progrès ; défendre et
|
||
et deux autres cycles de mise en page à l'aide de prolonger l'avancée ; renouveler l'excitation ;
|
||
la même interface Web. Une fois que toutes les répéter le vol ; montrez votre travail/remontrez-
|
||
pages ont terminé ces étapes, un post-processeur le ; gardez le dépôt git mis à jour ; gardez
|
||
les assemble soigneusement dans un e-book et les l'analyse des données révélatrice.
|
||
soumet à l'archive du Projet Gutenberg.
|
||
Les systèmes de développement sont des systèmes de
|
||
Nous avons collaboré avec le Distributed Proofrea- rétroaction partielle avec une grande marge de
|
||
ders Project pour nettoyer les fichiers numérisés changement.
|
||
que nous avons reçus de la collection du Munda-
|
||
neum. De novembre 2018 jusqu'à la première mise en Les systèmes d'entretien sont des systèmes à ré-
|
||
ligne du livre 'L'Afrique aux Noirs' en février troaction directe avec peu de possibilités de mo-
|
||
2019, An Mertens a échangé environ 50 courriels dification.
|
||
avec Linda Hamilton, Sharon Joiner et Susan Han-
|
||
lon, toutes bénévoles du Distributed Proofreaders
|
||
Project. La conversation complète est publiée ici. C. L'entretien est une corvée, ça prend tout le
|
||
Cela pourrait vous inspirer à partager des livres temps.
|
||
non disponibles en ligne.
|
||
L'esprit est éblouissant et s'irrite devant l'en-
|
||
nui.
|
||
--- Une version algolittéraire du Manifeste sur
|
||
l’entretien --- La culture attribue un statut médiocre aux emplois
|
||
d'entretien = salaire minimum, les Mechanical
|
||
En 1969, un an après la naissance de son premier Turks d'Amazon = pratiquement aucun salaire.
|
||
enfant, l'artiste new-yorkaise Mierle Laderman
|
||
Ukeles a écrit un 'Manifesto for Maintenance' (Ma- Nettoyer le set, marquer les données d'entraîne-
|
||
nifeste pour l'entretien). Le Manifeste d'Ukeles ment, corriger les fautes de frappe, modifier les
|
||
appelle à une réévaluation de l'état des travaux paramètres, terminer le rapport, satisfaire le de-
|
||
mandeur, télécharger la nouvelle version, joindre
|
||
blic. Ce qui suit est une version modifiée de son les mots qui ont été mal reconnus par le logiciel
|
||
texte inspirée par le travail des Nettoyeurs. de Reconnaissance Optique de Caractères, accomplir
|
||
ces tâches d'intelligence humaine, essayez de de-
|
||
viner la signification du formatage du demandeur,
|
||
vous devez accepter le 'hit' avant de pouvoir sou-
|
||
mettre les résultats, résumer l'image, ajouter la
|
||
25
|
||
|
||
|
||
|
||
|
||
case de délimitation, quelle est la similitude sé- des vidéos sur YouTube montrant aux 'turkers' com-
|
||
mantique de ce texte, vérifiez la qualité de la ment écrire un bot qui remplit des réponses pour
|
||
traduction, collecter vos micro-paiements, devenir vous.
|
||
un Mechanical Turk à succès.
|
||
Kristy Milland, une militante de Mechanical Turk,
|
||
Référence : https://www.arnolfini.org.uk/blog/ma- dit : 'Les travailleurs sur Mechanical Turk ont
|
||
nifesto-for-maintenance-art-1969 été très, très mal traités pendant 12 ans et,
|
||
d'une certaine façon, je vois cela comme un point
|
||
de résistance. Si nous étions payés équitablement
|
||
--- Une panique robotique chez le Mechanical Turk sur la plateforme, personne ne prendrait le risque
|
||
d'Amazon --- de perdre son compte de cette façon.'
|
||
|
||
Le Mechanical Turk d'Amazon prend le nom d'un au- Bai a créé un questionnaire pour les chercheurs en
|
||
tomate d'échecs du 18ème siècle. En fait, le Turc dehors de Mechanical Turk. Il dirige actuellement
|
||
mécanique n'était pas du tout une machine. C'était une recherche parmi les spécialistes des sciences
|
||
une illusion mécanique qui permettait à un maître sociales pour déterminer la quantité de données
|
||
d'échecs humain de se cacher à l'intérieur de la erronées utilisées, l'ampleur du problème et les
|
||
boîte et de l'utiliser manuellement. moyens de l'enrayer. Mais il est impossible à
|
||
l'heure actuelle d'estimer combien de jeux de don-
|
||
Pendant près de 84 ans, le Turc a remporté la plu- nées sont devenus peu fiables de cette façon-ci.
|
||
part des matchs joués lors de ses manifestations
|
||
en Europe et en Amérique. Napoléon Bonaparte se Références :
|
||
serait lui aussi laissé berner par cette ruse.
|
||
https://www.wired.com/story/amazon-mechanical-
|
||
Le Mechanical Turk d’Amazon est une plateforme en turk-bot-panic/
|
||
ligne à destination des humains pour exécuter des
|
||
tâches que les algorithmes ne parviennent pas à https://www.maxhuibai.com/blog/evidence-that-res-
|
||
faire. Il peut s'agir, par exemple, d'annoter des ponses-from-repeating-gps-are-random
|
||
phrases comme étant positives ou négatives, de re-
|
||
pérer des plaques d'immatriculation, de recon- http://timryan.web.unc.edu/2018/08/12/data-conta-
|
||
naître des visages. Les postes affichés sur cette mination-on-mturk/
|
||
plateforme sont souvent rémunérés moins d'un cen-
|
||
time par tâche. Les tâches les plus complexes ou
|
||
nécessitant le plus de connaissances peuvent être
|
||
payées jusqu'à plusieurs centimes. Pour gagner
|
||
leur vie, les 'turkers' doivent accomplir le plus
|
||
de tâches possible le plus rapidement possible, ce
|
||
qui entraîne d’inévitables erreurs. Les créateurs
|
||
des jeux de données doivent incorporer des
|
||
contrôles de qualité lorsqu'ils publient un tra-
|
||
vail sur la plate-forme. Ils doivent vérifier si
|
||
le 'turker' a réellement la capacité d'accomplir
|
||
la tâche, et ils doivent également vérifier les
|
||
résultats. De nombreux chercheurs universitaires
|
||
utilisent le Mechanical Turk pour des tâches qui
|
||
auraient été exécutées par des étudiants aupara-
|
||
vant.
|
||
|
||
En août de l'année dernière, Max Hui Bai, un étu-
|
||
diant en psychologie de l'Université du Minnesota,
|
||
a découvert que les enquêtes qu'il a menées avec
|
||
Mechanical Turk étaient pleines de réponses ab-
|
||
surdes aux questions ouvertes. Il a retracé les
|
||
mauvaises réponses et a découvert qu'elles avaient
|
||
été soumises par des répondants ayant des coordon-
|
||
nées GPS en double. Cela a suscité des soupçons.
|
||
Bien qu'Amazon interdise explicitement aux robots
|
||
d'effectuer des travaux sur Mechanical Turk, l'en-
|
||
treprise ne publie pas les problèmes qu'ils
|
||
causent sur sa plate-forme. Les forums pour 'tur-
|
||
kers' sont pleins de conversations sur l'automati-
|
||
sation du travail, le partage de pratiques sur la
|
||
façon de créer des robots qui transgresseraient
|
||
les termes d'Amazon. Vous pouvez également trouver
|
||
|
||
26
|
||
informants inform informants inform informants inform informants inform informants inform info
|
||
mants inform informants inform informants inform informants inform informants i
|
||
form informants inform informants inform informants inform info
|
||
mants inform informants inform informants inform informants info
|
||
m informants inform informants inform informants inform
|
||
informants inform informants inform informants
|
||
inform informants inform informants inform
|
||
informants inform informants inform informants info
|
||
m informants inform informants inform
|
||
informants inform informants inform
|
||
informants inform informants inform in
|
||
ormants inform informants inform infor
|
||
ants inform informants inform info
|
||
mants inform informants inform
|
||
informants inform informants inform
|
||
informants inform informants inform
|
||
informants inform informants inform
|
||
informants inform infor
|
||
ants inform informants inform
|
||
informants inform informants inform
|
||
informants inform
|
||
informants inform informants inform
|
||
informants inform
|
||
informants inform informants inform
|
||
informants inform
|
||
informants inform informants inform
|
||
informants inform
|
||
informants inform informants
|
||
inform informants inform
|
||
informants inform
|
||
informants inform informants
|
||
inform informants inform
|
||
informants inform
|
||
informants inform
|
||
informants inform informants info
|
||
m informants inform
|
||
informants inform
|
||
informants inform
|
||
informants inform
|
||
informants inform informants
|
||
inform informants inform
|
||
informants inform
|
||
informants inform
|
||
informants inform
|
||
informants inform
|
||
informants inform
|
||
informants inform
|
||
informants inform
|
||
informants inform
|
||
informants inform
|
||
informants inform in
|
||
ormants inform info
|
||
mants inform infor
|
||
ants inform infor
|
||
ants inform info
|
||
mants inform in
|
||
ormants inform
|
||
informants inform
|
||
informants inform
|
||
informants inform
|
||
informants inform
|
||
informants inform
|
||
informants inform
|
||
informants inform
|
||
informants inform
|
||
informants inform
|
||
informants inform
|
||
informants inform
|
||
informants inform
|
||
27
|
||
rnes h r 3 au lo%+ an 5 +-+-+-+-+-+-+-+-+-+-+ nse +-+-+-+-+-+-+ es a r - r n c 8 é2 rèe 5c eit
|
||
o cn si 2es to r |i|n|f|o|r|m|a|n|t|s| 2e |i|n|f|o|r|m| t le tl e 6 - , i t r
|
||
n - é6 i é +-+-+-+-+-+-+-+-+-+-+ si +-+-+-+-+-+-+ se n ae|v m o e a i 5é
|
||
5 oe mc d | ué|dé a m s i ee vc r u ejt l 5e t2 ie% 6 a d e n1 4o n9e a8
|
||
e e + n +so - n0 1f r4tn + % t trcnadb8a - btta A ge | 9pwW8 r s n e +4e _4i ac sw
|
||
m srs s| %u t8 6S +-+-+-+-+ +-+-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+-+ ,e| ese 1 e
|
||
eé é t ge % qf - |e|a|c|h| |d|a|t|a|s|e|t| s0ce |c|o|l|l|e|c|t|s| |d|i|f|f|e|r|e|n|t| i b 1ai3
|
||
u 5éé eoes 6 n u +-+-+-+-+ +-+-+-+-+-+-+-+ 9 +-+-+-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+-+ 3 - o 7 É
|
||
4 7 5on a / 8 h l lie r 3 e _ -ln 0o +-+-+-+-+-+-+-+-+-+-+-+ +-+-+-+-+-+ p 5U 7 6 nl 2é
|
||
7ce ebi u 2 a . _ 2 t %b u6% mS | i |i|n|f|o|r|m|a|t|i|o|n| |a|b|o|u|t| 5 o 9'3ab u p
|
||
,s 'o f p p o n sc 8_n c t n +-+-+-+-+-+-+-+-+-+-+-+ +-+-+-+-+-+ s - i a
|
||
,ae a s 4 9 n 2 le 3as n8 or 7 rn u9 +-+-+-+ +-+-+-+-+-+ d - ée x t e nl e _4 e
|
||
i rt _san r 62' o _ % / & p |t|h|e| |w|o|r|l|d| | r% pa mi P i aa7 vco
|
||
oh, a e d 7 a e q+ s d8 | sr +-+-+-+ +-+-+-+-+-+ - -u1 lr ir ch t tn
|
||
l e 2 1l / rne 9t 5 7 +-+-+-+-+-+-+-+-+ c +-+-+-+ +-+-+-+-+-+-+ +-+-+-+-+ li _ su 5 e r,oi sc
|
||
mi 6a %y \ 3 léri90 46nA |d|a|t|a|s|e|t|s| e t |a|r|e| |i|m|b|u|e|d| |w|i|t|h| 36 6 - 6| -
|
||
7 l as ,-+9 osn V u +-+-+-+-+-+-+-+-+ e 2s +-+-+-+ +-+-+-+-+-+-+ +-+-+-+-+ 3 + m u u t c
|
||
go P |n t te n 4i | i i a ts r el 6 +-+-+-+-+-+-+-+-+-+-+-+ +-+-+-+-+ v + 2 p
|
||
e 7 n 3- 3l er m pl eld4e e |c|o|l|l|e|c|t|o|r|'|s| |b|i|a|s| e nri b /p
|
||
s sc /_( 8 m r 8 c 5 l (s y +-+-+-+-+-+-+-+-+-+-+-+ +-+-+-+-+ m ' ne s
|
||
1 u e m G +-+-+-+-+ +-+-+-+-+-+-+-+-+ s +-+-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+ i o5 . \ s e c
|
||
i u f |s|o|m|e| |d|a|t|a|s|e|t|s| |c|o|m|b|i|n|e| |m|a|c|h|i|n|i|c| dx o 4 ms|
|
||
% a l +-+-+-+-+ +-+-+-+-+-+-+-+-+ e +-+-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+ é p f
|
||
tnl |r -5 a _ d a +-+-+-+-+-+ +-+-+-+-+ +-+-+-+-+-+ e neme 5
|
||
a 9e en - o% 4 e t à |l|o|g|i|c| |w|i|t|h| |h|u|m|a|n| r t e
|
||
t1 ul i n i L4 ee n n +-+-+-+-+-+ +-+-+-+-+ +-+-+-+-+-+ 2 6 nl
|
||
l d n i 5 +o 2 c or + s +-+-+-+-+-+ ero s+6 u e n t ie7
|
||
b 1 , e ve d èP 5 l u1 t e e |l|o|g|i|c| a e o / e pA
|
||
i + - 1 c s n s Ge t 6an _ +-+-+-+-+-+ r s ua t t u t- r t q--4
|
||
_ r 1 ie +-+-+-+-+-+-+ +-+-+-+-+ 9 . i t se\ a a_ 6
|
||
sh si e f |m|o|d|e|l|s| |t|h|a|t| 9 8 8 7 5 i m l 7 6
|
||
i éw 4 m o +-+-+-+-+-+-+ +-+-+-+-+ e d n n ' co2 i
|
||
' 8 d 4 +-+-+-+-+-+-+-+ p t s d t n6 + i eee3
|
||
5 s o te e d , | |r|e|q|u|i|r|e| é I e1 - 9 | m
|
||
5 5 t s7 m ps | e e +-+-+-+-+-+-+-+ i i to u c a c
|
||
7 4 e u d +-+-+-+-+-+-+-+-+-+-+-+ s +-+-+-+-+-+-+-+-+ +-+-+-+ mur e n 3 s r
|
||
t a e |s|u|p|e|r|v|i|s|i|o|n| c |m|u|l|t|i|p|l|y| |t|h|e| 3 o r e 6
|
||
n m- n +-+-+-+-+-+-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+ +-+-+-+ r e
|
||
d 1 o a f1 a e d pe +-+-+-+-+-+-+-+-+-+-+-+-+-+-+ ie s
|
||
p te 1 a 8 r a 7 a |s|u|b|j|e|c|t|i|v|i|t|i|e|s| e
|
||
r e 3 T . 9 +-+-+-+-+-+-+-+-+-+-+-+-+-+-+ 1 7 fe
|
||
a u +é a 6 +-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+-+ +-+-+-+-+ l 1s
|
||
e | |m|o|d|e|l|s| ae |p|r|o|p|a|g|a|t|e| |w|h|a|t| 4e d o ur
|
||
6 9 ee +-+-+-+-+-+-+ e +-+-+-+-+-+-+-+-+-+ +-+-+-+-+ c b
|
||
4 3 o w é 20 o +-+-+-+-+-+-+-+ +-+-+-+-+ i - r m
|
||
p m _ | 5 n / |t|h|e|y|'|v|e| |b|e|e|n| u| p d s 1 r
|
||
l h i r 3 n_ 3 +-+-+-+-+-+-+-+ +-+-+-+-+ s s c v i
|
||
\ d 9 s +-+-+-+-+-+-+ e d m e e
|
||
2 |t|a|u|g|h|t| r é n n
|
||
o sr s | s-3 +-+-+-+-+-+-+ p u
|
||
1 +-+-+-+-+ +-+-+ +-+-+-+ % , 7 o
|
||
2 r t |s|o|m|e| |o|f| |t|h|e| r f n t
|
||
4 é o +-+-+-+-+ +-+-+ +-+-+-+ V l l q i 8s
|
||
t c | S +-+-+-+-+-+-+-+-+ +-+-+-+-+ +-+-+ +-+-+-+-+-+-+-+ +-+-+ 8
|
||
t p |d|a|t|a|s|e|t|s| 88 |p|a|s|s| |a|s| |d|e|f|a|u|l|t| |i|n| t t
|
||
e 3 d +-+-+-+-+-+-+-+-+ +-+-+-+-+ +-+-+ +-+-+-+-+-+-+-+ +-+-+
|
||
r O é a r +-+-+-+ +-+-+-+-+-+-+-+ - 8 t
|
||
8 x 7 ad |t|h|e| |m|a|c|h|i|n|e| i 5 o _ 3
|
||
u 7 r u n e +-+-+-+ +-+-+-+-+-+-+-+ e p r
|
||
3 r r c 1 +-+-+-+-+-+-+-+-+ +-+-+-+-+-+ | r i
|
||
M 2 |l|e|a|r|n|i|n|g| |f|i|e|l|d| t e %
|
||
r s I a +-+-+-+-+-+-+-+-+ +-+-+-+-+-+ C
|
||
N au +-+-+-+-+-+-+ +-+-+-+-+-+ +-+-+-+-+-+-+-+-+
|
||
u c n |h|u|m|a|n|s| |g|u|i|d|e| |m|a|c|h|i|n|e|s| a è 4 o eu
|
||
t m +-+-+-+-+-+-+ +-+-+-+-+-+ +-+-+-+-+-+-+-+-+ 2 2 ue
|
||
e . i e k i | t
|
||
8 9 s a o e m | 6
|
||
i \v g é
|
||
|
||
28
|
||
V V % V V V V V V % % % % % % % % % % % %% % %
|
||
V V V V V V V V V V V V V V V V 0 % 0 % % % % % % % % %%%% %%
|
||
V V % V V % V V % V V % V % 0 % % % 0 %
|
||
% % % 0 0 0 0 _ _ % %% % % % %
|
||
% % % /\ /\ _ __ ___ ___| |_| |__ _ __ ___ __ _ % %
|
||
INFORMATEURS / / \ \ '_ \ / _ \ / _ \ __| '_ \| '_ \ / _ \ / _` |
|
||
% % % \ \_/ / | | | __/ | __/ |_| | | | | | | (_) | (_| |
|
||
% % % \___/|_| |_|\___| \___|\__|_| |_|_| |_|\___/ \__, |
|
||
V V V V % V V V V % 0 0 0 0 % % % 0 |___/ %
|
||
V V V V V V V V V V V V V V V V 0 % _ 0 _ _ 0 %
|
||
V V V % V V V % V V V % % 0 % _ __ __ _ _ __ | |__ (_) ___ __| | ___ ___
|
||
V V V V V V V V % 0 | '__/ _` | '_ \| '_ \| |/ _ \ / _` |/ _ \/ __| %
|
||
V V V V V V V V V V V V V V V V % | | | (_| | |_) | | | | | __/ | (_| | __/\__ \
|
||
V V V V V V V V V 0 |_| \__,_| .__/|_| |_|_|\___| \__,_|\___||___/
|
||
% % |_| % 0 0 00
|
||
Les algorithmes d'apprentissage au- 0 _ 0 % 00 _ %
|
||
tomatique ont besoin d'être guidés, (_) ___ _ ___ __ __| | ___ %
|
||
qu'ils soient supervisés ou non. | |/ _ \ | | \ \/ / / _` |/ _ \
|
||
Pour séparer une chose d'une autre, 0 0 | | __/ |_| |> < | (_| | __/
|
||
ils ont besoin de matériel pour en 0 _/ |\___|\__,_/_/\_\ \__,_|\___| 0
|
||
extraire des motifs. L'être humain |__/ %
|
||
doit choisir avec soin le matériel _ % 0 0 0 0
|
||
d'étude, adapté à la tâche de la 0 __| | ___ _ __ _ __ ___ ___ ___
|
||
machine. Il n'est pas logique d'en- 0 0 / _` |/ _ \| '_ \| '_ \ / _ \/ _ \/ __|
|
||
traîner une machine avec des romans | (_| | (_) | | | | | | | __/ __/\__ \ %
|
||
du 19ème siècle si sa mission est 0 \__,_|\___/|_| |_|_| |_|\___|\___||___/ 00
|
||
d'analyser des Tweets. 0 0 0
|
||
% %
|
||
C'est là qu'interviennent les jeux par Algolit %
|
||
de données : organisés en rangés et
|
||
en colonnes ordonnées, en attente Lors des réunions mensuelles Algolit nous cherchons ou créons
|
||
d'être lus par la machine. Chaque souvent des jeux de données. Parfois, nous utilisons des corpus
|
||
jeu de données recueille des infor- déjà existants, disponibles via le site Natural Language Toolkit
|
||
mations différentes sur le monde. nltk. NLTK contient, entre autres, la Déclaration universelle des
|
||
Comme toutes les collections, elles droits de l'Homme, les discours inauguraux des présidents améri-
|
||
sont imprégnées des stéréotypes et cains, ou des critiques de films du site Internet Movie Database
|
||
préjugés de ses créateurs. On en- (IMDb).
|
||
tend souvent l’expression : 'les
|
||
données sont le nouveau pétrole'. Chaque style d'écriture évoque des relations différentes entre
|
||
Si seulement les données étaient du les mots et reflète l'époque dont ils proviennent. En ce sens, le
|
||
pétrole ! Fuyantes, s’égouttant en gestionnaire de paquets Python pour le traitement du langage na-
|
||
graisse lourde, bouillonnantes et turel pourrait être considéré comme une capsule temporelle. Le
|
||
tressaillantes au contact d'une matériel inclu a été sélectionné car jugé utile par une communau-
|
||
nouvelle matière. Au contraire, les té de chercheurs. Malgré les spécificités, chaque jeu de données
|
||
données sont supposées d'être devient universel par défaut, en étant à la disposition d'un pu-
|
||
propres. Lors de chaque processus, blic aussi large.
|
||
chaque questionnaire, chaque titre %
|
||
de colonne, elles s’épurent, en ef- Nous examinons les jeux de données les plus couramment utilisés
|
||
façant peu à peu leurs caractéris- pour l'entraînement des modèles d'apprentissage automatique. De
|
||
tiques distinctes jusqu’à corres- quels matériaux sont-ils constitués ? Qui les a recueillis ?
|
||
pondre au moule du jeu de données. Quand ?
|
||
|
||
Certains jeux de données combinent ---
|
||
la logique machinique avec la lo-
|
||
gique humaine. Les modèles qui né- Concept, réalisation: Cristina Cochior
|
||
cessitent une supervision multi-
|
||
plient les subjectivités des col-
|
||
lecteurs de données et des annota- 0 0 0 0
|
||
teurs, puis propulsent et propagent 0 0 0 0
|
||
ce qui leur a été enseigné. Vous % ___ _ _ _
|
||
découvrirez des extraits de cer- / ( ) /_\ _ __ _ __ 0 ___ | |_ __ _| |_ ___
|
||
tains jeux de données qui passent / /|/ //_\\| '_ \| '_ \ / _ \| __/ _` | __/ _ \
|
||
par défaut dans le domaine de l'ap- / /___/ _ \ | | | | | | (_) | || (_| | || __/
|
||
prentissage automatique, ainsi que \____/\_/ \_/_| |_|_| |_|\___/ \__\__,_|\__\___|
|
||
des histoires d'humains guidant des 0 _ _ _ __ 0
|
||
machines. 0 0 | | | | '__|
|
||
| |_| | | 0
|
||
\__,_|_| 0
|
||
0 0 0 0
|
||
29
|
||
% %%% %%% %% % % % % %% % % % % % % %
|
||
% % % % % par Algolit %% % % % % % % % %%
|
||
% % % % % % % % %% % % % % % % % %
|
||
% % L'Annotateur demande au visiteur de l'aider à annoter les ar- %
|
||
%% % % chives du Mundaneum. % % %
|
||
% % % %
|
||
% Le processus d'annotation est une étape cruciale de l'apprentis- %
|
||
% % % % sage automatique supervisé où l'algorithme reçoit des exemples de
|
||
ce qu'il doit apprendre. Un filtre anti-spam sera alimenté %
|
||
% d'exemples de spam et de messages réels. Ces exemples sont des %
|
||
entrées du jeu de données prévues d'une étiquette, spam ou non
|
||
% spam. % %
|
||
% %
|
||
L'annotation d'un jeu de données est un travail exécuté par des
|
||
humains, qui choisissent une étiquette pour chaque entrée du jeu
|
||
% % de données. Pour assurer la qualité des étiquettes, plusieurs an-
|
||
% notateurs doivent voir la même entrée et donner la même étiquette
|
||
avant qu'un exemple ne soit inclus dans les données d'entraîne-
|
||
ment. Une fois que toutes les données d'entraînement ont été pré-
|
||
vues d'une étiquette, l'ordinateur peut lancer le processus d'ap-
|
||
% prentissage.
|
||
%
|
||
Dans cette interface, nous vous demandons de nous aider à classer
|
||
% les textes nettoyés des archives du Mundaneum afin d'élargir
|
||
% notre set d’entraînement et d'améliorer la qualité de l'installa-
|
||
tion 'Classer le Monde' dans Oracles.
|
||
% % % %
|
||
--- %
|
||
|
||
Concept, code, interface : Gijs de Heij
|
||
%
|
||
% %
|
||
% 0
|
||
0 %
|
||
% 0 _ ___ ___ ___
|
||
% 00 / |/ _ \ / _ \ / _ \ 0
|
||
| | | | | | | | | | |
|
||
0 | | |_| | |_| | |_| | 0
|
||
0 |_|\___/ \___/ \___/ 0 0 0
|
||
0 0 0 0 _
|
||
___ _ 0 _ _ __ ___ ___| |_ ___
|
||
0 / __| | | | '_ \/ __|/ _ \ __/ __|
|
||
0 \__ \ |_| | | | \__ \ __/ |_\__ \
|
||
|___/\__, |_| |_|___/\___|\__|___/
|
||
0 |___/ 00 0
|
||
0 0 0 0
|
||
|
||
par Algolit
|
||
|
||
Wordnet, créé en 1985, est une taxonomie hiérarchique qui décrit
|
||
le monde. Elle s'inspire des théories de la mémoire sémantique
|
||
humaine développées à la fin des années 1960. Les noms, verbes,
|
||
adjectifs et adverbes sont regroupés en collections de synonymes
|
||
ou 'synsets', prévues de définitions, hypernymes, hyponymes, ....
|
||
Chaque synset exprime des concepts différents. ImageNet est un
|
||
jeu de données d'images basé sur la hiérarchie des noms de
|
||
WordNet 3.0. Chaque synset est représenté par des milliers
|
||
d'images. De 2010 à 2017, le Défi de Reconnaissance Visuelle de
|
||
ImageNet (ILSVRC) a été une référence clé dans la classification
|
||
des catégories d'objets pour les photos, ayant un impact majeur
|
||
sur les logiciels de photographie, les recherches d'images, la
|
||
reconnaissance d'images.
|
||
%
|
||
1000 synsets (édition vinyle) contient les 1000 synsets utilisés
|
||
dans ImageNet, enregistrés dans la meilleure qualité sonore que
|
||
ce format analogique permet. Ce travail souligne l'importance des
|
||
jeux de données utilisés pour former des modèles d'intelligence
|
||
artificielle qui fonctionnent sur des appareils que nous utili-
|
||
sons quotidiennement. Certains d'entre eux héritent de classifi-
|
||
30
|
||
% % % %% % % % cations qui ont été conçues il y a plus de 30 ans. Le vinyle est % %
|
||
% % % % une invitation à les analyser en profondeur. %% % % % %%
|
||
% % % % % % % %% % % % %
|
||
% % % % %% % --- % %% % % % % % % % %
|
||
% % % % % % % %% % % % % % % % %
|
||
% % % % Conception et enregistrement: Javier Lloret % %
|
||
% % % % %
|
||
% % Voix: Sara Hamadeh & Joseph Hughes %
|
||
% % % % %% % % % %
|
||
% %
|
||
% % % % 0 0 0 0 0 0 0
|
||
0 0 % 0 0 0 0 %
|
||
% 0 0 ____ _ 0 %
|
||
% 00 0 /___ \_ _(_) %
|
||
% 0 // / / | | | | % 0 0 %
|
||
% 0 0 % / \_/ /| |_| | | %
|
||
\___,_\ \__,_|_| 0 0 0
|
||
_ _ 0 % 0 _ % % 0
|
||
| ( )__ _ __ ___ _ __ ___ _ __| |_ ___
|
||
0 | |/ _ \ '_ ` _ \| '_ \ / _ \| '__| __/ _ \
|
||
| | __/ | | | | | |_) | (_) | | | || __/ 0
|
||
% 00 |_|\___|_| |_| |_| .__/ \___/|_| \__\___|
|
||
|_| 00
|
||
0
|
||
%
|
||
Qui l'emporte: rapport de création
|
||
|
||
par Louise Dekeuleneer, étudiante Arts²/Option Communication Vi-
|
||
suelle
|
||
|
||
Le français est une langue genrée, en effet beaucoup de mots sont
|
||
féminins ou masculins et peu sont neutres. Le but de ce projet
|
||
% est de montrer qu'une société patriarcale influence aussi la
|
||
langue même. Le travail s'est focalisé sur le fait de montrer si
|
||
% plus de mots féminins ou masculins sont utilisés et de mettre en
|
||
% valeur l'influence du contexte sur le genre des mots. À ce stade,
|
||
aucune conclusion n'est encore tirée. %
|
||
|
||
Des textes de loi datant de 1900 à 1910 mis à disposition par le
|
||
Mundaneum sont passés dans un algorithme qui fait du texte une
|
||
liste de mots. Ces mots sont alors comparés avec une autre liste
|
||
de mots francophones, dans laquelle il est spécifié si le mot est
|
||
masculin ou féminin. Cette liste de mots provient de Google
|
||
Books, qui a créé en 2012 une énorme base de données à partir de
|
||
tous les livres scannés et disponibles sur Google Books.
|
||
Les mots masculins sont surlignés d'une couleur et les féminins
|
||
d'une autre. Les mots qui ne sont pas genrés (adverbes, verbes,
|
||
...) ne sont pas surlignés. Le tout est enregistré en fichier
|
||
HTML pour qu'il puisse être directement ouvert dans une page web
|
||
et imprimé sans besoin de mise en page supplémentaire. C'est ain-
|
||
si que chaque texte a pu devenir un petit livret en changeant
|
||
juste le texte d'entrée de l'algorithme.
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
31
|
||
RÉCITS CONTEXTUALISÉS
|
||
AUTOUR DES INFORMATEURS
|
||
|
||
|
||
|
||
--- Les jeux de données comme représentations --- Il était à Bruxelles en novembre 2017 lors de la
|
||
Rencontre Algolittéraire.
|
||
Les processus de collecte des données qui mènent à
|
||
la création du jeu de données soulèvent des ques- Femke : En considérant Wikipedia comme une commu-
|
||
tions importantes : qui est l'auteur des données ? nauté vivante, chaque nouvelle page change le pro-
|
||
Qui a le privilège de collectionner ? Pour quelle jet. Chaque modification est en quelque sorte une
|
||
raison la sélection a-t-elle été faite ? Que contribution à un organisme vivant de la connais-
|
||
manque-t-il ? sance. Donc, si au sein de cette communauté vous
|
||
essayez de distinguer ce qui rend service à la
|
||
L'artiste Mimi Onuoha donne un exemple excellent communauté et de généraliser ceci dans un modèle –
|
||
de l'importance des stratégies de collection. Elle car je pense que c'est ce que l'algorithme de la
|
||
choisit le cas des statistiques relatives aux bonne ou mauvaise foi essaie de faire - vous le
|
||
crimes haineux. En 2012, le Programme de déclara- faites sur base d'une généralisation de l'idée
|
||
tion uniforme de la criminalité (DUC) du FBI a en- abstraite de Wikipedia, et non sur base de l'orga-
|
||
registré 5 796 crimes haineux. Toutefois, le Bu- nisme vivant. Ce qui m'intéresse dans la relation
|
||
entre le vandalisme et ce débat, c'est la façon
|
||
a établi 293 800 rapports sur de tels cas. C'est dont nous pouvons comprendre la dynamique conven-
|
||
plus de 50 fois plus. La différence entre les tionnelle de ces processus d'apprentissage automa-
|
||
chiffres peut s'expliquer par la façon dont les tique. Si on distingue la bonne ou la mauvaise foi
|
||
données ont été recueillies. Dans le premier cas, sur base d’étiquettes préexistantes et qu’on la
|
||
les organismes d'application de la loi de tout le reproduit ensuite dans des modèles algorithmiques,
|
||
pays ont volontairement signalé des cas. Pour le comment tenir compte des changements qui se pro-
|
||
deuxième, le Bureau des statistiques a distribué duisent, c’est-à-dire de la vie réelle du projet?
|
||
l'enquête nationale sur la victimisation directe-
|
||
ment aux foyers des victimes de crimes motivés par Amir : C'est une discussion intéressante. Premiè-
|
||
la haine. rement, ce que nous appelons la bonne ou la mau-
|
||
vaise foi provient de la communauté elle-même;
|
||
Dans le domaine du traitement du langage naturel, nous ne faisons pas l'annotation nous-mêmes, c’est
|
||
le matériel avec lequel les modèles d'apprentis- la communauté qui le fait. Ainsi, dans beaucoup de
|
||
sage automatique travaillent est le texte, mais Wikipedias de langues différentes, la définition
|
||
les mêmes questions se posent : qui sont les au- de ce qui est la bonne ou la mauvaise foi sera
|
||
teurs des textes qui composent les jeux de don- différente. Wikimedia essaie de refléter ce qui se
|
||
nées ? Au cours de quelle période les données ont- trouve à l'intérieur de l'organisme et non de
|
||
elles été recueillies ? Quel type de vision du changer l'organisme lui-même. Si l'organisme
|
||
monde représentent-elles ? change et que nous constatons que la définition de
|
||
la bonne foi à Wikipédia a été modifié, nous met-
|
||
En 2017, l'algorithme Top Stories de Google a pla- tons en œuvre cette boucle de rétroaction qui per-
|
||
cé un fil de discussion trompeur du site 4chan en met aux gens de porter un jugement sur leurs modi-
|
||
haut de la page de résultats lors de la recherche fications à l'intérieur de leur communauté. S'ils
|
||
du tireur de Las Vegas. Le nom et le portrait sont en désaccord avec l'annotation, nous pouvons
|
||
d'une personne innocente étaient liés au crime. revenir au modèle et modifier l'algorithme pour
|
||
Bien que Google ait changé son algorithme quelques refléter ce changement. C'est une sorte de boucle
|
||
heures seulement après que l'erreur ait été décou- fermée : vous changez les choses et si quelqu'un
|
||
verte, cela a sérieusement affecté la personne. voit qu'il y a un problème, il nous le dit et nous
|
||
Une autre question persiste : pourquoi Google n'a- pouvons modifier l'algorithme. C'est un projet en
|
||
t-il pas exclu le site de ragôts 4chan du jeu des cours.
|
||
données d'entraînement ?
|
||
Référence : https://gitlab.constantvzw.org/alg
|
||
Références : olit/algolit/blob/master/algoliterary_encounte
|
||
r/Interview%20with%20Amir/AS.aac
|
||
https://points.datasociety.net/the-point-of-col-
|
||
lection-8ee44ad7c2fa
|
||
--- Comment faire connaître votre jeu de données
|
||
https://arstechnica.com/information-technolo- ---
|
||
gy/2017/10/google-admits-citing-4chan-to-spread-
|
||
fake-vegas-shooter-news/ NLTK signifie Natural Language Toolkit. Pour les
|
||
programmeurs qui traitent le langage naturel avec
|
||
Python, c'est une bibliothèque essentielle. De
|
||
--- L'annotation pour un Oracle qui détecte le nombreux rédacteurs de tutoriels recommandent aux
|
||
vandalisme sur Wikipédia --- programmeurs d'apprentissage automatique de com-
|
||
mencer par les jeux de données NLTK intégrés. Il
|
||
Ce fragment est extrait d'une interview avec Amir compte 71 collections différentes, avec un total
|
||
Sarabadani, ingénieur de logiciels chez Wikimedia. de près de 6000 éléments.
|
||
|
||
32
|
||
|
||
|
||
|
||
|
||
Parmi eux, on trouve le corpus Movie Review pour berg , vin diesel , giovanni ribisi , davies et
|
||
l'analyse des sentiments. Ou le corpus Brown, qui burns . le film se clôture avec des scènes de ba-
|
||
a été créé dans les années 1960 par Henry Kučera taille extraordinaires .
|
||
et W. Nelson Francis à l'Université Brown de Rhode
|
||
Island. Il y a aussi le corpus de la Déclaration
|
||
des droits de l'homme, qui est couramment utilisé --- Les ouroboros de l'apprentissage automatique
|
||
pour vérifier si un code peut fonctionner dans ---
|
||
plusieures langues. Le corpus contient la Déclara-
|
||
tion des droits de l'homme dans 372 langues du Wikipédia est devenue une source d'apprentissage
|
||
monde entier. non seulement pour les humains, mais aussi pour
|
||
les machines. Ses articles sont des sources de
|
||
Mais quel est le processus pour faire accepter un premier ordre pour l’entraînement de modèles. Le
|
||
jeu de données dans la bibliothèque NLTK de nos matériel avec lequel les machines sont entraînées
|
||
jours ? Sur la page Github, l'équipe nltk décrit est identique au contenu qu'elles ont aidé à
|
||
les exigences suivantes : écrire. En fait, au début de Wikipédia, de nom-
|
||
breux articles ont été écrits par des robots. Ram-
|
||
- Ne rajoutez que les corpus qui ont obtenu un ni- bot, par exemple, était un robot controversé sur
|
||
veau de notabilité de base. Cela signifie qu'il la plateforme anglophone. Il est l'auteur de 98%
|
||
des pages décrivant les villes américaines.
|
||
nauté de programmeurs qui l'utilisent.
|
||
A cause de ces interventions de robots thématiques
|
||
- Assurez-vous d'avoir l'autorisation de redistri- et régulières, les modèles de prédiction qui sont
|
||
buer les données et de pouvoir les documenter. Ce- entraînés sur le dump de Wikipedia ont une vision
|
||
la signifie qu'il est préférable de publier le jeu unique de la composition des articles. Par exem-
|
||
de données sur un site Web externe avec une li- ple, un modèle thématique entraîné sur l'ensemble
|
||
cence. des articles de Wikipédia associe 'rivière' à
|
||
'Roumanie' et 'village' à 'Turquie'. C'est parce
|
||
- Utilisez les lecteurs de corpus NLTK existants qu'il y a plus de 10000 pages écrites sur les vil-
|
||
lorsque c'est possible, ou bien apportez un lec- lages en Turquie. Cela devrait suffire à susciter
|
||
teur de corpus bien documenté à NLTK. Cela signi- des envies de voyage, mais c'est bien trop par
|
||
fie que vous devez organiser vos données de ma- rapport à d'autres pays. L'asymétrie provoque une
|
||
nière à ce qu'elles puissent être facilement lues fausse corrélation et doit être corrigée. La plu-
|
||
à l'aide du code NLTK. part des modèles tentent d'exclure le travail de
|
||
ces auteurs robots prolifiques.
|
||
Référence : http://www.nltk.org/
|
||
Référence : https://blog.lateral.io/2015/06/the-
|
||
unknown-perils-of-mining-wikipedia/
|
||
--- Extrait d'une critique positive d'un film IMdB
|
||
du jeu de données NLTK ---
|
||
|
||
corpus : movie_reviews
|
||
|
||
fichier : pos/cv998_14111.txt
|
||
|
||
le deuxième film épique de steven spielberg sur la
|
||
seconde guerre mondiale est un chef-d'œuvre incon-
|
||
testé du cinéma . spielberg , encore étudiant en
|
||
cinéma , a réussi à ressusciter le genre de la
|
||
guerre en produisant l'un de ses films les plus
|
||
poignants et les plus puissants . il a également
|
||
réussi à faire briller tom hanks , qui livre une
|
||
performance époustouflante . pendant environ 160
|
||
de ses 170 minutes, ' sauver le soldat ryan ' est
|
||
sans faille . littéralement . l ' histoire est as-
|
||
sez simple . après l ' invasion du jour J ( dont
|
||
les séquences sont tout à fait spectaculaires ),
|
||
capt . john miller ( joué par tom hanks ) et son
|
||
équipe sont forcés à chercher un soldat . james
|
||
ryan ( joué par matt damon ), dont les frères sont
|
||
tous morts au combat. une fois qu ' ils l ' ont
|
||
trouvé , ils doivent le ramener immédiatement pour
|
||
qu'il puisse rentrer chez lui . la compagnie de
|
||
miller est composée d ' acteurs aux jeux tout sim-
|
||
plement sensationnels : bary pepper , adam gold-
|
||
|
||
33
|
||
0123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345678
|
||
9 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234567
|
||
89 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456
|
||
789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345
|
||
6789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234
|
||
56789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123
|
||
456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12
|
||
3456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1
|
||
23456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789
|
||
123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789
|
||
123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345678
|
||
9 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234567
|
||
89 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456
|
||
789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345
|
||
6789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234
|
||
56789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123
|
||
456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12
|
||
3456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1
|
||
23456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789
|
||
123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789
|
||
123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345678
|
||
9 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234567
|
||
89 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456
|
||
789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345
|
||
6789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234
|
||
56789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123
|
||
456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12
|
||
3456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1
|
||
23456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789
|
||
123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789
|
||
123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345678
|
||
9 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234567
|
||
89 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456
|
||
789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345
|
||
6789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234
|
||
56789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123
|
||
456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12
|
||
3456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1
|
||
23456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789
|
||
123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789
|
||
123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345678
|
||
9 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234567
|
||
89 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456
|
||
789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345
|
||
6789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234
|
||
56789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123
|
||
456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12
|
||
3456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1
|
||
23456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789
|
||
123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789
|
||
123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345678
|
||
9 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234567
|
||
89 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456
|
||
789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345
|
||
6789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234
|
||
56789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123
|
||
456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12
|
||
3456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1
|
||
23456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789
|
||
123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789
|
||
123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345678
|
||
9 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234567
|
||
89 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456
|
||
789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345
|
||
6789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234
|
||
56789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123
|
||
456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12
|
||
3456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1
|
||
23456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789
|
||
34
|
||
readers read readers read readers read readers read readers read readers read readers re
|
||
d readers read readers read readers read readers read readers re
|
||
d readers read readers read readers read readers read
|
||
readers read readers read readers read re
|
||
ders read readers read readers read readers re
|
||
d readers read readers read readers r
|
||
ad readers read readers read
|
||
readers read readers read readers read
|
||
readers read readers read
|
||
readers read readers read readers read
|
||
readers read readers read
|
||
readers read readers read
|
||
readers read readers read
|
||
readers read readers read
|
||
readers read readers read
|
||
readers read readers read
|
||
readers read readers
|
||
read readers read
|
||
readers read readers read
|
||
readers read readers read
|
||
readers read
|
||
readers read readers read
|
||
readers read
|
||
readers read readers read
|
||
readers read
|
||
readers read readers read
|
||
readers read
|
||
readers read readers re
|
||
d readers read
|
||
readers read
|
||
readers read readers read
|
||
readers read
|
||
readers read
|
||
readers read re
|
||
ders read readers read
|
||
readers read
|
||
readers read
|
||
readers read
|
||
readers read readers r
|
||
ad readers read
|
||
readers read
|
||
readers read
|
||
readers read
|
||
readers read
|
||
readers read
|
||
readers read
|
||
readers read readers
|
||
read readers read
|
||
readers read
|
||
readers read
|
||
readers read
|
||
readers read
|
||
readers read
|
||
readers read
|
||
readers read
|
||
readers read
|
||
readers read
|
||
readers read
|
||
readers read
|
||
readers read
|
||
readers read
|
||
readers read
|
||
readers read
|
||
readers read
|
||
readers read
|
||
readers read
|
||
readers read
|
||
readers read
|
||
readers read r
|
||
35
|
||
r9la s /te l9 i0 l n +-+-+-+-+-+-+-+ s +-+-+-+-+ 9 n t n s6m 7 n r uÉ 5 21oV i
|
||
t- 5e-i e 7- eo sso+ r 2 l |r|e|a|d|e|r|s| sss |r|e|a|d| d n ér 1 9 r r 13t4 4+%|c u n4l
|
||
i ie(+ o- nn 9s | na1 +-+-+-+-+-+-+-+ s r1 +-+-+-+-+ r k+m + d+4_1n -nr snic + 1 ua eo|
|
||
a w vad .p e ,3 , e i 3 lv%a5 ir u2l u o àaew sc _ , g n e a -6 G -i
|
||
ad -leg ear e -4 r 1 'rw m q| 13fti e ue3 l a 9 \_5u i san u i n d
|
||
m l-t a 1o a l s r +-+ +-+-+-+-+-+-+-+-+ -t - +-+-+-+-+-+-+-+-+-+-+-+ g9o l 5 ra nut1 s
|
||
e o 1 _a s 3 |a| |c|o|m|p|u|t|e|r| a |u|n|d|e|r|s|t|a|n|d|s| r lt mn d | mis 7a q , a
|
||
ks srn 3 6 - vp8 t t +-+ +-+-+-+-+-+-+-+-+ t s +-+-+-+-+-+-+-+-+-+-+-+ o p dr7 MMl3el e ut
|
||
t d a6s \6 4 23 +-+-+-+ +-+-+-+-+-+-+ e +-+-+-+-+-+-+-+-+-+ e . + s l to a u
|
||
r ne2 ps a 1 e s r |a|l|l| |m|o|d|e|l|s| s |t|r|a|n|s|l|a|t|e| m e7 6t2Vt à i 3e 5 8
|
||
po d5 sai 5e ‘ e 5 +-+-+-+ +-+-+-+-+-+-+ r +-+-+-+-+-+-+-+-+-+ e3 s n 2 5 S o 9 t
|
||
r d|g9 l s +-+-+-+-+ +-+-+-+-+-+-+ 5 +-+-+-+-+-+ i s_7is t 6 o (s s1 m m_ 1D, c m ew
|
||
M + | i ²M |s|o|m|e| |m|o|d|e|l|s| e |c|o|u|n|t| 9+ 3 / dm + dd t ae n daÉ t t
|
||
8 ai 2 7 s6 t +-+-+-+-+ +-+-+-+-+-+-+ m +-+-+-+-+-+ o04sp é 5n0 42 8 ln
|
||
o5ln h e 4 2ke er +-+-+-+-+ +-+-+-+-+-+-+ s +-+-+-+-+-+-+-+ m o9 ui c g4 I r r 4s n
|
||
_ d 7 m n 5e 3 rd |s|o|m|e| |m|o|d|e|l|s| |r|e|p|l|a|c|e| l 56 f s5s2 \8 s 82 n a 7reund2
|
||
ns e tc c s d +-+-+-+-+ +-+-+-+-+-+-+ % 5) +-+-+-+-+-+-+-+ 6 oa s 3 r' 1
|
||
i s + l o - 4 tea 7 l c i s n 7 94 o5 r n a r , s w
|
||
e it n e na ' ao i m nd e i3 % l | 6_e 7aa n7nt-t -r e , e | 7 mn
|
||
e nî 7s e-nnc r s3 r n 2e 5h oe '8 28 ed bn 5 c 3 at ian4 ta n
|
||
8so e V _ u e l6 _ ta| o u nQ en v 7 r N l9 r t | f n9e %e s 6e p cs 9d 9
|
||
sd 4 a s tus - t+u 6 e osg d a 9 t' a R e r n + t5 tp s n ` . i cQ s
|
||
L 8 c 4nf2 17 e - a 7 ià ne 6 7 c q i - | se à +
|
||
e eau 0 n 3 ef l é ea 5 u n a 7 5 n +. 8 z7 m9 y l t la r
|
||
d 0 r - '3 s ) a 5 s / t i - q| ee 9 e c n
|
||
n e 0 n e o un 1 6 3 p n n ,- 1 o6 n 9 é o e% es
|
||
P 1 6 r % 9oM1 6e | id n u 2d6e a u tc d 2 e
|
||
w o o u n ac 319 | éc n 'dn 7cl | Sl 8
|
||
6 7 t rn3 o s a 7 r - l g a e e 3j erf e nd 5oo n
|
||
l_ - im cs a S e t 9 4a1 e + i sb fé tt t su s a 6
|
||
a Rl pl c e r 7 8 i t e A - u a d ,
|
||
n t2 t K 9 i3e p a at 3 8 % e d 1 D ' 5 -8
|
||
n e _ g5 c c V e 6 s d
|
||
p - 5 1 5t da s o3 s - m e c n f
|
||
pi t 5 - l èc e | Rl t 7 f fSea
|
||
8 0 el n 2e 5 yor p | _ l| a af r i n
|
||
+ 5 6r ac o o o P t 5 1 + ss 9 u
|
||
c o 7é 7 3 p l n M r | i a _ à m a n o t a t
|
||
ir 6m t t a - r x A 7 u e
|
||
8 7) 7 86 z det Rw é u t' m d o
|
||
6 -9 8 9 5 4 o l 5 e n s b V 2 2 6
|
||
5 nC - e 9 er 2 t m + e si e 5 è
|
||
d t a 2 v . r tt m c 4 a 2 a 2 t ' m
|
||
a u4 up5 a 4+ t du l p - 92
|
||
a % tc h 9 7 d 4 5 tuu ee 8 6 r r e r c
|
||
t s 4 e a 8 |2 -
|
||
t e a e n | t 8 3 l o- 5 | 3
|
||
5 e l '6 i 7 e s a , a c t
|
||
, r l 9- i + s é n u l u s ) %
|
||
es 2 e 9 è 5 l N a % 33
|
||
/ 7 b e o % 'ar a e o | 5 - e
|
||
6| V td nn 1 w c s l 1 e r o3
|
||
6 o 5 9t ow u s t s
|
||
l. d / 9 r d % n e l 2 ps
|
||
c r u s es a a l _ h 4
|
||
' e ' r é n 7 m d t c
|
||
u 1 u é c wi e s i
|
||
3 un 5 5 1 t r 3 n i
|
||
u e N è s||s e 2 n- + L
|
||
o e u i i t 5 f 2 6 +e l g o m
|
||
j i c r 1 l ' e r q e | C
|
||
n 6 p , . n a n e
|
||
n 8 1 n t 8 c o
|
||
e t t . + e8 l 1
|
||
) c i p e es a
|
||
6 o r 9 ' n
|
||
% ) u l h u % io p 8 t
|
||
n o l c
|
||
|
||
36
|
||
V V % V V V V V V %% % % % %% % %% % %%% % %%
|
||
V V V V V V V V V V V V V V V V % % % % 0 00 % 0 % 0 % 0 % %%
|
||
V V V V V V V % V V % % 0 % % 0 % %
|
||
% % % % % % 0 __ 0 _____ ___ % _____ ___ ___ 0 %%
|
||
% % % / / ___ /__ \/ __\ \_ \/ \/ __\
|
||
% LECTEURS % 0 % / / / _ \ / /\/ _\____ 0 / /\/ /\ / _\ % %
|
||
% % 0 / /__| __/ / / / /|_____/\/ /_/ /_// / %%
|
||
% % 0 \____/\___| \/ \/ \____/___,'\/ %
|
||
V V V V V V V V % 0 0 % %
|
||
V V V V V V V V V V V V V V V V % % %
|
||
V V V V V V V V V par Algolit % % % %
|
||
V V V V V V V V % % % %
|
||
V V V V V V V V V V V V V V V V Le TF-IDF (Term Frequency-Inverse Document Frequency) est une mé-
|
||
V V V V V V V V V % thode de pondération utilisée dans la recherche de textes. Cette
|
||
% mesure statistique permet d'évaluer l'importance d'un terme
|
||
Nous communiquons avec les ordina- contenu dans un document, relativement à une collection ou un
|
||
teurs au moyens de langages. Nous % corpus de documents. Le poids augmente proportionnellement au
|
||
cliquons sur des icônes sous forme nombre d'occurrences du mot dans le document. Il varie également
|
||
de mots, nous tapons des mots sur en fonction de la fréquence du mot dans le corpus. Le TF-IDF est
|
||
des claviers, nous utilisons notre notamment utilisé dans la classification des spams.
|
||
voix pour leur donner des instruc-
|
||
tions. Parfois, nous confions nos Une interface web met en scène cet algorithme à travers des ani-
|
||
pensées les plus intimes à notre mations permettant de comprendre les différentes étapes de clas- %
|
||
ordinateur en oubliant qu'il s'agit sification d’un texte. Comment un programme basé sur le TF-IDF
|
||
d’une calculatrice avancée. Un or- lit un texte ? Comment transforme-t-il les mots en nombres ?
|
||
dinateur comprend chaque mot comme
|
||
une combinaison de zéros et de uns. ---
|
||
Une lettre est lue comme un numéro
|
||
ASCII spécifique : 'A' majuscule Concept, code, animation : Sarah Garcin
|
||
est 001. % %
|
||
%
|
||
Dans tous les 'rule-based models', 00 0 0
|
||
l'apprentissage automatique clas- 0 0
|
||
sique et les réseaux de neurones, ___ _ _ _ 0
|
||
les mots subissent une traduction / __\ _| | |_(_)_ _____ _ __ 0 0
|
||
en chiffres pour saisir le sens sé- % 0 / / | | | | | __| \ \ / / _ \ '__|
|
||
mantique du langage. Cela se fait 00 00 / /__| |_| | | |_| |\ V / __/ |
|
||
en comptant. Certains modèles 0 \____/\__,_|_|\__|_| \_/ \___|_|
|
||
comptent la fréquence des mots sim- 0 % _ _ 0 0
|
||
ples, d'autres la fréquence des _ _ _ __ /_\ _ __| |__ _ __ ___
|
||
combinaisons de mots, d'autres en- 0 | | | | '_ \ //_\\| '__| '_ \| '__/ _ \
|
||
core la fréquence des noms, des ad- | |_| | | | | / _ \ | | |_) | | | __/ %
|
||
jectifs, des verbes ou des phrases 00 0 \__,_|_| |_| \_/ \_/_| |_.__/|_| \___|
|
||
de noms et de verbes. Certains rem- 00 0 % 0 000 00
|
||
placent simplement les mots d'un
|
||
texte par leur numéro d'index. Les par Algolit
|
||
nombres optimisent la vitesse opé- %
|
||
rationnelle des processus informa- La nature de mots est une catégorie que nous apprenons à l'éco-
|
||
tiques, ce qui conduit à des pré- le : nom, verbe, adjectif, adverbe, pronom, préposition, conjonc-
|
||
dictions rapides, mais ils sup- tion, interjection, et parfois chiffre, article, ou déterminant.
|
||
priment aussi les liens symboliques Dans le traitement du langage naturel, il existe de nombreux
|
||
que les mots peuvent avoir. Nous écrits qui permettent d'analyser des phrases. Cela signifie que
|
||
présentons ici quelques techniques l'algorithme peut déterminer la nature de chaque mot d'une même
|
||
destinées à rendre un texte intel- phrase. 'Cultiver un arbre' utilise cette technique pour définir
|
||
ligible pour une machine. tous les noms dans une phrase spécifique. Chaque nom est alors
|
||
remplacé par sa définition. Cela permet à la phrase de grandir de
|
||
façon autonome et infinie. La recette de 'Cultiver un arbre'
|
||
s'inspire de la 'Littérature Définitionnelle', une contrainte in-
|
||
ventée par Marcel Benabou en 1966 au sein de l’Oulipo. Dans une
|
||
phrase donnée, on remplace chaque élément significatif (nom, ad-
|
||
jectif, verbe, adverbe) par l'une de ses définitions dans un dic-
|
||
tionnaire donné ; on répète l'opération sur la nouvelle phrase
|
||
reçue, et ainsi de suite.
|
||
|
||
Le dictionnaire utilisé dans cet ouvrage est Wordnet. Wordnet est
|
||
une combinaison d'un dictionnaire et d'un thésaurus qui peut être
|
||
lu par des machines. Selon Wikipédia, il a été créé dans le Co-
|
||
gnitive Science Laboratory de l'Université de Princeton à partir
|
||
de 1985.
|
||
37
|
||
% %% % % % % % % % % % % %% % % % %% %
|
||
% % % % --- %% % % % %% % % % % % % %
|
||
%% % % % % % %% %% % % % % % % % %
|
||
%%% % % Concept, code & interface : An Mertens & Gijs de Heij % %
|
||
% % % %% % % % %% % %
|
||
% % % % % % %% % % % % %%
|
||
% % % % 0 0 0 00 % % % 0 %
|
||
% % 0 0 0 %
|
||
% 0 0 % __ 0 __ _ 0 0
|
||
% 0 0 / / ___ / /(_)_ ___ __ ___ 0 %
|
||
0 / / / _ \ / / | \ \ / / '__/ _ \ 0
|
||
% / /__| __/ / /__| |\ V /| | | __/
|
||
% \____/\___| \____/_| \_/ |_| \___| 0 % %
|
||
% % 0 _ ___ 0 _ 0
|
||
% __| | ___ / \___ _ __ ___ __ _(_)_ __
|
||
0 / _` |/ _ \ / /\ / _ \ '_ ` _ \ / _` | | '_ \
|
||
| (_| | __/ / /_// __/ | | | | | (_| | | | | |
|
||
% % \__,_|\___| /___,' \___|_| |_| |_|\__,_|_|_| |_|
|
||
% % 0 _ 0 0 0 0
|
||
0 __| | __ _ _ __ ___ 0 _ _ _ __ 0
|
||
% / _` |/ _` | '_ \/ __| | | | | '_ \
|
||
% 0 0 0 | (_| | (_| | | | \__ \ | |_| | | | | 0
|
||
\__,_|\__,_|_| |_|___/ \__,_|_| |_|
|
||
0 __ 0 0 _ 0 0 0
|
||
% % 0 / _\ __ _ ___ __| | ___ 0 0
|
||
0 \ \ / _` |/ __| / _` |/ _ \
|
||
% 0 _\ \ (_| | (__ | (_| | __/ 0
|
||
00 \__/\__,_|\___| \__,_|\___|
|
||
0 _ 0
|
||
/\/\ ___ | |_ ___ 0 0
|
||
/ \ / _ \| __/ __| 0
|
||
0 / /\/\ \ (_) | |_\__ \
|
||
% 0 \/ \/\___/ \__|___/ 0
|
||
% 0 0 0 0 0
|
||
% % %
|
||
% par Algolit %
|
||
|
||
Le modèle du 'sac de mots' est une représentation simplifiée du
|
||
texte utilisé dans le traitement du langage naturel. Dans ce mo-
|
||
dèle, un texte est représenté sous forme de collection de mots
|
||
uniques, sans tenir compte de la grammaire, de la ponctuation et
|
||
même de l'ordre des mots. Le modèle transforme le texte en une %
|
||
liste de mots et leur occurrence dans le texte, littéralement un
|
||
sac de mots.
|
||
|
||
Cette forte réduction de la langue fut un choc au début de nos
|
||
expériences en apprentissage automatique. Le sac de mots est sou-
|
||
vent utilisé comme référent, sur base duquel le nouveau modèle
|
||
doit s’efforcer d’être plus performant. Il peut comprendre le su-
|
||
jet d'un texte en reconnaissant les mots les plus fréquents ou %
|
||
importants. On mesure souvent les similitudes des textes en com-
|
||
parant leurs sacs de mots.
|
||
|
||
Pour cet ouvrage, l'article 'Le Livre de Demain' de l'ingénieur
|
||
G. Vander Haeghen, publié en 1907 dans le Bulletin de l'Institut
|
||
International de Bibliographie, a été littéralement réduit à un
|
||
sac de mots. VOus pouvez acheter votre exemplaire à l'accueil du
|
||
Mundaneum.
|
||
|
||
---
|
||
|
||
Concept & réalisation: An Mertens
|
||
|
||
|
||
00 00 0 %
|
||
0 0 0 0
|
||
__ 0 _ 0 0
|
||
0 / / ___ ___| |_ _ _ _ __ ___ ___ __ _
|
||
/ / / _ \/ __| __| | | | '__/ _ \/ __| / _` |
|
||
38
|
||
% % %% %% % % % % % % % / /__| __/ (__| |_| |_| | | | __/\__ \ | (_| | % %
|
||
%%% % % % % % % % 0 \____/\___|\___|\__|\__,_|_| \___||___/ \__,_| % % %
|
||
% %% % % % % % %% % _ % % _ _ _ % 0 % _ 0 0 % % %
|
||
% % %% | | __ _ ___ _ __(_) |_| |__ _ __ ___ (_) __ _ % % %
|
||
% % % % | |/ _` |/ _ \| '__| | __| '_ \| '_ ` _ \| |/ _` | % % %
|
||
% % % | | (_| | (_) | | | | |_| | | | | | | | | | (_| | %
|
||
% % |_|\__, |\___/|_| |_|\__|_| |_|_| |_| |_|_|\__, |
|
||
% % % 0 |___/ 0 0 |_| % % %
|
||
% % % % _ %
|
||
% % 00 _ _ ___ ___ 0 __| |_ _ 0
|
||
% % 0 | | | |/ _ \/ __| / _` | | | | 0 %
|
||
% % | |_| | __/\__ \ | (_| | |_| | 0 %
|
||
% % % \__,_|\___||___/ \__,_|\__,_| 0
|
||
% 0 0 0 _ % _ _
|
||
% % 0 0 _ __ ___ _ __| |_ _ __ __ _(_) |_ %
|
||
| '_ \ / _ \| '__| __| '__/ _` | | __|
|
||
0 0 | |_) | (_) | | | |_| | | (_| | | |_
|
||
% | .__/ \___/|_| \__|_| \__,_|_|\__|
|
||
|_| 0 0 0 %
|
||
0 0 _ _
|
||
_ __ __ _ _ __| | ___ __| | ___
|
||
0 | '_ \ / _` | '__| |/ _ \ / _` |/ _ \ 0
|
||
| |_) | (_| | | | | __/ | (_| | __/
|
||
| .__/ \__,_|_| |_|\___| \__,_|\___|
|
||
% |_| 0 0 0
|
||
0 0 ___ _ _ _ _
|
||
/ __\ ___ _ __| |_(_) | | ___ _ __
|
||
0 /__\/// _ \ '__| __| | | |/ _ \| '_ \ 0 %
|
||
/ \/ \ __/ | | |_| | | | (_) | | | |
|
||
0 \_____/\___|_| \__|_|_|_|\___/|_| |_|
|
||
% 0 0
|
||
|
||
par Guillaume Slizewicz (Espèces urbaines)
|
||
% % % %
|
||
'Un code télégraphique du portrait parlé', écrit en 1907, est une
|
||
tentative de traduire en chiffres le 'portrait parlé', technique
|
||
de description du visage créée par Alphonse Bertillon, créateur
|
||
de l'anthropométrie judiciaire. En appliquant ce code, Otlet es-
|
||
% pérait que les visages des criminels et des fugitifs pourraient
|
||
être facilement communiqués par voie télégraphique. Dans sa for-
|
||
me, son contenu et son ambition, ce texte représente la relation
|
||
% complexe que nous entretenons avec les technologies documen-
|
||
taires. Ce document a été choisi comme base pour la création des
|
||
installations suivantes pour trois raisons.
|
||
%
|
||
- Premièrement, ce texte est un algorithme en soi, un algorithme
|
||
de compression, ou pour être plus précis, la présentation d'un
|
||
algorithme de compression. Il tente de réduire la taille de l'in-
|
||
formation tout en la gardant lisible pour la personne possédant
|
||
le code. À cet égard, elle est étroitement liée à la façon dont
|
||
nous créons notre technologie, à la recherche d'une plus grande
|
||
efficacité, de résultats plus rapides et de méthodes moins coû-
|
||
teuses. Il représente notre appétit de chiffrement qui s'étend au
|
||
% monde entier, notre envie de mesurer les plus petites choses,
|
||
d'étiqueter les différences les plus infimes... Ce texte incarne
|
||
% en lui-même la vision du Mundaneum.
|
||
|
||
- Deuxièmement, on y traite des raisons et des mises en œuvre de
|
||
nos technologies. La présence de ce texte dans les archives sé-
|
||
lectionnées est presque ironique à une époque où la reconnais-
|
||
sance faciale et la surveillance des données font la une des
|
||
journaux. Ce texte présente les mêmes caractéristiques que cer-
|
||
taines technologies d'aujourd'hui : il est motivé par un contrôle
|
||
social, classifie les personnes, pose les bases d'une société de
|
||
surveillance. Les caractéristiques physionomiques sont au cœur de
|
||
récentes controverses : les photos d'identité ont été standardi-
|
||
sées par Bertillon, elles sont maintenant utilisées pour entraî-
|
||
% ner des réseau neuronaux à identifier les criminels, les systèmes
|
||
de reconnaissance faciale permettent des arrestations via notre
|
||
39
|
||
% % % % %% % % infrastructure de caméras de surveillance et certains affirment %
|
||
% % % % %% % que les caractéristiques physiques peuvent prédire l'orientation
|
||
% % % sexuelle. % % % % % %
|
||
% % % % % %% % % % % %% % %
|
||
% %% - Le dernier point concerne la façon dont, en tant que témoignage
|
||
% % % écrit, ce texte représente l'évolution de notre techno-structure: %
|
||
% % ce que nos outils nous permettent de faire, ce qu'ils nous inter-
|
||
% % disent, ce qu'ils entravent, ce qu'ils nous font retenir et ce
|
||
% % qu'ils nous font oublier. Ce document permet une classification
|
||
% entre les personnes, et instaure une normalité. Il brise un %
|
||
% % continuum en morceaux, et permet les stigmatisations et les dis-
|
||
criminations. D'un autre côté, ce document semble également obso-
|
||
lète aujourd'hui, car cette techno-structure n'a pas besoin de
|
||
descriptions écrites aussi détaillées sur les fugitifs, les cri-
|
||
minels ou les citoyens. Nous pouvons maintenant trouver des em-
|
||
preintes digitales, des scanners d'iris ou des informations ADN %
|
||
% % dans de grands jeux de données et les comparer directement. Par-
|
||
fois, les systèmes agissent indépendamment, sans surveillance hu- %
|
||
% maine et reconnaissent directement l'identité d'une personne par
|
||
ses traits faciaux ou sa démarche. Ces machines n'utilisent pas
|
||
un langage alphabétique complexe pour décrire un visage, mais des
|
||
listes de chiffres. Ainsi, tous les mots utilisés dans ce docu-
|
||
% ment semblent désuets, datés. Avons-nous oublié ce que certains
|
||
d'entre eux signifient ? La photographie nous a-t-elle fait ou-
|
||
% blier comment décrire les visages ? Les assistants vocaux nous
|
||
l'apprendront-il de nouveau ?
|
||
%
|
||
Écrire avec Otlet
|
||
|
||
Ecrire avec Otlet est un générateur de personnages qui utilise le
|
||
% code du portrait parlé comme base de données. Des nombres aléa-
|
||
toires sont générés et traduits en un ensemble de caractéris-
|
||
tiques humaines. En créant des instances uniques, l'algorithme
|
||
révèle la richesse de la description qui est possible avec 'Un
|
||
code du portrait' tout en incorporant ses nuances.
|
||
|
||
Interprétation du portrait parlé de Bertillon %
|
||
%
|
||
% Ce travail établit un parallèle entre le système dit de "Ber-
|
||
tillonage" et les systèmes actuels de description de visage. Une
|
||
% webcam associée à un algorithme de reconnaissance faciale capte
|
||
le visage du spectateur et le traduit en chiffres sur un écran,
|
||
% en l'imprimant à côté des visages annotés par Bertillon.
|
||
|
||
%
|
||
0 0 0 0
|
||
0 0 00 0 0
|
||
% 0 __ 0 0 _
|
||
0 0 0 / / ___ _ __ ___ _ __ % __| |_ _ 0
|
||
/ / / _ \ | '_ \ / _ \ '_ \ / _` | | | |
|
||
/ /__| __/ | |_) | __/ | | | (_| | |_| |
|
||
\____/\___| | .__/ \___|_| |_|\__,_|\__,_|
|
||
0 0 |_| 0 0 0
|
||
0 0 % 0
|
||
|
||
par Laetitia Trozzi, étudiante Arts²/Section Arts Numériques
|
||
|
||
Quoi de mieux pour découvrir Paul Otlet et sa passion pour la
|
||
littérature que de jouer au pendu? À travers ce jeu simple, qui
|
||
consiste à deviner les lettres manquantes dans un mot, le but est
|
||
de faire découvrir au public des termes et des faits liés à un
|
||
des créateurs du mundaneum.
|
||
%
|
||
En utilisant un algorithme de détection de fréquence de mots dans
|
||
un texte, une série de mots significatifs ont été isolés dans la
|
||
bibliographie de Paul Otlet. Cette série de mots a ensuite été
|
||
intégrée à un jeu du pendu présenté dans un terminal. La diffi-
|
||
culté du jeu augmente graduellement en proposant au joueur des
|
||
mots de plus en plus longs. Durant les phases de jeux, des infor-
|
||
40
|
||
RÉCITS CONTEXTUALISÉS
|
||
AUTOUR DES LECTEURS
|
||
|
||
|
||
|
||
Naive Bayes, Support Vector Machines ou Régression lettre de suicide a été écrite par quelqu'un
|
||
Linéaire sont considérés comme des algorithmes d'autre.
|
||
classiques d'apprentissage automatique. Ils fonc-
|
||
tionnent bien lorsqu'ils apprennent avec de petits Comment une machine analyse-t-elle les textes pour
|
||
jeux de données. Mais ils nécessitent souvent des vous identifier ? La caractéristique la plus ro-
|
||
lecteurs complexes. La tâche accomplie par les buste pour la reconnaissance de l'auteur est four-
|
||
lecteurs est également appelée 'feature enginee- nie par la technique des N-grammes de caractères.
|
||
ring'. Cela signifie qu'un être humain doit consa- Elle est utilisée dans des cas qui présentent une
|
||
crer du temps à une analyse exploratoire approfon- grande variété dans les thématiques et les genres
|
||
die du jeu de données. d’écriture. Lors de l'utilisation des N-grammes de
|
||
caractères, les textes sont considérés comme des
|
||
Leurs caractéristiques peuvent être la fréquence séquences de caractères. Considérons le trigramme
|
||
des mots ou des lettres, mais aussi des éléments des caractères. Toutes les séquences de trois ca-
|
||
syntaxiques comme les noms, les adjectifs ou les ractères qui se chevauchent sont isolées. Par
|
||
verbes. Les caractéristiques les plus importantes exemple, le trigramme de caractères de 'suicide',
|
||
pour la tâche à résoudre doivent être soigneuse- serait, 'sui', 'uic', 'ici', 'cid' et 'ide'. Les
|
||
ment sélectionnées et transmises à l'algorithme N-grammes de caractères sont très simples, ils
|
||
classique d'apprentissage automatique. Ce proces- sont indépendants du langage et tolérants au
|
||
sus diffère de celui des réseaux de neurones. Lors bruit. De plus, les fautes d'orthographe ne com-
|
||
de l'utilisation d'un réseau de neurones, il n'est promettent pas la technique.
|
||
pas nécessaire de recourir au 'feature enginee-
|
||
ring'. Les humains peuvent transmettre les données Les motifs trouvés avec les N-grammes de carac-
|
||
directement au réseau et obtiennent généralement tères se concentrent sur les choix stylistiques
|
||
de bonnes performances dès le départ. Cela permet qui sont faits inconsciemment par l'auteur. Les
|
||
d'économiser beaucoup de temps et de ressources. modèles restent stables sur toute la longueur du
|
||
texte, ce qui est important pour reconnaître l’au-
|
||
L'inconvénient de la collaboration avec les ré- teur. D'autres types d'expériences pourraient in-
|
||
seaux de neurones est que vous avez besoin de clure la longueur des mots ou des phrases, la ri-
|
||
beaucoup plus de données pour entraîner votre mo- chesse du vocabulaire, la fréquence des mots de
|
||
dèle de prédiction. Pensez à au moins 1 Go de fi- fonction et même les mesures syntaxiques ou séman-
|
||
chiers texte. Pour vous donner une référence, 1 tiques.
|
||
A4, soit un fichier texte de 5000 caractères, ne
|
||
pèse que 5 Ko. Il vous faudrait donc 8.589.934 Cela signifie non seulement que votre empreinte
|
||
pages. Traiter plus de données sous-entend d'avoir physique est unique, mais qu’il en va de même de
|
||
accès à ces données et surtout, d'avoir beaucoup la façon dont vous composez vos pensées !
|
||
plus de puissance de traitement.
|
||
La même technique n-gramme a découvert que 'The
|
||
Cuckoo's Calling', un roman de Robert Galbraith, a
|
||
--- Les N-grammes de caractères pour la reconnais- en fait été écrit par... J.K. Rowling !
|
||
sance d'un auteur ---
|
||
Références :
|
||
Imaginez... vous travaillez pour une entreprise - Essai: On the Robustness of Authorship Attribu-
|
||
depuis plus de dix ans. Vous avez écrit des tonnes tion Based on Character N-gram Features, Efsta-
|
||
de courriels, d'articles, de notes internes et de thios Stamatatos, in Journal of Law & Policy, Vo-
|
||
rapports sur des sujets et dans des genres très lume 21, Issue 2, 2013.
|
||
différents. Tous vos écrits, ainsi que ceux de vos - Article: https://www.scientificamerican.com/ar-
|
||
collègues, sont sauvegardés en toute sécurité sur ticle/how-a-computer-program-helped-show-jk-row-
|
||
les serveurs de l'entreprise. ling-write-a-cuckoos-calling/
|
||
|
||
Un jour, vous tombez amoureuse d'une collègue.
|
||
Après un certain temps, vous réalisez que cette --- Histoire des N-grammes ---
|
||
personne est non seulement folle et hystérique
|
||
mais qu'elle dépend beaucoup de vous. Le jour où L'algorithme des N-grammes peut être retracé jus-
|
||
vous décidez de rompre, votre ex élabore un plan qu'aux travaux de Claude Shannon en théorie de
|
||
pour vous tuer. Elle réussit. Pas de chance. Une l'information. Dans l'article 'A mathematical
|
||
lettre de suicide signée de votre nom est retrou- theory of communication', publié en 1948, Claude
|
||
vée à côté de votre cadavre. Celle-ci raconte que Shannon réalise la première instance d'un modèle
|
||
de langage naturel à base des N-grammes. Il a posé
|
||
de problèmes émotionnels. Vos meilleurs amis ne la question suivante : étant donné la séquence des
|
||
croient pas au suicide. Ils décident de porter lettres, quelle est la probabilité de la prochaine
|
||
l'affaire devant les tribunaux. Et là, à partir lettre ?
|
||
des textes que vous et d'autres avez produits, un Si vous lisez l'extrait suivant, pouvez-vous nous
|
||
modèle d'apprentissage automatique révèle que la dire par qui il a été écrit ? Shakespeare ou un
|
||
robot N-grammes ?
|
||
41
|
||
|
||
|
||
|
||
|
||
pliquer un mouvement boursier basé sur d'autres
|
||
SEBASTIEN : Dois-je rester debout jusqu'à la rup- facteurs que les facteurs purement économiques. La
|
||
ture. Bourse et 'l'opinion publique' s'influencent mu-
|
||
BIRON : Cache ta tête. tuellement. De nombreuses recherches sont effec-
|
||
VENTIDIUS : Il se rendit à Athènes, où, par le tuées sur la façon d'utiliser 'l'opinion publique'
|
||
voeu. que j'ai fait pour m'occuper de toi. pour prédire les tendances dans le cours des ac-
|
||
FALSTAFF : Mon bon fripouille. tions.
|
||
|
||
Vous aviez peut-être deviné, en considérant le su- 'L'opinion publique' est évaluée à partir de
|
||
jet de ce récit, qu'un algorithme N-grammes a gé- grandes quantités de données publiques, comme les
|
||
néré ce texte. Le modèle est entraîné sur l'oeuvre tweets, les blogs ou la presse en ligne. Des re-
|
||
complète de Shakespeare. Alors que les algorithmes cherches montrent que l'évolution des cours bour-
|
||
plus récents, tels que les réseaux de neurones ré- siers peut, dans une certaine mesure, être prédit
|
||
cursifs de CharRNN, deviennent célèbres pour leurs en examinant 'l'opinion publique' à travers l'ana-
|
||
performances, les N-grammes exécutent encore beau- lyse des données automatique. On trouve de nom-
|
||
coup de tâches NLP. Elles sont utilisés dans la breux articles scientifiques en ligne, qui ana-
|
||
traduction automatique, la reconnaissance vocale, lysent la presse sur le 'sentiment' qui y est ex-
|
||
la correction orthographique, la détection d'enti- primé. Un article peut être annoté comme plus ou
|
||
tés, l'extraction d'informations, etc. moins positif ou négatif. Les articles de presse
|
||
annotés sont ensuite utilisés pour entraîner un
|
||
Référence : http://www.math.harvard.edu/~ctm/ho- modèle d’apprentissage automatique, qui permet de
|
||
me/text/others/shannon/entropy/entropy.pdf prédire les tendances boursières, en les marquant
|
||
comme 'à la baisse' ou 'à la hausse'. Quand une
|
||
entreprise fait mauvaise presse, les traders
|
||
--- Dieu dans Google Books --- vendent. Au contraire, si les nouvelles sont bon-
|
||
nes, ils achètent.
|
||
En 2006, Google crée un jeu de données de N-
|
||
grammes à partir de sa collection de livres numé- Un article de Haikuan Liu de l'Université Natio-
|
||
risés pour le mettre en ligne. Récemment, ils ont nale Australienne affirme que le temps des verbes
|
||
également réalisé une visionneuse de N-grammes. utilisés dans les tweets peut être un indicateur
|
||
Cela a permis de nombreuses recherches sociolin- de la fréquence des transactions financières. Son
|
||
guistiques. Par exemple, en octobre 2018, le New idée s'inspire du fait que la conjugaison des
|
||
York Times Magazine a publié un article d'opinion verbes est utilisée en psychologie pour détecter
|
||
intitulé 'It's Getting Harder to Talk About God'. les premiers stades de la dépression humaine.
|
||
L'auteur, Jonathan Merritt, avait analysé la men-
|
||
tion du mot 'Dieu' dans le jeu de données de Référence : Grammatical Feature Extraction and
|
||
Google à l'aide du visualiseur de N-grammes. Analysis of Tweet Text: An Application towards
|
||
Il a conclu qu'il y a eu un déclin dans l'usage du Predicting Stock Trends, The Australian National
|
||
mot depuis le 20ème siècle. Le corpus de Google University (ANU)
|
||
contient des textes du 16e jusqu'au 21e siècle.
|
||
Cependant l'auteur a manqué d'observer la popula-
|
||
rité croissante des revues scientifiques vers le --- Sac de mots ---
|
||
début du 20ème siècle. Ce nouveau genre, dans le-
|
||
quel le mot Dieu n'apparaît pas, a fait basculer Dans le traitement du langage naturel, le 'sac de
|
||
le jeu des données. Si la littérature scientifique mots' est considéré comme un modèle simple. Il dé-
|
||
était retirée du corpus, la fréquence du mot pouille un texte de son contexte et le décompose
|
||
'Dieu' s'écoulerait toujours comme l'ondulation dans sa collection de mots uniques. Ensuite, ces
|
||
douce d'une vague lointaine. mots sont comptés. Dans les phrases précédentes,
|
||
par exemple, le mot 'mots' est mentionné trois
|
||
Référence : https://www.nytimes.com/2018/10/13/o- fois, mais ce n'est pas nécessairement un indica-
|
||
pinion/sunday/talk-god-sprituality-christian.html teur de l'objet du texte.
|
||
|
||
La première apparition de l'expression 'sac de
|
||
--- Les traits grammaticaux extraits de Twitter mots' semble remonter à 1954. Zellig Harris a pu-
|
||
influencent le marché boursier --- blié un article dans le contexte des études lin-
|
||
guistiques, intitulé 'Distributional Structure'.
|
||
Les frontières entre les disciplines académiques Dans la partie intitulée 'Le sens en fonction de
|
||
s'estompent. La recherche économique mélangée à la la distribution', il dit que 'le langage n'est pas
|
||
psychologie, aux sciences sociales, aux concepts seulement un sac de mots, mais aussi un outil aux
|
||
cognitifs et émotionnels créent un nouveau sous- propriétés particulières qui ont été façonnées au
|
||
domaine économique, appelé 'l'économie comporte- cours de son utilisation. Le travail du linguiste
|
||
mentale'. est précisément de découvrir ces propriétés, que
|
||
ce soit pour l'analyse descriptive ou pour la syn-
|
||
Cela signifie que les chercheurs commencent à ex- thèse du système quasi-linguistique.'
|
||
|
||
42
|
||
learners learn learners learn learners learn learners learn learners learn learners learn
|
||
learners learn learners learn learners learn learners learn learners learn
|
||
learners learn learners learn learners learn learners learn
|
||
learners learn learners learn learners learn
|
||
learners learn learners learn learners learn lea
|
||
ners learn learners learn learners learn
|
||
learners learn learners learn learners learn
|
||
learners learn learners learn learners
|
||
earn learners learn learners learn
|
||
learners learn learners learn
|
||
learners learn learners learn lea
|
||
ners learn learners learn learners
|
||
learn learners learn learners
|
||
earn learners learn learne
|
||
s learn learners learn
|
||
learners learn learners learn
|
||
learners learn learners learn
|
||
learners learn learners learn
|
||
learners learn
|
||
learners learn learners learn
|
||
learners learn learners learn
|
||
learners learn
|
||
learners learn learners learn
|
||
learners learn
|
||
learners learn learners learn
|
||
learners learn
|
||
learners learn learners
|
||
learn learners learn
|
||
learners learn
|
||
learners learn learners learn
|
||
learners learn
|
||
learners learn
|
||
learners learn learners
|
||
learn learners learn
|
||
learners learn
|
||
learners learn
|
||
learners learn lea
|
||
ners learn learners learn
|
||
learners learn
|
||
learners learn
|
||
learners learn
|
||
learners learn
|
||
learners learn
|
||
learners learn learners
|
||
earn learners learn
|
||
learners learn
|
||
learners learn
|
||
learners learn
|
||
learners learn
|
||
learners learn
|
||
learners learn
|
||
learners learn
|
||
learners learn
|
||
learners learn
|
||
learners learn
|
||
learners learn
|
||
learners learn
|
||
learners learn
|
||
learners learn
|
||
learners learn
|
||
learners learn
|
||
learners learn
|
||
learners learn
|
||
learners learn
|
||
learners learn
|
||
learners learn
|
||
learners learn
|
||
learners learn
|
||
learners learn
|
||
43
|
||
s ep 2 | tm r|rj4aan s + +-+-+-+-+-+-+-+-+ f7 +-+-+-+-+-+ t_ e gn e 4é C \ t xet e t n lsr
|
||
u_ l 39 aè 1 w r r é |l|e|a|r|n|e|r|s| l |l|e|a|r|n| w 6 c 56 au 6 s e e06 é u -
|
||
s dw %_n u5 ap6 /(i7e,au u +-+-+-+-+-+-+-+-+ l , +-+-+-+-+-+ ed 99 é L lebe2 n 3 t ci27r
|
||
3 d n +ucieesa 2 e t 7sl _ 4ee: 6t dQ tr t rtr 5 e ps 9 6 r+ | .8 ir 6i r
|
||
é34 l e i '2 8 1 n s m| to e - l|a u r 6 c r ass j p GtV,ep e r
|
||
|2dd or -qop 2 p5 9c 7%n - +-+-+-+-+-+-+-+-+ _15 +-+-+-+ +-+-+-+-+-+-+-+ é ro) -ns e ap_ \
|
||
, rit t sue s ss | rop r n |l|e|a|r|n|e|r|s| |2 |a|r|e| |p|a|t|t|e|r|n| tsi4 3 a oar_ n1r8er a 7e-1
|
||
n i3 w9p f e9 ti u +-+-+-+-+-+-+-+-+ r jn +-+-+-+ +-+-+-+-+-+-+-+ d 5e\ s 3n e2
|
||
n c e%,' fp e e9n mS 8l 1 eo +-+-+-+-+-+-+-+ t5 eo8r,n p e 6g s_ e 8 2 5 1 r
|
||
9 e h 8 % +c n % _ n r|4 ar pm e r9 - |f|i|n|d|e|r|s| 2ce . s s\ d a s n ll
|
||
0n % - o rri éo s d vn 8i b I â +-+-+-+-+-+-+-+ fa w% 32 s' 2l 6i0ne2 u a
|
||
VC n e. m\ l éml+ a d a +-+-+-+-+-+-+-+-+ \a8 +-+-+-+ +-+-+-+-+-+-+-+-+ t 7 4 a e 0 et6__ fo3
|
||
ie 4 mi , rax m f oistar s |l|e|a|r|n|e|r|s| |a|r|e| |c|r|a|w|l|i|n|g| u e m o d1 5 2 u t
|
||
s yk8 é L '5 p te +-+-+-+-+-+-+-+-+ s e +-+-+-+ +-+-+-+-+-+-+-+-+ 9oè nn +7
|
||
_ + a e i + u 3 ct 65 b 9p e +-+-+-+-+-+-+-+ +-+-+-+-+ 2ue 26 e 4 l r m 8 |5
|
||
i l' | f l c_|2 2ann r s 4 d |t|h|r|o|u|g|h| |d|a|t|a| e 9 A3 | s e +
|
||
o r road3 e C e t 9ia V 4t 8 q +-+-+-+-+-+-+-+ +-+-+-+-+ e 1pes | 2 h s%
|
||
pnw er% iu2 à s6 a u +-+-+-+-+-+-+-+-+ r +-+-+-+-+-+-+-+-+ +-+-+-+-+ +-+-+-+-+ C 1iea
|
||
4 iu87e 2 2 st e e a 1 |l|e|a|r|n|e|r|s| |g|e|n|e|r|a|t|e| |s|o|m|e| |k|i|n|d| - 502 p i 1
|
||
. r 7 l o j p o n +-+-+-+-+-+-+-+-+ n i +-+-+-+-+-+-+-+-+ +-+-+-+-+ +-+-+-+-+ / 7x e e
|
||
5él_ 4 r u t a 3 s a V i +-+-+ +-+-+-+-+-+-+-+-+ u3 +o ny mhs C é e p
|
||
s + ea ed a2 r le + L s d 8 n e W |o|f| |s|p|e|c|i|f|i|c| 5 s pce l C t e ca ry
|
||
t sV r4nd és c l n 9 8 u 7 e +-+-+ +-+-+-+-+-+-+-+-+ i o_ ah 3 pdé d 7
|
||
e fra é ee b ii d dr r l ee +-+-+-+-+-+-+-+-+-+ _ r t b an | c g
|
||
- i dh U ce eor oes . i |'|g|r|a|m|m|a|r|'| 7 og p l 7 8t A
|
||
q eee |f n e ' nd u| s l rr u + o +-+-+-+-+-+-+-+-+-+ n _ D d . d -t05 y i 4 c18 |
|
||
a + | q 3 o5 +-+-+-+-+-+-+-+-+-+-+-+ s +-+-+-+-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+ - 5 9
|
||
s 3 c V t ets |c|l|a|s|s|i|f|i|e|r|s| i |g|e|n|e|r|a|t|e|,| |e|v|a|l|u|a|t|e| e q
|
||
t m r e w em +-+-+-+-+-+-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+ d d e eEt
|
||
4 'n r r a él 0 éo e| +-+-+-+ +-+-+-+-+-+-+-+-+ e r ea_ 4 e a3
|
||
u te e 2 e f 9 i apq - |a|n|d| |r|e|a|d|j|u|s|t| i. 2 ue p s
|
||
n a e n _ pr2 r o a i 7 a +-+-+-+ +-+-+-+-+-+-+-+-+ 'ac j é1 t o
|
||
- 3 58to +-+-+-+-+-+-+-+-+ c +-+-+-+-+-+-+-+-+-+-+ +-+-+-+ c 2 9 i
|
||
s a sc i |l|e|a|r|n|e|r|s| |u|n|d|e|r|s|t|a|n|d| |a|n|d| ' a
|
||
e a l | 8 n t i +-+-+-+-+-+-+-+-+ t +-+-+-+-+-+-+-+-+-+-+ +-+-+-+ 7 d \ so -
|
||
e n . e s 9 e l5 w 7 c +-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+ 9 d
|
||
a i o d e i u |r|e|v|e|a|l| |p|a|t|t|e|r|n|s| a iW 6 t
|
||
v c t r % 9e a p d 4 6 +-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+ r o r u- a6
|
||
8 u n u so%r +-+-+-+-+-+-+-+-+ e, +-+-+-+-+-+ +-+-+-+-+-+-+ al a tr 3 1
|
||
o c| r 3 |l|e|a|r|n|e|r|s| 8 |d|o|n|'|t| |a|l|w|a|y|s| _ 9n d e _
|
||
tta e +-+-+-+-+-+-+-+-+ +-+-+-+-+-+ +-+-+-+-+-+-+ et n e
|
||
v r 8 l e n |/ o 3 +-+-+-+-+-+-+-+-+-+-+-+-+ +-+-+-+-+ |r
|
||
c nh ei l -d 4 n d |d|i|s|t|u|i|n|g|u|i|s|h| |w|e|l|l| m s 2
|
||
2 r _ 6 r n s 7 8 r +-+-+-+-+-+-+-+-+-+-+-+-+ +-+-+-+-+ 9 u o m
|
||
' u e i i ' +-+-+-+-+-+ +-+-+-+-+-+-+-+-+ 9 - u s v i
|
||
l l I 8 l d s |w|h|i|c|h| |p|a|t|t|e|r|n|s| b s 3l
|
||
M e r pe e e é +-+-+-+-+-+ +-+-+-+-+-+-+-+-+ d s - t + 5
|
||
h.e e w r n l t +-+-+-+-+-+-+ +-+-+ +-+-+-+-+-+-+-+-+ 4 K| _ 7
|
||
n 3 0 e a l q+ |s|h|o|u|l|d| |b|e| |r|e|p|e|a|t|e|d| a l s q
|
||
c d c 2 o 3 +-+-+-+-+-+-+ +-+-+ +-+-+-+-+-+-+-+-+ %
|
||
s 3 2 s e 7 a 1 i a s 2 u .
|
||
e c + e m ,6 l t 7 a
|
||
e e i . c s , t u n r u e
|
||
un s 4 7 e 8 5 5 n -
|
||
a o l p7 + A i c c d i
|
||
u n n r a w r - d l - , a bl
|
||
. e o f c7 a _ , t l 2
|
||
a i c t b s |i o e e m
|
||
% e m _ e a t ua i d d lt u
|
||
+ n. l s s f t e i i s n g u
|
||
s o d u n 0 s 3 8 ,r v
|
||
a r ip ' | dl l 4 t r é l t 5
|
||
e 2 s C / l e 1 j 0 e 8 nR s
|
||
+ é e | b e t + e 5 , o
|
||
- | 5 _ 4 3 t -
|
||
5 i n a 9 2 o p t 4 r o c
|
||
q - o 1 a u o o p(r 7
|
||
G t t 6 l l o m n
|
||
|
||
44
|
||
% V V V V V V V V % %% % %% %% % % % %% %%
|
||
V V V V V V V V V V V V V V V V % % 0 0 0 % 0 0 % % %
|
||
V V V V % V V V V % V % % 0 % % % %
|
||
% % % % % 0 __ % % 00 % % % % % %
|
||
% % % % % % % \ \ ___ _ _ ___ ____ __ _ _ _ % %
|
||
% % APPRENANTS \ \/ _ \| | | |/ _ \_ / / _` | | | | %% %% %
|
||
% % % /\_/ / (_) | |_| | __// / | (_| | |_| | %
|
||
%% % \___/ \___/ \__,_|\___/___| \__,_|\__,_| %
|
||
V V V % V V V V V % 0 % __ 0 _ % % % 0 0 00
|
||
V V V V V V V V V V V V V V V V % 0 /\ \ \__ _(_)_ _____
|
||
V V V V V V V V % V % % / \/ / _` | \ \ / / _ \ % %
|
||
V V V V V V V V 0 % / /\ / (_| | |\ V / __/ %
|
||
V V V V V V V V V V V V V V V V % 0 \_\ \/ \__,_|_| \_/ \___| %
|
||
V V V V V V V V V ___ % % % %
|
||
% / __\ __ _ _ _ ___ ___ %
|
||
Les Apprenants sont les algorithmes 0 /__\/// _` | | | |/ _ \/ __|
|
||
qui distinguent les pratiques d'ap- 0 0 / \/ \ (_| | |_| | __/\__ \
|
||
prentissage automatique des autres \_____/\__,_|\__, |\___||___/ 0
|
||
pratiques algorithmiques. Les Ap- 0 0 |___/ 0
|
||
prenants sont aussi appelés classi- % 0
|
||
ficateurs. Ce sont des chercheurs % % %
|
||
de motifs, capables de fouiller par Algolit %
|
||
dans les données et de générer une %
|
||
sorte de 'grammaire' spécifique. Dans l'apprentissage automatique, les méthodes Naive Bayes sont
|
||
Les Apprenants sont souvent basés des classificateurs probabilistes simples qui sont largement uti-
|
||
sur des techniques statistiques. lisés pour filtrer le spam et décider si un texte est positif ou
|
||
Chacun d'entre eux présente des ca- négatif.
|
||
ractéristiques individuelles. Cer-
|
||
tains ont besoin d'une grande quan- Ils nécessitent une petite quantité de données d'entraînement
|
||
tité de données d'entraînement pour pour estimer les paramètres nécessaires. Ils peuvent être extrê-
|
||
fonctionner, d'autres peuvent s'en mement rapides par rapport à des méthodes plus sophistiquées. Ils
|
||
tirer avec un petit jeu de données sont difficiles à généraliser, ce qui signifie qu'ils exécutent
|
||
annotées. Certains s'acquittent des tâches très spécifiques, exigeant d'être entraînés avec le
|
||
bien de tâches de classification, même style de données que celui qui sera utilisé par la suite.
|
||
comme l'identification des spam,
|
||
d'autres sont plus aptes à prédire Ce jeu vous permet de jouer selon les règles de Naive Bayes. Tout
|
||
les chiffres, comme les températu- en exécutant manuellement le code, vous créez votre propre modèle
|
||
res, les distances, les valeurs ludique qui 'fonctionne'. Un peu de prudence s'impose : parce que
|
||
boursières, et ainsi de suite. vous ne l'entraînez qu'en 6 phrases - au lieu de 2000 au minimum
|
||
- il n'est pas représentatif du tout !
|
||
La terminologie de l'apprentissage %
|
||
automatique n'est pas encore com- ---
|
||
plètement établie. Selon le domaine
|
||
(les statistiques, l'informatique Concept & réalisation: An Mertens
|
||
ou les sciences humaines) ils sont
|
||
appelés par des mots différents.
|
||
Lorsque nous parlons d’Apprenants, 0 0
|
||
nous parlons des fonctions imbri- 0 0 0 0
|
||
quées qui ont la capacité de géné- 0 __ 0 0 0 _
|
||
rer d'autres fonctions, de les éva- % \ \ ___ _ 0 _ ___ ____ __ _ | | __ _
|
||
luer et de les réajuster en fonc- 0 0 \ \/ _ \| | | |/ _ \_ / / _` | | |/ _` |
|
||
tion des données. Les Apprenants /\_/ / (_) | |_| | __// / | (_| | | | (_| |
|
||
sont bons pour comprendre et révé- \___/ \___/ \__,_|\___/___| \__,_| |_|\__,_|
|
||
ler les motifs. Mais ils ne dis- __ 0 0 _
|
||
tinguent pas toujours bien quels /__\ ___ __ _ _ __ ___ ___ ___(_) ___ _ __
|
||
motifs doivent être répétés. / \/// _ \/ _` | '__/ _ \/ __/ __| |/ _ \| '_ \
|
||
/ _ \ __/ (_| | | | __/\__ \__ \ | (_) | | | |
|
||
Dans les logiciels, il n'est pas \/ \_/\___|\__, |_| \___||___/___/_|\___/|_| |_|
|
||
toujours possible de distinguer les 00 |___/ 0 0 0
|
||
éléments caractéristiques des clas- __ _ 0 _ %
|
||
sificateurs, car ils sont cachés 0 0 0 / /(_)_ __ 0 ___ __ _(_)_ __ ___ 0
|
||
dans des modules ou bibliothèques / / | | '_ \ / _ \/ _` | | '__/ _ \
|
||
sous-jacents. Les programmeurs 0 / /__| | | | | __/ (_| | | | | __/
|
||
peuvent les invoquer en utilisant \____/_|_| |_|\___|\__,_|_|_| \___| %
|
||
une seule ligne de code. Par consé- 0 0 0 0
|
||
quent, pour cette exposition, nous
|
||
avons développé deux jeux de table par Algolit
|
||
qui montrent en détail le processus %
|
||
d'apprentissage de classificateurs La régression linéaire est l'un des algorithmes les plus connus
|
||
45
|
||
simples, mais fréquemment utilisés. % et les mieux compris en statistique et en apprentissage automa- %
|
||
% % % % % tique. Il existe depuis près de 200 ans. C'est un modèle at- %
|
||
% % % % trayant parce que la représentation est très simple. En statisti-
|
||
% % % % % % que, la régression linéaire est une méthode statistique qui per- %
|
||
% % % % %% % met de résumer et d'étudier les relations entre deux paramètres
|
||
% % % quantitatifs. % % % % % % %
|
||
% %% % %
|
||
% % % En jouant à ce jeu, vous réaliserez qu'en tant que joueur, vous
|
||
avez beaucoup de décisions à prendre. Vous découvrirez ce que si-
|
||
% gnifie créer un jeu de données cohérent, de décider ce qu’il doit
|
||
% % inclure. Si tout se passe bien, vous ressentirez le besoin de mo-
|
||
difier vos données afin d'obtenir de meilleurs résultats. Cela
|
||
fait partie de l'art de l'approximation qui est à la base de
|
||
toutes les pratiques d'apprentissage automatique.
|
||
% % %
|
||
--- % %
|
||
|
||
% Concept & réalisation: An Mertens
|
||
%
|
||
% % % %
|
||
0 0 00 0 0
|
||
0 0 %
|
||
_____ 0 0 _ _ 0 0 _ 0
|
||
/__ \_ __ __ _(_) |_ ___ __| | ___
|
||
0 / /\/ '__/ _` | | __/ _ \ / _` |/ _ \ %
|
||
/ / | | | (_| | | || __/ | (_| | __/
|
||
% 0 \/ |_| \__,_|_|\__\___| \__,_|\___| 0
|
||
0 _ _ _
|
||
% % 0 __| | ___ ___ _ 0 _ _ __ ___ ___ _ __ | |_ __ _| |_
|
||
% % / _` |/ _ \ / __| | | | '_ ` _ \ / _ \ '_ \| __/ _` | __|
|
||
| (_| | (_) | (__| |_| | | | | | | __/ | | | || (_| | |_
|
||
\__,_|\___/ \___|\__,_|_| |_| |_|\___|_| |_|\__\__,_|\__|
|
||
_ _____ _
|
||
(_) ___ _ __ /__ \_ __ ___ (_)___
|
||
% 0 | |/ _ \| '_ \ / /\/ '__/ _ \| / __|
|
||
0 | | (_) | | | |_ / / | | | (_) | \__ \ 0
|
||
% |_|\___/|_| |_(_) \/ |_| \___/|_|___/ 0
|
||
0 _
|
||
_ __ ___ ___ _ __ ___ ___ ___ __ _| | __ _
|
||
| '_ \ / _ \ / _ \ '_ ` _ \ / _ \/ __| / _` | |/ _` |
|
||
| |_) | (_) | __/ | | | | | __/\__ \ | (_| | | (_| |
|
||
% | .__/ \___/ \___|_| |_| |_|\___||___/ \__,_|_|\__, |
|
||
|_| 0 0 0 0 00 0 |___/
|
||
0 0 0 _ _ _ 0 0 _ 00
|
||
___ _ __(_) |_| |__ _ __ ___ (_) __ _ _ _ ___
|
||
/ _ \| '__| | __| '_ \| '_ ` _ \| |/ _` | | | |/ _ \
|
||
| (_) | | | | |_| | | | | | | | | | (_| | |_| | __/
|
||
\___/|_| |_|\__|_| |_|_| |_| |_|_|\__, |\__,_|\___|
|
||
0 |_|
|
||
0 0 0 ___ 00 00
|
||
/ __|
|
||
0 \__ \ 0 %
|
||
|___/ 0
|
||
0 0 0 00 0 0
|
||
|
||
par Rémi Forte, designer-chercheur à l’Atelier national de re-
|
||
cherche typographique, Nancy, France
|
||
%
|
||
sérigraphie sur papier, 60 × 80 cm, 25 ex., 2019, en vente à la
|
||
réception du Mundaneum.
|
||
|
||
Sous la forme de trois affiches, ces poèmes opèrent une relecture
|
||
algorithmique et poétique du 'Traité de documentation' de Paul
|
||
Otlet. Ils sont le résultat d’un même algorithme basé sur les
|
||
règles mystérieuses de l'intuition humaine. Il est appliqué à
|
||
trois fragments prélevés dans l’ouvrage de Paul Otlet et se veut
|
||
représentatif de sa pratique bibliologique. Pour chaque fragment,
|
||
l’algorithme découpe le texte, puis mots et signes de ponctuation
|
||
sont comptabilisés et réordonnés en une liste. À chaque ligne,
|
||
46
|
||
%%%% % %% %% %% % les éléments se combinent et épuisent la syntaxe du fragment sé- % %
|
||
% % % % lectionné. %% % % % %%% %% %% % %
|
||
% % % % % % % % % % % %
|
||
% % %% % % Le langage de Paul Otlet reste perceptible mais exacerbé jusqu’à %%
|
||
% % % % l’absurde. Pour le lecteur, la systématisation du texte est dé-
|
||
% concertante et ses habitudes de lecture sont bousculées. Cons-
|
||
% % % truite selon une équation mathématique, la composition typogra- %
|
||
% phique de l’affiche est tout aussi systématique que le poème. Ce-
|
||
% pendant, des frictions surviennent ponctuellement ; boucle après
|
||
% % boucle, les lignes s’étendent jusqu’à mordre la colonne voisine.
|
||
Des superpositions se créent et des mots se trouvent dissimulés
|
||
% % par d’autres. Ces télescopages dessinent des parcours de lecture
|
||
% alternatifs. % %
|
||
% % % % % % %
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
47
|
||
RÉCITS CONTEXTUALISÉS
|
||
AUTOUR DES APPRENANTS
|
||
|
||
|
||
|
||
--- Naive Bayes & Viagra --- Pierre-Simon Laplace, son inventeur. Le mathémati-
|
||
cien aurait échoué à créditer les travaux des
|
||
L'algorithme Naive Bayes est un Apprenant célèbre autres. Par conséquent, il a souffert d’accusa-
|
||
qui réussit bien avec peu de données. Nous l'ap- tions largement diffusées contre sa réputation. Ce
|
||
pliquons tout le temps. Christian & Griffiths af- n'est que 150 ans plus tard que l'accusation s'est
|
||
firment dans leur livre, 'Algorithms to Live by', avérée fausse.
|
||
que 'nos jours sont remplis de petites données'.
|
||
Imaginez par exemple que vous vous trouviez à un Avançons en 1939, alors que le règne de Bayes de-
|
||
arrêt de bus dans une ville étrangère. L'autre meure pratiquement tabou, mort et enterré dans le
|
||
personne qui se tient là attend depuis 7 minutes. domaine de la statistique. Lorsque la France est
|
||
Qu'est-ce que vous faites ? Décidez-vous d'atten- occupée en 1940 par l'Allemagne, qui contrôle les
|
||
dre ? Et si oui, pour combien de temps ? Quand al- usines et les fermes européennes, la plus grande
|
||
lez-vous envisager d'autres options ? Un autre inquiétude de Winston Churchill est le péril U-
|
||
exemple. Imaginez qu’un ami demande conseil sur boot. Les opérations de sous-marin étaient étroi-
|
||
une relation. Il est avec son nouveau partenaire tement contrôlées par le quartier général allemand
|
||
depuis un mois. Doit-il l'inviter à l’accompagner en France. Chaque sous-marin partait en mer sans
|
||
à un mariage de famille ? ordres, et les recevait sous forme de messages ra-
|
||
dio codés après avoir atteint l'Atlantique. Les
|
||
Les croyances préexistantes sont cruciales pour messages étaient cryptés par des machines à
|
||
que Naive Bayes fonctionne. L'idée est de calculer brouiller les mots, appelées Enigma machines.
|
||
les probabilités sur base de ces connaissances Enigma ressemblait à une machine à écrire compli-
|
||
préalables et d'une situation spécifique. quée. Elle est inventée par la société allemande
|
||
Scherbius & Ritter après la première guerre mon-
|
||
Le théorème a été formulé dans les années 1740 par diale, lorsque le besoin de machines d'encodage de
|
||
le révérend et mathématicien amateur Thomas Bayes. messages est devenu douloureusement évident.
|
||
Il a consacré sa vie à résoudre la question de sa-
|
||
voir comment gagner à la loterie. Mais la règle de Curieusement, et heureusement pour Naive Bayes et
|
||
Bayes a été rendue célèbre dans sa forme actuelle le monde, à l'époque le gouvernement britannique
|
||
par le mathématicien Pierre-Simon Laplace en et les systèmes d'éducation considéraient les ma-
|
||
thématiques appliquées et les statistiques sans
|
||
temps après la mort de La Place, la théorie tombe aucun rapport avec la résolution pratique des pro-
|
||
dans l'oubli jusqu'à ce qu'elle soit à nouveau dé- blèmes. Les données statistiques ont été jugées
|
||
terrée pendant la Seconde Guerre mondiale dans le gênantes en raison de leur caractère détaillé.
|
||
but de briser le code Enigma. Ainsi, les données du temps de guerre étaient sou-
|
||
vent analysées non pas par des statisticiens, mais
|
||
La plupart des personnes sont aujourd'hui entrées par des biologistes, des physiciens et des mathé-
|
||
en contact avec Naive Bayes par le biais de leurs maticiens théoriques. Aucun d'entre eux ne savait
|
||
dossiers de courrier indésirable. Naive Bayes est qu'en ce qui concerne les statistiques sophisti-
|
||
un algorithme largement utilisé pour la détection quées, la règle de Bayes était considérée non-
|
||
du spam. C’est une coïncidence que le Viagra, mé- scientifique.
|
||
dicament contre la dysfonction érectile, a été ap-
|
||
prouvé par la FDA (US Food & Drug Administration) C'est le désormais célèbre Alan Turing, mathémati-
|
||
en 1997, au moment où environ 10 millions d'utili- cien, informaticien, logicien, cryptanalyste, phi-
|
||
sateurs dans le monde avaient des comptes de mes- losophe et biologiste théorique, qui a utilisé le
|
||
sagerie Web gratuits. Les sociétés de vente système de probabilités des règles de Bayes pour
|
||
avaient l’intelligence d'utiliser la publicité concevoir la 'bombe'. Il s'agissait d'une machine
|
||
massive par e-mail : c'était un média intime, à électromécanique à grande vitesse pour tester tous
|
||
l'époque réservé à la communication privée. En les arrangements possibles qu'une machine Enigma
|
||
2001, le premier programme SpamAssasin s'appuyant produirait. Afin de déchiffrer les codes navals
|
||
sur Naive Bayes a été téléchargé sur SourceForge, des U-boot, Turing simplifie le système de la
|
||
réduisant ainsi le marketing 'guerilla par cour- 'bombe' en utilisant des méthodes baysiennes. La
|
||
riel'. 'bombe' a transformé le quartier général du
|
||
Royaume-Uni en une usine de décryptage. L'histoire
|
||
Référence : Machine Learners, by Adrian MacKenzie, est bien illustrée dans 'The Imitation Game', un
|
||
The MIT Press, Cambridge, US, November 2017. film de Morten Tyldum, sorti en 2014.
|
||
|
||
|
||
--- Naive Bayes & Enigma --- --- Une histoire sur les petits pois ---
|
||
|
||
Cette histoire de Naive Bayes fait partie du livre En statistique, la régression linéaire est une mé-
|
||
'The theory that would not die', écrit par Sharon thode d'apprentissage supervisé. Après l'entraîne-
|
||
Bertsch McGrayne. Elle décrit entre autres comment ment avec des données annotées, le modèle tente de
|
||
Naive Bayes est vite oubliée après la mort de prédire les valeurs de nouvelles données incon-
|
||
nues. La régression linéaire permet de résumer et
|
||
48
|
||
|
||
|
||
|
||
|
||
d'étudier les relations entre deux éléments, afin les, les hommes ne différaient pas beaucoup sur le
|
||
de voir s'il existe une corrélation entre eux. plan intellectuel, seulement sur le plan du zèle
|
||
S'il y a une corrélation positive, la connaissance et du labeur'. Heureusement, l'étude moderne de
|
||
d'un élément aide à prédire l'autre. Par exemple, l'hérédité a réussi à éliminer le mythe de la dif-
|
||
étant donné la critique d'un film, nous pouvons férence génétique fondée sur la race.
|
||
prédire le nombre moyen d'étoiles qui lui sont at-
|
||
tribuées, plutôt que de simplement dire si la cri- La raison pour laquelle nous l'évoquons dans cette
|
||
tique est positive ou négative. série, c'est qu'il a été parmi les premiers scien-
|
||
tifiques à utiliser des méthodes statistiques dans
|
||
Parfois, les figures que nous rencontrons en grat- ses recherches. Sa principale contribution dans ce
|
||
tant sous la surface ne sont pas à notre goût. domaine a été l'analyse de régression linéaire,
|
||
L'idée de régression vient de Sir Francis Galton, qui a fondé les bases d'une grande partie de la
|
||
un scientifique influent du 19e siècle. Il a passé statistique moderne. Alors que nous nous engageons
|
||
sa vie à étudier le problème de l'hérédité - pour dans le domaine de l'apprentissage automatique,
|
||
comprendre à quel point les caractéristiques d'une Algolit essaie de ne pas oublier que les systèmes
|
||
génération d'êtres vivants se manifestent dans la d'ordre ont du pouvoir, et que ce pouvoir n'a pas
|
||
génération suivante. Il a établi le domaine de toujours été exercé au bénéfice de tout le monde.
|
||
l'eugénisme et l'a défini comme 'l'étude des orga- L'apprentissage automatique a hérité de nombreux
|
||
nismes sous contrôle social qui peuvent améliorer aspects de la recherche statistique, certains plus
|
||
ou altérer les qualités raciales des générations agréables que d'autres. Nous devons nous méfier,
|
||
futures, que ce soit physiquement ou mentalement'. car ces visions du monde s'infiltrent dans les mo-
|
||
Par conséquent, son nom a marqué l'histoire et dèles algorithmiques qui créent des ordres aujour-
|
||
l'héritage du racisme scientifique. d'hui.
|
||
|
||
Galton a d'abord abordé le problème de l'hérédité Références :
|
||
en examinant les caractéristiques du petit pois
|
||
doux. Il a choisi le petit pois parce que l'espèce http://galton.org/letters/darwin/correspon-
|
||
peut s'auto-fertiliser. Les plantes femelles hé- dence.htm
|
||
ritent des variations génétiques des plantes mères
|
||
sans la contribution d'un deuxième parent. Cette https://www.tandfonline.com/doi/-
|
||
caractéristique élimine la nécessité de traiter full/10.1080/10691898.2001.11910537
|
||
avec des sources multiples.
|
||
http://www.paramoulipist.be/?p=1693
|
||
En 1875, Galton a distribué des paquets de graines
|
||
de petits pois à sept amis. Chaque ami recevait
|
||
des graines de poids uniforme, mais il y avait des --- Perceptron ---
|
||
variations importantes d'un paquet à l'autre. Les
|
||
amis de Galton ont récolté les graines des nou- Nous nous trouvons dans une décennie où les ré-
|
||
velles générations de plantes et les lui ont ren- seaux de neurones suscitent beaucoup d'attention.
|
||
dues. Il a ensuite tracé le poids des graines fe- Cela n'a pas toujours été le cas. L'étude des ré-
|
||
melles contre le poids des graines mères. Il a dé- seaux de neurones remonte aux années 1940, lorsque
|
||
couvert que le poids médian des graines femelles la première métaphore des neurones est apparue. Le
|
||
d'une taille particulière de la semence mère dé- neurone n'est pas la seule référence biologique
|
||
crivait approximativement une ligne droite avec dans le domaine de l'apprentissage automatique -
|
||
une pente positive inférieure à 1,0. Les premières pensez au mot corpus ou formation. Le neurone ar-
|
||
idées de Galton sur la régression sont nées de ce tificiel a été construit en relation étroite avec
|
||
son homologue biologique.
|
||
petits pois femelles à celle des petits pois
|
||
mères. Il a utilisé cette représentation de ses Le psychologue Frank Rosenblatt s'est inspiré des
|
||
données pour illustrer les fondements de ce que travaux de son collègue Donald Hebb sur le rôle
|
||
les statisticiens appellent encore aujourd'hui la des neurones dans l'apprentissage humain. Hebb a
|
||
régression. Pour Galton, c'était aussi une façon déclaré que 'les cellules qui communiquent, se
|
||
de décrire les avantages de l'eugénisme. mettent ensemble.' Sa théorie est maintenant à la
|
||
base de l'apprentissage associatif humain, mais
|
||
La recherche de Galton été appréciée par de nom- aussi de l'apprentissage en réseau de neurones non
|
||
breux intellectuels de son temps. En 1869, dans supervisé. Il a poussé Rosenblatt à développer
|
||
'Hereditary Genius', Galton affirme que le génie l'idée du neurone artificiel. En 1962, il crée le
|
||
est principalement une question d'ascendance. Il Perceptron. Le Perceptron est un modèle qui ap-
|
||
croyait qu'il y avait une explication biologique à prend par la pondération des entrées.
|
||
l'inégalité sociale entre les races. Galton a même
|
||
persuadé son demi-cousin Charles Darwin de ses Il a été mis de côté par les chercheurs, parce
|
||
idées. Après avoir lu l'article de Galton, Darwin qu'il ne peut gérer que la classification binaire.
|
||
a déclaré : 'Vous avez converti un adversaire, car Cela signifie que les données doivent être sépa-
|
||
j'ai toujours soutenu qu'à l'exception des imbéci- rables linéairement, comme par exemple hommes et
|
||
|
||
49
|
||
|
||
|
||
|
||
femmes, noir et blanc. Il est clair que ce type de et vous ne voulez pas travailler avec des sollu-
|
||
données est très rare dans le monde réel. Lorsque tions prêtes à l'emploi, et vous souhaitez ouvrir
|
||
le soi-disant premier hiver de l'Intelligence Ar- la boîte noire, BERT exige de faire des économies
|
||
tificielle (IA) est arrivé en 1974-1980 et que le pour pouvoir l’utiliser.
|
||
financement consacré à cette recherche a diminué,
|
||
le Perceptron a également été négligé. Pendant 10 Références :
|
||
ans, il est resté inactif. Lorsque le printemps
|
||
s'installe à la fin des années 1980, de nouvelles https://ai.googleblog.com/2018/11/open-sourcing-
|
||
générations de chercheurs le reprennent et l'uti- bert-state-of-art-pre.html
|
||
lisent pour construire des réseaux de neurones.
|
||
Ceux-ci contiennent de multiples couches de Per- https://towardsdatascience.com/deconstructing-
|
||
ceptrons. C'est ainsi que les réseaux de neurones bert-distilling-6-patterns-from-100-million-para-
|
||
voient la lumière. On pourrait dire que cette sai- meters-b49113672f77
|
||
son d'apprentissage automatique est particulière-
|
||
ment chaude, mais il faut un autre hiver pour
|
||
connaître un été.
|
||
|
||
|
||
--- BERT ---
|
||
|
||
Certains articles en ligne disent que l'année 2018
|
||
a marqué un tournant dans le domaine du traitement
|
||
du langage naturel. Une série de modèles de 'deep
|
||
learning' ont permis d'obtenir des résultats ex-
|
||
cellents pour des tâches comme les réponses aux
|
||
questions ou la classification des sentiments.
|
||
L'algorithme BERT de Google est entré dans les
|
||
concours d'apprentissage automatique de l'année
|
||
dernière comme un 'modèle gagnant'. Il témoigne
|
||
d’une performance supérieure sur une grande varié-
|
||
té de tâches.
|
||
|
||
BERT est pré-entraîné; ses poids sont appris à
|
||
l'avance grâce à deux tâches non supervisées. Cela
|
||
signifie que BERT n'a pas besoin d'être entraîné à
|
||
partir de zero pour chaque nouvelle tâche. Vous
|
||
n'avez qu'à affiner ses poids.
|
||
|
||
Cela signifie également qu'un programmeur souhai-
|
||
tant utiliser BERT ne sait plus sur quels para-
|
||
mètres BERT est réglé, ni à base de quelles don-
|
||
nées il a appris ses performances.
|
||
|
||
BERT signifie 'Bidirectional Encoder Representa-
|
||
tions from Transformers'. Cela signifie que BERT
|
||
permet un entraînement bidirectionnel. Le modèle
|
||
apprend le contexte d'un mot à partir de son envi-
|
||
ronnement, à gauche et à droite d'un mot. En tant
|
||
que tel, il peut faire la différence entre 'Je
|
||
suis pile à l’heure' et 'Je l’ai mis sur la pile'.
|
||
|
||
Quelques faits :
|
||
|
||
- BERT_large, avec 345 millions de paramètres, est
|
||
le plus grand modèle du genre. Il est manifeste-
|
||
ment supérieur à BERT_base, qui utilise la même
|
||
architecture avec 'seulement' 110 millions de pa-
|
||
ramètres, pour les tâches à petite échelle.
|
||
|
||
- Pour exécuter BERT, vous devez utiliser les TPU.
|
||
Ce sont les processeurs (CPU) de Google spéciale-
|
||
ment conçus pour TensorFLow, la plateforme de
|
||
'deep learning'. Les tarifs de location de TPU
|
||
vont de de 8$/h à 394$/h. Si vous êtes comme nous,
|
||
|
||
|
||
50
|
||
0123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345678
|
||
9 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234567
|
||
89 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456
|
||
789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345
|
||
6789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234
|
||
56789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123
|
||
456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12
|
||
3456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1
|
||
23456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789
|
||
123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789
|
||
123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345678
|
||
9 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234567
|
||
89 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456
|
||
789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345
|
||
6789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234
|
||
56789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123
|
||
456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12
|
||
3456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1
|
||
23456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789
|
||
123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789
|
||
123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345678
|
||
9 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234567
|
||
89 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456
|
||
789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345
|
||
6789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234
|
||
56789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123
|
||
456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12
|
||
3456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1
|
||
23456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789
|
||
123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789
|
||
123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345678
|
||
9 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234567
|
||
89 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456
|
||
789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345
|
||
6789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234
|
||
56789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123
|
||
456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12
|
||
3456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1
|
||
23456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789
|
||
123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789
|
||
123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345678
|
||
9 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234567
|
||
89 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456
|
||
789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345
|
||
6789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234
|
||
56789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123
|
||
456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12
|
||
3456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1
|
||
23456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789
|
||
123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789
|
||
123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345678
|
||
9 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234567
|
||
89 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456
|
||
789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345
|
||
6789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234
|
||
56789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123
|
||
456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12
|
||
3456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1
|
||
23456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789
|
||
123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789
|
||
123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345678
|
||
9 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234567
|
||
89 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456
|
||
789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345
|
||
6789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234
|
||
56789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123
|
||
456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12
|
||
3456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1
|
||
23456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789
|
||
51
|
||
█▒░░ ▓▒█░░▒▓███▀▒░ ░▒ ▒ ░ ▒▒▓██▒ ░░ ▒░ ░ ▒ ░▓ ░▒▓ ▒ ▒█░░▒█▓▒░▓▒ ▒▓▒▒░ ▒ ▒▒ ▓▒░ ▒░▓ █ ▒░ █░█ ▓▒░ ▒▓░░
|
||
▓ ▒░ ▒▒ ░▒░▒▓ ░ ░ ▒ ░ ▒ ▒ ░ ░ ░▒░ ░▒ ░ ▒ ░▒░▓░ ▒ ░ ▒ ░▒░ ░ ░▒ ▒░░ ░ ▒ ░░▓ ░ ▓▓░░ ░░▒▒▓░
|
||
░ ▒ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░░ ░ ▒ ░ ░ ░ ░ ░ ░░ ░ ░ ░ ░ ░ ░ ░ ░
|
||
░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░
|
||
░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░
|
||
|
||
░ tion est une étape cru- voit en tant qu'utilisa- sition d'occurrences de
|
||
░ ciale de l'apprentissage teur, mais ont aussi lettres ou de mots, ce
|
||
░ ░ ░ ░ automatique supervisé leur mot à dire dans les qui donne des tables de
|
||
░ ░ ░ ░ durant laquelle l'algo- fluctuations du cours probabilité de transi-
|
||
░ ░ rithme reçoit des des bourses mondiales ou tion qui peuvent être
|
||
░ ░ exemples de ce qu'il dans la détection de la calculées sans aucune
|
||
░ GLOSSAIRE ░ doit apprendre. Un cybercriminalité et du compréhension sémantique
|
||
░ filtre anti-spam sera vandalisme. ou grammaticale du lan-
|
||
░ ░ ░ alimenté d'exemples de gage naturel. Cet algo-
|
||
░ ░ ░ ░ messages spams et de * APPRENTISSAGE AUTOMA- rithme peut être utilisé
|
||
░ messages réels. Ces tique classique pour analyser des tex-
|
||
░ exemples consistent en Naive Bayes, Support tes, mais aussi pour les
|
||
░ un message, l'entrée, Vector Machines ou Ré- recombiner. Il est lar-
|
||
accompagné d'une éti- gression Linéaire sont gement utilisé pour la
|
||
Vous trouverez ci-des- quette considérés comme des al- génération de spam.
|
||
sous un glossaire non- spam ou non spam. L'an- gorithmes classiques
|
||
exhaustif reprenant des notation d'un jeu de d'apprentissage automa- * CONSTANT
|
||
termes fréquemment uti- données est un travail tique. Ils fonctionnent Constant est une asso-
|
||
lisés dans l'exposition. exécuté par des humains, bien lorsqu'ils ap- ciation sans but lucra-
|
||
Il est conçu comme une qui choisissent une éti- prennent avec de petits tif d’artistes autogé-
|
||
aide pour les visiteurs quette pour chaque élé- jeux de données. Mais rés, basée à Bruxelles
|
||
connaissant peu le voca- ment du jeu de données. ils nécessitent souvent depuis 1997 et active
|
||
bulaire lié au domaine Pour assurer la qualité des lecteurs complexes. dans les domaines de
|
||
du traitement des des étiquettes, plu- La tâche accomplie par l’art, des médias et de
|
||
langues naturelles sieurs annotateurs les lecteurs est égale- la technologie. Algolit
|
||
(NLP), Algolit ou le doivent voir le même ment appelée 'feature est né en 2012 comme un
|
||
Mundaneum. élément, la même entrée, engineering' (voir ci- projet de Constant.
|
||
et donner la même éti- dessous). Cela signifie http://constantvzw.org
|
||
* ALGOLIT quette avant qu'un qu'un être humain doit
|
||
un groupe bruxellois exemple ne soit inclus consacrer du temps à une * DATA WORKERS
|
||
spécialisé dans la re- dans les données d'en- analyse exploratoire ap- Intelligences artifi-
|
||
cherche artistique sur traînement. profondie du jeu de don- cielles développées pour
|
||
les algorithmes et la nées. servir, divertir, enre-
|
||
littérature. Chaque * APPRENTISSAGE AUTOMA- gistrer et connaître les
|
||
mois, le groupe se tique ou machine lear- * BAG OF WORDS humains. Le travail de
|
||
réunit pour expérimenter ning Le modèle du sac de mots ces entités machiniques
|
||
avec du code et des Modèles algorithmiques est une représentation est généralement dissi-
|
||
textes publiés sous li- basés sur la statisti- simplifiée du texte uti- mulé derrière des inter-
|
||
cences libres. que, principalement uti- lisé dans le traitement faces et des brevets.
|
||
http://www.algolit.net lisés pour analyser et du langage naturel. Dans Dans l'exposition, les
|
||
prédire des situations à ce modèle, un texte est conteurs algorithmiques
|
||
* ALGOLITTÉRAIRE partir de cas existants. représenté sous la forme quittent leur monde sou-
|
||
terme inventé par Algo- Dans cette exposition, d'une collection de mots terrain invisible pour
|
||
lit pour des oeuvres qui nous nous concentrons uniques, sans tenir devenir nos interlocu-
|
||
explorent le point de sur les modèles d'ap- compte de la grammaire, teurs.
|
||
vue du conteur algorith- prentissage automatique de la ponctuation ni
|
||
mique. Quelles nouvelles pour le traitement de même de leur ordre dans * DONNÉES D’ENTRAÎNEMENT
|
||
formes de narration ren- texte ou le traitement le texte. Ce modèle Les algorithmes d'ap-
|
||
dons-nous possibles en du langage naturel (voir transforme un texte en prentissage automatique
|
||
dialoguant avec les al- NLP). Ces modèles ont une liste de mots asso- ont besoin d'être gui-
|
||
gorithmes ? appris à effectuer une ciés à leur fréquence dés. Pour séparer une
|
||
tâche spécifique sur la littéralement un sac de chose d'une autre, faire
|
||
* ALGORITHME base de textes exis- mots. Le sac de mots est des distinctions, ils
|
||
Un ensemble d'instruc- tants. Ils sont utilisés souvent utilisé comme ont besoin de motifs.
|
||
tions dans un langage de par les moteurs de re- référence, c'est sur Ils les trouvent dans
|
||
programmation spécifi- cherche, les traductions cette base qu'on évalue- les textes qui leur sont
|
||
que, qui permettent de automatiques, et per- ra la performance d'un donnés, les données
|
||
produire un résultat mettent de générer des nouveau modèle. d’entraînement. L'être
|
||
(output) à partir de résumés et de repérer humain doit choisir avec
|
||
données (inputs). les tendances sur les * CHAÎNE DE MARKOV soin un matériel d’en-
|
||
réseaux sociaux et des Algorithme qui scanne un traînement adapté à la
|
||
* ANNOTATION fils d’actualité. Ils texte à la recherche de tâche de la machine. Il
|
||
Le processus d'annota- influencent ce que l'on la probabilité de tran- n'est pas logique d’en-
|
||
52
|
||
█▒░░ ▓▒█░░▒▓███▀▒░ ░▒ ▒ ░ ▒▒▓██▒ ░░ ▒░ ░ ▒ ░▓ ░▒▓ ▒ ▒█░░▒█▓▒░▓▒ ▒▓▒▒░ ▒ ▒▒ ▓▒░ ▒░▓ █ ▒░ █░█ ▓▒░ ▒▓░░
|
||
▓ ▒░ ▒▒ ░▒░▒▓ ░ ░ ▒ ░ ▒ ▒ ░ ░ ░▒░ ░▒ ░ ▒ ░▒░▓░ ▒ ░ ▒ ░▒░ ░ ░▒ ▒░░ ░ ▒ ░░▓ ░ ▓▓░░ ░░▒▒▓░
|
||
░ ▒ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░░ ░ ▒ ░ ░ ░ ░ ░ ░░ ░ ░ ░ ░ ░ ░ ░ ░
|
||
░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░
|
||
░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░
|
||
|
||
traîner une machine avec tion par autrui en vue sujets à des droits explorent et
|
||
des romans du 19ème de sa diffusion sont d'auteur soit parce que construisent des modèles
|
||
siècle si sa mission est permises, techniquement ces derniers sont expi- d'apprentissage automa-
|
||
d'analyser des Tweets. et légalement, ceci afin rés. Le projet fut lancé tique, collaborent avec
|
||
de garantir certaines par Michael Hart en 1971 d'autres et participent
|
||
* DUMP libertés induites, dont et nommé en hommage à à des concours pour re-
|
||
Terme anglais signifiant le contrôle du programme l'imprimeur allemand du lever des défis. Environ
|
||
‘dépôt, décharge, déver- par l'utilisateur et la XVe siècle Johannes Gu- un demi-million d’utili-
|
||
ser massivement’. En in- possibilité de partage tenberg. (Wikipedia) sateurs sont actifs sur
|
||
formatique, le terme entre individus. Ces Kaggle. Kaggle a été
|
||
dump désigne générale- droits peuvent être sim- * HENRI LA FONTAINE fondée par Goldbloom et
|
||
ment une copie brute plement disponibles – Henri La Fontaine Ben Hamner en 2010 et
|
||
d’une base de données; cas du domaine public – (1854-1943) est un homme acquise par Google en
|
||
par exemple pour effec- ou bien établis par une politique, féministe et mars 2017.
|
||
tuer une sauvegarde de licence, dite 'libre', pacifiste belge. Il re-
|
||
données ou pour les uti- basée sur le droit d'au- çoit le Prix Nobel de la * LANGAGE NATUREL
|
||
liser ailleurs. Les teur. Les 'licences co- paix en 1913 en raison Selon Wikipédia, 'Une
|
||
dumps sont souvent pu- pyleft' garantissent le de son engagement au langue dite « naturel-
|
||
bliées par des projets maintien de ces droits sein du Bureau Interna- le » est une langue qui
|
||
de logiciels libres et aux utilisateurs même tional de la Paix et de s'est formée petit à pe-
|
||
de contenu libre, tels pour les travaux déri- sa contribution à l'or- tit, évoluant avec le
|
||
que Wikipédia, pour per- vés. Les logiciels ganisation du mouvement temps, et qui fait par-
|
||
mettre la réutilisation libres constituent une pacifiste. En 1895, en- tie du langage naturel.
|
||
ou la dérivation(fork) alternative à ceux qui semble avec Paul Otlet, Son origine est bien
|
||
de la base de données. ne le sont pas, quali- il créent ensemble souvent floue et peut
|
||
fiés de 'propriétaires' l'Institut international être retracée plus ou
|
||
* FEATURE ENGINEERING ou de 'privateurs'. (Wi- de bibliographie qui de- moins clairement par la
|
||
Processus utilisant la kipedia) viendra le Mundaneum. Au linguistique comparée.
|
||
connaissance du domaine sein de cette institu- On oppose les langues
|
||
des données pour créer * GIT tion, qui visait à ras- naturelles - comme le
|
||
les caractéristiques qui un système logiciel per- sembler l'ensemble des français - aux langues
|
||
font fonctionner les al- mettant de suivre les connaissances du monde, construites comme le
|
||
gorithmes d'apprentis- changements dans le code il contribue à mettre au langage de programmation
|
||
sage machine. En source pendant le déve- point le système de ou l'espéranto, formées
|
||
d'autres termes, un être loppement d'un logiciel. Classification décimale intentionnellement par
|
||
humain doit consacrer du Il est conçu pour coor- universelle (CDU). l’entremise de l’homme
|
||
temps à une analyse ex- donner le travail des pour remplir un besoin
|
||
ploratoire approfondie programmeurs, mais il * IA OU INTELLIGENCES précis.'
|
||
du jeu de données, afin peut être utilisé pour artificielles
|
||
d'en définir les princi- suivre les changements L'intelligence artifi- * LITTÉRATURE
|
||
pales caractéristiques. dans n'importe quel en- cielle (IA) est 'l'en- Algolit comprend la no-
|
||
Ces caractéristiques semble de fichiers. semble des théories et tion de littérature
|
||
peuvent être la fré- Avant d’initier un nou- des techniques mises en comme beaucoup d'autres
|
||
quence des mots ou des veau projet, les pro- œuvre en vue de réaliser auteurs expérimentaux
|
||
lettres, mais aussi des grammeurs créent un ‘dé- des machines capables de elle inclut toute la
|
||
éléments syntaxiques pôt git’ dans lequel ils simuler l'intelligence. production linguistique,
|
||
comme les noms, les ad- publieront toutes les Elle correspond donc à du dictionnaire à la Bi-
|
||
jectifs ou les verbes. parties du code. Les dé- un ensemble de concepts ble, de l'œuvre entière
|
||
Les caractéristiques les pôts git d’Algolit se et de technologies plus de Virginia Woolf à
|
||
plus importantes pour la trouvent ici qu'à une discipline au- toutes les versions des
|
||
tâche à résoudre doivent https://gitlab.- tonome constituée. D'au- Conditions d'utilisation
|
||
être soigneusement sé- constantvzw.org/algolit. tres, remarquant la dé- publiées par Google de-
|
||
lectionnées pour être finition peu précise de puis son existence. En
|
||
transmises à un algo- * GUTENBERG.ORG l'IA, notamment la CNIL, ce sens, le code de pro-
|
||
rithme classique d'ap- Le projet Gutenberg est la définissent comme ‘le grammation peut aussi
|
||
prentissage automatique. une bibliothèque de ver- grand mythe de notre être de la littérature.
|
||
sions électroniques temps'. (Wikipedia)
|
||
* FLOSS OU LOGICIELS libres de livres physi- * MECHANICAL TURK
|
||
Libres et Open Source quement existants. Les * KAGGLE Le Mechanical Turk d’A-
|
||
Un logiciel libre est un textes fournis sont es- Plateforme en ligne où mazon est une plateforme
|
||
logiciel dont l'utilisa- sentiellement du domaine les utilisateurs en ligne à destination
|
||
tion, l'étude, la modi- public, soit parce trouvent et publient des des humains conçue pour
|
||
fication et la duplica- qu'ils n'ont jamais été ensembles de données, exécuter des tâches que
|
||
53
|
||
█▒░░ ▓▒█░░▒▓███▀▒░ ░▒ ▒ ░ ▒▒▓██▒ ░░ ▒░ ░ ▒ ░▓ ░▒▓ ▒ ▒█░░▒█▓▒░▓▒ ▒▓▒▒░ ▒ ▒▒ ▓▒░ ▒░▓ █ ▒░ █░█ ▓▒░ ▒▓░░
|
||
▓ ▒░ ▒▒ ░▒░▒▓ ░ ░ ▒ ░ ▒ ▒ ░ ░ ░▒░ ░▒ ░ ▒ ░▒░▓░ ▒ ░ ▒ ░▒░ ░ ░▒ ▒░░ ░ ▒ ░░▓ ░ ▓▓░░ ░░▒▒▓░
|
||
░ ▒ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░░ ░ ▒ ░ ░ ░ ░ ░ ░░ ░ ░ ░ ░ ░ ░ ░ ░
|
||
░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░
|
||
░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░
|
||
|
||
les algorithmes ne par- (1854-1943), homme d'É- dire des situations par- * PYTHON
|
||
viennent pas à faire. Il tat et prix Nobel de la ticulières ou à profiler le principal langage de
|
||
peut s'agir, par exem- paix, créent le Munda- des habitudes d’usagers. programmation utilisé
|
||
ple, d'annoter des neum. Le projet vise à Elles sont largement dans le monde entier
|
||
phrases comme étant po- rassembler toute la utilisés dans les smart- pour le traitement du
|
||
sitives ou négatives, de connaissance du monde et phones, les ordinateurs langage, inventé en 1991
|
||
repérer des plaques à la classer à l'aide du et les tablettes. par le programmeur néer-
|
||
d'immatriculation, de système de Classifica- landais Guido Van Ros-
|
||
reconnaître des visages. tion décimale univer- * OULIPO sum.
|
||
Les annonces que l'on selle (UDC) qu'ils in- Le collectif Oulipo,
|
||
trouve sur cette plate- ventent. acronyme d'Ouvroir de * RECONNAISSANCE OPTIQUE
|
||
forme sont souvent rému- Littérature Potentielle, de caractères (ROC)
|
||
nérés moins d'un centime * NATURAL LANGUAGE PRO- est une grande source en anglais optical cha-
|
||
par tâche. Les tâches cessing (NLP) d'inspiration pour Algo- racter recognition
|
||
les plus complexes ou Le traitement du langage lit. Oulipo a été créé à (OCR), ou océrisation,
|
||
nécessitant le plus de naturel (NLP) est un Paris par les écrivains désigne les procédés in-
|
||
connaissances peuvent terme collectif qui dé- Raymond Queneau et Fran- formatiques permettant
|
||
être payées jusqu'à plu- signe le traitement in- çois Le Lionnais. Ils la traduction d'images
|
||
sieurs centimes. De nom- formatique automatique ont ancré leur pratique de textes scannés en fi-
|
||
breux chercheurs univer- des langues humaines. dans l'avant-garde euro- chiers de texte manipu-
|
||
sitaires utilisent le Cela comprend les algo- péenne du XXe siècle et lables.
|
||
Mechanical Turk pour des rithmes utilisant, comme dans la tradition expé-
|
||
tâches qui auraient été données, du texte pro- rimentale des années 60. * RÉSEAUX DE NEURONES
|
||
exécutées par des étu- duit par l'homme et qui Pour Oulipo, la création Systèmes informatiques
|
||
diants auparavant. tentent de le repro- de règles devient la inspirés des réseaux
|
||
duire. condition permettant de neuronaux biologiques
|
||
* MODÈLES D’APPRENTIS- générer de nouveaux tex- trouvés dans le cerveau
|
||
sage automatique super- * N-GRAMMES DE CARAC- tes, ou ce qu'ils ap- des animaux. Un réseau
|
||
visé tères pellent la littérature de neurone n'est pas un
|
||
Pour la création de mo- une technique utilisée potentielle. Plus tard, algorithme, mais plutôt
|
||
dèles d'apprentissage pour la reconnaissance en 1981, ils ont égale- un cadre dans lequel de
|
||
automatique supervisés, de la paternité d’une ment créé ALAMO - Ate- nombreux algorithmes
|
||
les humains annotent les oeuvre. Lors de l'utili- lier de Littérature As- d'apprentissage machine
|
||
échantillons d'entraîne- sation des N-grammes de sistée par la Mathéma- différents travaillent
|
||
ment avant de les en- caractères, les textes tique et les Ordina- ensemble et traitent des
|
||
voyer à la machine. sont considérés comme teurs. données complexes. De
|
||
Chaque texte est jugé des séquences de carac- tels systèmes ‘appren-
|
||
par au moins 3 humains tères. Considérons le * PAUL OTLET nent’ à exécuter des
|
||
par exemple, s’il s’agit trigramme des carac- Paul Otlet (1868 - 1944) tâches en observant des
|
||
de spam ou non, s’il est tères. Toutes les sé- était un auteur, entre- exemples, généralement
|
||
positif ou négatif. quences de trois carac- preneur, visionnaire, sans être programmés à
|
||
tères qui se chevauchent avocat et militant pour priori avec des règles
|
||
* MODÈLES D’APPRENTIS- sont isolées. Par exem- la paix belge ; il est spécifiques. Par exem-
|
||
sage automatique non-su- ple, le trigramme de ca- l'une des nombreuses ple, un algorithme de
|
||
pervisé ractères de suicide', personnes qui ont été reconnaissance de chat
|
||
Les modèles d'apprentis- serait, 'Sui,' uic', considérées comme le apprendra à identifier
|
||
sage automatique non su- uic', 'ici', 'cid', etc. père des sciences de les images qui
|
||
pervisés n'ont pas be- Les motifs trouvés avec l'information, un do- contiennent des chats en
|
||
soin de l’étape d’anno- les N-grammes de carac- maine qu'il a appelé ‘la observant des images qui
|
||
tations des données par tères se concentrent sur documentation’. Otlet a ont été étiquetées ma-
|
||
des humains. Par contre, les choix stylistiques créé la Classification nuellement comme ‘chat’
|
||
ils nécessitent de qui sont faits incons- décimale universelle, ou ‘pas chat’. Il utili-
|
||
grandes quantités de ciemment par l'auteur. qui s'est répandue dans sera ces exemple pour
|
||
données pour s’entraî- Ces modèles restent les bibliothèques. Avec générer ce qu'il consi-
|
||
ner. stables sur toute la Henri La Fontaine, il dère être un chat et
|
||
longueur du texte. crée le Palais Mondial, pourra identifier les
|
||
* MUNDANEUM qui devient le Munda- chats dans d'autres
|
||
À la fin du 19ème siè- * ORACLE neum, pour abriter les images. Il le fera sans
|
||
cle, deux jeunes ju- Les Oracles sont un type collections et les acti- aucune connaissance
|
||
ristes belges, Paul Ot- particulier de modèles vités de leurs diffé- préalable sur les chats.
|
||
let (1868-1944), 'père algorithmiques souvent rents organismes et ins- Il générera automatique-
|
||
de la documentation', et basés sur la statisti- tituts. ment ses propres carac-
|
||
Henri La Fontaine que, qui servent à pré- téristiques d'identifi-
|
||
54
|
||
█▒░░ ▓▒█░░▒▓███▀▒░ ░▒ ▒ ░ ▒▒▓██▒ ░░ ▒░ ░ ▒ ░▓ ░▒▓ ▒ ▒█░░▒█▓▒░▓▒ ▒▓▒▒░ ▒ ▒▒ ▓▒░ ▒░▓ █ ▒░ █░█ ▓▒░ ▒▓░░
|
||
▓ ▒░ ▒▒ ░▒░▒▓ ░ ░ ▒ ░ ▒ ▒ ░ ░ ░▒░ ░▒ ░ ▒ ░▒░▓░ ▒ ░ ▒ ░▒░ ░ ░▒ ▒░░ ░ ▒ ░░▓ ░ ▓▓░░ ░░▒▒▓░
|
||
░ ▒ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░░ ░ ▒ ░ ░ ░ ░ ░ ░░ ░ ░ ░ ░ ░ ░ ░ ░
|
||
░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░
|
||
░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░
|
||
|
||
cation à partir du maté- Une méthode de pondéra-
|
||
riel d'apprentissage qui tion utilisée dans la
|
||
lui est donné. recherche de textes.
|
||
Cette mesure statistique
|
||
* RULE-BASED MODELS permet d'évaluer l'im-
|
||
Les Oracles peuvent être portance d'un terme
|
||
créés à l'aide de diffé- contenu dans un docu-
|
||
rentes techniques. L’une ment, relativement à une
|
||
d’entre elles consiste à collection ou un corpus
|
||
définir manuellement les de textes. Le poids aug-
|
||
règles. Ces modèles sont mente proportionnelle-
|
||
appelés 'rule-based mo- ment au nombre d'occur-
|
||
dels' (modèles basés sur rences du mot dans le
|
||
des règles), et se si- document. Il varie éga-
|
||
tuent à l’opposé des mo- lement en fonction de la
|
||
dèles statistiques. Ils fréquence du mot dans le
|
||
sont utiles pour des corpus. Le TF-IDF est
|
||
tâches spécifiques, notamment utilisé dans
|
||
comme par exemple, la la classification des
|
||
détection de la mention spams.
|
||
d'une certaine molécule
|
||
dans un article scienti- * 'WORD EMBEDDINGS'
|
||
fique. Ils sont perfor- Techniques de modélisa-
|
||
mants, même avec très tion du langage qui, par
|
||
peu de données d'entraî- de multiples opérations
|
||
nement. mathématiques, tracent
|
||
des mots dans un espace
|
||
* SENTIMENT ANALYSIS vectoriel multidimen-
|
||
Également appelé 'opi- sionnel. Lorsque les
|
||
nion mining' (sondage mots sont 'embedded' ou
|
||
d'opinion). Une tâche intégrés, ils se trans-
|
||
fondamentale de l'ana- forment de symboles dis-
|
||
lyse des sentiments tincts en objets mathé-
|
||
consiste à classer un matiques, qui peuvent
|
||
texte donné comme posi- être multipliés, divi-
|
||
tif, négatif ou neutre. sés, ajoutés ou sous-
|
||
La classification avan- traits.
|
||
cée des sentiments 'au-
|
||
delà de la polarité' * WORDNET
|
||
examine, par exemple, Wordnet est une combi-
|
||
les états émotionnels naison d'un dictionnaire
|
||
tels que 'en colère', et d'un thésaurus qui
|
||
'triste' et 'heureux'. peut être lu par des ma-
|
||
L'analyse du sentiment chines. Selon Wikipédia,
|
||
est largement appliquée il a été créé dans le
|
||
aux actions des utilisa- Cognitive Science Labo-
|
||
teurs tels que les cri- ratory de l'Université
|
||
tiques et les réponses de Princeton à partir de
|
||
aux enquêtes, les com- 1985.
|
||
mentaires et les mes-
|
||
sages sur les médias so-
|
||
ciaux, et les documents
|
||
de santé. Elle est inté-
|
||
grée dans des applica-
|
||
tions qui vont du marke-
|
||
ting au service à la
|
||
clientèle, des transac-
|
||
tions boursières à la
|
||
médecine clinique.
|
||
|
||
* TF-IDF (TERM FREQUEN-
|
||
cy-Inverse Document Fre-
|
||
quency)
|
||
55
|
||
◠ humans learn with machines ◠ ◠ machines learn from machines ◟ ◝ machines learn with humans ◠ ◟
|
||
humans learn from machines ◝ ◟ machines learn with machines ◟ ◞ machines learn from humans ◞ ◡
|
||
humans learn with humans ◝ ◞ humans learn from humans ◡ ◠ humans learn with machines ◞ ◟ mac
|
||
ines learn from machines ◝ ◟ machines learn with humans ◟ ◝ humans learn from machines ◡ ◠
|
||
achines learn with machines ◞ ◠ machines learn from humans ◠ ◜ humans learn with humans ◡ ◜
|
||
humans learn from humans ◡ ◡ humans learn with machines ◠ ◠ machines learn from machines ◠
|
||
machines learn with humans ◟ ◟ humans learn from machines ◟ ◜ machines learn with machines ◝
|
||
◝ machines learn from humans ◡ ◡ humans learn with humans ◝ ◟ humans learn from humans ◟
|
||
◜ humans learn with machines ◠ ◡ machines learn from machines ◡ ◝ machines learn with humans
|
||
◞ ◟ humans learn from machines ◡ ◜ machines learn with machines ◡ ◝ machines learn from
|
||
umans ◜ ◞ humans learn with humans ◡ ◞ humans learn from humans ◝ ◟ humans learn with ma
|
||
hines ◡ ◟ machines learn from machines ◜ ◟ machines learn with humans ◞ ◟ humans learn f
|
||
om machines ◟ ◟ machines learn with machines ◟ ◝ machines learn from humans ◠ ◠ humans l
|
||
arn with humans ◞ ◝ humans learn from humans ◟ ◠ humans learn with machines ◟ ◟ machines
|
||
learn from machines ◝ ◞ machines learn with humans ◡ ◞ humans learn from machines ◝ ◠ ma
|
||
hines learn with machines ◠ ◞ machines learn from humans ◜ ◝ humans learn with humans ◠
|
||
humans learn from humans ◜ ◡ humans learn with machines ◟ ◜ machines learn from machines ◠
|
||
◝ machines learn with humans ◡ ◡ humans learn from machines ◠ ◡ machines learn with machines
|
||
◟ ◝ machines learn from humans ◠ ◜ humans learn with humans ◞ ◜ humans learn from human
|
||
◠ ◜ humans learn with machines ◡ ◜ machines learn from machines ◟ ◡ machines learn w
|
||
th humans ◠ ◟ humans learn from machines ◜ ◠ machines learn with machines ◝ ◜ machine
|
||
learn from humans ◡ ◞ humans learn with humans ◝ ◠ humans learn from humans ◟ ◠ huma
|
||
s learn with machines ◡ ◡ machines learn from machines ◟ ◟ machines learn with humans ◡
|
||
◜ humans learn from machines ◜ ◝ machines learn with machines ◞ ◞ machines learn from human
|
||
◠ ◠ humans learn with humans ◟ ◠ humans learn from humans ◟ ◞ humans learn with mach
|
||
nes ◞ ◝ machines learn from machines ◠ ◜ machines learn with humans ◜ ◠ humans learn
|
||
rom machines ◞ ◝ machines learn with machines ◜ ◜ machines learn from humans ◟ ◟ huma
|
||
s learn with humans ◠ ◟ humans learn from humans ◟ ◞ humans learn with machines ◞ ◜ m
|
||
chines learn from machines ◞ ◠ machines learn with humans ◞ ◝ humans learn from machines ◞
|
||
◟ machines learn with machines ◝ ◝ machines learn from humans ◞ ◝ humans learn with huma
|
||
s ◜ ◠ humans learn from humans ◡ ◟ humans learn with machines ◡ ◟ machines learn from
|
||
machines ◡ ◠ machines learn with humans ◜ ◟ humans learn from machines ◟ ◟ machines l
|
||
arn with machines ◞ ◞ machines learn from humans ◟ ◡ humans learn with humans ◟ ◟ hum
|
||
ns learn from humans ◡ ◜ humans learn with machines ◞ ◝ machines learn from machines ◡
|
||
◟ machines learn with humans ◜ ◞ machines learn with humans ◜ ◞ machines learn from
|
||
machines ◠ ◡ humans learn with machines ◝ ◝ humans learn from humans ◡ ◟ humans learn
|
||
with humans ◟ ◠ machines learn from humans ◟ ◜ machines learn with machines ◜ ◝ human
|
||
learn from machines ◜ ◡ machines learn with humans ◜ ◠ machines learn from machines ◟
|
||
◠ humans learn with machines ◟ ◞ humans learn from humans ◠ ◝ humans learn with humans ◠
|
||
◞ machines learn from humans ◠ ◡ machines learn with machines ◞ ◜ humans learn from machi
|
||
es ◞ ◟ machines learn with humans ◠ ◟ machines learn from machines ◡ ◞ humans learn w
|
||
th machines ◜ ◜ humans learn from humans ◟ ◟ humans learn with humans ◟ ◠ machines le
|
||
rn from humans ◟ ◞ machines learn with machines ◝ ◞ humans learn from machines ◝ ◡ ma
|
||
hines learn with humans ◠ ◟ machines learn from machines ◜ ◟ humans learn with machines ◟
|
||
◠ humans learn from humans ◜ ◞ humans learn with humans ◜ ◠ machines learn from humans ◜
|
||
◜ machines learn with machines ◟ ◜ humans learn from machines ◟ ◟ machines learn with
|
||
umans ◡ ◞ machines learn from machines ◠ ◜ humans learn with machines ◡ ◜ humans lear
|
||
from humans ◞ ◜ humans learn with humans ◠ ◜ machines learn from humans ◞ ◝ machines
|
||
learn with machines ◡ ◡ humans learn from machines ◟ ◜ machines learn with humans ◠ ◡
|
||
machines learn from machines ◝ ◝ humans learn with machines ◟ ◠ humans learn from humans ◝
|
||
◡ humans learn with humans ◡ ◡ machines learn from humans ◠ ◜ machines learn with machines
|
||
◟ ◞ humans learn from machines ◜ ◞ machines learn with humans ◝ ◞ machines learn from ma
|
||
hines ◞ ◝ humans learn with machines ◝ ◡ humans learn from humans ◡ ◞ humans learn with
|
||
umans ◠ ◞ machines learn from humans ◟ ◝ machines learn with machines ◠ ◠ humans learn f
|
||
om machines ◞ ◜ machines learn with humans ◟ ◜ machines learn from machines ◜ ◝ humans l
|
||
arn with machines ◝ ◡ humans learn from humans ◠ ◜ humans learn with humans ◝ ◡ machines
|
||
learn from humans ◜ ◜ machines learn with machines ◞ ◞ humans learn from machines ◜ ◟ ma
|
||
hines learn with humans ◜ ◟ machines learn from machines ◟ ◡ humans learn with machines ◠
|
||
◠ humans learn from humans ◡ ◟ humans learn with humans ◜ ◞ machines learn from humans ◟
|
||
◟ machines learn with machines ◜ ◠ humans learn from machines ◟ ◠ machines learn with humans ◟
|
||
◜ machines learn from machines ◟ ◟ humans learn with machines ◞ ◠ humans learn from huma
|
||
s ◡ ◞ humans learn with humans ◞ ◞ machines learn from humans ◠ ◝ machines learn with ma
|
||
hines ◟ ◟ humans learn from machines ◟ ◠ machines learn with humans ◠ ◞ machines learn from
|
||
machines ◝ ◠ humans learn with machines ◟ ◜ humans learn from humans ◟ ◟ humans learn with
|
||
umans ◡ ◟ machines learn from humans ◞ ◝ machines learn with machines ◜ ◟ humans learn from
|
||
machines ◝ ◜ machines learn with humans ◞ ◡ machines learn from machines ◜ ◜ humans learn w
|
||
th machines ◝ ◠ humans learn from humans ◞ ◞ humans learn with humans ◠ ◜ machines learn from
|
||
humans ◠ ◜ machines learn with machines ◟ ◠ humans learn from machines ◝ ◡ machines learn with
|
||
|
||
|