diff --git a/.gitignore b/.gitignore index 4bae5a6..cd4c22c 100644 --- a/.gitignore +++ b/.gitignore @@ -1 +1 @@ -*/__pycache__ +*__pycache__* diff --git a/create_all.py b/create_all.py index a31b3f4..2731526 100644 --- a/create_all.py +++ b/create_all.py @@ -64,7 +64,7 @@ else: out += create_cover('data_workers', language, steps=1) # Insert counters page -out += insert_counters_page() +out += sinus_jj() # Tmp elements to save content that is outside the section tags about = '' @@ -128,9 +128,9 @@ for element in soup.body.section.contents: # Add extra pages, to make sure the new zones always start on the right page if zone.lower() == 'oracles': - out += insert_counters_page() + out += sinus_jj() if zone.lower() == 'readers' or zone.lower() == 'lecteurs': - out += insert_counters_page() + out += sinus_jj() # Add zone cover cover = create_cover(zone.lower(), language, steps=1) diff --git a/data-workers.en.manual-edit.txt b/data-workers.en.manual-edit.txt new file mode 100644 index 0000000..20c5d28 --- /dev/null +++ b/data-workers.en.manual-edit.txt @@ -0,0 +1,3640 @@ +data workers write, perform, clean, inform, read and learn data workers write, perform, clean, inform, read +nd learn data workers write, perform, clean, inform, read and learn data workers write, perform, clean, +nform, read and learn data workers write, perform, clean, inform, read and learn data workers write, +perform, clean, inform, read and learn data workers write, perform, clean, inform, read and learn + data workers write, perform, clean, inform, read and learn data workers write, perform, clean, infor +, read and learn data workers write, perform, clean, inform, read and learn data workers w +ite, perform, clean, inform, read and learn data workers write, perform, clean, inform, read and l +arn data workers write, perform, clean, inform, read and learn data workers write, p +rform, clean, inform, read and learn data workers write, perform, clean, inform, read and learn + data workers write, perform, clean, inform, read and learn data workers write, +perform, clean, inform, read and learn data workers write, perform, clean, inform, read and +earn data workers write, perform, clean, inform, read and learn data wor +ers write, perform, clean, inform, read and learn data workers write, perform, clean, inf +rm, read and learn data workers write, perform, clean, inform, read and learn + data workers write, perform, clean, inform, read and learn data workers wri +e, perform, clean, inform, read and learn data workers write, perform, clean, inform, +read and learn data workers write, perform, clean, inform, read and learn + data workers write, perform, clean, inform, read and learn data wor +ers write, perform, clean, inform, read and learn data workers write, perform, cl +an, inform, read and learn data workers write, perform, clean, inform, read and +earn data workers write, perform, clean, inform, read and learn + data workers write, perform, clean, inform, read and learn dat + workers write, perform, clean, inform, read and learn data workers write, p +rform, clean, inform, read and learn data workers write, perform, clean, in +orm, read and learn data workers write, perform, clean, inform, read and l +arn data workers write, perform, clean, inform, read and learn + data workers write, perform, clean, inform, read and learn + data workers write, perform, clean, inform, read and learn + data workers write, perform, clean, inform, read and learn data work +rs write, perform, clean, inform, read and learn data workers write, +perform, clean, inform, read and learn data workers write, perform, +clean, inform, read and learn data workers write, perform, clean, +nform, read and learn data workers write, perform, clean, inform, +read and learn data workers write, perform, clean, inform, read +nd learn data workers write, perform, clean, inform, read and l +arn data workers write, perform, clean, inform, read and learn + data workers write, perform, clean, inform, read and learn + data workers write, perform, clean, inform, read and learn + data workers write, perform, clean, inform, read and learn + data workers write, perform, clean, inform, read and learn + data workers write, perform, clean, inform, read and learn + data workers write, perform, clean, inform, read and learn + data workers write, perform, clean, inform, read and learn + data workers write, perform, clean, inform, read and l +arn data workers write, perform, clean, inform, read +nd learn data workers write, perform, clean, inform, +read and learn data workers write, perform, clean, +nform, read and learn data workers write, perform, +clean, inform, read and learn data workers write, +perform, clean, inform, read and learn data work +rs write, perform, clean, inform, read and learn + data workers write, perform, clean, inform, read and learn + data workers write, perform, clean, inform, read and learn + data workers write, perform, clean, inform, read and learn + data workers write, perform, clean, inform, read and learn + + + What + can + humans learn from humans + humans learn with machines +machines learn from machines +machines learn with humans + humans learn from machines +machines learn with machines +machines learn from humans + humans learn with humans + ? ? ? + +Data Workers, an exhibition at the Mundaneum in Mons from 28 March until 28 April 2019. +0 12 3 4 5 67 8 9 0 + 12 3 4 5 67 8 9 0 12 + 3 4 5 67 8 9 0 1 2 + 3 4 5 6 7 8 9 0 1 2 3 + 4 56 7 8 9 01 2 3 + 4 56 7 8 9 01 2 3 + 4 56 7 8 9 01 2 3 + 4 56 7 8 9 0 1 2 3 4 + 5 6 7 8 9 0 1 2 3 45 6 + 7 8 90 1 2 3 45 6 + 7 8 90 1 2 3 45 6 + 7 8 90 1 2 3 4 5 6 + 7 8 9 0 1 2 3 4 5 6 + 7 89 0 1 2 34 5 6 + 7 89 0 1 2 34 5 6 + 7 89 0 1 2 34 5 6 7 +89 0 1 2 3 4 5 6 7 8 9 + 0 1 2 3 4 5 6 78 9 + 0 1 23 4 5 6 78 9 0 + 1 23 4 5 6 78 9 0 + 1 23 4 5 6 78 9 0 + 1 2 3 4 5 6 7 8 9 0 + 1 2 3 4 5 67 8 9 0 12 + 3 4 5 67 8 9 0 12 + 3 4 5 67 8 9 0 12 3 + 4 5 6 7 8 9 0 1 2 3 + 4 5 6 7 8 9 01 2 3 + 4 56 7 8 9 01 2 3 + 4 56 7 8 9 01 2 3 + 4 56 7 8 9 01 2 3 4 + 5 6 7 8 9 0 1 2 3 4 5 6 + 7 8 90 1 2 3 45 6 + 7 8 90 1 2 3 45 6 + 7 8 90 1 2 3 45 6 + 7 8 90 1 2 3 4 5 6 7 + 8 9 0 1 2 3 4 5 6 7 + 89 0 1 2 34 5 6 7 +89 0 1 2 34 5 6 7 89 + 0 1 2 34 5 6 7 8 9 + 0 1 2 3 4 5 6 7 8 9 +0 1 23 4 5 6 78 9 0 + 1 23 4 5 6 78 9 0 + 1 23 4 5 6 78 9 0 + 1 23 4 5 6 7 8 9 0 + 1 2 3 4 5 6 7 8 9 0 12 3 + 4 5 67 8 9 0 12 3 + 4 5 67 8 9 0 12 3 + 4 5 67 8 9 0 12 3 + 4 5 6 7 8 9 0 1 2 3 + 4 5 6 7 8 9 01 2 3 4 + 56 7 8 9 01 2 3 4 + 56 7 8 9 01 2 3 4 5 +6 7 8 9 0 1 2 3 4 5 6 + 7 8 9 0 1 2 3 45 6 + 7 8 90 1 2 3 45 6 + 7 8 90 1 2 3 45 6 +7 8 90 1 2 3 45 6 7 + 8 9 0 1 2 3 4 5 6 7 + 8 9 0 1 2 34 5 6 7 89 + 0 1 2 34 5 6 7 89 0 + 1 2 34 5 6 7 89 0 + 1 2 34 5 6 7 8 9 0 + 1 2 3 4 5 6 7 8 9 0 + 1 23 4 5 6 78 9 0 + 1 23 4 5 6 78 9 0 + 1 23 4 5 6 78 9 0 1 + 2 3 4 5 6 7 8 9 0 1 2 3 + 4 5 67 8 9 0 12 3 + 4 5 67 8 9 0 12 3 + 2 +ABOUT AT THE MUNDANEUM + +Data Workers is an exhibition of algoliterary works, of stories In the late nineteenth century two young +told from an ‘algorithmic storyteller point of view’. The exhibi- Belgian jurists, Paul Otlet (1868–1944), +tion was created by members of Algolit, a group from Brussels in- the 'father of documentation’, and Henri +volved in artistic research on algorithms and literature. Every La Fontaine (1854-1943), statesman and +month they gather to experiment with F/LOSS code and texts. Some Nobel Peace Prize winner, created the +works are by students of Arts² and external participants to the Mundaneum. The project aimed to gather +workshop on machine learning and text organized by Algolit in Oc- all the world’s knowledge and to file it +tober 2018 at the Mundaneum. using the Universal Decimal Classifica- + tion (UDC) system that they had invent- +Companies create artificial intelligence (AI) systems to serve, ed. At first it was an International In- +entertain, record and learn about humans. The work of these ma- stitutions Bureau dedicated to interna- +chinic entities is usually hidden behind interfaces and patents. tional knowledge exchange. In the twen- +In the exhibition, algorithmic storytellers leave their invisible tieth century the Mundaneum became a +underworld to become interlocutors. The data workers operate in universal centre of documentation. Its +different collectives. Each collective represents a stage in the collections are made up of thousands of +design process of a machine learning model: there are the Writ- books, newspapers, journals, documents, +ers, the Cleaners, the Informants, the Readers, the Learners and posters, glass plates and postcards in- +the Oracles. The boundaries between these collectives are not dexed on millions of cross-referenced +fixed; they are porous and permeable. At times, Oracles are also cards. The collections were exhibited +Writers. At other times Readers are also Oracles. Robots voice and kept in various buildings in Brus- +experimental literature, while algorithmic models read data, turn sels, including the Palais du Cinquante- +words into numbers, make calculations that define patterns and naire. The remains of the archive only +are able to endlessly process new texts ever after. moved to Mons in 1998. + +The exhibition foregrounds data workers who impact our daily Based on the Mundaneum, the two men de- +lives, but are either hard to grasp and imagine or removed from signed a World City for which Le Corbu- +the imagination altogether. It connects stories about algorithms sier made scale models and plans. The +in mainstream media to the storytelling that is found in techni- aim of the World City was to gather, +cal manuals and academic papers. Robots are invited to engage in at a global level, the institutions of +dialogue with human visitors and vice versa. In this way we might knowledge: libraries, museums and uni- +understand our respective reasonings, demystify each other's be- versities. This project was never rea- +haviour, encounter multiple personalities, and value our collec- lized. It suffered from its own utopia. +tive labour. It is also a tribute to the many machines that Paul The Mundaneum is the result of a visio- +Otlet and Henri La Fontaine imagined for their Mundaneum, showing nary dream of what an infrastructure for +their potential but also their limits. universal knowledge exchange could be. + It attained mythical dimensions at the +--- time. When looking at the concrete ar- + chive that was developed, that collec- +Data Workers was created by Algolit. tion is rather eclectic and specific. + +Works by: Cristina Cochior, Gijs de Heij, Sarah Garcin, Artificial intelligence systems today +AnMertens, Javier Lloret, Louise Dekeuleneer, Florian Van de Weyer, come with their own dreams of universal- +Laetitia Trozzi, Rémi Forte, Guillaume Slizewicz, ity and knowledge production. When read- +Michael Murtaugh, Manetta Berends, Mia Melvær. ing about these systems, the visionary + dreams of their makers were there from +Co-produced by: Arts², Constant and Mundaneum. the beginning of their development in + the 1950s. Nowadays, their promise has +With the support of: Wallonia-Brussels Federation/Digital Arts, also attained mythical dimensions. When +Passa Porta, UGent, DHuF - Digital Humanities Flanders and looking at their concrete applications, +Distributed Proofreaders Project. the collection of tools is truly innova- + tive and fascinating, but at the same +Thanks to: Mike Kestemont, Michel Cleempoel, Donatella Portoghese, time, rather eclectic and specific. For +François Zajéga, Raphaèle Cornille, Vincent Desfromont, Data Workers, Algolit combined some of +Kris Rutten, Anne-Laure Buisson, David Stampfli. the applications with 10 per cent of the + digitized publications of the Interna- + tional Institutions Bureau. In this way, + we hope to poetically open up a discus- + sion about machines, algorithms, and + technological infrastructures. + + + + + + + + + 3 + CONTEXTUAL STORIES + ABOUT ALGOLIT + + + + --- Why contextual stories? --- spread by the media, often limited to superficial + reporting and myth-making. By creating algoliter- + During the monthly meetings of Algolit, we study ary works, we offer humans an introduction to + manuals and experiment with machine learning tools techniques that co-shape their daily lives. + for text processing. And we also share many, many + stories. With the publication of these stories we + hope to recreate some of that atmosphere. The sto- --- What is literature? --- +ries also exist as a podcast that can be down- +loaded from http://www.algolit.net. Algolit understands the notion of literature in + the way a lot of other experimental authors do: it + For outsiders, algorithms only become visible in includes all linguistic production, from the dic- + the media when they achieve an outstanding perfor- tionary to the Bible, from Virginia Woolf's entire + mance, like Alpha Go, or when they break down in work to all versions of the Terms of Service pub- + fantastically terrifying ways. Humans working in lished by Google since its existence. In this + the field though, create their own culture on and sense, programming code can also be literature. + offline. They share the best stories and experi- + ences during live meetings, research conferences The collective Oulipo is a great source of inspi- + and annual competitions like Kaggle. These stories ration for Algolit. Oulipo stands for Ouvroir de + that contextualize the tools and practices can be litterature potentielle (Workspace for Potential + funny, sad, shocking, interesting. Literature). Oulipo was created in Paris by the + French writers Raymond Queneau and François Le +A lot of them are experiential learning cases. The Lionnais. They rooted their practice in the Euro- +implementations of algorithms in society generate pean avant-garde of the twentieth century and in +new conditions of labour, storage, exchange, be- the experimental tradition of the 1960s. + haviour, copy and paste. In that sense, the con- + textual stories capture a momentum in a larger an- For Oulipo, the creation of rules becomes the con- + thropo-machinic story that is being written at dition to generate new texts, or what they call + full speed and by many voices. potential literature. Later, in 1981, they also + created ALAMO, Atelier de littérature assistée par + la mathématique et les ordinateurs (Workspace for + --- We create 'algoliterary' works --- literature assisted by maths and computers). + + The term 'algoliterary' comes from the name of our + research group Algolit. We have existed since 2012 --- An important difference --- + as a project of Constant, a Brussels-based organi- +zation for media and the arts. We are artists, While the European avant-garde of the twentieth +writers, designers and programmers. Once a month century pursued the objective of breaking with +we meet to study and experiment together. Our work conventions, members of Algolit seek to make con- + can be copied, studied, changed, and redistributed ventions visible. + under the same free license. You can find all the + information on: http://www.algolit.net. 'I write: I live in my paper, I invest it, I walk + through it.' (Espèces d'espaces. Journal d'un us- + The main goal of Algolit is to explore the view- ager de l'espace, Galilée, Paris, 1974) + point of the algorithmic storyteller. What new + forms of storytelling do we make possible in dia- This quote from Georges Perec in Espèces d'espaces + logue with these machinic agencies? Narrative could be taken up by Algolit. We're not talking + viewpoints are inherent to world views and ideolo- about the conventions of the blank page and the + gies. Don Quixote, for example, was written from literary market, as Georges Perec was. We're re- + an omniscient third-person point of view, showing ferring to the conventions that often remain hid- +Cervantes’ relation to oral traditions. Most con- den behind interfaces and patents. How are tech- +temporary novels use the first-person point of nologies made, implemented and used, as much in +view. Algolit is interested in speaking through academia as in business infrastructures? + algorithms, and in showing you the reasoning un- + derlying one of the most hidden groups on our We propose stories that reveal the complex hy- + planet. bridized system that makes machine learning possi- + ble. We talk about the tools, the logics and the + To write in or through code is to create new forms ideologies behind the interfaces. We also look at + of literature that are shaping human language in who produces the tools, who implements them, and + unexpected ways. But machine Learning techniques who creates and accesses the large amounts of data + are only accessible to those who can read, write needed to develop prediction machines. One could + and execute code. Fiction is a way of bridging the say, with the wink of an eye, that we are collabo- + gap between the stories that exist in scientific rators of this new tribe of human-robot hybrids. + papers and technical manuals, and the stories + + 4 +writers write writers write writers write writers write writers write writers write writ +rs write writers write writers write writers write writers write +writers write writers write writers write writers write +writers write writers write writers write writers write + writers write writers write writers write + writers write writers write writers write + writers write writers write writers write + writers write writers write + writers write writers write writers write + writers write writers write + writers write writers write + writers write writers write + writers write writers write + writers write writers write + writers write writers write + writers write writers write + writers write writers write + writers write writ +rs write writers write + writers write writers write + writers write +writers write writers write + writers write writer + write writers write + writers write writ +rs write writers write + writers write + writers write writers write + writers write + writers write w +iters write writers write + writers write + writers write + writers write writers write + writers write + writers write + writers write + writers write writer + write writers write + writers write + writers write + writers write + writers write + writers write + writers write writ +rs write writers write + writers write + writers write + writers write + writers write + writers write + writers write + writers write + writers write + writers write + writers write + writers write + writers write + writers write + writers write + writers write + writers write + writers write + writers write + writers write + writers write + writers write + writers write + writers write + 5 + 86ncrg k en3 a ioi-t i i l1 e i +-+-+-+-+-+-+-+ a +-+-+-+-+-+ l 9 t7ccpI46ed6t o w 7e a5o3 - + el, e 7 nh 71 e 5 4 3 4 |w|r|i|t|e|r|s| i |w|r|i|t|e| daml su h i e1 ww A l e59se a 5o wl + amlt t s w tlo n r 7a o9 +-+-+-+-+-+-+-+ ta +-+-+-+-+-+ hw t o4e e n,o32r , wd2 eo re 67n r + o1ife tt s 38 nt l 74 o 7 5i oda 65 ei r 9 7 n 5 n1r m l ot a51 e 3ma, 14swn 7 r r + b o i 3 se2 rceit ne a ki r 8 1iw3s n an t 8 8 r ra bn 1 eue r t4a r sT r phe o + e 6e6 7h5orir de6 1 +-+-+-+-+ +-+-+-+-+-+-+-+ t u +-+-+-+-+ 1 8 97o e c 4 d 8 h 7 z o a c4 + w as 3r 17r p ai |d|a|t|a| |w|o|r|k|e|r|s| |w|o|r|k| 6 r6v56 4 2i7 e tu1 r9 w 5 8 + 52 1 wi r 4hn G +-+-+-+-+ +-+-+-+-+-+-+-+ n +-+-+-+-+ nr 4 21 n raa2 Pn9 h + a ca3 adw sara +-+-+-+-+ +-+-+-+-+-+-+-+ +-+-+-+-+-+ 9 e9na y tt c 7 6 .cbieas + u e 5m b t3r 4 46 |m|a|n|y| |a|u|t|h|o|r|s| u |w|r|i|t|e| 4 4 yff , th t e + 6 2 6vo nn s +-+-+-+-+ +-+-+-+-+-+-+-+ m +-+-+-+-+-+ i 4 1 W1 n r8 - 1 g7 + 4n +-+-+-+-+-+ +-+-+-+-+-+ +-+-+-+-+-+ 8 1n e 6l v5c a + r 4 1 |e|v|e|r|y| |h|u|m|a|n| |b|e|i|n|g| n5 asr e 7l h 7 u , k o 2 r +e h r h +-+-+-+-+-+ +-+-+-+-+-+ +-+-+-+-+-+ 65 3 1 t w er e3 5 1en e i + 4 o c +-+-+-+ +-+-+-+ +-+-+-+-+-+-+ +-+-+ u 6d7 r tm , t l se t i 1 + t fc |w|h|o| |h|a|s| |a|c|c|e|s|s| |t|o| e 69 t n 1 k 4 1 +e n +-+-+-+ +-+-+-+ +-+-+-+-+-+-+ +-+-+ ie 62i 2 t tn 7 t on o e + 1 l , +-+-+-+ +-+-+-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+-+ a 9 , 9 + 9 w r |t|h|e| |i|n|t|e|r|n|e|t| |i|n|t|e|r|a|c|t|s| r i i tr h u f + m i m 5 +-+-+-+ +-+-+-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+-+ 6 T c 5 w 6 i d T + 7 5 l i os +-+-+ +-+-+-+-+-+ +-+-+-+-+-+-+ s m + w s r6 n |w|e| t |c|h|a|t|,| |w|r|i|t|e|,| 6 rrf + e 2 6 , p oe +-+-+ o +-+-+-+-+-+ +-+-+-+-+-+-+ r + e s 4 e p y 9 i +-+-+-+-+-+-+ +-+-+-+-+ +-+-+-+ r / + e s 6 e |c|l|i|c|k|,| |l|i|k|e| |a|n|d| tw r6 t ai + 3 8 28 a n e 8 +-+-+-+-+-+-+ +-+-+-+-+ +-+-+-+ r4 7 + e n h t 5 n +-+-+-+-+-+ n + 3 9 f c |s|h|a|r|e| p + l 5 9 +-+-+-+-+-+ d + 7 1 +-+-+ +-+-+-+-+-+ +-+-+-+ +-+-+-+-+ t 5 + r 2 2 e |w|e| |l|e|a|v|e| |o|u|r| |d|a|t|a| n3 i , + d t 8 a 9 +-+-+ 1 +-+-+-+-+-+ +-+-+-+ +-+-+-+-+ t + 7 +-+-+ +-+-+-+-+ +-+-+-+-+-+-+-+-+-+ + 7 t e |w|e| |f|i|n|d| |o|u|r|s|e|l|v|e|s| 6 + y s 8 8 +-+-+ 7 +-+-+-+-+ +-+-+-+-+-+-+-+-+-+ n e + r 1 +-+-+-+-+-+-+-+ +-+-+ +-+-+-+-+-+-+ e + a 2 t |w|r|i|t|i|n|g| |i|n| |P|y|t|h|o|n| + 5 3 d +-+-+-+-+-+-+-+ +-+-+ +-+-+-+-+-+-+ r + +-+-+-+-+ +-+-+-+-+-+-+ e + |s|o|m|e| |n|e|u|r|a|l| 4 a + k n +-+-+-+-+ +-+-+-+-+-+-+ z + or 3 w +-+-+-+-+-+-+-+-+ +-+-+-+-+-+ + 1 1 |n|e|t|w|o|r|k|s| c |w|r|i|t|e| 1 9 + s n +-+-+-+-+-+-+-+-+ +-+-+-+-+-+ e a + g +-+-+-+-+-+ +-+-+-+-+-+-+-+ +-+-+-+-+-+-+ t + |h|u|m|a|n| |e|d|i|t|o|r|s| |a|s|s|i|s|t| n , o + 8 +-+-+-+-+-+ +-+-+-+-+-+-+-+ +-+-+-+-+-+-+ a + +-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+-+-+-+ 4 + |p|o|e|t|s|,| |p|l|a|y|w|r|i|g|h|t|s| i7 + t +-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+-+-+-+ t c k y + v +-+-+ +-+-+-+-+-+-+-+-+-+ o +-+-+-+-+-+-+ + |o|r| |n|o|v|e|l|i|s|t|s| |a|s|s|i|s|t| 4 2 9 + r +-+-+ +-+-+-+-+-+-+-+-+-+ +-+-+-+-+-+-+ 7 6 + u r e + , R + 6 6 + t + s + 3 g 6 4 + + c e t 2 + 3 h 8 + D 4 + a + n o - + w 5 e 3 n e 3 + 3 + e + + 6 + V V V % V % V % V V V % % %% % %% % %% % % % % % % + V V V V V V V V V V V V V V V V % % 0 %% 0 % %% % % % % % +V V V V V V % V V V % % % % % % 0 % 00 % % 0 % + % %% % 0 0 %% % % ___ _ %% % 0 % + % % % % / \__ _| |_ __ _ + WRITERS % % % / /\ / _` | __/ _` | 0 0 % % + % % % % / /_// (_| | || (_| | % % % % + % 0 0 00 /___,' \__,_|\__\__,_| 0 + V V V V % V V V % V 0 __ __ _ + V V V V V V V V V V V V V V V V 0 0 / / /\ \ \___ _ __| | _____ _ __ ___ 0 0 % +V V V V % V V V V V \ \/ \/ / _ \| '__| |/ / _ \ '__/ __| + V V V V V V V V 0 0 0 \ /\ / (_) | | | < __/ | \__ \ 0 + V V V V V V V V V V V V V V V V \/ \/ \___/|_| |_|\_\___|_| |___/ % % +V V V % V V V V V V 0 ___ _ _ _ 0 0 0 _ _ 0 % + % / _ \_ _| |__ | (_) ___ __ _| |_(_) ___ _ __ % +Data workers need data to work 0 / /_)/ | | | '_ \| | |/ __/ _` | __| |/ _ \| '_ \ +with. The data that used in the % / ___/| |_| | |_) | | | (_| (_| | |_| | (_) | | | | +context of Algolit is written lan- 0 \/ \__,_|_.__/|_|_|\___\__,_|\__|_|\___/|_| |_| +guage. Machine learning relies on 0 0 % 0 % % +many types of writing. Many authors +write in the form of publications, By Algolit +such as books or articles. These % % +are part of organized archives and All works visible in the exhibition, as well as the contextual +are sometimes digitized. But there stories and some extra text material have been collected in +are other kinds of writing too. We this publication, which exists in French and English. +could say that every human being +who has access to the Internet is a This publication is made using a plain text workflow, based on +writer each time they interact with various text processing and counting tools. The plain text file +algorithms. We chat, write, click, format is a type of document in which there is no inherent struc- +like and share. In return for free tural difference between headers and paragraphs anymore. It is +services, we leave our data that is the most used type of document in machine learning models for +compiled into profiles and sold for text. This format has been the starting point of a playful design +advertising and research purposes. process, where pages are carefully counted, page by page, line by + line and character by character. % +Machine learning algorithms are not % +critics: they take whatever they're Each page holds 110 characters per line and 70 lines per page. +given, no matter the writing style, The design originates from the act of counting words, spaces and +no matter the CV of the author, no lines. It plays with random choices, scripted patterns and +matter the spelling mistakes. In ASCII/UNICODE-fonts, to speculate about the materiality of digi- +fact, mistakes make it better: the tal text and to explore the interrelations between counting and +more variety, the better they learn writing through words and numbers. +to anticipate unexpected text. But +often, human authors are not aware --- % +of what happens to their work. + Texts: Cristina Cochior, Sarah Garcin, Gijs de Heij, An Mertens, +Most of the writing we use is in François Zajéga, Louise Dekeuleneer, Florian Van de Weyer, +English, some in French, some in Laetitia Trozzi, Rémi Forte, Guillaume Slizewicz. +Dutch. Most often we find ourselves +writing in Python, the programming Translations & proofreading: deepl.com, Michel Cleempoel, +language we use. Algorithms can be % Elodie Mugrefya, Emma Kraak, Patrick Lennon. +writers too. Some neural networks +write their own rules and generate Lay-out & cover: Manetta Berends +their own texts. And for the models https://git.vvvvvvaria.org/mb/data-workers-publication +that are still wrestling with the +ambiguities of natural language, Font: GNU Unifont, OGRE +there are human editors to assist Printer: PrinterPro, Rotterdam +them. Poets, playwrights or novel- Paper: Glossy MC 90gr +ists start their new careers as as- +sistants of AI. Responsible publisher: Constant vzw/asbl + Rue du Fortstraat 5, 1060 Brussels + + License: Algolit, Data Workers, March 2019, Brussels. + Copyleft: This is a free work, you can copy, distribute, + and modify it under the terms of the Free Art License. + http://artlibre.org/licence/lal/en/ + + Online version: http://www.algolit.net/index.php/Data_Workers + Sources: https://gitlab.constantvzw.org/algolit/mundaneum + + 7 + % % % % % %%% % % 0 % 00 % % 0 %% + % % 0 ___ _ 0 0 + % % % % % / \__ _| |_ __ _ 0 % % + %%% % %% % % % % % % / /\ / _` | __/ _` | % % 0 % + % % % % % % / /_// (_| | || (_| | % % % % % + % %%% % % 00 /___,' \__,_|\__\__,_| % 0 % % % % % + % __ % __ 0 % _ 0 % % % % + % % 0 / / /\ \ \___ _ __| | _____ _ __ ___ % % + % % % % % % \ \/ \/ / _ \| '__| |/ / _ \ '__/ __| + % 0 \ /\ / (_) | | | < __/ | \__ \ 0 % + % 0 \/ \/ \___/|_| |_|\_\___|_| |___/ + % % 0 % ___ _ _ % + % % 0 / _ \___ __| | ___ __ _ ___| |_ 0 + % 0 0 / /_)/ _ \ / _` |/ __/ _` / __| __| + % % 0 0 / ___/ (_) | (_| | (_| (_| \__ \ |_ + % 0 \/ \___/ \__,_|\___\__,_|___/\__| % + 0 0 0 0 0 0 % + % + % By Algolit % + % % % + % During our monthly Algolit meetings, we study manuals and experi- + ment with machine learning tools for text processing. And we also + share many, many stories. With this podcast we hope to recreate + some of that atmosphere. + % % + For outsiders, algorithms only become visible in the media when + they achieve an outstanding performance, like Alpha Go, or when + they break down in fantastically terrifying ways. Humans working + in the field though, create their own culture on and offline. + They share the best stories and experiences during live meetings, + research conferences and annual competitions like Kaggle. These + % stories that contextualize the tools and practises can be funny, + sad, shocking, interesting. + + A lot of them are experiential learning cases. The implementa- + % % tions of algorithms in society generate new conditions of labour, + storage, exchange, behaviour, copy and paste. In that sense, the + contextual stories capture a momentum in a larger anthropo-ma- + chinic story that is being written at full speed and by many + voices. The stories are also published in this publication. + + + --- % + % % + % Voices: David Stampfli, Cristina Cochior, An Mertens, + Gijs de Heij, Karin Ulmer, Guillaume Slizewicz + + Editing: Javier Lloret + % + Recording: David Stampfli + + Texts: Cristina Cochior, An Mertens + + + + + + + + + + + + + + + + + + 8 + %% % % % 00 00 0 % % + % % % % % % 0 0 % % + % % %% % 0 0 _ _ _ %% + %%% %% % % % % % % %% /\/\ __ _ _ __| | _| |__ ___ | |_ + % % %% / \ / _` | '__| |/ / '_ \ / _ \| __| + % % % % % % / /\/\ \ (_| | | | 0 <| |_) | (_) | |_ % + % % %% \/ \/\__,_|_| |_|\_\_.__/ \___/ \__| + % % % ___ _ 0 0 _ 00 %%% + / __\ |__ __ _(_)_ __ ___ 0 + % %% 0 / / | '_ \ / _` | | '_ \/ __| % + 0 / /___| | | | (_| | | | | \__ \ + % % 0 \____/|_| |_|\__,_|_|_| |_|___/ 0 0 + %% 0 0 0 + %% % + By Florian Van de Weyer, student Arts²/Section Digital Arts + + Markbot Chain is a social experiment in which the public has a + % direct influence on the result. The intention is to integrate re- + sponses in a text-generation process without applying any filter. + % + All the questions in the digital files provided by the Mundaneum %% + were automatically extracted. These questions are randomly put to + the public via a terminal. By answering them, people contribute + to another database. Each entry generates a series of sentences + using a Markov chain configuration, an algorithm that is widely % + used in spam generation. The sentences generated in this way are + % displayed in the window, and a new question is asked. +% % % + % % % + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + 9 + CONTEXTUAL STORIES + ABOUT WRITERS + + + + --- Programmers are writing the only way to maintain trust is through consis- + the dataworkers into being --- tency. So when Cortana talks, you 'must use her + personality'. + We recently had a funny realization: most program- + mers of the languages and packages that Algolit What is Cortana's personality, you ask? + uses are European. + +Python, for example, the main language that is 'Cortana is considerate, +globally used for Natural Language Processing sensitive, and supportive. +(NLP), was invented in 1991 by the Dutch program- + mer Guido Van Rossum. He then crossed the Atlantic She is sympathetic but turns quickly to solutions. + and went from working for Google to working for + Dropbox. She doesn't comment on the user’s personal + information or behavior, particularly if + Scikit Learn, the open-source Swiss knife of ma- the information is sensitive. + chine learning tools, started as a Google Summer + of Code project in Paris by French researcher She doesn't make assumptions about what + David Cournapeau. Afterwards, it was taken on by the user wants, especially to upsell. + Matthieu Brucher as part of his thesis at the Sor- + bonne University in Paris. And in 2010, INRA, the She works for the user. She does not repre- + French National Institute for computer science and sent any company, service, or product. +applied mathematics, adopted it. + She doesn’t take credit or +Keras, an open-source neural network library writ- blame for things she didn’t do. + ten in Python, was developed by François Chollet, + a French researcher who works on the Brain team She tells the truth about her + at Google. capabilities and her limitations. + + Gensim, an open-source library for Python used to She doesn’t assume your physical capabilities, gen- + create unsupervised semantic models from plain der, age, or any other defining characteristic. + text, was written by Radim Řehůřek. He is a Czech + computer scientist who runs a consulting business She doesn't assume she knows + in Bristol, UK. how the user feels about something. + + And to finish up this small series, we also looked She is friendly but professional. +at Pattern, an often-used library for web-mining +and machine learning. Pattern was developed and She stays away from emojis in tasks. Period. +made open-source in 2012 by Tom De Smedt and Wal- + ter Daelemans. Both are researchers at CLIPS, the She doesn’t use culturally- or + research centre for Computational Linguistics and professionally-specific slang. + Psycholinguistcs at the University of Antwerp. + She is not a support bot.' + + --- Cortana speaks --- + Humans intervene in detailed ways to programme + AI assistants often need their own assistants: answers to questions that Cortana receives. How + they are helped in their writing by humans who in- should Cortana respond when she is being proposed + ject humour and wit into their machine-processed inappropriate actions? Her gendered acting raises + language. Cortana is an example of this type of difficult questions about power relations within +blended writing. She is Microsoft’s digital assis- the world away from the keyboard, which is being +tant. Her mission is to help users to be more pro- mimicked by technology. +ductive and creative. Cortana's personality has + been crafted over the years. It's important that Consider Cortana's answer to the question: + she maintains her character in all interactions - Cortana, who's your daddy? + with users. She is designed to engender trust and - Technically speaking, he’s Bill Gates. + her behavior must always reflect that. No big deal. + + The following guidelines are taken from Mi- + crosoft's website. They describe how Cortana's --- Open-source learning --- + style should be respected by companies that extend + her service. Writers, programmers and novelists, Copyright licenses close up a lot of the machinic + who develop Cortana's responses, personality and writing, reading and learning practices. That + branding have to follow these guidelines. Because means that they're only available for the employ- + + 10 + + + + + + ees of a specific company. Some companies partici- very definition, resists categorization. + pate in conferences worldwide and share their + knowledge in papers online. But even if they share References + their code, they often will not share the large Paper: https://hiphilangsci.net/2013/05/01/on-the- + amounts of data needed to train the models. history-of-the-question-of-whether-language + -is-illogical/ + We were able to learn to machine learn, read and + write in the context of Algolit, thanks to aca- Book: Neural Network Methods for Natural Language + demic researchers who share their findings in pa- Processing, Yoav Goldberg, Bar Ilan University, + pers or publish their code online. As artists, we April 2017. +believe it is important to share that attitude. +That's why we document our meetings. We share the +tools we make as much as possible and the texts we + use are on our online repository under free li- + censes. + + We are thrilled when our works are taken up by + others, tweaked, customized and redistributed, so + please feel free to copy and test the code from + our website. If the sources of a particular + project are not there, you can always contact us + through the mailinglist. You can find a link to + our repository, etherpads and wiki at: + http://www.algolit.net. + + +--- Natural language for + artificial intelligence --- + + Natural Language Processing (NLP) is a collective + term that refers to the automatic computational + processing of human languages. This includes algo- + rithms that take human-produced text as input, and + attempt to generate text that resembles it. We + produce more and more written work each year, and + there is a growing trend in making computer inter- + faces to communicate with us in our own language. + NLP is also very challenging, because human lan- +guage is inherently ambiguous and ever-changing. + +But what is meant by 'natural' in NLP? Some would + argue that language is a technology in itself. Ac- + cording to Wikipedia, 'a natural language or ordi- + nary language is any language that has evolved + naturally in humans through use and repetition + without conscious planning or premeditation. + Natural languages can take different forms, such + as speech or signing. They are different from con- + structed and formal languages such as those used + to program computers or to study logic. An offi- + cial language with a regulating academy, such as + Standard French with the French Academy, is clas- +sified as a natural language. Its prescriptive +points do not make it constructed enough to be +classified as a constructed language or controlled + enough to be classified as a controlled natural + language.' + + So in fact, 'natural languages' also includes lan- + guages which do not fit in any other group. NLP, + instead, is a constructed practice. What we are + looking at is the creation of a constructed lan- + guage to classify natural languages that, by their + + 11 +0 12 3 4 5 67 8 9 0 + 12 3 4 5 67 8 9 0 12 + 3 4 5 67 8 9 0 1 2 + 3 4 5 6 7 8 9 0 1 2 3 + 4 56 7 8 9 01 2 3 + 4 56 7 8 9 01 2 3 + 4 56 7 8 9 01 2 3 + 4 56 7 8 9 0 1 2 3 4 + 5 6 7 8 9 0 1 2 3 45 6 + 7 8 90 1 2 3 45 6 + 7 8 90 1 2 3 45 6 + 7 8 90 1 2 3 4 5 6 + 7 8 9 0 1 2 3 4 5 6 + 7 89 0 1 2 34 5 6 + 7 89 0 1 2 34 5 6 + 7 89 0 1 2 34 5 6 7 +89 0 1 2 3 4 5 6 7 8 9 + 0 1 2 3 4 5 6 78 9 + 0 1 23 4 5 6 78 9 0 + 1 23 4 5 6 78 9 0 + 1 23 4 5 6 78 9 0 + 1 2 3 4 5 6 7 8 9 0 + 1 2 3 4 5 67 8 9 0 12 + 3 4 5 67 8 9 0 12 + 3 4 5 67 8 9 0 12 3 + 4 5 6 7 8 9 0 1 2 3 + 4 5 6 7 8 9 01 2 3 + 4 56 7 8 9 01 2 3 + 4 56 7 8 9 01 2 3 + 4 56 7 8 9 01 2 3 4 + 5 6 7 8 9 0 1 2 3 4 5 6 + 7 8 90 1 2 3 45 6 + 7 8 90 1 2 3 45 6 + 7 8 90 1 2 3 45 6 + 7 8 90 1 2 3 4 5 6 7 + 8 9 0 1 2 3 4 5 6 7 + 89 0 1 2 34 5 6 7 +89 0 1 2 34 5 6 7 89 + 0 1 2 34 5 6 7 8 9 + 0 1 2 3 4 5 6 7 8 9 +0 1 23 4 5 6 78 9 0 + 1 23 4 5 6 78 9 0 + 1 23 4 5 6 78 9 0 + 1 23 4 5 6 7 8 9 0 + 1 2 3 4 5 6 7 8 9 0 12 3 + 4 5 67 8 9 0 12 3 + 4 5 67 8 9 0 12 3 + 4 5 67 8 9 0 12 3 + 4 5 6 7 8 9 0 1 2 3 + 4 5 6 7 8 9 01 2 3 4 + 56 7 8 9 01 2 3 4 + 56 7 8 9 01 2 3 4 5 +6 7 8 9 0 1 2 3 4 5 6 + 7 8 9 0 1 2 3 45 6 + 7 8 90 1 2 3 45 6 + 7 8 90 1 2 3 45 6 +7 8 90 1 2 3 45 6 7 + 8 9 0 1 2 3 4 5 6 7 + 8 9 0 1 2 34 5 6 7 89 + 0 1 2 34 5 6 7 89 0 + 1 2 34 5 6 7 89 0 + 1 2 34 5 6 7 8 9 0 + 1 2 3 4 5 6 7 8 9 0 + 1 23 4 5 6 78 9 0 + 1 23 4 5 6 78 9 0 + 1 23 4 5 6 78 9 0 1 + 2 3 4 5 6 7 8 9 0 1 2 3 + 4 5 67 8 9 0 12 3 + 4 5 67 8 9 0 12 3 + 12 +oracles predict oracles predict oracles predict oracles predict oracles predict oracles predic + oracles predict oracles predict oracles predict oracles predict orac +es predict oracles predict oracles predict oracles predict +racles predict oracles predict oracles predict oracles predic + oracles predict oracles predict oracles predict + oracles predict oracles predict oracles predict + oracles predict oracles predict or +cles predict oracles predict oracles predict + oracles predict oracles predict + oracles predict oracles predict oracles pr +dict oracles predict oracles predict + oracles predict oracles predict + oracles predict oracles predict + oracles predict oracles predict + oracles predict oracles predict + oracles predict orac +es predict oracles predict + oracles predict oracles predict + oracles predict oracles predic + oracles predict + oracles predict oracles predict + oracles predict +oracles predict oracles predict + oracles predict +racles predict oracles predict + oracles predict + oracles predict oracles predict + oracles predict + oracles predict orac +es predict oracles predict + oracles predict + oracles predict +racles predict oracles predict + oracles predict + oracles predict + oracles predict +racles predict oracles predict + oracles predict + oracles predict + oracles predict + oracles predict + oracles predict or +cles predict oracles predic + oracles predict + oracles predict + oracles predict + oracles predict + oracles predict + oracles predict + oracles predict + oracles predict + oracles predict + oracles predict + oracles predict + oracles predict + oracles predict + oracles predict + oracles predict + oracles predict + oracles predict + oracles predict + oracles predict + oracles predict + oracles predict + oracles predict + oracles predict + oracles predict + oracles predict + oracles predict + 13 + r e32t 8smc 9i ab14 e s4 +-+-+-+-+-+-+-+ +-+-+-+-+-+-+-+ , e| 8 1 e D ry a4a e ta 9 e + t s5 e ² 348 th8no 2 4at t |o|r|a|c|l|e|s| ar3i |p|r|e|d|i|c|t| 63 s 1 tc39,l3h, d14 5au on w + 4 SI, 1 56 e|p 4 iu g7 e +-+-+-+-+-+-+-+ 39k +-+-+-+-+-+-+-+ 9 l o a d r 7 P _ e,a + + n w 2a p/+ 9f8 1of 5\i 4h h e2n 3 t on1 9t \ 94 ne2 + uu e n 63m 5 e a3 2n e, + sn 39ew nt1i -5d 632sd e 15t |a3% 3 c wt9 c n9sg6et 8 8 c , n 1poo F + 1 3 o 1g18e +-+-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+ 7 +-+-+-+-+-+-+-+-+ +-+-+-+ 4 n t2+a- 8 43 8 3p4 + n o tpn86i |m|a|c|h|i|n|e| |l|e|a|r|n|i|n|g| 2 |a|n|a|l|y|s|e|s| |a|n|d| a 5e v3 5 9 o56n n + e9n 4 5 +-+-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+ etn +-+-+-+-+-+-+-+-+ +-+-+-+ li 5p 8f i h + 3 6 k6 3i6 3 9y e , r6 6iA wg r1 +-+-+-+-+-+-+-+-+ 3 e e a y l hl + -N 7 g n6d 14t l1 9ui | _rs e i e 1 |p|r|e|d|i|c|t|s| 1 wn9uc tn s 6m + a rrh4 7 oly e e e e 4 62 y a e +-+-+-+-+-+-+-+-+ g 8a 3 V l% u a i 1 7 1 + ’ h | 8 8 5 _ n , 8r 4 1_ +-+-+-+-+-+-+ .r +-+-+-+-+ +-+-+-+-+-+-+-+ 5 r 3 9 1 p o f a + r v t 4 o 9 w2 4r |m|o|d|e|l|s| g r |h|a|v|e| |l|e|a|r|n|e|d| 1 n r1 8 2 sro + 1 ,d c T2 8 9 41 6 +-+-+-+-+-+-+ c +-+-+-+-+ +-+-+-+-+-+-+-+ d3 s m 6 d n f c t e + t t r 1 6 .ofoi t 5 67 1 +-+-+-+-+-+-+ 7 +-+-+-+ +-+-+-+-+ 4o e e 5 1 98 g , + + rw l 9 96 a 3t np , |m|o|d|e|l|s| |a|r|e| |u|s|e|d| , e uu 3 l c t + 3 28e 95 9 h _ n +-+-+-+-+-+-+ +-+-+-+ +-+-+-+-+ a9 1e _eu p e d e w + n w r n n f 8 c , d +-+-+-+-+ a +-+-+-+-+-+-+-+-+-+ 84 i e l8 t + + o mf 7 |t|h|e|y| d |i|n|f|l|u|e|n|c|e| o n a bntq c d n7 8 + - s e 9 n 7 77 8 +-+-+-+-+ aa +-+-+-+-+-+-+-+-+-+ t a 6 1 | c4 + h o l6 o 9 8 o +-+-+-+-+ i +-+-+-+-+ +-+-+-+-+-+ +-+-+-+ e r 3e9 h 6 + o -n p 9 f n s 8hr |t|h|e|y| e- |h|a|v|e| |t|h|e|i|r| |s|a|y| lV d tr + r 2 6 6 a +-+-+-+-+ %5 +-+-+-+-+ +-+-+-+-+-+ +-+-+-+ 3 ip n 5n + r 7 o( s +-+-+-+-+-+-+-+-+-+-+-+ 5 4 a o 7 3 e 6 n- t n f d it + p 1 e |i|n|f|o|r|m|a|t|i|o|n| 4n i3 c, 6 t 1 l ma 7 + 1 d b +-+-+-+-+-+-+-+-+-+-+-+ a 7 t 4 7 s w 3a e + 4 3 3 +-+-+-+-+-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+-+-+ d i 2 + 6 e r C |e|x|t|r|a|c|t|i|o|n| |r|e|c|o|g|n|i|z|e|s| r + %_ e d kb h +-+-+-+-+-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+-+-+ a + 3 c +-+-+-+-+ m v +7 + 9 l 5 so h a a |t|e|x|t| 5 5 e 3 9 P p 5 +-9 t u5 7 ' l +-+-+-+-+ m ao n- r + i y +-+-+-+-+-+-+-+-+-+-+-+-+-+-+ +-+-+-+-+-+-+-+ 8 1 + a 9 37 |c|l|a|s|s|i|f|i|c|a|t|i|o|n| |d|e|t|e|c|t|s| c + 4 I r t p h +-+-+-+-+-+-+-+-+-+-+-+-+-+-+ o +-+-+-+-+-+-+-+ O pe u + g rk 4 7 1 5 5 9 i 4 c 5 2 + o 3 p h 9 v r f 3d + d , 3r 5i g h 1 4 l 5 + h w c 7 e 3 yo n +h 5 5 2 e m o , c 2 r + s 3 1 7 s 1 e 1 + l 6 t e 6 1 r b 2 4 + e r 4 4 o s 4 + 9 ,i pw o c + 1 6 n , a 5 + e e i 4 p t , ' s + ei 9 t + 6 t l u 6 9 + V 8 c | _ a + r o 5 r | 3 t t + 1 1 o 3 _ + o l 6 i 7 + O w e + 8 7 M se + % i 3 e + p 3 9 + a r a b i n o a + 7 e 4 s o tl t + 9 r s 94 c + o k5 l 2 | a r T 1 , + r r 2 s + | , n + o t 5 + l t r si + e y s t + y e o + r 8 e 1 h + 2 n 6 5 + r n 5 s + + 14 + V V V V V V V V %% %% % % % % % + V V V V V V V V V V V V V V V V 0 % 0 % 0 0 %% 0 % % %% +V V V % V % V V V V V % % %% % 0 0 0 0 % 0 0 00 + % % % %% % % _____ _ 0 _ _ 0 _ _ % % + % % 0 /__ \ |__ ___ /_\ | | __ _ ___ | (_) % + % ORACLES % % % % % 0 / /\/ '_ \ / _ \ //_\\| |/ _` |/ _ \| | | ___ % + % % %% / / | | | | __/ / _ \ | (_| | (_) | | ||___| + % % \/ |_| |_|\___| \_/ \_/_|\__, |\___/|_|_| + V V V V V V V V % 0 % % % 0 |___/ % + V V V V V V V V V V V V V V V V % 0 0 %% _ 0 0 _ 0 % 0 % +V V V V V V V V V 0 | |_ ___ _ __ __ _| |_ ___ _ __ % + V V V V V V V V % % % % | __/ _ \ '__/ _` | __/ _ \| '__| % + V V V V V V V V V V V V V V V V % | || __/ | | (_| | || (_) | | +V V V V V V V V V \__\___|_| \__,_|\__\___/|_| + % 0 0 % +Machine learning is mainly used to % % +analyse and predict situations by Algolit % +based on existing cases. In this +exhibition we focus on machine The Algoliterator is a neural network trained using the selection +learning models for text processing of digitized works of the Mundaneum archive. % +or Natural Language Processing % +(NLP). These models have learned to With the Algoliterator you can write a text in the style of the +perform a specific task on the ba- International Institutions Bureau. The Algoliterator starts by +sis of existing texts. The models selecting a sentence from the archive or corpus used to train it. +are used for search engines, ma- You can then continue writing yourself or, at any time, ask the +chine translations and summaries, Algoliterator to suggest a next sentence: the network will gener- +spotting trends in new media net- ate three new fragments based on the texts it has read. You can +works and news feeds. They influ- control the level of training of the network and have it generate +ence what you get to see as a user, sentences based on primitive training, intermediate training or +but also have their say in the final training. +course of stock exchanges world- +wide, the detection of cybercrime When you're satisfied with your new text, you can print it on the +and vandalism, etc. thermal printer and take it home as a souvenir. + % +There are two main tasks when it % --- +comes to language understanding. +Information extraction looks at Sources: https://gitlab.constantvzw.org/algolit/algoliterator.clone +concepts and relations between con- +cepts. This allows for recognizing Concept, code & interface: Gijs de Heij & An Mertens +topics, places and persons in a +text, summarization and questions & Technique: Recurrent Neural Network +answering. The other task is text +classification. You can train an Original model: Andrej Karphaty, Justin Johnson % +oracle to detect whether an email +is spam or not, written by a man or +a woman, rather positive or nega- % % +tive. 0 0 0 0 0 0 + 0 0 0 0 0 0 0 +In this zone you can see some of __ __ 0 _ 0 _ 0 +those models at work. During your 0 0 / / /\ \ \___ _ __ __| |___ (_)_ __ +further journey through the exhibi- \ \/ \/ / _ \| '__/ _` / __| | | '_ \ +tion you will discover the differ- \ /\ / (_) | | | (_| \__ \ | | | | | +ent steps that a human-machine goes \/ \/ \___/|_| \__,_|___/ |_|_| |_| +through to come to a final model. 0 __ 0 + 00 0 / _\_ __ __ _ ___ ___ 0 + 00 0 \ \| '_ \ / _` |/ __/ _ \ + _\ \ |_) | (_| | (_| __/ 0 + % 0 \__/ .__/ \__,_|\___\___| + 0 0 |_| 0 + 0 0 0 0 0 0 + + by Algolit + + Word embeddings are language modelling techniques that through + multiple mathematical operations of counting and ordering, plot + words into a multi-dimensional vector space. When embedding + words, they transform from being distinct symbols into mathemati- + cal objects that can be multiplied, divided, added or substracted. + + 15 + %%% % % % % % % % %% % %% % %% %% % %% % % % + % % % % %%% %% %% By distributing the words along the many diagonal lines of the + % % % multi-dimensional vector space, their new geometrical placements + % % become impossible to perceive by humans. However, what is gained + % % % are multiple, simultaneous ways of ordering. Algebraic operations + % %% % make the relations between vectors graspable again. % + % % + % % % This installation uses Gensim, an open-source vector space and + topic-modelling toolkit implemented in the programming language % + Python. It allows to manipulate the text using the mathematical + relationships that emerge between the words, once they have been + % % % plotted in a vector space. % + % % % % % + % % % --- % + % % + % Concept & interface: Cristina Cochior + % % % % + Technique: word embeddings, word2vec % + % + % % Original model: Radim Rehurek and Petr Sojka + % % % + % % + % 0 00 0 0 + 0 + % ___ _ 0 _ __ 0 _ 0 + % 0 / __\ | __ _ ___ ___(_)/ _|_ 0 _(_)_ __ __ _ + / / | |/ _` / __/ __| | |_| | | | | '_ \ / _` | + / /___| | (_| \__ \__ \ | _| |_| | | | | | (_| | + \____/|_|\__,_|___/___/_|_| \__, |_|_| |_|\__, | % + 0 0 0 0 0 |___/ |___/ + _ _ __ __ _ _ + % 0 0 | |_| |__ ___ / / /\ \ \___ _ __| | __| | + % 0 | __| '_ \ / _ \ \ \/ \/ / _ \| '__| |/ _` | + 0 | |_| | | | __/ \ /\ / (_) | | | | (_| | + \__|_| |_|\___| \/ \/ \___/|_| |_|\__,_| + 0 0 0 + % + by Algolit + + % Librarian Paul Otlet's life work was the construction of the Mun- + daneum. This mechanical collective brain would house and distrib- + ute everything ever committed to paper. Each document was classi- + % fied following the Universal Decimal Classification. Using tele- + graphs and especially, sorters, the Mundaneum would have been + able to answer any question from anyone. + + With the collection of digitized publications we received from + the Mundaneum, we built a prediction machine that tries to clas- + % sify the sentence you type in one of the main categories of + Universal Decimal Classification. You also witness how the ma- + chine 'thinks'. During the exhibition, this model is regularly + retrained using the cleaned and annotated data visitors added in + % Cleaning for Poems and The Annotator. % + + The main classes of the Universal Decimal Classification system + are: + % % + 0 - Science and Knowledge. Organization. Computer Science. Infor- + mation Science. Documentation. Librarianship. Institutions. + Publications % + + 1 - Philosophy. Psychology + + 2 - Religion. Theology + % + 3 - Social Sciences + % + 4 - vacant + + 16 + %% %% %%% %% % %% 5 - Mathematics. Natural Sciences % % % % % % %% % + % % %% % % % %% %% %% % % % % % % + % % % % 6 - Applied Sciences. Medicine, Technology % + % % % % % % % %% + % %% % 7 - The Arts. Entertainment. Sport % %% % + % %% % % % % % % + % % 8 - Linguistics. Literature % % + % % % % % % % % % % + % % % % 9 - Geography. History % %% % + %% % % % + % % % --- + % % % + % Concept, code, interface: Sarah Garcin, Gijs de Heij, An Mertens + % % % % % + % % + % % 0 0 % 0 % + %% 000 0 0 % 0 + % ___ 00 _ 0 % + 0 / _ \___ ___ _ __ | | ___ % + 0 0 / /_)/ _ \/ _ \| '_ \| |/ _ \ + 0 0 / ___/ __/ (_) | |_) | | __/ 0 + 0 \/ % \___|\___/| .__/|_|\___| + 0 0 0 |_| 0 + % _ _ _ 0 _ 0 0 + 0 0 __| | ___ _ __( ) |_ | |__ __ ___ _____ % + % / _` |/ _ \| '_ \/| __| | '_ \ / _` \ \ / / _ \ % + | (_| | (_) | | | || |_ | | | | (_| |\ V / __/ + 0 \__,_|\___/|_| |_| \__| |_| |_|\__,_| \_/ \___| + 0 + _ 0 _ _ 0 + | |__ _ _| |_| |_ ___ _ __ ___ + | '_ \| | | | __| __/ _ \| '_ \/ __| + % 0 | |_) | |_| | |_| || (_) | | | \__ \ + 0 |_.__/ \__,_|\__|\__\___/|_| |_|___/ + 0 0 + % + by Algolit + + Since the early days of artificial intelligence (AI), researchers + have speculated about the possibility of computers thinking and + communicating as humans. In the 1980s, there was a first revolu- + tion in Natural Language Processing (NLP), the subfield of AI + concerned with linguistic interactions between computers and hu- + mans. Recently, pre-trained language models have reached state- + of-the-art results on a wide range of NLP tasks, which intensi- + % fies again the expectations of a future with AI. + % + This sound work, made out of audio fragments of scientific docu- + mentaries and AI-related audiovisual material from the last half + century, explores the hopes, fears and frustrations provoked by + these expectations. + + --- + + % Concept, sound edit: Javier Lloret + % + List of sources: 'The Machine that Changed the World : + Episode IV -- The Thinking Machine', 'The Imitation Game', + 'Maniac', 'Halt & Catch Fire', 'Ghost in the Shell', + 'Computer Chess', '2001: A Space Odyssey', Ennio Morricone, + Gijs Gieskes, André Castro. + + + + + + + + + 17 + CONTEXTUAL STORIES + ABOUT ORACLES + + + + Oracles are prediction or profiling machines. Sweeney based her research on queries of 2184 raci- + They are widely used in smartphones, computers, ally associated personal names across two websites. + tablets. + 88 per cent of first names, identified as + Oracles can be created using different techniques. being given to more black babies, are found pre- + One way is to manually define rules for them. As dictive of race, against 96 per cent white. First + prediction models they are then called rule-based names that are mainly given to black babies, such +models. Rule-based models are handy for tasks that as DeShawn, Darnell and Jermaine, generated ads +are specific, like detecting when a scientific pa- mentioning an arrest in 81 to 86 per cent of name +per concerns a certain molecule. With very little searches on one website and in 92 to 95 per cent + sample data, they can perform well. on the other. Names that are mainly assigned to + whites, such as Geoffrey, Jill and Emma, did not + But there are also the machine learning or statis- generate the same results. The word 'arrest' only + tical models, which can be divided in two oracles: appeared in 23 to 29 per cent of white name + 'supervised' and 'unsupervised' oracles. For the searches on one site and 0 to 60 per cent on the + creation of supervised machine learning models, other. + humans annotate sample text with labels before + feeding it to a machine to learn. Each sentence, On the website with most advertising, a black- + paragraph or text is judged by at least three an- identifying name was 25 percent more likely to get + notators: whether it is spam or not spam, positive an ad suggestive of an arrest record. A few names + or negative etc. Unsupervised machine learning did not follow these patterns: Dustin, a name +models don't need this step. But they need large mainly given to white babies, generated an ad sug- +amounts of data. And it is up to the machine to gestive of arrest in 81 and 100 percent of the +trace its own patterns or 'grammatical rules'. Fi- time. It is important to keep in mind that the ap- + nally, experts also make the difference between pearance of the ad is linked to the name itself. + classical machine learning and neural networks. It is independent of the fact that the name has an + You'll find out more about this in the Readers arrest record in the company's database. + zone. + Reference + Humans tend to wrap Oracles in visions of Paper: https://dataprivacylab.org/projects/ + grandeur. Sometimes these Oracles come to the sur- onlineads/1071-1.pdf + face when things break down. In press releases, + these sometimes dramatic situations are called + 'lessons'. However promising their performances --- What is a good employee? --- + seem to be, a lot of issues remain to be solved. +How do we make sure that Oracles are fair, that Since 2015 Amazon employs around 575,000 workers. +every human can consult them, and that they are And they need more. Therefore, they set up a team +understandable to a large public? Even then, exis- of 12 that was asked to create a model to find the + tential questions remain. Do we need all types of right candidates by crawling job application web- + artificial intelligence (AI) systems? And who de- sites. The tool would give job candidates scores + fines what is fair or unfair? ranging from one to five stars. The potential fed + the myth: the team wanted it to be a software that + would spit out the top five human candidates out + --- Racial AdSense --- of a list of 100. And those candidates would be + hired. + A classic 'lesson' in developing Oracles was docu- + mented by Latanya Sweeney, a professor of Govern- The group created 500 computer models, focused on + ment and Technology at Harvard University. In specific job functions and locations. They taught + 2013, Sweeney, of African American descent, each model to recognize some 50,000 terms that +googled her name. She immediately received an ad- showed up on past candidates’ letters. The algo- +vertisement for a service that offered her ‘to see rithms learned to give little importance to skills +the criminal record of Latanya Sweeney’. common across IT applicants, like the ability to + write various computer codes. But they also + Sweeney, who doesn’t have a criminal record, began learned some decent errors. The company realized, + a study. She started to compare the advertising before releasing, that the models had taught them- + that Google AdSense serves to different racially selves that male candidates were preferable. They + identifiable names. She discovered that she re- penalized applications that included the word 'wo- + ceived more of these ads searching for non-white men’s,' as in 'women’s chess club captain'. And they + ethnic names, than when searching for tradition- downgraded graduates of two all-women’s colleges. + ally perceived white names.You can imagine how + damaging it can be when possible employers do a This is because they were trained using the job + simple name search and receive ads suggesting the applications that Amazon received over a ten-year + existence of a criminal record. period. During that time, the company had mostly + + 18 + + + + + hired men. Instead of providing the 'fair' deci- tools become tools of awareness. + sion-making that the Amazon team had promised, the + models reflected a biased tendency in the tech in- The team developed a model to analyse word embed- + dustry. And they also amplified it and made it in- dings trained over 100 years of texts. For contem- + visible. Activists and critics state that it could porary analysis, they used the standard Google + be exceedingly difficult to sue an employer over News word2vec Vectors, a straight-off-the-shelf + automated hiring: job candidates might never know downloadable package trained on the Google News + that intelligent software was used in the process. Dataset. For historical analysis, they used embed- + dings that were trained on Google Books and the + Reference Corpus of Historical American English (COHA +https://www.reuters.com/article/us-amazon-com- https://corpus.byu.edu/coha/) with more than 400 +jobs-automation-insight/amazonscraps-secret-ai- million words of text from the 1810s to 2000s. As a +recruiting-tool-that-showed-bias-against-women- validation set to test the model, they trained em- + idUSKCN1MK08G beddings from the New York Times Annotated Corpus + for every year between 1988 and 2005. + + --- Quantifying 100 Years The research shows that word embeddings capture + of Gender and Ethnic Stereotypes --- changes in gender and ethnic stereotypes over + time. They quantifiy how specific biases decrease + Dan Jurafsky is the co-author of 'Speech and Lan- over time while other stereotypes increase. The + guage Processing', one of the most influential major transitions reveal changes in the descrip- + books for studying Natural Language Processing tions of gender and ethnic groups during the + (NLP). Together with a few colleagues at Stanford women’s movement in the 1960-1970s and the Asian- + University, he discovered in 2017 that word embed- American population growth in the 1960s and 1980s. +dings can be a powerful tool to systematically +quantify common stereotypes and other historical A few examples: +trends. + The top ten occupations most closely associated + Word embeddings are a technique that translates with each ethnic group in the contemporary + words to numbered vectors in a multi-dimensional Google News dataset: + space. Vectors that appear next to each other, + indicate similar meaning. All numbers will be - Hispanic: housekeeper, mason, artist, janitor, + grouped together, as well as all prepositions, dancer, mechanic, photographer, baker, cashier, + person's names, professions. This allows for the driver + calculation of words. You could substract London + from England and your result would be the same as - Asian: professor, official, secretary, + substracting Paris from France. conductor, physicist, scientist, chemist, tailor, + accountant, engineer +An example in their research shows that the vector +for the adjective 'honorable' is closer to the - White: smith, blacksmith, surveyor, sheriff, +vector for 'man' whereas the vector for 'submissive' weaver, administrator, mason, statistician, + is closer to 'woman'. These stereotypes are auto- clergy, photographer + matically learned by the algorithm. It will be pro- + blematic when the pre-trained embeddings are then The 3 most male occupations in the 1930s: + used for sensitive applications such as search ran- engineer, lawyer, architect. + kings, product recommendations, or translations. The 3 most female occupations in the 1930s: + This risk is real, because a lot of the pre- nurse, housekeeper, attendant. + trained embeddings can be downloaded as off- + the-shelf-packages. Not much has changed in the 1990s. + + It is known that language reflects and keeps cul- Major male occupations: + tural stereotypes alive. Using word embeddings to architect, mathematician and surveyor. + spot these stereotypes is less time-consuming and Female occupations: +less expensive than manual methods. But the imple- nurse, housekeeper and midwife. +mentation of these embeddings for concrete predic- +tion models, has caused a lot of discussion within Reference + the machine learning community. The biased models https://arxiv.org/abs/1711.08412 + stand for automatic discrimination. Questions are: + is it actually possible to de-bias these models + completely? Some say yes, while others disagree: --- Wikimedia's Ores service --- + instead of retro-engineering the model, we should + ask whether we need it in the first place. These Software engineer Amir Sarabadani presented the + researchers followed a third path: by acknowledg- ORES-project in Brussels in November 2017 during + ing the bias that originates in language, these the Algoliterary Encounter. + + 19 + + + +This 'Objective Revision Evaluation Service' uses Twitter. She lived for less than 24 hours before + machine learning to help automate critical work on she was shut down. Few people know that before + Wikimedia, like vandalism detection and the re- this incident, Microsoft had already trained and + moval of articles. Cristina Cochior and Femke released XiaoIce on WeChat, China's most used chat + Snelting interviewed him. application. XiaoIce's success was so promising + that it led to the development of its American + Femke: To go back to your work. In these days you version. However, the developers of Tay were + tried to understand what it means to find bias in not prepared for the platform climate of Twitter. + machine learning and the proposal of Nicolas Although the bot knew how to distinguish a noun + Maleve, who gave the workshop yesterday, was nei- from an adjective, it had no understanding of the + ther to try to fix it, nor to refuse to deal with actual meaning of words. The bot quickly learned + systems that produce bias, but to work with them. to copy racial insults and other discriminative +He says that bias is inherent to human knowledge, language it learned from Twitter users and troll +so we need to find ways to somehow work with it. attacks. +We're just struggling a bit with what would that + mean, how would that work... So I was wondering Tay's appearance and disappearance was an impor- + whether you had any thoughts on the question of tant moment of consciousness. It showed the possi- + bias. ble corrupt consequences that machine learning can + have when the cultural context in which the algo- + Amir: Bias inside Wikipedia is a tricky question rithm has to live is not taken into account. + because it happens on several levels. One level + that has been discussed a lot is the bias in ref- Reference + erences. Not all references are accessible. So one https://chatbotslife.com/the-accountability-of-ai- + thing that the Wikimedia Foundation has been try- case-study-microsofts-tay-experiment-ad577015181f + ing to do, is to give free access to libraries + that are behind a pay wall. They reduce the bias +by only using open-access references. Another type +of bias is the Internet connection, access to the +Internet. There are lots of people who don't have + it. One thing about China is that the Internet + there is blocked. The content against the govern- + ment of China inside Chinese Wikipedia is higher + because the editors [who can access the website] + are not people who are pro government, and try to + make it more neutral. So, this happens in lots of + places. But in the matter of artificial intelli- + gence (AI) and the model that we use at Wikipedia, + it's more a matter of transparency. There is a + book about how bias in AI models can break peo- + ple's lives, it's called 'Weapons of Math Destruc- +tion'. It talks about AI models that exist in the +US that rank teachers and it's quite horrible be- +cause eventually there will be bias. The way to + deal with it based on the book and their research + was first that the model should be open source, + people should be able to see what features are + used and the data should be open also, so that + people can investigate, find bias, give feedback + and report back. There should be a way to fix the + system. I think not all companies are moving in + that direction, but Wikipedia, because of the val- + ues that they hold, are at least more transparent + and they push other people to do the same thing. + +Reference +https://gitlab.constantvzw.org/algolit/algolit +/blob/master/algoliterary_encounter/Interview% + 20with%20Amir/AS.aac + + + --- Tay --- + + One of the infamous stories is that of the machine + learning programme Tay, designed by Microsoft. + Tay was a chat bot that imitated a teenage girl on + + 20 +cleaners clean cleaners clean cleaners clean cleaners clean cleaners clean cleaners clean + cleaners clean cleaners clean cleaners clean cleaners clean cleaners clean + cleaners clean cleaners clean cleaners clean cleaners clean + cleaners clean cleaners clean cleaners clean + cleaners clean cleaners clean cleaners clean cle +ners clean cleaners clean cleaners clean +cleaners clean cleaners clean cleaners clean + cleaners clean cleaners clean cleaners +lean cleaners clean cleaners clean + cleaners clean cleaners clean + cleaners clean cleaners clean cle +ners clean cleaners clean cleaners +clean cleaners clean cleaners +lean cleaners clean cleane +s clean cleaners clean +cleaners clean cleaners clean + cleaners clean cleaners clean + cleaners clean cleaners clean + cleaners clean + cleaners clean cleaners clean + cleaners clean cleaners clean + cleaners clean + cleaners clean cleaners clean + cleaners clean + cleaners clean cleaners clean + cleaners clean + cleaners clean cleaners +clean cleaners clean + cleaners clean + cleaners clean cleaners clean + cleaners clean + cleaners clean + cleaners clean cleaners +clean cleaners clean + cleaners clean + cleaners clean + cleaners clean cle +ners clean cleaners clean + cleaners clean + cleaners clean + cleaners clean + cleaners clean + cleaners clean + cleaners clean cleaners +lean cleaners clean + cleaners clean + cleaners clean + cleaners clean + cleaners clean + cleaners clean + cleaners clean + cleaners clean + cleaners clean + cleaners clean + cleaners clean + cleaners clean + cleaners clean + cleaners clean + cleaners clean + cleaners clean + cleaners clean + cleaners clean + cleaners clean + cleaners clean + cleaners clean + cleaners clean + cleaners clean + cleaners clean + cleaners clean + 21 + r u e n 7 c %9 2 y m V +-+-+-+-+-+-+-+-+ e4 +-+-+-+-+-+ 9 -t 0n neof e 5 r6 7 kln + ci p '.s w s u 18 u n |c|l|e|a|n|e|r|s| 2 |c|l|e|a|n| et.t o % s eii4t i ktu 4i w + + t 6 . 3e -6 6 rVle 17 +-+-+-+-+-+-+-+-+ rg +-+-+-+-+-+ .e o n 7 ci i 0 e h eR e85 orh + n x h r 4 h t5 7hoh 4 t ei g + n e3 tt np% k s +h_ hees ir w n +6 l rt 8 oe e Fe + r5b t ua0e 3ei n a 1 t8 rd t 7 li \ 7n v2 tq e e6 a as o + 2b t t m oe f c8 lx - g9 r - -s+ +-+-+ h +-+-+-+-+-+-+ 8f o1 Ao % r - 5i 2 e - r + x p n4h e6 s n8 / s7 . 95 sti |w|e| eno |h|e|l|p|e|d| +e r a2 sy n gyl 2u e sti6t + ch% _ 1r se o + t t 4, 1 t9 l +-+-+ e +-+-+-+-+-+-+ t r i 7 rs u ie o o,4 h + , 5 5h g gs 6u5e e0 95 eif e % +-+-+ s 9 +-+-+-+-+-+-+-+ o+ m iy n6 m _4 l oae s+ da + e w i_|e e a 6 an |w|e| | |c|l|e|a|n|e|d| 7 i a e r l 7 + se 8w ,p+tn i d t 1 g s ae l +-+-+ tec +-+-+-+-+-+-+-+ - ts e e,d % e 8e i + r i _6sog y L5 e v +-+-+-+-+-+ +-+-+-+-+ er +-+-+ +-+-+-+-+-+-+ Ies f e/ 8rh gr o 5 ac55 e + ( h s s9 |h|u|m|a|n| |w|o|r|k| 96 7 |i|s| |n|e|e|d|e|d| i 8 d 13 l , i + - s tt 1 _ S +-+-+-+-+-+ +-+-+-+-+ _ +-+-+ +-+-+-+-+-+-+ r v Mr_ a3 f r , + a s l n 87 +-+-+-+-+-+-+-+-+-+-+-+ rh 9 t r 7 36 w i n e 2 n d m + i4 +2 c 6 o |p|o|o|r|l|y|-|p|a|i|d| w n 3 g e - 6 tk o- r r + w9 4 t 8p ie c rVv 5 +-+-+-+-+-+-+-+-+-+-+-+ b n h - 6 xc te|t ,2 5 n + 4 4 ,in 7 4( d +-+-+-+-+-+-+-+-+-+-+-+ l +-+-+-+-+-+ +-+-+-+ -d ah v + n5 . 4 6s_ + t 2- i l |f|r|e|e|l|a|n|c|e|r|s| te3c |c|a|r|r|y| |o|u|t| l e oee 1n 7 \ y1k + r r l p r 6 e +-+-+-+-+-+-+-+-+-+-+-+ 6|p +-+-+-+-+-+ +-+-+-+ s p o2 ) t -e : p 8 h + h9 h o 4l +-+-+-+-+-+-+-+-+-+-+ \ +-+-+ +-+-+-+-+-+-+-+-+-+ +-+-+-+-+ nb h 7 s4i1 3 + T z3 |h e 9 |v|o|l|u|n|t|e|e|r|s| 9 |d|o| |f|a|n|t|a|s|t|i|c| |w|o|r|k| 9 ws w 5 e6 x + a` o +-+-+-+-+-+-+-+-+-+-+ +-+-+ +-+-+-+-+-+-+-+-+-+ +-+-+-+-+ ih l 3 6 + 7 r 6 d G i6 1 3 e1 +-+-+-+-+-+-+-+ +-+-+-+-+-+-+ +-+-+ +-+-+-+-+ eir c e n% ui + l r 6 6s t r |w|h|o|e|v|e|r| |c|l|e|a|n|s| |u|p| |t|e|x|t| h 6 t i + t tc w a s e 9 +-+-+-+-+-+-+-+ F +-+-+-+-+-+-+ +-+-+ +-+-+-+-+ , 5 9s9 w e e + n m5 e 4 Mi e c i a U u r e 2 a i % .S g6 u 3 + _t f 2 t 5 t6 v V c a i f- ee l 9rni/ 3 a 7e 1 + 1o n 3 2 tn t 5 1o 7 r s / % uio + + 9 f a 4 - e o e t + i r + s 2 + ls_ nr e w i l V - 8e t 5 +i v 2 p o + l n e j n tr l V| n e w L r 8 + c l1 l i i a 8 t g0 y s + , a u r9 e 8 4 9 e | e 3 + n g8 r e? M d r a i l c + - n t r 4 e r l c ii e a + p r a a h 6 l 3 e s + i 4 c o | 6 v rh p7 3 % h t a +e e 1 6 6 p 15 8 e a n s d o 1 i 2 n + s e m t 2 w v a 6 i i + r 7 | a e 5 7 s 3 8 i 4 7 + e y 4 3 w 5 l unw5 4ie o3 439 o i % + r 6 e a 4a f n e + h a 5 o s i l s + - s | n D 4 + e 3 - 2 5 h a 1 V p n v + + 7 8n n a ar ) v + . n2 t 5 6r 8 | + u o _ e r l n, r 1 e + n ,e r s 7 a 7 + a e h t y d a 3 + u | 2 a s 4 t + 6 e t66 e % 2 3 y 3 n + a e o i , t 4 i e g c r + l t w 9 2 a + h v t , p c a r h c + l 4 g p1 + z i t o m a % a + i k | a i e +s a v c a , l lp + d 2 a + 3 o t + e + 5 n t p s i a 6 r + e 5 y,r m e , +g i 7 s i 5 s a + a a % r + 3 u p n + e \ 5 i p o l i + + 22 +% V V V V V V V % V % % % % %% % % %% % % % % % % % + V V V V V V V V V V V V V V V V % % % % 0 % % 0 % 0 0 % 0 % % %%% % +V V V V V V V V % V % 0 % 0 0 % % % + % % % %% ___ _ 0 % 00 _ % % % + % % % % 00 / __\ | ___ __ _ _ __ (_)_ __ __ _ % + CLEANERS % % / / | |/ _ \/ _` | '_ \| | '_ \ / _` | 0 % + % % % % % % 00 / /___| | __/ (_| | | | | | | | | (_| | % + % % % % % % 0 \____/|_|\___|\__,_|_| |_|_|_| |_|\__, | % + V V V V V V V V % 0 |___/ % % + V V V V V V V V V V V V V V V V __ 0 ___ 0 % 0 +V V V V V V V V V 0 / _| ___ _ __ / _ \___ ___ _ __ ___ ___ % + V V V V V V V V 0 % | |_ / _ \| '__| / /_)/ _ \ / _ \ '_ ` _ \/ __| % + V V V V V V V V V V V V V V V V 0 | _| (_) | | / ___/ (_) | __/ | | | | \__ \ +V V V V V V V V V |_| \___/|_| \/ 0 \___/ \___|_| |_| |_|___/ + 0 0 +Algolit chooses to work with texts %%% % +that are free of copyright. This by Algolit % % % +means that they have been published % % % +under a Creative Commons 4.0 li- For this exhibition we worked with 3 per cent of the Mundaneum's +cense – which is rare - or that archive. These documents were first scanned or photographed. To +they are in the public domain be- make the documents searchable they were transformed into text us- +cause the author died more than 70 ing Optical Character Recognition software (OCR). OCR are algo- +years ago. This is the case for the % rithmic models that are trained on other texts. They have learned +publications of the Mundaneum. We to identify characters, words, sentences and paragraphs. The +received 203 documents that we software often makes 'mistakes'. It might recognize a wrong char- +helped turn into datasets. They are acter, it might get confused by a stain an unusual font or the +now available for others online. reverse side of the page being visible. % +Sometimes we had to deal with poor % % % +text formats, and we often dedi- While these mistakes are often considered noise, confusing the +cated a lot of time to cleaning up training, they can also be seen as poetic interpretations of the +documents. We were not alone in do- algorithm. They show us the limits of the machine. And they also +ing this. reveal how the algorithm might work, what material it has seen in + training and what is new. They say something about the standards % +Books are scanned at high resolu- of its makers. In this installation we ask your help in verifying +tion, page by page. This is time- our dataset. As a reward we'll present you with a personal algo- +consuming, laborious human work and rithmic improvisation. +often the reason why archives and +libraries transfer their collec- --- +tions and leave the job to compa- % +nies like Google. The photos are Concept, code, interface: Gijs de Heij +converted into text via OCR (Opti- % +cal Character Recognition), a soft- +ware that recognizes letters, but +often makes mistakes, especially +when it has to deal with ancient +fonts and wrinkled pages. Yet more +wearisome human work is needed to +improve the texts. This is often +carried out by poorly-paid free- +lancers via micro-payment platforms +like Amazon's Mechanical Turk; or +by volunteers, like the community +around the Distributed Proofreaders +Project, which does fantastic work. +Whoever does it, or wherever it is +done, cleaning up texts is a tower- +ing job for which no structural au- +tomation yet exists. + + + + + + + + + + + + 23 + % % % % % %% % % % % % % % %% 0 0 % % % % % %% + % %% % % % 0 0 0 % %% % % %% %%% % + % % %% %%% 0 ___ _ _ _ _ 0 _ % _ + % % % % % 0 0 / (_)___| |_ _ __(_) |__ _ _| |_ ___ __| | % % + % % / /\ / / __| __| '__| | '_ \| | | | __/ _ \/ _` | + %% 0 / /_//| \__ \ |_| | | | |_) | |_| | || __/ (_| | %% + % % /___,' |_|___/\__|_| |_|_.__/ \__,_|\__\___|\__,_| + % % % ___ 0 __ 0 0 _ % + % / _ \_ __ ___ ___ / _|_ __ ___ __ _ __| | ___ _ __ ___ + % % / /_)/ '__/ _ \ / _ \| |_| '__/ _ \/ _` |/ _` |/ _ \ '__/ __| + / ___/| | | (_) | (_) | _| | | __/ (_| | (_| | __/ | \__ \ + % 0 \/ |_| \___/ \___/|_| |_| \___|\__,_|\__,_|\___|_| |___/ + 0 0 0 + % 0 % 0 % %% + % 0 0 0 % % + % % by Algolit % % + + Distributed Proofreaders is a web-based interface and an interna- + tional community of volunteers who help converting public domain + % % books into e-books. For this exhibition they proofread the Munda- + neum publications that appeared before 1923 and are in the public + domain in the US. Their collaboration meant a great relief for + the members of Algolit. Less documents to clean up! + + All the proofread books have been made available on the Project + Gutenberg archive. + + For this exhibition, An Mertens interviewed Linda Hamilton, the + general manager of Distributed Proofreaders. + + --- + % + Interview: An Mertens + % + Editing: Michael Murtaugh, Constant % + % + + + + + + + + + + + + + + + + + + + + + + % + + + + + + + + + + + + 24 + CONTEXTUAL STORIES + FOR CLEANERS + + + + --- Project Gutenberg and path to death – run your own code; dynamic change. + Distributed Proofreaders --- operate it. For nearly 84 years, the Turk won most + The Life Instinct: unification; the eternal re- + Project Gutenberg is our Ali Baba cave. It offers turn; the perpetuation and MAINTENANCE of the mate- + more than 58,000 free eBooks to be downloaded or rial; survival systems and operations; equilibrium. + read online. Works are accepted on Gutenberg when + their U.S. copyright has expired. Thousands of B. Two basic systems: Development and Maintenance. + volunteers digitize and proofread books to help +the project. An essential part of the work is done The sourball of every revolution: after the revo- +through the Distributed Proofreaders project. This lution, who’s going to try to spot the bias in +is a web-based interface to help convert public the output? + domain books into e-books. Think of text files, + EPUBs, Kindle formats. By dividing the workload Development: pure individual creation; the new; + into individual pages, many volunteers can work change; progress; advance; excitement; flight or + on a book at the same time; this speeds up the fleeing. + cleaning process. + Maintenance: keep the dust off the pure individual + During proofreading, volunteers are presented with creation; preserve the new; sustain the change; + a scanned image of the page and a version of the protect progress; defend and prolong the advance; + text, as it is read by an OCR algorithm trained to renew the excitement; repeat the flight; show your + recognize letters in images. This allows the text work – show it again, keep the git repository + to be easily compared to the image, proofread, and groovy, keep the data analysis revealing. +sent back to the site. A second volunteer is then +presented with the first volunteer's work. She Development systems are partial feedback systems +verifies and corrects the work as necessary, and with major room for change. + submits it back to the site. The book then simi- + larly goes through a third proofreading round, Maintenance systems are direct feedback systems + plus two more formatting rounds using the same web with little room for alteration. + interface. Once all the pages have completed these + steps, a post-processor carefully assembles them C. Maintenance is a drag; + into an e-book and submits it to the Project it takes all the fucking time (lit.) + Gutenberg archive. + The mind boggles and chafes at the boredom. + We collaborated with the Distributed Proofreaders + project to clean up the digitized files we re- The culture assigns lousy status on maintenance + ceived from the Mundaneum collection. From Novem- jobs = minimum wages, Amazon Mechanical Turks = +ber 2018 until the first upload of the cleaned-up virtually no pay. +book 'L'Afrique aux Noirs' in February 2019, An +Mertens exchanged about 50 emails with Linda Clean the set, tag the training data, correct the + Hamilton, Sharon Joiner and Susan Hanlon, all vol- typos, modify the parameters, finish the report, + unteers from the Distributed Proofreaders project. keep the requester happy, upload the new version, + The conversation is published online. It might attach words that were wrongly separated by OCR + inspire you to share unavailable books online. back together, complete those Human Intelligence + Tasks, try to guess the meaning of the requester's + formatting, you must accept the HIT before you can + --- An algoliterary version submit the results, summarize the image, add the + of the Maintenance Manifesto --- bounding box, what's the semantic similarity of + this text, check the translation quality, collect + In 1969, one year after the birth of her first your micro-payments, become a hit Mechanical Turk. + child, the New York artist Mierle Laderman Ukeles +wrote a Manifesto for Maintenance Art. The mani- Reference +festo calls for a readdressing of the status of +maintenance work both in the private, domestic https://www.arnolfini.org.uk/blog/manifesto-for- + space, and in public. What follows is an altered maintenance-art-1969 + version of her text inspired by the work of the + Cleaners. + --- A bot panic on Amazon Mechanical Turk --- + IDEAS + Amazon's Mechanical Turk takes the name of a + A. The Death Instinct and the Life Instinct: chess-playing automaton from the eighteenth cen- + tury. In fact, the Turk wasn't a machine at all. + The Death Instinct: separation; categorization; It was a mechanical illusion that allowed a human + avant-garde par excellence; to follow the predicted chess master to hide inside the box and manually + + 25 + + + + + of the games played during its demonstrations + around Europe and the Americas. Napoleon Bonaparte + is said to have been fooled by this trick too. + + The Amazon Mechanical Turk is an online platform + for humans to execute tasks that algorithms can- + not. Examples include annotating sentences as be- + ing positive or negative, spotting number plates, + discriminating between face and non-face. The jobs + posted on this platform are often paid less than a +cent per task. Tasks that are more complex or re- +quire more knowledge can be paid up to several +cents. To earn a living, Turkers need to finish as + many tasks as fast as possible, leading to in- + evitable mistakes. As a result, the requesters + have to incorporate quality checks when they post + a job on the platform. They need to test whether + the Turker actually has the ability to complete + the task, and they also need to verify the re- + sults. Many academic researchers use Mechanical + Turk as an alternative to have their students exe- + cute these tasks. + + In August 2018 Max Hui Bai, a psychology student +from the University of Minnesota, discovered that +the surveys he conducted with Mechanical Turk were +full of nonsense answers to open-ended questions. + He traced back the wrong answers and found out + that they had been submitted by respondents with + duplicate GPS locations. This raised suspicion. + Though Amazon explicitly prohibits robots from + completing jobs on Mechanical Turk, the company + does not deal with the problems they cause on + their platform. Forums for Turkers are full of + conversations about the automation of the work, + sharing practices of how to create robots that can + even violate Amazon’s terms. You can also find + videos on YouTube that show Turkers how to write a +bot to fill in answers for you. + +Kristy Milland, an Mechanical Turk activist, says: + 'Mechanical Turk workers have been treated really, + really badly for 12 years, and so in some ways I + see this as a point of resistance. If we were paid + fairly on the platform, nobody would be risking + their account this way.' + + Bai is now leading a research project among social + scientists to figure out how much bad data is in + use, how large the problem is, and how to stop it. + But it is impossible at the moment to estimate how + many datasets have become unreliable in this way. + +References +https://requester.mturk.com/create/projects/new + + https://www.wired.com/story/amazon-mechanical- + turk-bot-panic/ + + https://www.maxhuibai.com/blog/evidence-that- + responses-from-repeating-gps-are-random + + http://timryan.web.unc.edu/2018/08/12/data- + contamination-on-mturk/ + + 26 +informants inform informants inform informants inform informants inform informants inform info +mants inform informants inform informants inform informants inform informants i +form informants inform informants inform informants inform info +mants inform informants inform informants inform informants info +m informants inform informants inform informants inform + informants inform informants inform informants +inform informants inform informants inform + informants inform informants inform informants info +m informants inform informants inform + informants inform informants inform + informants inform informants inform in +ormants inform informants inform infor +ants inform informants inform info +mants inform informants inform +informants inform informants inform + informants inform informants inform + informants inform informants inform + informants inform infor +ants inform informants inform + informants inform informants inform + informants inform + informants inform informants inform + informants inform +informants inform informants inform + informants inform + informants inform informants inform + informants inform + informants inform informants +inform informants inform + informants inform + informants inform informants +inform informants inform + informants inform + informants inform + informants inform informants info +m informants inform + informants inform + informants inform + informants inform + informants inform informants +inform informants inform + informants inform + informants inform + informants inform + informants inform + informants inform + informants inform + informants inform + informants inform + informants inform +informants inform in +ormants inform info +mants inform infor +ants inform infor +ants inform info +mants inform in +ormants inform +informants inform + informants inform + informants inform + informants inform + informants inform + informants inform + informants inform + informants inform + informants inform + informants inform + informants inform + informants inform + 27 + r 8h3t i5 4 d 7 + +-+-+-+-+-+-+-+-+-+-+ c a +-+-+-+-+-+-+ e f n no6 - - t -as 7 ( e + a ah 5al ,n ri B |i|n|f|o|r|m|a|n|t|s| l |i|n|f|o|r|m| , 35e t s evn7 73r o2/ L ep - e + t : ca,i ma eeslh | +-+-+-+-+-+-+-+-+-+-+ r_ T +-+-+-+-+-+-+ 2o 73 pjt 7ng% e 84 + n 7 hnprs s9i 3a1 9e _ 9l e o pi rsa d o ii/5am sd rr1 1 n% + n8w + h|29 e s _ 3 . o i c i. e+1onIa 4 f p | lu e v1r _nth2i a%a ce 1e 7e 1y |t e r + xn r 8 sF w t -e +-+-+-+-+ +-+-+-+-+-+-+-+ e +-+-+-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+-+ 1 i2 n l cn r3 + t e e ,i n ibC 6 |e|a|c|h| |d|a|t|a|s|e|t| |c|o|l|l|e|c|t|s| |d|i|f|f|e|r|e|n|t| iw tc a318 + e o l a Me -o r + +-+-+-+-+ +-+-+-+-+-+-+-+ d 9 +-+-+-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+-+ +yc l p + +6 n 8 , a -rsb es 3 t t | bt ,p q +-+-+-+-+-+-+-+-+-+-+-+ +-+-+-+-+-+ 6 1d e 4 , 1 + + lk o95 sf s e - 2 b 0 rl n la / S f n |i|n|f|o|r|m|a|t|i|o|n| |a|b|o|u|t| 1 4r y7 n + i _ m ec cf 2|r 8ra5 n l 6t +-+-+-+-+-+-+-+-+-+-+-+ +-+-+-+-+-+ o t | r e + h_ ae3 5 Ti nf ao 7 l t n 9 9 h +e e-1 +-+-+-+ +-+-+-+-+-+ 7 t 8 - f mme 5 + t og m 9 i r. m l l j +t3 9 |t|h|e| |w|o|r|l|d| e97 3 9 t i s - o s + _i n l o er 8 n petc 141 s / i +-+-+-+ +-+-+-+-+-+ - 9 w 1 1 b + t4, r e u n8 a |t +-+-+-+-+-+-+-+-+ , |c +-+-+-+ +-+-+-+-+-+-+ +-+-+-+-+ 2r t 3 + o 6 9.o7e 7 Ce |d|a|t|a|s|e|t|s| V |a|r|e| |i|m|b|u|e|d| |w|i|t|h| 7 ig g ig 3xa + i r- p R h 8 rr m g _ t +-+-+-+-+-+-+-+-+ +-+-+-+ +-+-+-+-+-+-+ +-+-+-+-+ n f -c , + + - - 9 f k i r 6 e 665 a +-+-+-+-+-+-+-+-+-+-+-+ +-+-+-+-+ t m 1 9 6 + om _ 1e Tlh4 , f vr E |c|o|l|l|e|c|t|o|r|'|s| |b|i|a|s| 0 7 t e 2t + E5 r o r i i b e hw i a ne +-+-+-+-+-+-+-+-+-+-+-+ +-+-+-+-+ t a + m, m4 - a +-+-+-+-+ +-+-+-+-+-+-+-+-+ d +-+-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+ 118 2a 6 + - l l |s|o|m|e| |d|a|t|a|s|e|t|s| rt3 |c|o|m|b|i|n|e| |m|a|c|h|i|n|i|c| k f e + d i i 1 e , h +-+-+-+-+ +-+-+-+-+-+-+-+-+ 5 +-+-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+ i % _e r + _ f oi e u s dt y +-+-+-+-+-+ +-+-+-+-+ +-+-+-+-+-+ i n9 7 o + f f 5 h l9 a a b n |l|o|g|i|c| |w|i|t|h| |h|u|m|a|n| s n 79 e if e 0 + s i ln 6t a y t | ’7 / h +-+-+-+-+-+ +-+-+-+-+ +-+-+-+-+-+ 1 - 1n + s yn p p r oe xy +-+-+-+-+-+ c n d 6 _i a n + - n iu a v s, d o 7 eu e i |l|o|g|i|c| e as d m 2 v|h - | r + aL t5 l7 st A c S r c n r / +-+-+-+-+-+ tt o dr | V + s 9 +-+-+-+-+-+-+ +-+-+-+-+ d 7 + 5 77 2 t + z l x n |m|o|d|e|l|s| |t|h|a|t| d i n oS ad + a a a . _ t + ie 7 n n +-+-+-+-+-+-+ +-+-+-+-+ is r t 9 , | f 4 4 a t + 8 - 8 e +-+-+-+-+-+-+-+ 1 o 8 h h + t + s +m tb rh f 5 6r |r|e|q|u|i|r|e| s o l2 2 | + s o n + a - rr o n +-+-+-+-+-+-+-+ m | o y 4 r _ + 5 i +-+-+-+-+-+-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+ +-+-+-+ d |m ? e + b 4 _ l ` |s|u|p|e|r|v|i|s|i|o|n| |m|u|l|t|i|p|l|y| |t|h|e| - s n 7 1 + Tn n - +-+-+-+-+-+-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+ +-+-+-+ d 5 + ls t v 3i . - 6 +-+-+-+-+-+-+-+-+-+-+-+-+-+-+ h _ 28 9f + 4 s i h s- 4 4 l i |s|u|b|j|e|c|t|i|v|i|t|i|e|s| e a u + t + 9 fh lh,d +-+-+-+-+-+-+-+-+-+-+-+-+-+-+ 6 c 8 + 3 r c i 1 +-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+-+ +-+-+-+-+ p - + fn o |m|o|d|e|l|s| c |p|r|o|p|a|g|a|t|e| |w|h|a|t| + 5 M 4 + 5 r g +-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+-+ +-+-+-+-+ i t f + 9 t i y +-+-+-+-+-+-+-+ +-+-+-+-+ sv 7 + 6r +e n t7 + A h |t|h|e|y|'|v|e| |b|e|e|n| o 45 6 + m s t 9 o o _ s +-+-+-+-+-+-+-+ +-+-+-+-+ t o+ u e + s k8 3 l 2 - e +-+-+-+-+-+-+ e 6 e- t - + + es n 5 e o 4 |t|a|u|g|h|t| s 9 + t p e w , : o - +-+-+-+-+-+-+ t t 3 +e 6 r 8 t +-+-+-+-+ +-+-+ +-+-+-+ a eo m m 3 + e |s|o|m|e| |o|f| |t|h|e| + h e c + ee +-+-+-+-+ +-+-+ +-+-+-+ c h + o +-+-+-+-+-+-+-+-+ +-+-+-+-+ +-+-+ +-+-+-+-+-+-+-+ +-+-+ + i k t |d|a|t|a|s|e|t|s| |p|a|s|s| |a|s| |d|e|f|a|u|l|t| |i|n| o o o + +-+-+-+-+-+-+-+-+ i +-+-+-+-+ +-+-+ +-+-+-+-+-+-+-+ +-+-+ r d + a i m a . 1 +-+-+-+ +-+-+-+-+-+-+-+ s u + r h o 2 |t|h|e| |m|a|c|h|i|n|e| l t + + e a +-+-+-+ +-+-+-+-+-+-+-+ d 7 | + e a eo 4 +-+-+-+-+-+-+-+-+ +-+-+-+-+-+ + h n |l|e|a|r|n|i|n|g| |f|i|e|l|d| s n + t _s n +-+-+-+-+-+-+-+-+ +-+-+-+-+-+ + t n o +-+-+-+-+-+-+ +-+-+-+-+-+ +-+-+-+-+-+-+-+-+ e V + a d |h|u|m|a|n|s| |g|u|i|d|e| |m|a|c|h|i|n|e|s| u n + +-+-+-+-+-+-+ +-+-+-+-+-+ +-+-+-+-+-+-+-+-+ + c e 5 1 2 + r 6 r n 6 f + l o l + + 28 +% V V V V V V V % V % %% % %%% %% %% % %%% %%% % % %% + V V V V V V V V V V V V V V V V % % % % % %% 0 %% 0 % % % % % %%% % +V V V V V V V V V % % %% % % 0 0 % % % % + % % % % % % % % % % 00 0 _ % % % % % %% % % + % % % 0 /_\ _ __ % % + % INFORMANTS % % % //_\\| '_ \ % 0 + % % % % % 0 % % 0 / _ \ | | | % % % %% + % % % 0 \_/ \_/_| |_| 0 0 + V V V V V % V V V % __ _ _ 00 % 00 0 _ % + V V V V V V V V V V V V V V V V 0 /__\ |_| |__ _ __ ___ __ _ _ __ __ _ _ __ | |__ _ _ +V V V V V V V V V /_\ | __| '_ \| '_ \ / _ \ / _` | '__/ _` | '_ \| '_ \| | | | % + V V V V V V V V //__ | |_| | | | | | | (_) | (_| | | | (_| | |_) | | | | |_| | + V V V V V V V V V V V V V V V V % \__/ \__|_| |_|_| |_|\___/ \__, |_| \__,_| .__/|_| |_|\__, | +V V V V % V V V V V 0 0 % 0 % |___/ |_| 0 |___/ + % 0 0 __ 0 ___ % _ _ 0 % +Machine learning algorithms need ___ / _| / \__ _| |_ __ _ ___ ___| |_ ___ +guidance, whether they are super- 0 / _ \| |_ 0 / /\ / _` | __/ _` / __|/ _ \ __/ __| % +vised or not. In order to separate | (_) | _| / /_// (_| | || (_| \__ \ __/ |_\__ \ +one thing from another, they need \___/|_| /___,' \__,_|\__\__,_|___/\___|\__|___/ % % +material to extract patterns from. 0 0 0 +One should carefully choose the % % +study material, and adapt it to the by Algolit +machine's task. It doesn't make +sense to train a machine with nine- We often start the monthly Algolit meetings by searching for +teenth-century novels if its mis- datasets or trying to create them. Sometimes we use already-ex- +sion is to analyse tweets. A badly isting corpora, made available through the Natural Language +written textbook can lead a student Toolkit nltk. NLTK contains, among others, The Universal Declara- +to give up on the subject altogeth- tion of Human Rights, inaugural speeches from US presidents, or +er. A good textbook is preferably movie reviews from the popular site Internet Movie Database +not a textbook at all. (IMDb). Each style of writing will conjure different relations + % between the words and will reflect the moment in time from which +This is where the dataset comes in: they originate. The material included in NLTK was selected be- +arranged as neatly as possible, or- cause it was judged useful for at least one community of re- +ganized in disciplined rows and searchers. In spite of specificities related to the initial con- +lined-up columns, waiting to be text of each document, they become universal documents by de- +read by the machine. Each dataset fault, via their inclusion into a collection of publicly avail- +collects different information % able corpora. In this sense, the Python package manager for natu- +about the world, and like all col- ral language processing could be regarded as a time capsule. The +lections, they are imbued with col- main reason why The Universal Declaration for Human Rights was +lectors' bias. You will hear this included may have been because of the multiplicity of transla- +expression very often: 'data is the tions, but it also paints a picture of the types of human writing +new oil'. If only data were more that algorithms train on. +like oil! Leaking, dripping and +heavy with fat, bubbling up and With this work, we look at the datasets most commonly used by +jumping unexpectedly when in con- data scientists to train machine algorithms. What material do +tact with new matter. Instead, data they consist of? Who collected them? When? +is supposed to be clean. With each +process, each questionnaire, each --- % +column title, it becomes cleaner +and cleaner, chipping distinct % Concept & execution: Cristina Cochior +characteristics until it fits the % +mould of the dataset. % % + 0 0 00 0 +Some datasets combine the machinic 0 0 0 0 +logic with the human logic. The __ __ _ _ +models that require supervision 0 / / /\ \ \ |__ ___ __ _(_)_ __ ___ +multiply the subjectivities of both 0 \ \/ \/ / '_ \ / _ \ \ \ /\ / / | '_ \/ __| +data collectors and annotators, \ /\ /| | | | (_) | \ V V /| | | | \__ \ +then propagate what they've been 0 \/ \/ |_| |_|\___/ \_/\_/ |_|_| |_|___/ +taught. You will encounter some of 0 0 0 0 0 +the datasets that pass as default +in the machine learning field, as Who wins: creation of relationships +well as other stories of humans +guiding machines. by Louise Dekeuleneer, student Arts²/Section Visual Communication + + French is a gendered language. Indeed many words are female or + male and few are neutral. The aim of this project is to show that + a patriarchal society also influences the language itself. + + 29 + The work focused on showing whether more female or male words are + % % %%% % %% % used on highlighting the influence of context on the gender of %%%%% + % % % % % % words. At this stage, no conclusions have yet been drawn.  % + % % % % %% % % % % % % % % % % % + % %% Law texts from 1900 to 1910 made available by the Mundaneum have + % % %% % % been passed into an algorithm that turns the text into a list of % + %% % % % words. These words are then compared with another list of French % + % % % % % words, in which is specified whether the word is male or female. + This list of words comes from Google Books. They created a huge + % % % % database in 2012 from all the books scanned and available on + % Google Books. % % + % % % % % % % % + Male words are highlighted in one colour and female words in an- + % % % % other. Words that are not gendered (adverbs, verbs, etc.) are not + % % % highlighted. All this is saved as an HTML file so that it can be + % % directly opened in a web page and printed without the need for + % additional layout. This is how each text becomes a small booklet + by just changing the input text of the algorithm. + + % + 0 % 0 0 0 + 0 0 0 % + _____ _ 0 0 + % 0 0 /__ \ |__ ___ % 0 + % / /\/ '_ \ / _ \ 0 % + 0 / / | | | | __/ 0 + % 0 0 0 \/ |_| |_|\___| + % 0 _ 0 0 _ _ + /_\ _ __ _ __ ___ | |_ __ _| |_ ___ _ __ + //_\\| '_ \| '_ \ / _ \| __/ _` | __/ _ \| '__| + / _ \ | | | | | | (_) | || (_| | || (_) | | 0 + \_/ \_/_| |_|_| |_|\___/ \__\__,_|\__\___/|_| + 0 0 + % + by Algolit + + The annotator asks for the guidance of visitors in annotating + the archive of Mundaneum. + + The annotation process is a crucial step in supervised machine + learning where the algorithm is given examples of what it needs + to learn. A spam filter in training will be fed examples of spam + % and real messages. These examples are entries, or rows from the + dataset with a label, spam or non-spam. + + The labelling of a dataset is work executed by humans, they pick + a label for each row of the dataset. To ensure the quality of the + % labels multiple annotators see the same row and have to give the + same label before an example is included in the training data. + Only when enough samples of each label have been gathered in the + dataset can the computer start the learning process. + + In this interface we ask you to help us classify the cleaned + texts from the Mundaneum archive to expand our training set and + improve the quality of the installation 'Classifying the World' + in Oracles. + + --- + + Concept, code, interface: Gijs de Heij + + + + + + + + + + 30 + %% % % %% % % % % % + % %% % % 0 0 0 0 0 0 % % % + % % % % % 0 0 0 0 % % % % % + % % % % % 0 0 _ ___ ___ ___ 00 %% % + % % % % 0 0 / |/ _ \ / _ \ / _ \ 0 + %% % % 0 0 | | | | | | | | | | | % + % % % % 0 | | |_| | |_| | |_| | %% % + % % |_|\___/ \___/ \___/ 00 0 + % % % % 00 0 0 0 0 _ 00 % % % + % % % ___ _ _ _ __ ___ ___| |_ ___ + % % / __| | | | '_ \/ __|/ _ \ __/ __| % + % % %% 0 0 \__ \ |_| | | | \__ \ __/ |_\__ \ % % + 0 0 % |___/\__, |_| |_|___/\___|\__|___/ + 0 %% 0 |___/ % % 0 % + 0 0 0 0 __ _ % 0 _ 0 % % + 0 0 / /\ /(_)_ __ _ _| | + 0 | |\ \ / / | '_ \| | | | | + 0 % | | \ V /| | | | | |_| | | 0 0 + % | | \_/ |_|_| |_|\__, |_| % + % % 00 \_\ 0 |___/ 0 + % % % __ _ _ _ _ % __ 0 + 0 0 % /__\_| (_) |_(_) ___ _ __\ \ + % /_\/ _` | | __| |/ _ \| '_ \| | 0 + % //_| (_| | | |_| | (_) | | | | | + 0 \__/\__,_|_|\__|_|\___/|_| |_| | 0 + % % 00 0 0 /_/ + 0 0 00 + % + by Algolit + + Created in 1985, Wordnet is a hierarchical taxonomy that de- + scribes the world. It was inspired by theories of human semantic + % memory developed in the late 1960s. Nouns, verbs, adjectives and + adverbs are grouped into synonyms sets or synsets, expressing a + different concept. % + + ImageNet is an image dataset based on the WordNet 3.0 nouns hier- + archy. Each synset is depicted by thousands of images. From 2010 % + until 2017, the ImageNet Large Scale Visual Recognition Challenge + (ILSVRC) was a key benchmark in object category classification + % for pictures, having a major impact on software for photography, + image searches, image recognition. + + 1000 synsets (Vinyl Edition) contains the 1000 synsets used in + this challenge recorded in the highest sound quality that this + % analog format allows. This work highlights the importance of the + datasets used to train artificial intelligence (AI) models that + run on devices we use on a daily basis. Some of them inherit + classifications that were conceived more than 30 years ago. This + sound work is an invitation to thoughtfully analyse them. + + --- + + Concept & recording: Javier Lloret + + Voices: Sara Hamadeh & Joseph Hughes + + + + + + + + + + + + + + 31 + CONTEXTUAL STORIES + ABOUT INFORMANTS + + + + --- Datasets as representations --- community you try to distinguish what serves the + community and what doesn't and you try to general- + The data-collection processes that lead to the ize that, because I think that's what the good + creation of the dataset raise important questions: faith-bad faith algorithm is trying to do, to find + who is the author of the data? Who has the privi- helper tools to support the project, you do that + lege to collect? For what reason was the selection on the basis of a generalization that is on the + made? What is missing? abstract idea of what Wikipedia is and not on the + living organism of what happens every day. What +The artist Mimi Onuoha gives a brilliant example interests me in the relation between vandalism and +of the importance of collection strategies. She debate is how we can understand the conventional + chose the case of statistics related to hate drive that sits in these machine-learning pro- + crimes. In 2012, the FBI Uniform Crime Reporting cesses that we seem to come across in many places. + (UCR) Program registered almost 6000 hate crimes And how can we somehow understand them and deal + committed. However, the Department of Justice’s with them? If you place your separation of good + Bureau of Statistics came up with about 300.000 faith-bad faith on pre-existing labelling and then + reports of such cases. That is over 50 times as reproduce that in your understanding of what edits + many. The difference in numbers can be explained are being made, how then to take into account + by how the data was collected. In the first situa- movements that are happening, the life of the ac- + tion law enforcement agencies across the country tual project? + voluntarily reported cases. For the second survey, + the Bureau of Statistics distributed the National Amir: It's an interesting discussion. Firstly, +Crime Victimization form directly to the homes of what we are calling good faith and bad faith comes +victims of hate crimes. from the community itself. We are not doing la- + belling for them, they are doing labelling for + In the field of Natural Language Processing (NLP) themselves. So, in many different language + the material that machine learners work with is Wikipedias, the definition of what is good faith + text-based, but the same questions still apply: and what is bad faith will differ. Wikimedia is + who are the authors of the texts that make up the trying to reflect what is inside the organism and + dataset? During what period were the texts col- not to change the organism itself. If the organism + lected? What type of worldview do they represent? changes, and we see that the definition of good + faith and helping Wikipedia has been changed, we + In 2017, Google's Top Stories algorithm pushed a are implementing this feedback loop that lets + thread of 4chan, a non-moderated content website, people from inside their community pass judgement + to the top of the results page when searching for on their edits and if they disagree with the la- + the Las Vegas shooter. The name and portrait of an belling, we can go back to the model and retrain +innocent person were linked to the terrible crime. the algorithm to reflect this change. It's some +Google changed its algorithm just a few hours af- sort of closed loop: you change things and if +ter the mistake was discovered, but the error had someone sees there is a problem, then they tell us + already affected the person. The question is: why and we can change the algorithm back. It's an on- + did Google not exclude 4chan content from the going project. + training dataset of the algorithm? + Reference + Reference https://gitlab.constantvzw.org/algolit/algolit/blob/ + https://points.datasociety.net/the-point-of- master/algoliterary_encounter/Interview%20with%20Amir + collection-8ee44ad7c2fa + + https://arstechnica.com/information-technology --- How to make your dataset known --- + /2017/10/google-admits-citing-4chan-to-spread- + fake-vegas-shooter-news/ NLTK stands for Natural Language Toolkit. For pro- + grammers who process natural language using + Python, this is an essential library to work with. +--- Labeling for an Oracle that Many tutorial writers recommend machine learning + detects vandalism on Wikipedia --- learners to start with the inbuilt NLTK datasets. + It comprises 71 different collections, with a to- + This fragment is taken from an interview with Amir tal of almost 6000 items. + Sarabadani, software engineer at Wikimedia. He was + in Brussels in November 2017 during the Algoliter- There is for example the Movie Review corpus for + ary Encounter. sentiment analysis. Or the Brown corpus, which was + put together in the 1960s by Henry Kučera and W. + Femke: If you think about Wikipedia as a living Nelson Francis at Brown University in Rhode Is- + community, with every edit the project changes. land. There is also the Declaration of Human + Every edit is somehow a contribution to a living Rights corpus, which is commonly used to test + organism of knowledge. So, if from within that whether the code can run on multiple languages. + + 32 + + + + + The corpus contains the Declaration of Human Rights In fact, at the beginning of Wikipedia, + expressed in 372 languages from around the world. many articles were written by bots. + Rambot, for example, was a controversial bot + But what is the process of getting a dataset ac- figure on the English-speaking platform. + cepted into the NLTK library nowadays? On the It authored 98 per cent of the pages de- + Github page, the NLTK team describes the following scribing US towns. + requirements: + As a result of serial and topical robot interven- + - Only contribute corpora that have obtained a ba- tions, the models that are trained on the full + sic level of notability. That means, there is a Wikipedia dump have a unique view on composing ar- +publication that describes it, and a community of ticles. For example, a topic model trained on all +programmers who are using it. of Wikipedia articles will associate 'river' with +- Ensure that you have permission to redistribute 'Romania' and 'village' with 'Turkey'. This is be- + the data, and can document this. This means that cause there are over 10000 pages written about + the dataset is best published on an external web- villages in Turkey. This should be enough to spark + site with a licence. anyone's desire for a visit, but it is far too + - Use existing NLTK corpus readers where possible, much compared to the number of articles other + or else contribute a well-documented corpus reader countries have on the subject. The asymmetry + to NLTK. This means, you need to organize your causes a false correlation and needs to be re- + data in such a way that it can be easily read us- dressed. Most models try to exclude the work of + ing NLTK code. these prolific robot writers. + + Reference +--- Extract from a positive IMDb https://blog.lateral.io/2015/06/the-unknown- + movie review from the NLTK dataset --- perils-of-mining-wikipedia/ + + corpus: NLTK, movie reviews + + fileid: pos/cv998_14111.txt + + steven spielberg ' s second epic film on world war + ii is an unquestioned masterpiece of film . spiel- + berg , ever the student on film , has managed to + resurrect the war genre by producing one of its + grittiest , and most powerful entries . he also + managed to cast this era ' s greatest answer to + jimmy stewart , tom hanks , who delivers a perfor- +mance that is nothing short of an astonishing mir- +acle . for about 160 out of its 170 minutes , " +saving private ryan " is flawless . literally . + the plot is simple enough . after the epic d - day + invasion ( whose sequences are nothing short of + spectacular ) , capt . john miller ( hanks ) and + his team are forced to search for a pvt . james + ryan ( damon ) , whose brothers have all died in + battle . once they find him , they are to bring + him back for immediate discharge so that he can go + home . accompanying miller are his crew , played + with astonishing perfection by a group of charac- + ter actors that are simply sensational . barry + pepper , adam goldberg , vin diesel , giovanni +ribisi , davies , and burns are the team sent to +find one man , and bring him home . the battle se- +quences that bookend the film are extraordinary . + literally . + + + --- The ouroboros of machine learning --- + + Wikipedia has become a source for learning not + only for humans, but also for machines. Its arti- + cles are prime sources for training models. But + very often, the material the machines are trained + on is the same content that they helped to write. + + 33 +0 12 3 4 5 67 8 9 0 + 12 3 4 5 67 8 9 0 12 + 3 4 5 67 8 9 0 1 2 + 3 4 5 6 7 8 9 0 1 2 3 + 4 56 7 8 9 01 2 3 + 4 56 7 8 9 01 2 3 + 4 56 7 8 9 01 2 3 + 4 56 7 8 9 0 1 2 3 4 + 5 6 7 8 9 0 1 2 3 45 6 + 7 8 90 1 2 3 45 6 + 7 8 90 1 2 3 45 6 + 7 8 90 1 2 3 4 5 6 + 7 8 9 0 1 2 3 4 5 6 + 7 89 0 1 2 34 5 6 + 7 89 0 1 2 34 5 6 + 7 89 0 1 2 34 5 6 7 +89 0 1 2 3 4 5 6 7 8 9 + 0 1 2 3 4 5 6 78 9 + 0 1 23 4 5 6 78 9 0 + 1 23 4 5 6 78 9 0 + 1 23 4 5 6 78 9 0 + 1 2 3 4 5 6 7 8 9 0 + 1 2 3 4 5 67 8 9 0 12 + 3 4 5 67 8 9 0 12 + 3 4 5 67 8 9 0 12 3 + 4 5 6 7 8 9 0 1 2 3 + 4 5 6 7 8 9 01 2 3 + 4 56 7 8 9 01 2 3 + 4 56 7 8 9 01 2 3 + 4 56 7 8 9 01 2 3 4 + 5 6 7 8 9 0 1 2 3 4 5 6 + 7 8 90 1 2 3 45 6 + 7 8 90 1 2 3 45 6 + 7 8 90 1 2 3 45 6 + 7 8 90 1 2 3 4 5 6 7 + 8 9 0 1 2 3 4 5 6 7 + 89 0 1 2 34 5 6 7 +89 0 1 2 34 5 6 7 89 + 0 1 2 34 5 6 7 8 9 + 0 1 2 3 4 5 6 7 8 9 +0 1 23 4 5 6 78 9 0 + 1 23 4 5 6 78 9 0 + 1 23 4 5 6 78 9 0 + 1 23 4 5 6 7 8 9 0 + 1 2 3 4 5 6 7 8 9 0 12 3 + 4 5 67 8 9 0 12 3 + 4 5 67 8 9 0 12 3 + 4 5 67 8 9 0 12 3 + 4 5 6 7 8 9 0 1 2 3 + 4 5 6 7 8 9 01 2 3 4 + 56 7 8 9 01 2 3 4 + 56 7 8 9 01 2 3 4 5 +6 7 8 9 0 1 2 3 4 5 6 + 7 8 9 0 1 2 3 45 6 + 7 8 90 1 2 3 45 6 + 7 8 90 1 2 3 45 6 +7 8 90 1 2 3 45 6 7 + 8 9 0 1 2 3 4 5 6 7 + 8 9 0 1 2 34 5 6 7 89 + 0 1 2 34 5 6 7 89 0 + 1 2 34 5 6 7 89 0 + 1 2 34 5 6 7 8 9 0 + 1 2 3 4 5 6 7 8 9 0 + 1 23 4 5 6 78 9 0 + 1 23 4 5 6 78 9 0 + 1 23 4 5 6 78 9 0 1 + 2 3 4 5 6 7 8 9 0 1 2 3 + 4 5 67 8 9 0 12 3 + 4 5 67 8 9 0 12 3 + 34 +readers read readers read readers read readers read readers read readers read readers re +d readers read readers read readers read readers read readers re +d readers read readers read readers read readers read + readers read readers read readers read re +ders read readers read readers read readers re +d readers read readers read readers r +ad readers read readers read +readers read readers read readers read + readers read readers read +readers read readers read readers read + readers read readers read + readers read readers read + readers read readers read + readers read readers read + readers read readers read + readers read readers read + readers read readers +read readers read + readers read readers read + readers read readers read + readers read + readers read readers read + readers read + readers read readers read + readers read + readers read readers read + readers read + readers read readers re +d readers read + readers read + readers read readers read + readers read + readers read + readers read re +ders read readers read + readers read + readers read + readers read + readers read readers r +ad readers read + readers read + readers read + readers read + readers read + readers read + readers read +readers read readers +read readers read + readers read + readers read + readers read + readers read + readers read + readers read + readers read + readers read + readers read + readers read + readers read + readers read + readers read + readers read + readers read + readers read + readers read + readers read + readers read + readers read + readers read r + 35 + h a o e f rtlt9 b9r+t +-+-+-+-+-+-+-+ n +-+-+-+-+ aM B 6 r fwea5I s s ,e -h e e + m et u t w8 8+ i4 + R w e |r|e|a|d|e|r|s| f |r|e|a|d| C a r_ n b - i1 a s- noh6M+ pha + h a% 8 e olt r_ m c hb8 b +-+-+-+-+-+-+-+ mi +-+-+-+-+ pli f ro u n ae 3aee d oo| 3h 6o +2 ce 'd | 8 eA s d8 - i 6 1 %6 sr2 9 g2 a s lia wrc 3 ?7 i n3+7m s + c htiuw :ead 7 _ 9r t i d 5 sau4nl |e_ ar 8orl t h h+se a s _o1 s56 ka5n1e no hd + d m u 's +e | h64t +-+ +-+-+-+-+-+-+-+-+ o +-+-+-+-+-+-+-+-+-+-+-+ enl o 3 t d Ad- 2 ahs + g o i 0 _ 5o ss x 4 |a| |c|o|m|p|u|t|e|r| sl |u|n|d|e|r|s|t|a|n|d|s| 4i 8 trdiM 48 i5 2 9 + tl e ri 6 9 ln a /8e +-+ +-+-+-+-+-+-+-+-+ 6 x +-+-+-+-+-+-+-+-+-+-+-+ 4 \eda o |y A o3 /1 + e _ en l r 7 -sd c o +-+-+-+ +-+-+-+-+-+-+ l +-+-+-+-+-+-+-+-+-+ d6 m7n n a np l4 s + 7 t p e M fdh c as |a|l|l| |m|o|d|e|l|s| Sa |t|r|a|n|s|l|a|t|e| a 6 w da 5 - o4 5 i ) + r l a nn sh fc ui e7 +-+-+-+ +-+-+-+-+-+-+ c a +-+-+-+-+-+-+-+-+-+ ar 9 r , e a 3 , i + 4 r 2 t +-+-+-+-+ +-+-+-+-+-+-+ 72 +-+-+-+-+-+ p r s r a a h an ' 3 a + o p ft n l |s|o|m|e| |m|o|d|e|l|s| |c|o|u|n|t| 8r n| 1 a r h o /oa e 7 + m8 4 wa +-+-+-+-+ +-+-+-+-+-+-+ l 7 +-+-+-+-+-+ 2 or r i 9e 4 p142 ,6r + l 4N i u-3 am +-+-+-+-+ +-+-+-+-+-+-+ 4s +-+-+-+-+-+-+-+ 23 a e rea le dhVo t74 g + j 7 t o e rd |s|o|m|e| |m|o|d|e|l|s| |r|e|p|l|a|c|e| o -i no r + 2 r l i + o 6 7g i tt i +-+-+-+-+ +-+-+-+-+-+-+ 8fa +-+-+-+-+-+-+-+ x7 e g o ee d +ni +d i tr 6k t r 2 3a8 9 i3 5 hv7 ge 5e u - 3y a _ e 2 8 c +55fi1 - 6 :29 t e al+ atp43e + ac t n b t hTsa4ti03 o% % flol 4-e + rf m r 8 6y heta 1 e 1 m6 +t dy p e 9 n ,o 5 / n _ | s e1 + ni d + n 3 leo 5 ti 5 - sc a +1 w uw9 n+ e i m m + 3 a a a 9 \ -8 18 e e l i e h ghc ey9 8 15 3y a 1 -e i 5a i 9r a5pe + o c c % a + 255 t yy m % 4i i 5 i e t _ 7 au l% 7 o +g s8 5 e 2 r 3i 2 1 _ i4ir 2 e l s 1la n s s ht 2 r s i 3 r +u s+ a e m + 6 2n r-l a c6 - t 7 4t +i +r % 8 6 8 r t t r 3 1 +r s 90 k hl a pWn e i5 7 8 a r e4ro e r5wt s m + - h ea 6 2 8 2 v h nf e _ w lr a iai 7 +| j 4 4 f hc i F 9 p s m toG al 6 / h sde l e + a 4 s 6 9 - h o m 6 _l34 . % w7 e 8 e l + n .52- i 7 5 _ r + s 5 p s 5n+ 3 il e 1 o F c +3 l 2 a o en% _. e 4 8lb 3 r a I 9 k o + t r 6 e + 2 6 y oa n i r% f 1 n78 s h F o +e g v 6 u h ad Ua1 2 a t 9 er n t oh7 s s r t g ++ 7 6 h8 t 7 a - m 73| t o e r i 7 +f l ia s _ e u + 7 ct \ a _ 2- 7 . o o - , + t n 0n 4+ f 2r i 9 s y i3 r t r s e a p m h 4 + a c 7 t 9 n n m mro t s i nd e r +a 1 e e | e 1 3 c n k 2 p e o e + 7i s d 6 a 48 c + Dl 1 1 n r - 0 + V r + a o % 7 7 9r 4 | 9 n 7 e + e n | , m n e s s 1 e n 5 +5 r 4 o 5 1 6 e - 2 a -r _ e s’1 e S i +t 2 +|ee s e c n an i e + a4 9 9 o p _ t 7 h v 9 0 +d % a e , s nr 9 l W h a e t | + + s + a 3 7I a e tk K y3e 2 c - a h o u e d + \+ o 1 h r d t e nl 4 k 9 07 o t v 7s + , n e % _x | i t b1 r h ei + t a8 e o n t 12 o rs a y + i e + n a | a 9 \ + n sr - e 3 i r- 8o e i +6 f i 3 ht a l | h 1 o + a s df m5 i h n i 9n ,u + d c n H s o l c i 5 + o | s m rl 9 1 n c _i e + i + i nr 8 h % t a % t 0 m + i 6 c6 wt a r + g s pr l t a 5 | c i | + e 1 sr/ n e 7 e 9 n t w e c ' + m c - o % n . a 3 + f1 c I u 9 + t + 2 . , 4 na P e e f 2 + n i t 1S f n n a i e + r + e i h 9 _ v + 3 | h e t s a + s E l v - p u 1 h 2 , ' 5 + | + nse t a % 8 e w + o p n y o s o + + 36 + V V V V V V % V V % % % %% % % % % %% % % %% + V V V V V V V V V V V V V V V V % % % 0 0 % % % % 0 %% % %%% % % %%% % +V V V V V V V V V % 0 0 %% % % 0 0 % % 0 % + % % %% % % 0 _____ _ % ___ % _ % __ % % + % % % % /__ \ |__ % ___ / __\ ___ ___ | | __ ___ / _| % + % % READERS % / /\/ '_ \ / _ \ /__\/// _ \ / _ \| |/ / / _ \| |_ % + % % / / | | | | __/ / \/ \ (_) | (_) | < | (_) | _| % + % % \/ |_| |_|\___| \_____/\___/ \___/|_|\_\ \___/|_| + V % V V V V V V V % % _____ 0 % 0 _ + V V V V V V V V V V V V V V V V % /__ \___ _ __ ___ ___ _ __ _ __ _____ __ (_)_ __ +V V V V V V V V V / /\/ _ \| '_ ` _ \ / _ \| '__| '__/ _ \ \ /\ / / | | '_ \ + V % V V V V V V V / / | (_) | | | | | | (_) | | | | | (_) \ V V / | | | | | + V V V V V V V V V V V V V V V V \/ \___/|_| |_| |_|\___/|_| |_| \___/ \_/\_/ |_|_| |_| % +V V % V V V V V V V 0 0 ___ % 0 0 __ + % % 0 __ _ 0 / __\ __ _ __ _ ___ / _| % +We communicate with computers 0 0 / _` | /__\/// _` |/ _` | / _ \| |_ 0 +through language. We click on icons | (_| | / \/ \ (_| | (_| | | (_) | _| % +that have a description in words, 0 \__,_| \_____/\__,_|\__, | \___/|_| +we tap words on keyboards, use our 0 00 |___/ % +voice to give them instructions. 0 / / /\ \ \___ _ __ __| |___ 0 % % +Sometimes we trust our computer % % \ \/ \/ / _ \| '__/ _` / __| 0 +with our most intimate thoughts and 0 0 \ /\ / (_) | | | (_| \__ \ 0 % +forget that they are extensive cal- % \/ \/ \___/|_| \__,_|___/ 0 % +culators. A computer understands +every word as a combination of ze- 0 0 0 +ros and ones. A letter is read as a by Algolit % % +specific ASCII number: capital 'A' +is 001. The bag-of-words model is a simplifying representation of text + used in Natural Language Processing (NLP). In this model, a text +In all models, rule-based, classi- is represented as a collection of its unique words, disregarding +cal machine learning, and neural grammar, punctuation and even word order. The model transforms +networks, words undergo some type the text into a list of words and how many times they're used in +of translation into numbers in or- the text, or quite literally a bag of words. +der to understand the semantic +meaning of language. This is done This heavy reduction of language was the big shock when beginning +through counting. Some models count to machine learn. Bag of words is often used as a baseline, on +the frequency of single words, some which the new model has to perform better. It can understand the +might count the frequency of combi- subject of a text by recognizing the most frequent or important +nations of words, some count the words. It is often used to measure the similarities of texts by +frequency of nouns, adjectives, comparing their bags of words. +verbs or noun and verb phrases. +Some just replace the words in a For this work the article 'Le Livre de Demain' by engineer G. +text by their index numbers. Num- Vander Haeghen, published in 1907 in the Bulletin de l'Institut +bers optimize the operative speed International de Bibliographie of the Mundaneum, has been liter- +of computer processes, leading to ally reduced to a bag of words. You can buy a bag at the recep- +fast predictions, but they also re- tion of Mundaneum. +move the symbolic links that words +might have. Here we present a few --- +techniques that are dedicated to +making text readable to a machine. Concept & realisation: An Mertens + % + + 0 00 + 0 0 0 + 0 _____ ___ _____ ___ ___ + 0 0 /__ \/ __\ \_ \/ \/ __\ + 0 0 / /\/ _\____ / /\/ /\ / _\ + 0 00 / / / /|_____/\/ /_/ /_// / + \/ \/ \____/___,'\/ + 0 + + by Algolit + + The TF-IDF (Term Frequency-Inverse Document Frequency) is a + weighting method used in text search. This statistical measure + makes it possible to evaluate the importance of a term contained + in a document, relative to a collection or corpus of documents. + The weight increases in proportion to the number of occurrences + + 37 + %% % % % %% %% of the word in the document. It also varies according to the fre- + % % % % % quency of the word in the corpus. The TF-IDF is used in particu- + % % % % %% lar in the classification of spam in email softwares. % + % % % % % % % % % + % % % % A web-based interface shows this algorithm through animations % + % making it possible to understand the different steps of text % + % % % classification. How does a TF-IDF-based programme read a text? % + % How does it transform words into numbers? % % % + % % % % % + % --- % % + % % % + % Concept, code, animation: Sarah Garcin % + % % % + % % % + 0 0 % % + % 0 0 % + 0 ___ 0 _ 0 0 + 0 / _ \_ __ _____ _(_)_ __ __ _ __ _ + 0 / /_\/ '__/ _ \ \ /\ / / | '_ \ / _` | / _` | + 0 / /_\\| | | (_) \ V V /| | | | | (_| | | (_| | + 0 \____/|_| \___/ \_/\_/ |_|_| |_|\__, | \__,_| + 0 0 0 |___/ 0 + 0 0 0 _ 0 % + % | |_ _ __ ___ ___ + % 0 0 | __| '__/ _ \/ _ \ % + % 0 | |_| | | __/ __/ + 0 0 0 \__|_| \___|\___| + % + + by Algolit % + % % + % % Parts-of-Speech is a category of words that we learn at school: + % noun, verb, adjective, adverb, pronoun, preposition, conjunction, + % interjection, and sometimes numeral, article, or determiner. % + + In Natural Language Processing (NLP) there exist many writings + that allow sentences to be parsed. This means that the algorithm + can determine the part-of-speech of each word in a sentence. + 'Growing a tree' uses this technique to define all nouns in a + specific sentence. Each noun is then replaced by its definition. + This allows the sentence to grow autonomously and infinitely. + The recipe of 'Growing a tree' was inspired by Oulipo's constraint + of 'littérature définitionnelle' invented by Marcel Benabou in + 1966. In a given phrase, one replaces every significant element + (noun, adjective, verb, adverb) by one of its definitions in a + given dictionary; one reiterates the operation on the newly + received phrase, and again. + + The dictionary of definitions used in this work is Wordnet. Word- + net is a combination of a dictionary and a thesaurus that can be + read by machines. According to Wikipedia it was created in the + Cognitive Science Laboratory of Princeton University starting in + 1985. The project was initially funded by the US Office of Naval + Research and later also by other US government agencies including + DARPA, the National Science Foundation, the Disruptive Technology + Office (formerly the Advanced Research and Development Activity), + and REFLEX. + + --- + + Concept, code & interface: An Mertens & Gijs de Heij + + + + + + + + + 38 + % % %% % %% % % %% _ _ % % % _ _ _ %% % % _ %%% % % % + %% /_\ | | __ _ ___ _ __(_) |_| |__ _ __ ___ (_) ___ % + %% 0 //_\\| |/ _` |/ _ \| '__| | __| '_ \| '_ ` _ \| |/ __| % % + % % % % / _ \ | (_| | (_) | | | | |_| | | | | | | | | | (__ % + % % % % % % \_/ \_/_|\__, |\___/|_| |_|\__|_| |_|_| |_| |_|_|\___| % % + % %% % % % |___/ % 0 _ _ %% % % 00 % __ %% + % % % _ __ ___ __ _ __| (_)_ __ __ _ ___ ___ / _| %% % + % % % | '__/ _ \/ _` |/ _` | | '_ \ / _` / __| / _ \| |_ % + % % | | | __/ (_| | (_| | | | | | (_| \__ \ | (_) | _| % % + |_| \___|\__,_|\__,_|_|_| |_|\__, |___/ \___/|_| + % % 0 % ___ 0 _ _ 0 _|___/ 0 %_ 0 % + % / __\ ___ _ __| |_(_) | | ___ _ __( )__ % + % % 0 /__\/// _ \ '__| __| | | |/ _ \| '_ \/ __| %% + / \/ \ __/ | | |_| | | | (_) | | | \__ \ % + % 0 0 \_____/\___|_| \__|_|_|_|\___/|_| |_|___/ + % % 0 _ _ _ 0 + % % % _ __ 0 ___ _ __| |_ _ __ __ _(_) |_ % + % % % | '_ \ / _ \| '__| __| '__/ _` | | __| 0 + % 00 | |_) | (_) | | | |_| | | (_| | | |_ + % | .__/ \___/|_| \__|_| \__,_|_|\__| % + |_| 0 _ __ + 0 _ __ __ _ _ __| | _/_/ + 0 0 | '_ \ / _` | '__| |/ _ \ 0 + 0 | |_) | (_| | | | | __/ 0 + 0 | .__/ \__,_|_| |_|\___| + 0 0 |_| + 00 0 0 0 0 00 + + % by Guillaume Slizewicz (Urban Species) + % % % + Written in 1907, Un code télégraphique du portrait parlé is an + attempt to translate the 'spoken portrait', a face-description + technique created by a policeman in Paris, into numbers. By im- + plementing this code, it was hoped that faces of criminals and + fugitives could easily be communicated over the telegraphic net- + % work in between countries. In its form, content and ambition this + text represents our complicated relationship with documentation + % technologies. This text sparked the creation of the following in- + % stallations for three reasons: % + + - First, the text is an algorithm in itself, a compression algo- + rithm, or to be more precise, the presentation of a compression + % algorithm. It tries to reduce the information to smaller pieces + while keeping it legible for the person who has the code. In this + % regard it is linked to the way we create technology, our pursuit + for more efficiency, quicker results, cheaper methods. It repre- + sents our appetite for putting numbers on the entire world, mea- + suring the smallest things, labeling the tiniest differences. + This text itself embodies the vision of the Mundaneum. + + - Second it is about the reasons for and the applications of + technology. It is almost ironic that this text was in the se- + lected archives presented to us in a time when face recognition + and data surveillance are so much in the news. This text bears + the same characteristics as some of today's technology: motivated + by social control, classifying people, laying the basis for a + surveillance society. Facial features are at the heart of recent + controversies: mugshots were standardized by Bertillon, now they + are used to train neural network to predict criminals from law- + abiding citizens. Facial recognition systems allow the arrest of + criminals via CCTV infrastructure and some assert that people’s + features can predict sexual orientation. + + - The last point is about how it represents the evolution of + mankind’s techno-structure. What our tools allow us to do, what + they forbid, what they hinder, what they make us remember and + what they make us forget. This document enables a classification + between people and a certain vision of what normality is. It + + 39 + breaks the continuum into pieces thus allowing stigmatiza- + tion/discrimination. On the other hand this document also feels + %% %% % %% %% % obsolete today, because our techno-structure does not need such + % %% % % % detailed written descriptions about fugitives, criminals or citi- % + % %% % % % % % % zens. We can now find fingerprints, iris scans or DNA info in % + % % % % % % % % % % large datasets and compare them directly. Sometimes the techno- % + % % % % logical systems do not even need human supervision and recognize + % % % %% % % directly the identity of a person via their facial features or % % + % their gait. Computers do not use intricate written language to + describe a face, but arrays of integers. Hence all the words used + % in this documents seem désuets, dated. Have we forgotten what % + some of them mean? Did photography make us forget how to describe + % faces? Will voice-assistance software teach us again? + % + Writing with Otlet + % % + % % Writing with Otlet is a character generator that uses the spoken % + % portrait code as its database. Random numbers are generated and + % translated into a set of features. By creating unique instances, + % the algorithm reveals the richness of the description that is + possible with the portrait code while at the same time embodying + its nuances. + % + An interpretation of Bertillon's spoken portrait. %% + + % This work draws a parallel between Bertillon systems and current + ones. A webcam linked to a facial recognition algorithm captures % + the beholder's face and translates it into numbers on a canvas, + % printing it alongside Bertillon's labelled faces. + % % + References + https://www.technologyreview.com/s/602955/neural-network-learns- + to-identify-criminals-by-their-faces/ + + https://fr.wikipedia.org/wiki/Bertillonnage + + https://callingbullshit.org/case_studies/case_study_criminal_ + machine_learning.html + % % + % + % % 0 0 0 0 % + 0 0 0 + /\ /\__ _ _ __ __ _ _ __ ___ __ _ _ __ + 0 / /_/ / _` | '_ \ / _` | '_ ` _ \ / _` | '_ \ + / __ / (_| | | | | (_| | | | | | | (_| | | | | + \/ /_/ \__,_|_| |_|\__, |_| |_| |_|\__,_|_| |_| + 0 0 |___/ 0 0 + % 0 0 0 0 0 % + % + by Laetitia Trozzi, student Arts²/Section Digital Arts + + What better way to discover Paul Otlet and his passion for liter- + ature than to play hangman? Through this simple game, which con- + sists in guessing the missing letters in a word, the goal is to + make the public discover terms and facts related to one of the + creators of the Mundaneum. + % + Hangman uses an algorithm to detect the frequency of words in a + text. Next, a series of significant words were isolated in Paul + Otlet's bibliography. This series of words is integrated into a + hangman game presented in a terminal. The difficulty of the game + gradually increases as the player is offered longer and longer + words. Over the different game levels, information about the life + and work of Paul Otlet is displayed. + + % + + + + 40 + CONTEXTUAL STORIES + ABOUT READERS + + + + Naive Bayes, Support Vector Machines and Linear ter trigram. All the overlapping sequences of + Regression are called classical machine learning three characters are isolated. For example, the + algorithms. They perform well when learning with character 3-grams of 'Suicide', would be, ‘Sui’, + small datasets. But they often require complex ‘uic’, ‘ici’, ‘cid’, etc. Character n-gram fea- + Readers. The task the Readers do, is also called tures are very simple, they're language-indepen- + feature-engineering. This means that a human needs dent and they're tolerant to noise. Furthermore, + to spend time on a deep exploratory data analysis spelling mistakes do not jeopardize the technique. +of the dataset. + Patterns found with character n-grams focus on +Features can be the frequency of words or letters, stylistic choices that are unconsciously made by + but also syntactical elements like nouns, adjec- the author. The patterns remain stable over the + tives, or verbs. The most significant features for full length of the text, which is important for + the task to be solved, must be carefully selected authorship recognition. Other types of experiments + and passed over to the classical machine learning could include measuring the length of words or + algorithm. This process marks the difference with sentences, the vocabulary richness, the frequen- + Neural Networks. When using a neural network, cies of function words; even syntax or semantics- + there is no need for feature-engineering. Humans related measurements. + can pass the data directly to the network and + achieve fairly good performances straightaway. This means that not only your physical fingerprint + This saves a lot of time, energy and money. is unique, but also the way you compose your + thoughts! The same n-gram technique discovered that +The downside of collaborating with Neural Networks The Cuckoo’s Calling, a novel by Robert Galbraith, +is that you need a lot more data to train your was actually written by … J. K. Rowling! +prediction model. Think of 1GB or more of plain + text files. To give you a reference, 1 A4, a text Reference + file of 5000 characters only weighs 5 KB. You Paper: On the Robustness of Authorship Attribu- + would need 8,589,934 pages. More data also re- tion Based on Character N-gram Features, Efs- + quires more access to useful datasets and more, tathios Stamatatos, in Journal of Law & Policy, + much more processing power. Volume 21, Issue 2, 2013. + + News article: https://www.scientificamerican.com + --- Character n-gram for /article/how-a-computer-program-helped-show-jk- + authorship recognition --- rowling-write-a-cuckoos-calling/ + + Imagine … You've been working for a company for +more than ten years. You have been writing tons of --- A history of n-grams --- +emails, papers, internal notes and reports on very +different topics and in very different genres. All The n-gram algorithm can be traced back to the + your writings, as well as those of your col- work of Claude Shannon in information theory. In + leagues, are safely backed-up on the servers of the paper, 'A Mathematical Theory of Communica- + the company. tion', published in 1948, Shannon performed the + first instance of an n-gram-based model for natu- + One day, you fall in love with a colleague. After ral language. He posed the question: given a se- + some time you realize this human is rather mad and quence of letters, what is the likelihood of the + hysterical and also very dependent on you. The day next letter? + you decide to break up, your (now) ex elaborates a + plan to kill you. They succeed. This is unfortu- If you read the following excerpt, can you tell + nate. A suicide letter in your name is left next who it was written by? Shakespeare or an n-gram + to your corpse. Because of emotional problems, it piece of code? +says, you decided to end your life. Your best +friends don't believe it. They decide to take the SEBASTIAN: Do I stand till the break off. +case to court. And there, based on the texts you + and others produced over ten years, a machine BIRON: Hide thy head. + learning model reveals that the suicide letter was + written by someone else. VENTIDIUS: He purposeth to Athens: whither, with + the vow + How does a machine analyse texts in order to iden- I made to handle you. + tify you? The most robust feature for authorship + recognition is delivered by the character n-gram FALSTAFF: My good knave. + technique. It is used in cases with a variety of + thematics and genres of the writing. When using You may have guessed, considering the topic of + character n-grams, texts are considered as se- this story, that an n-gram algorithm generated + quences of characters. Let's consider the charac- this text. The model is trained on the compiled + + 41 + + + + + works of Shakespeare. While more recent algo- press, traders sell. On the contrary, if the news + rithms, such as the recursive neural networks of is good, they buy. + the CharNN, are becoming famous for their perfor- + mance, n-grams still execute a lot of NLP tasks. A paper by Haikuan Liu of the Australian National + They are used in statistical machine translation, University states that the tense of verbs used in + speech recognition, spelling correction, entity tweets can be an indicator of the frequency of fi- + detection, information extraction, ... nancial transactions. His idea is based on the + fact that verb conjugation is used in psychology + to detect the early stages of human depression. + --- God in Google Books --- + Reference +In 2006, Google created a dataset of n-grams from Paper: 'Grammatical Feature Extraction and Analy- +their digitized book collection and released it sis of Tweet Text: An Application towards Pre- +online. Recently they also created an n-gram dicting Stock Trends', Haikuan Liu, Research + viewer. School of Computer Science (RSCS), College of + Engineering and Computer Science (CECS), + This allowed for many socio-linguistic investiga- The Australian National University (ANU) + tions. For example, in October 2018, the New York + Times Magazine published an opinion article titled + 'It’s Getting Harder to Talk About God'. The au- --- Bag of words --- + thor, Jonathan Merritt, had analysed the mention + of the word 'God' in Google's dataset using the In Natural Language Processing (NLP), 'bag of + n-gram viewer. He concluded that there had been words' is considered to be an unsophisticated mod- + a decline in the word's usage since the twentieth el. It strips text of its context and dismantles + century. Google's corpus contains texts from the it into a collection of unique words. These words +sixteenth century leading up to the twenty-first. are then counted. In the previous sentences, for +However, what the author missed out on was the example, 'words' is mentioned three times, but +growing popularity of scientific journals around this is not necessarily an indicator of the text's + the beginning of the twentieth century. This new focus. + genre that was not mentioning the word God shifted + the dataset. If the scientific literature was The first appearance of the expression 'bag of + taken out of the corpus, the frequency of the word words' seems to go back to 1954. Zellig Harris, + 'God' would again flow like a gentle ripple from an influential linguist, published a paper called + a distant wave. 'Distributional Structure'. In the section called + 'Meaning as a function of distribution', he says + 'for language is not merely a bag of words but a + --- Grammatical features taken from tool with particular properties which have been + Twitter influence the stock market --- fashioned in the course of its use. The linguist's + work is precisely to discover these properties, +The boundaries between academic disciplines are whether for descriptive analysis or for the synthesis +becoming blurred. Economics research mixed with of quasi-linguistic systems.' +psychology, social science, cognitive and emo- + tional concepts have given rise to a new economics + subfield, called 'behavioral economics'. This + means that researchers can start to explain stock + market mouvement based on factors other than eco- + nomic factors only. Both the economy and 'public + opinion' can influence or be influenced by each + other. A lot of research is being done on how to + use 'public opinion' to predict tendencies in + stock-price changes. + + 'Public opinion' is estimated from sources of +large amounts of public data, like tweets, blogs +or online news. Research using machinic data anal- +ysis shows that the changes in stock prices can be + predicted by looking at 'public opinion', to some + degree. There are many scientific articles online, + which analyse the press on the 'sentiment' ex- + pressed in them. An article can be marked as more + or less positive or negative. The annotated press + articles are then used to train a machine learning + model, which predicts stock market trends, marking + them as 'down' or 'up'. When a company gets bad + + 42 +learners learn learners learn learners learn learners learn learners learn learners learn + learners learn learners learn learners learn learners learn learners learn + learners learn learners learn learners learn learners learn + learners learn learners learn learners learn + learners learn learners learn learners learn lea +ners learn learners learn learners learn +learners learn learners learn learners learn + learners learn learners learn learners +earn learners learn learners learn + learners learn learners learn + learners learn learners learn lea +ners learn learners learn learners +learn learners learn learners +earn learners learn learne +s learn learners learn +learners learn learners learn + learners learn learners learn + learners learn learners learn + learners learn + learners learn learners learn + learners learn learners learn + learners learn + learners learn learners learn + learners learn + learners learn learners learn + learners learn + learners learn learners +learn learners learn + learners learn + learners learn learners learn + learners learn + learners learn + learners learn learners +learn learners learn + learners learn + learners learn + learners learn lea +ners learn learners learn + learners learn + learners learn + learners learn + learners learn + learners learn + learners learn learners +earn learners learn + learners learn + learners learn + learners learn + learners learn + learners learn + learners learn + learners learn + learners learn + learners learn + learners learn + learners learn + learners learn + learners learn + learners learn + learners learn + learners learn + learners learn + learners learn + learners learn + learners learn + learners learn + learners learn + learners learn + learners learn + 43 + 4n r- ro %r5 l e +-+-+-+-+-+-+-+-+ f +-+-+-+-+-+ m 9-e p + st2- a , _ nr2 + l itr9 op 2c b ue |l|e|a|r|n|e|r|s| , y |l|e|a|r|n| ) g- 9 c w 1 atn_wn o_ c| + c o b op , +_7 -x a 9acl +-+-+-+-+-+-+-+-+ hc +-+-+-+-+-+ 34 u a 9a l |an t p 9 - +|\ _ l6el , 7 3 u r1 3 8dl a. m s T rv t ro|lm ni3 4 V3 as1to 4 e hp +5_s -o 4 d o9n t 0 t V i5n _ i, _ iu9 l + t t 6t s r s exe4eh l 4 + ri _g d s es c s a 4s i+ i _ +-+-+-+-+-+-+-+-+ +-+-+-+ +-+-+-+-+-+-+-+ e l4 f k 5l l wu |f + ete V o I- 4e |l|e|a|r|n|e|r|s| 6 e |a|r|e| |p|a|t|t|e|r|n| st 62 t a ne e 2 ? + .n l 1 ntb 5 d9 +-+-+-+-+-+-+-+-+ e e1 +-+-+-+ +-+-+-+-+-+-+-+ ia 5 n i w er8 + er 1 t i 9 te9 n r7 | t ie m +-+-+-+-+-+-+-+ n s 1 i- e i X c w a + 4 _c4 c s+ m t eh h.5 t a i t m p3 a e |f|i|n|d|e|r|s| , ll 6a e e7ifo- +cs te s- + h 5 8 m wl c tl u w2 +-+-+-+-+-+-+-+ 8 r s oe t % 8- 1 tl3o 4 + n r a t t 3a 9 +-+-+-+-+-+-+-+-+ 5i9 +-+-+-+ +-+-+-+-+-+-+-+-+ l s 9 | 9a e 0sbntaf + m(um8 j ra e +t o |l|e|a|r|n|e|r|s| |a|r|e| |c|r|a|w|l|i|n|g| n n ei pte7i r 6ms + t s G_ el i + ka e . +-+-+-+-+-+-+-+-+ +-+-+-+ +-+-+-+-+-+-+-+-+ ,/s u r r 4 1 i h + d heeo 2eei m g r ao a ah( 9a u m9 V e +-+-+-+-+-+-+-+ +-+-+-+-+ nae T-e r s-i5 7n + gt r_ y e io 96 e e s d |T trig - l |t|h|r|o|u|g|h| |d|a|t|a| 7s e1s77 87 2 fw m c + 9d. 2 _ e 2nnm 96 n a t7- c d, o e +-+-+-+-+-+-+-+ +-+-+-+-+ 6 r n rbhi e 5 s n d + / _ 2r s f a ef +-+-+-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+ +-+-+-+-+ +-+-+-+-+ h asn _ + t5 w w p l n | a -s |l|e|a|r|n|e|r|s| e |g|e|n|e|r|a|t|e| |s|o|m|e| |k|i|n|d| u s s + ie im i i 7 t 4 +-+-+-+-+-+-+-+-+ r +-+-+-+-+-+-+-+-+ +-+-+-+-+ +-+-+-+-+ u t nr+ a + c 7 t s x 4 da n 7 Fd e c & +-+-+ +-+-+-+-+-+-+-+-+ raa o c5 ' e ro. + k1 n t re 8 n et 9 1 l r 0V |o|f| |s|p|e|c|i|f|i|c| a t9 s c rv v s l + n_fa r% a Z a 5 w me m n 5 1s n +-+-+ +-+-+-+-+-+-+-+-+ t S 1 o a r d rb + y 7 r c o ge D _ns v / b +-+-+-+-+-+-+-+-+-+ 8 4- i o 9 t e + i 4 9 9t6 9- é2 o p| o v i |'|g|r|a|m|m|a|r|'| n p t p 8sn _ l 8 + nt 2pc t V4 e ha e 3 1 , n 2 i o +-+-+-+-+-+-+-+-+-+ %4 r 8 1 1 t e + e 8 rn d +-+-+-+-+-+-+-+-+-+-+-+ i +-+-+-+-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+ u t + e e e e r F |c|l|a|s|s|i|f|i|e|r|s| %f |g|e|n|e|r|a|t|e|,| |e|v|a|l|u|a|t|e| 1 h V0 t n + nh % c 5 h r +-+-+-+-+-+-+-+-+-+-+-+ ti +-+-+-+-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+ Ul n m , + - n 2 ab m 3 o- r e 6| n +-+-+-+ +-+-+-+-+-+-+-+-+ 6 + oe / + l t i u + u t l i 7 ei |a|n|d| |r|e|a|d|j|u|s|t| 5 r f l f5 % + n 2 s e m a m e d1 m uh c +-+-+-+ +-+-+-+-+-+-+-+-+ n s g o _ + e d c ps +-+-+-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+-+-+ +-+-+-+ + a D y5 8r + +1n o h |l|e|a|r|n|e|r|s| |u|n|d|e|r|s|t|a|n|d| |a|n|d| k4t tr t m + u a t +-+-+-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+-+-+ +-+-+-+ a 3 i 3 t + 2 r 7 n n 9 r r. t p i +-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+ -- c + g + l t v c i 8 f as |r|e|v|e|a|l| |p|a|t|t|e|r|n|s| a _ n + 4 s l 5 2 + f s - l +-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+ 4 - e + y + h -_ 7 +-+-+-+-+-+-+-+-+ +-+-+-+-+-+ +-+-+-+-+-+-+ o . - i e + i e l t e _ V n |l|e|a|r|n|e|r|s| |d|o|n|'|t| |a|l|w|a|y|s| 4b ,i + _ % rt h e ,a +-+-+-+-+-+-+-+-+ +-+-+-+-+-+ +-+-+-+-+-+-+ a _ h _ + 2 V o 5 t +-+-+-+-+-+-+-+-+-+-+-+-+ +-+-+-+-+ _ s + c % po + h o3 mi5 8 |d|i|s|t|u|i|n|g|u|i|s|h| |w|e|l|l| w 7 _nn + , ha u pk +-+-+-+-+-+-+-+-+-+-+-+-+ +-+-+-+-+ 91s 6 a + s hp I 3 % +-+-+-+-+-+ +-+-+-+-+-+-+-+-+ i 8 + v o 6 o r s |w|h|i|c|h| |p|a|t|t|e|r|n|s| s_ oge e + n a + e o e 3 n 7 +-+-+-+-+-+ +-+-+-+-+-+-+-+-+ o 6 + + i l r \ m + a l r +-+-+-+-+-+-+ +-+-+ +-+-+-+-+-+-+-+-+ , n + c a o o o |s|h|o|u|l|d| |b|e| |r|e|p|e|a|t|e|d| eh s i + o tlt t 2 e5 d +-+-+-+-+-+-+ +-+-+ +-+-+-+-+-+-+-+-+ o s + 7 d 2 5 | n | 1 ey d te a t + r | , + 9 6 % f a i s % + n o+| r u s \ 4 e ep e + ao 2 | f' | e e r 9 7 Td i d e + . t 8m d c l 6 l o i _ t T i - i + n 7 e d 3 p l a n . i l + i i % 8 a + p r l e + 4 % a l + | h 5 | tl d 1mo 7 t N + , t o i 9 o? F W 9 dC %hf + o m 5 t t w , - 3p + a d s e a n t _ o c \ f + + p a r f |el 8 , g i l e e + t e3 - - 9 h c t t +w + | u0 w t + . h 5 a , s + t d _ n V 4 a o + , o t r nt + w e e + + 44 + V V V % V % V % V V % V % % % % % %% % % % % % % % + V V V V V V V V V V V V V V V V % % % 0 % % % %% % % %%% % % +V V V % V V V V V V % % %% 0 0 % % 0 % 00 % % % + % % % % 0 % __ _ 0 % 0 % ___ % 0 0 % + % % % % % % 0 /\ \ \__ _(_)_ 0 _____ / __\ __ _ _ _ ___ ___ % + % % LEARNERS % % / \/ / _` | \ \ / / _ \ /__\/// _` | | | |/ _ \/ __| + % % % % % / /\ / (_| | |\ V / __/ / \/ \ (_| | |_| | __/\__ \ + % % % % \_\ \/ \__,_|_| \_/ \___| \_____/\__,_|\__, |\___||___/ + V V V V V V V V % 0 % % 0 0 % % |___/ + V V V V V V V V V V V V V V V V % __ _ __ _ _ __ ___ ___ 0 % % +V V V V V V V % V V % % / _` |/ _` | '_ ` _ \ / _ \ % + V V V V V V V V 0 0 | (_| | (_| | | | | | | __/ % + V V V V V V V V V V V V V V V V % 0 00 \__, |\__,_|_| |_| |_|\___| 0 % +V V V V V V V V V 0 |___/ 0 + % % 0 0 0 +Learners are the algorithms that +distinguish machine learning prac- by Algolit % % +tices from other types of prac- % +tices. They are pattern finders, In machine learning Naive Bayes methods are simple probabilistic +capable of crawling through data classifiers that are widely applied for spam filtering and decid- +and generating some kind of spe- ing whether a text is positive or negative. +cific 'grammar'. Learners are based +on statistical techniques. Some They require a small amount of training data to estimate the nec- +need a large amount of training essary parameters. They can be extremely fast compared to more +data in order to function, others sophisticated methods. They are difficult to generalize, which +can work with a small annotated means that they perform on specific tasks, demanding to be +set. Some perform well in classifi- % trained with the same style of data that will be used to work +cation tasks, like spam identifica- with afterwards. +tion, others are better at predict- +ing numbers, like temperatures, This game allows you to play along the rules of Naive Bayes. +distances, stock market values, While manually executing the code, you create your own playful +and so on. model that 'just works'. A word of caution is necessary: because + you only train it with 6 sentences – instead of the minimum 2000 +The terminology of machine learn- – it is not representative at all! +ing is not yet fully established. +Depending on the field, whether --- +statistics, computer science or +the humanities, different terms Concept & realisation: An Mertens +are used. Learners are also called +classifiers. When we talk about +Learners, we talk about the inter- % 0 % 0 0 0 % +woven functions that have the ca- 0 0 0 0 0 % +pacity to generate other functions, __ _ 0 +evaluate and readjust them to fit 0 0 / /(_)_ __ ___ __ _ _ __ 0 +the data. They are good at under- / / | | '_ \ / _ \/ _` | '__| +standing and revealing patterns. 0 0 / /__| | | | | __/ (_| | | +But they don't always distinguish 0 \____/_|_| |_|\___|\__,_|_| +well which of the patterns should 0 __ 0 0 _ +be repeated. 0 /__\ ___ __ _ _ __ ___ ___ ___(_) ___ _ __ + / \/// _ \/ _` | '__/ _ \/ __/ __| |/ _ \| '_ \ +In software packages, it is not al- 00 0 / _ \ __/ (_| | | | __/\__ \__ \ | (_) | | | | +ways possible to distinguish the 0 0 \/ \_/\___|\__, |_| \___||___/___/_|\___/|_| |_| +characteristic elements of the 0 0 |___/ 0 +classifiers, because they are hid- 0 0 __ _ __ _ _ __ ___ ___ +den in underlying modules or li- 0 / _` |/ _` | '_ ` _ \ / _ \ +braries. Programmers can invoke | (_| | (_| | | | | | | __/ +them using a single line of code. 0 \__, |\__,_|_| |_| |_|\___| 0 0 % +For this exhibition, we therefore |___/ 00 +developed two table games that show 0 0 0 0 +in detail the learning process of +simple, but frequently used classi- by Algolit +fiers. + Linear Regression is one of the best-known and best-understood + algorithms in statistics and machine learning. It has been around + for almost 200 years. It is an attractive model because the rep- + % resentation is so simple. In statistics, linear regression is a + statistical method that allows to summarize and study relation- + ships between two continuous (quantitative) variables. + + 45 + % % % %% % % By playing this game you will realize that as a player you have a + % % % % lot of decisions to make. You will experience what it means to % + % %% create a coherent dataset, to decide what is in and what is not + % % % % in. If all goes well, you will feel the urge to change your data % + % % in order to obtain better results. This is part of the art of ap- % + %% % % % % % proximation that is at the basis of all machine learning prac- + % % % tices. % % % % % % % % + % % % + % % % % % --- % % + % % % % % % % + Concept & realisation: An Mertens % + % % % % + %% % % + 0 % 0 0 + 00 0 0 0 % 0 0 + 0 _____ _ _ __ 0 _ 0 % + /__ \_ __ __ _(_) |_ _/_/ __| | ___ + / /\/ '__/ _` | | __/ _ \ / _` |/ _ \ + % % 0 / / | | | (_| | | || __/ | (_| | __/ + 00 \/ |_| \__,_|_|\__\___| \__,_|\___| + % % _ 0 00 0 % 0 + % __| | ___ ___ _ _ _ __ ___ ___ _ __ + % / _` |/ _ \ / __| | | | '_ ` _ \ / _ \ '_ \ ____ + % | (_| | (_) | (__| |_| | | | | | | __/ | | |/___/ + \__,_|\___/ \___|\__,_|_| |_| |_|\___|_| |_| + % 0 _ 0 _ _ 0 0 + | |_ __ _| |_(_) ___ _ __ + | __/ _` | __| |/ _ \| '_ \ 0 + % | |( |_| |_| | | (_) | | | | + \__\__,_|\__|_|\___/|_| |_| 0 + 0 0 % 0 0 + % + Traité de Documentation. Three algorithmic poems. + + by Rémi Forte, designer-researcher at L’Atelier national de + recherche typographique, Nancy, France + % + serigraphy on paper, 60 × 80 cm, 25 ex., 2019, for sale at the + % reception of the Mundaneum. + + The poems, reproduced in the form of three posters, are an algo- + % rithmic and poetic re-reading of Paul Otlet's 'Traité de documen- + tation'. They are the result of an algorithm based on the mysteri- + ous rules of human intuition. It has been applied to a fragment + taken from Paul Otlet's book and is intended to be representative + % of his bibliological practice. + % + For each fragment, the algorithm splits the text, words and punc- + tuation marks are counted and reordered into a list. In each + % line, the elements combine and exhaust the syntax of the selected + fragment. Paul Otlet's language remains perceptible but exacer- + bated to the point of absurdity. For the reader, the systematiza- + % tion of the text is disconcerting and his reading habits are dis- + rupted. + + % Built according to a mathematical equation, the typographical + % composition of the poster is just as systematic as the poem. How- + ever, friction occurs occasionally; loop after loop, the lines + % extend to bite on the neighbouring column. Overlays are created + and words are hidden by others. These telescopic handlers draw + alternative reading paths. + + + + + + + + + 46 + CONTEXTUAL STORIES + ABOUT LEARNERS + + + + --- Naive Bayes & Viagra --- Only after 150 years was the accusation refuted. + + Naive Bayes is a famous learner that performs well Fast forward to 1939, when Bayes' rule was still + with little data. We apply it all the time. Chris- virtually taboo, dead and buried in the field of + tian and Griffiths state in their book, 'Algorithms statistics. When France was occupied in 1940 by + To Live By', that 'our days are full of small Germany, which controlled Europe's factories and + data'. Imagine, for example, that you're standing farms, Winston Churchill's biggest worry was the +at a bus stop in a foreign city. The other person U-boat peril. U-boat operations were tightly con- +who is standing there has been waiting for 7 min- trolled by German headquarters in France. Each +utes. What do you do? Do you decide to wait? And submarine received orders as coded radio messages + if so, for how long? When will you initiate other long after it was out in the Atlantic. The mes- + options? Another example. Imagine a friend asking sages were encrypted by word-scrambling machines, + advice about a relationship. He's been together called Enigma machines. Enigma looked like a com- + with his new partner for a month. Should he invite plicated typewriter. It was invented by the German + the partner to join him at a family wedding? firm Scherbius & Ritter after the First World War, + when the need for message-encoding machines had + Having pre-existing beliefs is crucial for Naive become painfully obvious. + Bayes to work. The basic idea is that you calcu- + late the probabilities based on prior knowledge Interestingly, and luckily for Naive Bayes and + and given a specific situation. the world, at that time, the British government + and educational systems saw applied mathematics +The theorem was formulated during the 1740s by and statistics as largely irrelevant to practical +Thomas Bayes, a reverend and amateur mathemati- problem-solving. So the British agency charged +cian. He dedicated his life to solving the ques- with cracking German military codes mainly hired + tion of how to win the lottery. But Bayes' rule men with linguistic skills. Statistical data was + was only made famous and known as it is today by seen as bothersome because of its detail-oriented + the mathematician Pierre Simon Laplace in France a nature. So wartime data was often analysed not by + bit later in the same century. For a long time af- statisticians, but by biologists, physicists, and + ter La Place's death, the theory sank into obliv- theoretical mathematicians. None of them knew that + ion until it was dug up again during the Second the Bayes rule was considered to be unscientific + World War in an effort to break the Enigma code. in the field of statistics. Their ignorance proved + fortunate. + Most people today have come in contact with Naive + Bayes through their email spam folders. Naive It was the now famous Alan Turing – a mathemati- + Bayes is a widely used algorithm for spam detec- cian, computer scientist, logician, cryptoanalyst, +tion. It is by coincidence that Viagra, the erec- philosopher and theoretical biologist – who used +tile dysfunction drug, was approved by the US Food Bayes' rules probabilities system to design the +& Drug Administration in 1997, around the same 'bombe'. This was a high-speed electromechanical + time as about 10 million users worldwide had made machine for testing every possible arrangement + free webmail accounts. The selling companies were that an Enigma machine would produce. In order to + among the first to make use of email as a medium crack the naval codes of the U-boats, Turing sim- + for advertising: it was an intimate space, at the plified the 'bombe' system using Baysian methods. + time reserved for private communication, for an It turned the UK headquarters into a code-breaking + intimate product. In 2001, the first SpamAssasin factory. The story is well illustrated in The Imi- + programme relying on Naive Bayes was uploaded to tation Game, a film by Morten Tyldum dating from + SourceForge, cutting down on guerilla email mar- 2014. + keting. + + Reference --- A story about sweet peas --- +Machine Learners, by Adrian MacKenzie, MIT Press, +Cambridge, US, November 2017. Throughout history, some models have been invented + by people with ideologies that are not to our lik- + ing. The idea of regression stems from Sir Francis + --- Naive Bayes & Enigma --- Galton, an influential nineteenth-century scientist. + He spent his life studying the problem of heredity + This story about Naive Bayes is taken from the – understanding how strongly the characteristics + book 'The Theory That Would Not Die', written by of one generation of living beings manifested them- + Sharon Bertsch McGrayne. Among other things, she selves in the following generation. He established + describes how Naive Bayes was soon forgotten after the field of eugenics, defining it as 'the study + the death of Pierre Simon Laplace, its inventor. of agencies under social control that may improve + The mathematician was said to have failed to or impair the racial qualities of future genera- + credit the works of others. Therefore, he suffered tions, either physically or mentally'. On Wikipedia, + widely circulated charges against his reputation. Galton is a prime example of scientific racism. + + 47 + + + + + Galton initially approached the problem of hered- In 1962, he created the Perceptron, a model that + ity by examining characteristics of the sweet pea learns through the weighting of inputs. It was + plant. He chose this plant because the species can set aside by the next generation of researchers, + self-fertilize. Daughter plants inherit genetic because it can only handle binary classification. + variations from mother plants without a contribu- + tion from a second parent. This characteristic This means that the data has to be clearly + eliminates having to deal with multiple sources. separable, as for example, men and women, black + and white. It is clear that this type of data is + Galton's research was appreciated by many intel- very rare in the real world. When the so-called + lectuals of his time. In 1869, in 'Hereditary Ge- first AI winter arrived in the 1970s and the funding +nius', Galton claimed that genius is mainly a mat- decreased, the Perceptron was also neglected. For +ter of ancestry and he believed that there was a ten years it stayed dormant. When spring settled +biological explanation for social inequality at the end of the 1980s, a new generation of re- + across races. Galton even influenced his half- searchers picked it up again and used it to con- + cousin Charles Darwin with his ideas. After read- struct neural networks. These contain multiple + ing Galton's paper, Darwin stated, 'You have made layers of Perceptrons. That is how neural networks + a convert of an opponent in one sense for I have saw the light. One could say that the current ma- + always maintained that, excepting fools, men did chine learning season is particularly warm, but it + not differ much in intellect, only in zeal and takes another winter to know a summer. + hard work'. Luckily, the modern study of heredity + managed to eliminate the myth of race-based ge- + netic difference, something Galton tried hard to --- BERT --- + maintain. + Some online articles say that the year 2018 marked +Galton's major contribution to the field was lin- a turning point for the field of Natural Language +ear regression analysis, laying the groundwork for Processing (NLP). A series of deep-learning models +much of modern statistics. While we engage with achieved state-of-the-art results on tasks like + the field of machine learning, Algolit tries not question-answering or sentiment-classification. + to forget that ordering systems hold power, and Google’s BERT algorithm entered the machine learn- + that this power has not always been used to the ing competitions of last year as a sort of 'one + benefit of everyone. Machine learning has inher- model to rule them all'. It showed a superior per- + ited many aspects of statistical research, some formance over a wide variety of tasks. + less agreeable than others. We need to be atten- + tive, because these world views do seep into the BERT is pre-trained; its weights are learned in + algorithmic models that create new orders. advance through two unsupervised tasks. This means + BERT doesn’t need to be trained from scratch for + References each new task. You only have to finetune its + weights. This also means that a programmer wanting + http://galton.org/letters/darwin/correspondence.htm to use BERT, does not know any longer what parame- +https://www.tandfonline.com/doi/full/10.1080 ters BERT is tuned to, nor what data it has seen +/10691898.2001.11910537 to learn its performances. +http://www.paramoulipist.be/?p=1693 + BERT stands for 'Bidirectional Encoder Representa- + tions from Transformers'. This means that BERT al- + --- Perceptron --- lows for bidirectional training. The model learns + the context of a word based on all of its sur- + We find ourselves in a moment in time in which roundings, left and right of a word. As such, it + neural networks are sparking a lot of attention. can differentiate between 'I accessed the bank ac- + But they have been in the spotlight before. The count' and 'I accessed the bank of the river'. + study of neural networks goes back to the 1940s, + when the first neuron metaphor emerged. The neuron Some facts: + is not the only biological reference in the field - BERT_large, with 345 million parameters, is the +of machine learning - think of the word corpus or largest model of its kind. It is demonstrably su- +training. The artificial neuron was constructed in perior on small-scale tasks to BERT_base, which +close connection to its biological counterpart. uses the same architecture with 'only' 110 million + parameters. + Psychologist Frank Rosenblatt was inspired by fel- - to run BERT you need to use TPUs. These are the + low psychologist Donald Hebb's work on the role of Google's processors (CPUs) especially engineered + neurons in human learning. Hebb stated that 'cells for TensorFLow, the deep-learning platform. TPU's + that fire together wire together'. His theory now renting rates range from $8/hr till $394/hr. Algo- + lies at the basis of associative human learning, lit doesn't want to work with off-the-shelf pack- + but also unsupervised neural network learning. It ages, we are interested in opening up the black- + moved Rosenblatt to expand on the idea of the ar- box. In that case, BERT asks for quite some sav- + tificial neuron. ings in order to be used. + + 48 + █▒░░ ▓▒█░░▒▓███▀▒░ ░▒ ▒ ░ ▒▒▓██▒ ░░ ▒░ ░ ▒ ░▓ ░▒▓ ▒ ▒█░░▒█▓▒░▓▒ ▒▓▒▒░ ▒ ▒▒ ▓▒░ ▒░▓ █ ▒░ █░█ ▓▒░ ▒▓░░ +▓ ▒░ ▒▒ ░▒░▒▓ ░ ░ ▒ ░ ▒ ▒ ░ ░ ░▒░ ░▒ ░ ▒ ░▒░▓░ ▒ ░ ▒ ░▒░ ░ ░▒ ▒░░ ░ ▒ ░░▓ ░ ▓▓░░ ░░▒▒▓░ + ░ ▒ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░░ ░ ▒ ░ ░ ░ ░ ░ ░░ ░ ░ ░ ░ ░ ░ ░ ░ + ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ +░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ + + ░ ing will be fed examples sentation of text used * CONSTANT + ░ of spam and real mes- in Natural Language Pro- Constant is a non-prof- + ░ ░ ░ ░ sages. These examples cessing (NLP). In this it, artist-run organisa- + ░ ░ ░ ░ are entries, or rows model, a text is repre- tion based in Brussels + ░ ░ from the dataset with a sented as a collection since 1997 and active in + ░ ░ label, spam or non-spam. of its unique words, the fields of art, media + ░ GLOSSARY ░ The labelling of a disregarding grammar, and technology. Algolit + ░ dataset is work executed punctuation and even started as a project of + ░ ░ ░ by humans, they pick a word order. The model Constant in 2012. + ░ ░ ░ ░ label for each row of transforms the text into http://constantvzw.org + ░ the dataset. To ensure a list of words and how + ░ the quality of the la- many times they're used * DATA WORKERS + ░ bels multiple annotators in the text, or quite Artificial intelligences + see the same row and literally a bag of that are developed to + This is a non-exhaustive have to give the same words. Bag of words is serve, entertain, record + wordlist, based on terms label before an example often used as a base- and know about humans. + that are frequently used is included in the line, on which the new The work of these ma- + in the exhibition. It training data. model has to perform chinic entities is usu- + might help visitors who better. ally hidden behind in- + are not familiar with * AI OR ARTIFICIAL IN- terfaces and patents. + the vocabulary related TELLIGENCES * CHARACTER N-GRAM In the exhibition, algo- + to the field of Natural In computer science, ar- A technique that is used rithmic storytellers + Language Processing tificial intelligence for authorship recogni- leave their invisible + (NLP), Algolit or the (AI), sometimes called tion. When using charac- underworld to become + Mundaneum. machine intelligence, ter n-grams, texts are interlocutors. + is intelligence demon- considered as sequences +* ALGOLIT strated by machines, in of characters. Let's * DUMP + A group from Brussels contrast to the natural consider the character According to the English + involved in artistic re- intelligence displayed trigram. All the over- dictionary, a dump is an + search on algorithms and by humans and other ani- lapping sequences of accumulation of refused + literature. Every month mals. Computer science three characters are and discarded materials + they gather to experi- defines AI research as isolated. For example, or the place where such + ment with code and texts the study of ‘intelli- the character 3-grams of materials are dumped. In + that are published under gent agents’. Any device 'Suicide', would be, computing a dump refers + free licenses. that perceives its envi- 'Sui', 'uic', 'ici', to a ‘database dump’, a + http://www.algolit.net ronment and takes ac- 'cid' etc. Patterns record of data from a + tions that maximize its found with character database used for easy +* ALGOLITERARY chance of successfully n-grams focus on stylis- downloading or for back- + Word invented by Algolit achieving its goals. tic choices that are un- ing up a database. + for works that explore More specifically, Ka- consciously made by the Database dumps are often + the point of view of the plan and Haenlein define author. The patterns re- published by free soft- + algorithmic storyteller. AI as ‘a system’s abil- main stable over the ware and free content + What kind of new forms ity to correctly inter- full length of the text. projects, such as + of storytelling do we pret external data, to Wikipedia, to allow re- + make possible in dia- learn from such data, * CLASSICAL MACHINE use or forking of the + logue with machinic and to use those learn- LEARNING database. + agencies? ings to achieve specific Naive Bayes, Support + goals and tasks through Vector Machines and * FEATURE ENGINEERING +* ALGORITHM flexible adaptation’. Linear Regression are The process of using do- + A set of instructions in Colloquially, the term called classical machine main knowledge of the + a specific programming ‘artificial intelli- learning algorithms. data to create features + language, that takes gence’ is used to de- They perform well when that make machine learn- + an input and produces scribe machines that learning with small ing algorithms work. + an output. mimic ‘cognitive’ func- datasets. But they often This means that a human + tions that humans asso- require complex Readers. needs to spend time on a +* ANNOTATION ciate with other human The task the Readers do, deep exploratory data + The annotation process minds, such as ‘learn- is also called feature- analysis of the dataset. + is a crucial step in su- ing’ and ‘problem solv- engineering (see below). In Natural Language Pro- + pervised machine learn- ing’. (Wikipedia) This means that a human cessing (NLP) features + ing where the algorithm needs to spend time on can be the frequency of + is given examples of * BAG OF WORDS a deep exploratory data words or letters, but + what it needs to learn. The bag-of-words model analysis of the dataset. also syntactical ele- + A spam filter in train- is a simplifying repre- ments like nouns, adjec- + 49 + █▒░░ ▓▒█░░▒▓███▀▒░ ░▒ ▒ ░ ▒▒▓██▒ ░░ ▒░ ░ ▒ ░▓ ░▒▓ ▒ ▒█░░▒█▓▒░▓▒ ▒▓▒▒░ ▒ ▒▒ ▓▒░ ▒░▓ █ ▒░ █░█ ▓▒░ ▒▓░░ +▓ ▒░ ▒▒ ░▒░▒▓ ░ ░ ▒ ░ ▒ ▒ ░ ░ ░▒░ ░▒ ░ ▒ ░▒░▓░ ▒ ░ ▒ ░▒░ ░ ░▒ ▒░░ ░ ▒ ░░▓ ░ ▓▓░░ ░░▒▒▓░ + ░ ▒ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░░ ░ ▒ ░ ░ ░ ░ ░ ░░ ░ ░ ░ ░ ░ ░ ░ ░ + ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ +░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ + + tives, or verbs. The to make these as free as from Virginia Woolf's nating between face and + most significant fea- possible, in long-last- entire work to all ver- non-face. The jobs + tures for the task to be ing, open formats that sions of Terms of Ser- posted on this platform + solved, must be care- can be used on almost vice published by Google are often paid less than + fully selected and any computer. As of since its existence. a cent per task. Tasks + passed over to the clas- 23 June 2018, Project that are more complex or + sical machine learning Gutenberg reached 57,000 * MACHINE LEARNING require more knowledge + algorithm. items in its collection MODELS can be paid up to sev- + of free eBooks. Algorithms based on eral cents. Many aca- +* FLOSS OR FREE LIBRE (Wikipedia) statistics, mainly used demic researchers use + OPEN SOURCE SOFTWARE to analyse and predict Mechanical Turk as an + Software that anyone is * HENRI LA FONTAINE situations based on ex- alternative to have + freely licensed to use, Henri La Fontaine isting cases. In this their students execute + copy, study, and change (1854-1943) is a Belgian exhibition we focus on these tasks. + in any way, and the politician, feminist and machine learning models + source code is openly pacifist. He was awarded for text processing or * MUNDANEUM + shared so that people the Nobel Peace Prize in Natural language pro- In the late nineteenth + are encouraged to volun- 1913 for his involvement cessing', in short, century two young Bel- + tarily improve the de- in the International 'nlp'. These models have gian jurists, Paul Otlet + sign of the software. Peace Bureau and his learned to perform a (1868-1944), ‘the father + This is in contrast to contribution to the or- specific task on the ba- of documentation’, and + proprietary software, ganization of the peace sis of existing texts. Henri La Fontaine + where the software is movement. In 1895, to- The models are used for (1854-1943), statesman + under restrictive copy- gether with Paul Otlet, search engines, machine and Nobel Peace Prize + right licensing and the he created the Interna- translations and sum- winner, created The Mun- + source code is usually tional Bibliography In- maries, spotting trends daneum. The project + hidden from the users. stitute, which became in new media networks aimed at gathering all + (Wikipedia) the Mundaneum. Within and news feeds. They in- the world’s knowledge + this institution, which fluence what you get to and file it using the +* GIT aimed to bring together see as a user, but also Universal Decimal Clas- + A software system for all the world's knowl- have their word to say sification (UDC) system + tracking changes in edge, he contributed to in the course of stock that they had invented. + source code during soft- the development of the exchanges worldwide, the + ware development. It is Universal Decimal Clas- detection of cybercrime * NATURAL LANGUAGE + designed for coordinat- sification (CDU) system. and vandalism, etc. A natural language + ing work among program- or ordinary language + mers, but it can be used * KAGGLE * MARKOV CHAIN is any language that + to track changes in any An online platform where Algorithm that scans the has evolved naturally + set of files. Before users find and publish text for the transition in humans through use + starting a new project, data sets, explore and probability of letter or and repetition without + programmers create a build machine learning word occurrences, re- conscious planning or + "git repository" in models, work with other sulting in transition premeditation. Natural + which they will publish data scientists and ma- probability tables which languages can take + all parts of the code. chine learning engi- can be computed even different forms, such + The git repositories of neers, and enter compe- without any semantic or as speech or signing. + Algolit can be found on titions to solve data grammatical natural lan- They are different from + https://gitlab.contant science challenges. guage understanding. It constructed and formal + vzw.org/algolit. About half a million can be used for analyz- languages such as those + data scientists are ac- ing texts, but also for used to program comput- +* GUTENBERG.ORG tive on Kaggle. It was recombining them. It is ers or to study logic. + Project Gutenberg is an founded by Goldbloom and is widely used in spam (Wikipedia) + online platform run by Ben Hamner in 2010 and generation. + volunteers to ‘encourage acquired by Google in * NLP OR NATURAL LAN- + the creation and distri- March 2017. * MECHANICAL TURK GUAGE PROCESSING + bution of eBooks’. It The Amazon Mechanical Natural language pro- + was founded in 1971 by * LITERATURE Turk is an online plat- cessing (NLP) is a col- + American writer Michael Algolit understands the form for humans to exe- lective term referring + S. Hart and is the old- notion of literature in cute tasks that algo- to automatic computa- + est digital library. the way a lot of other rithms cannot. Examples tional processing of + Most of the items in its experimental authors do. include annotating sen- human languages. This + collection are the full It includes all linguis- tences as being positive includes algorithms that + texts of public domain tic production, from the or negative, spotting take human-produced text + books. The project tries dictionary to the Bible, number plates, discrimi- as input, and attempt + 50 + █▒░░ ▓▒█░░▒▓███▀▒░ ░▒ ▒ ░ ▒▒▓██▒ ░░ ▒░ ░ ▒ ░▓ ░▒▓ ▒ ▒█░░▒█▓▒░▓▒ ▒▓▒▒░ ▒ ▒▒ ▓▒░ ▒░▓ █ ▒░ █░█ ▓▒░ ▒▓░░ +▓ ▒░ ▒▒ ░▒░▒▓ ░ ░ ▒ ░ ▒ ▒ ░ ░ ░▒░ ░▒ ░ ▒ ░▒░▓░ ▒ ░ ▒ ░▒░ ░ ░▒ ▒░░ ░ ▒ ░░▓ ░ ▓▓░░ ░░▒▒▓░ + ░ ▒ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░░ ░ ▒ ░ ░ ░ ░ ░ ░░ ░ ░ ░ ░ ░ ░ ░ ░ + ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ +░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ + + to generate text that tentielle (Workspace for manually define rules should carefully choose + resembles it. Potential Literature). for them. As prediction the training material, + Oulipo was created in models they are then and adapt it to the ma- +* NEURAL NETWORKS Paris by the French called rule-based mod- chine's task. It doesn't + Computing systems in- writers Raymond Queneau els, opposed to statis- make sense to train a + spired by the biological and François Le Lion- tical models. Rule-based machine with nineteenth- + neural networks that nais. They rooted their models are handy for century novels if its mis- + constitute animal practice in the European tasks that are specific, sion is to analyze tweets. + brains. The neural net- avant-garde of the twen- like detecting when a + work itself is not an tieth century and in the scientific paper con- * UNSUPERVISED MACHINE + algorithm, but rather a experimental tradition cerns a certain mole- LEARNING MODELS + framework for many dif- of the 1960s. For cule. With very little Unsupervised machine + ferent machine learning Oulipo, the creation of sample data, they can learning models don't + algorithms to work to- rules becomes the condi- perform well. need the step of annota- + gether and process com- tion to generate new tion of the data by hu- + plex data inputs. Such texts, or what they call * SENTIMENT ANALYSIS mans. This saves a lot + systems ‘learn’ to per- potential literature. Also called 'opinion of time, energy, money. + form tasks by consider- Later, in 1981, they mining' A basic task Instead, they need a + ing examples, generally also created ALAMO, Ate- in sentiment analysis large amount of training + without being programmed lier de littérature as- is classifying a given data, which is not al- + with any task-specific sistée par la mathéma- text as positive, nega- ways available and can + rules. For example, in tique et les ordinateurs tive or neutral. take a long cleaning + image recognition, they (Workspace for litera- Advanced, 'beyond pola- time beforehand. + might learn to identify ture assisted by maths rity' sentiment classi- + images that contain cats and computers). fication looks, for in- * WORD EMBEDDINGS + by analyzing example ima- stance, at emotional Language modelling tech- + ges that have been man- * PAUL OTLET states such as 'angry', niques that through mul- + ually labeled as ‘cat’ Paul Otlet (1868 – 1944) 'sad' and 'happy'. tiple mathematical oper- + or ‘no cat’ and using was a Belgian author, Sentiment analysis ations of counting and + the results to identify entrepreneur, visionary, is widely applied to ordering, plot words + cats in other images. lawyer and peace ac- user materials such into a multi-dimensional + They do this without any tivist; he is one of as reviews and survey vector space. When em- + prior knowledge about several people who have responses, comments bedding words, they + cats, for example, that been considered the fa- and posts on social transform from being + they have fur, tails, ther of information sci- media, and healthcare distinct symbols into + whiskers and cat-like ence, a field he called materials for applica- mathematical objects + faces. Instead, they au- 'documentation'. Otlet tions that range from that can be multiplied, + tomatically generate created the Universal marketing to customer divided, added or sub- + identifying characteris- Decimal Classification, service, from stock ex- stracted. + tics from the learning that was widespread in change transactions to + material that they libraries. Together with clinical medicine. * WORDNET + process. (Wikipedia) Henri La Fontaine he Wordnet is a combination + created the Palais Mon- * SUPERVISED MACHINE of a dictionary and a +* OPTICAL CHARACTER dial (World Palace), LEARNING MODELS thesaurus that can be + RECOGNITION (OCR) later, the Mundaneum to For the creation of su- read by machines. + Computer processes for house the collections pervised machine learn- According to Wikipedia + translating images of and activities of their ing models, humans anno- it was created in the + scanned texts into ma- various organizations tate sample text with Cognitive Science + nipulable text files. and institutes. labels before feeding Laboratory of Princeton + it to a machine to learn. University starting in +* ORACLE * PYTHON Each sentence, paragraph 1985. The project was + Oracles are prediction The main programming or text is judged by at initially funded by the + or profiling machines, language that is glob- least 3 annotators US Office of Naval Re- + a specific type of algo- ally used for natural whether it is spam or search and later also + rithmic models, mostly language processing, was not spam, positive or by other US government + based on statistics. invented in 1991 by the negative etc. agencies including + They are widely used in Dutch programmer Guido DARPA, the National + smartphones, computers, Van Rossum. * TRAINING DATA Science Foundation, the + tablets. Machine learning algo- Disruptive Technology + * RULE-BASED MODELS rithms need guidance. Office (formerly the +* OULIPO Oracles can be created In order to separate one Advanced Research and + Oulipo stands for Ou- using different tech- thing from another, they Development Activity), + vroir de litterature po- niques. One way is to need texts to extract and REFLEX. + 51 +◝ humans learn with machines ◜ ◡ machines learn from machines ◞ ◡ machines learn with humans ◞ ◝ +humans learn from machines ◟ ◜ machines learn with machines ◠ ◜ machines learn from humans ◟ ◠ +humans learn with humans ◞ ◝ humans learn from humans ◞ ◠ humans learn with machines ◟ ◡ mac +ines learn from machines ◡ ◡ machines learn with humans ◟ ◡ humans learn from machines ◝ ◟ +achines learn with machines ◠ ◝ machines learn from humans ◜ ◝ humans learn with humans ◞ ◞ +humans learn from humans ◡ ◞ humans learn with machines ◠ ◠ machines learn from machines ◠ + machines learn with humans ◞ ◜ humans learn from machines ◜ ◠ machines learn with machines ◝ + ◜ machines learn from humans ◜ ◠ humans learn with humans ◝ ◟ humans learn from humans ◞ + ◜ humans learn with machines ◡ ◡ machines learn from machines ◡ ◟ machines learn with humans +◠ ◠ humans learn from machines ◡ ◜ machines learn with machines ◜ ◟ machines learn from +umans ◟ ◞ humans learn with humans ◞ ◟ humans learn from humans ◜ ◠ humans learn with ma +hines ◜ ◠ machines learn from machines ◝ ◠ machines learn with humans ◝ ◞ humans learn f +om machines ◝ ◡ machines learn with machines ◜ ◡ machines learn from humans ◜ ◠ humans l +arn with humans ◡ ◡ humans learn from humans ◝ ◞ humans learn with machines ◟ ◡ machines +learn from machines ◜ ◜ machines learn with humans ◠ ◞ humans learn from machines ◝ ◠ ma +hines learn with machines ◟ ◟ machines learn from humans ◝ ◠ humans learn with humans ◟ + humans learn from humans ◝ ◜ humans learn with machines ◠ ◝ machines learn from machines ◞ + ◠ machines learn with humans ◝ ◟ humans learn from machines ◟ ◞ machines learn with machines +◜ ◞ machines learn from humans ◞ ◡ humans learn with humans ◠ ◞ humans learn from human + ◠ ◜ humans learn with machines ◡ ◞ machines learn from machines ◜ ◠ machines learn w +th humans ◡ ◝ humans learn from machines ◝ ◟ machines learn with machines ◠ ◠ machine + learn from humans ◞ ◟ humans learn with humans ◠ ◞ humans learn from humans ◠ ◠ huma +s learn with machines ◡ ◡ machines learn from machines ◜ ◞ machines learn with humans ◡ + ◟ humans learn from machines ◜ ◜ machines learn with machines ◜ ◝ machines learn from human + ◜ ◠ humans learn with humans ◝ ◡ humans learn from humans ◡ ◞ humans learn with mach +nes ◜ ◝ machines learn from machines ◝ ◜ machines learn with humans ◞ ◜ humans learn +rom machines ◞ ◝ machines learn with machines ◞ ◜ machines learn from humans ◡ ◞ huma +s learn with humans ◟ ◜ humans learn from humans ◞ ◡ humans learn with machines ◝ ◝ m +chines learn from machines ◜ ◟ machines learn with humans ◡ ◟ humans learn from machines ◠ + ◝ machines learn with machines ◜ ◡ machines learn from humans ◞ ◝ humans learn with huma +s ◝ ◠ humans learn from humans ◞ ◜ humans learn with machines ◠ ◝ machines learn from +machines ◟ ◡ machines learn with humans ◝ ◝ humans learn from machines ◞ ◞ machines l +arn with machines ◠ ◠ machines learn from humans ◠ ◡ humans learn with humans ◜ ◜ hum +ns learn from humans ◞ ◞ humans learn with machines ◡ ◝ machines learn from machines ◟ + ◝ machines learn with humans ◠ ◟ machines learn with humans ◠ ◜ machines learn from +machines ◡ ◜ humans learn with machines ◞ ◟ humans learn from humans ◜ ◡ humans learn +with humans ◝ ◞ machines learn from humans ◜ ◝ machines learn with machines ◜ ◠ human + learn from machines ◡ ◝ machines learn with humans ◝ ◜ machines learn from machines ◜ + ◞ humans learn with machines ◠ ◝ humans learn from humans ◠ ◝ humans learn with humans ◞ + ◡ machines learn from humans ◜ ◝ machines learn with machines ◠ ◟ humans learn from machi +es ◜ ◟ machines learn with humans ◝ ◝ machines learn from machines ◞ ◜ humans learn w +th machines ◝ ◡ humans learn from humans ◝ ◝ humans learn with humans ◠ ◠ machines le +rn from humans ◝ ◡ machines learn with machines ◡ ◡ humans learn from machines ◠ ◞ ma +hines learn with humans ◝ ◜ machines learn from machines ◜ ◝ humans learn with machines ◠ + ◞ humans learn from humans ◝ ◡ humans learn with humans ◞ ◡ machines learn from humans ◟ + ◟ machines learn with machines ◝ ◝ humans learn from machines ◜ ◟ machines learn with +umans ◡ ◝ machines learn from machines ◡ ◝ humans learn with machines ◞ ◜ humans lear + from humans ◜ ◝ humans learn with humans ◞ ◡ machines learn from humans ◝ ◡ machines +learn with machines ◞ ◟ humans learn from machines ◜ ◞ machines learn with humans ◟ ◡ +machines learn from machines ◜ ◝ humans learn with machines ◠ ◠ humans learn from humans ◠ + ◝ humans learn with humans ◟ ◞ machines learn from humans ◝ ◠ machines learn with machines +◜ ◟ humans learn from machines ◠ ◝ machines learn with humans ◝ ◜ machines learn from ma +hines ◟ ◟ humans learn with machines ◞ ◡ humans learn from humans ◝ ◝ humans learn with +umans ◡ ◝ machines learn from humans ◝ ◡ machines learn with machines ◟ ◞ humans learn f +om machines ◝ ◟ machines learn with humans ◝ ◜ machines learn from machines ◝ ◠ humans l +arn with machines ◠ ◠ humans learn from humans ◟ ◜ humans learn with humans ◟ ◝ machines +learn from humans ◡ ◡ machines learn with machines ◜ ◜ humans learn from machines ◠ ◟ ma +hines learn with humans ◞ ◜ machines learn from machines ◠ ◜ humans learn with machines ◜ + ◞ humans learn from humans ◝ ◟ humans learn with humans ◟ ◞ machines learn from humans ◟ + ◝ machines learn with machines ◡ ◜ humans learn from machines ◠ ◠ machines learn with humans ◞ + ◡ machines learn from machines ◟ ◝ humans learn with machines ◜ ◞ humans learn from huma +s ◝ ◞ humans learn with humans ◜ ◟ machines learn from humans ◜ ◞ machines learn with ma +hines ◝ ◞ humans learn from machines ◝ ◜ machines learn with humans ◟ ◜ machines learn from +machines ◡ ◟ humans learn with machines ◞ ◠ humans learn from humans ◞ ◟ humans learn with +umans ◠ ◜ machines learn from humans ◡ ◠ machines learn with machines ◠ ◝ humans learn from +machines ◠ ◜ machines learn with humans ◞ ◠ machines learn from machines ◞ ◠ humans learn w +th machines ◜ ◟ humans learn from humans ◝ ◠ humans learn with humans ◝ ◟ machines learn from +humans ◜ ◜ machines learn with machines ◠ ◞ humans learn from machines ◠ ◡ machines learn with +machines ◡ ◟ humans learn with machines ◞ ◠ humans learn from humans ◞ ◟ humans learn with mach +ines ◝ ◞ humans learn from machines ◝ ◜ machines learn with humans ◟ ◜ machines learn from hum \ No newline at end of file diff --git a/data-workers.en.publication.pdf b/data-workers.en.publication.pdf new file mode 100644 index 0000000..9fbd875 Binary files /dev/null and b/data-workers.en.publication.pdf differ diff --git a/data-workers.fr.manual-edit.txt b/data-workers.fr.manual-edit.txt new file mode 100644 index 0000000..4f7442c --- /dev/null +++ b/data-workers.fr.manual-edit.txt @@ -0,0 +1,3920 @@ +data workers write, perform, clean, inform, read and learn data workers write, perform, clean, inform, read +nd learn data workers write, perform, clean, inform, read and learn data workers write, perform, clean, +nform, read and learn data workers write, perform, clean, inform, read and learn data workers write, +perform, clean, inform, read and learn data workers write, perform, clean, inform, read and learn + data workers write, perform, clean, inform, read and learn data workers write, perform, clean, infor +, read and learn data workers write, perform, clean, inform, read and learn data workers w +ite, perform, clean, inform, read and learn data workers write, perform, clean, inform, read and l +arn data workers write, perform, clean, inform, read and learn data workers write, p +rform, clean, inform, read and learn data workers write, perform, clean, inform, read and learn + data workers write, perform, clean, inform, read and learn data workers write, +perform, clean, inform, read and learn data workers write, perform, clean, inform, read and +earn data workers write, perform, clean, inform, read and learn data wor +ers write, perform, clean, inform, read and learn data workers write, perform, clean, inf +rm, read and learn data workers write, perform, clean, inform, read and learn + data workers write, perform, clean, inform, read and learn data workers wri +e, perform, clean, inform, read and learn data workers write, perform, clean, inform, +read and learn data workers write, perform, clean, inform, read and learn + data workers write, perform, clean, inform, read and learn data wor +ers write, perform, clean, inform, read and learn data workers write, perform, cl +an, inform, read and learn data workers write, perform, clean, inform, read and +earn data workers write, perform, clean, inform, read and learn + data workers write, perform, clean, inform, read and learn dat + workers write, perform, clean, inform, read and learn data workers write, p +rform, clean, inform, read and learn data workers write, perform, clean, in +orm, read and learn data workers write, perform, clean, inform, read and l +arn data workers write, perform, clean, inform, read and learn + data workers write, perform, clean, inform, read and learn + data workers write, perform, clean, inform, read and learn + data workers write, perform, clean, inform, read and learn data work +rs write, perform, clean, inform, read and learn data workers write, +perform, clean, inform, read and learn data workers write, perform, +clean, inform, read and learn data workers write, perform, clean, +nform, read and learn data workers write, perform, clean, inform, +read and learn data workers write, perform, clean, inform, read +nd learn data workers write, perform, clean, inform, read and l +arn data workers write, perform, clean, inform, read and learn + data workers write, perform, clean, inform, read and learn + data workers write, perform, clean, inform, read and learn + data workers write, perform, clean, inform, read and learn + data workers write, perform, clean, inform, read and learn + data workers write, perform, clean, inform, read and learn + data workers write, perform, clean, inform, read and learn + data workers write, perform, clean, inform, read and learn + data workers write, perform, clean, inform, read and l +arn data workers write, perform, clean, inform, read +nd learn data workers write, perform, clean, inform, +read and learn data workers write, perform, clean, +nform, read and learn data workers write, perform, +clean, inform, read and learn data workers write, +perform, clean, inform, read and learn data work +rs write, perform, clean, inform, read and learn + data workers write, perform, clean, inform, read and learn + data workers write, perform, clean, inform, read and learn + data workers write, perform, clean, inform, read and learn + data workers write, perform, clean, inform, read and learn + + + What + can + humans learn from humans + humans learn with machines +machines learn from machines +machines learn with humans + humans learn from machines +machines learn with machines +machines learn from humans + humans learn with humans + ? ? ? + +Data Workers, une exposition au Mundaneum à Mons du 28 mars au 28 avril 2019. +0 12 3 4 5 67 8 9 0 + 12 3 4 5 67 8 9 0 12 + 3 4 5 67 8 9 0 1 2 + 3 4 5 6 7 8 9 0 1 2 3 + 4 56 7 8 9 01 2 3 + 4 56 7 8 9 01 2 3 + 4 56 7 8 9 01 2 3 + 4 56 7 8 9 0 1 2 3 4 + 5 6 7 8 9 0 1 2 3 45 6 + 7 8 90 1 2 3 45 6 + 7 8 90 1 2 3 45 6 + 7 8 90 1 2 3 4 5 6 + 7 8 9 0 1 2 3 4 5 6 + 7 89 0 1 2 34 5 6 + 7 89 0 1 2 34 5 6 + 7 89 0 1 2 34 5 6 7 +89 0 1 2 3 4 5 6 7 8 9 + 0 1 2 3 4 5 6 78 9 + 0 1 23 4 5 6 78 9 0 + 1 23 4 5 6 78 9 0 + 1 23 4 5 6 78 9 0 + 1 2 3 4 5 6 7 8 9 0 + 1 2 3 4 5 67 8 9 0 12 + 3 4 5 67 8 9 0 12 + 3 4 5 67 8 9 0 12 3 + 4 5 6 7 8 9 0 1 2 3 + 4 5 6 7 8 9 01 2 3 + 4 56 7 8 9 01 2 3 + 4 56 7 8 9 01 2 3 + 4 56 7 8 9 01 2 3 4 + 5 6 7 8 9 0 1 2 3 4 5 6 + 7 8 90 1 2 3 45 6 + 7 8 90 1 2 3 45 6 + 7 8 90 1 2 3 45 6 + 7 8 90 1 2 3 4 5 6 7 + 8 9 0 1 2 3 4 5 6 7 + 89 0 1 2 34 5 6 7 +89 0 1 2 34 5 6 7 89 + 0 1 2 34 5 6 7 8 9 + 0 1 2 3 4 5 6 7 8 9 +0 1 23 4 5 6 78 9 0 + 1 23 4 5 6 78 9 0 + 1 23 4 5 6 78 9 0 + 1 23 4 5 6 7 8 9 0 + 1 2 3 4 5 6 7 8 9 0 12 3 + 4 5 67 8 9 0 12 3 + 4 5 67 8 9 0 12 3 + 4 5 67 8 9 0 12 3 + 4 5 6 7 8 9 0 1 2 3 + 4 5 6 7 8 9 01 2 3 4 + 56 7 8 9 01 2 3 4 + 56 7 8 9 01 2 3 4 5 +6 7 8 9 0 1 2 3 4 5 6 + 7 8 9 0 1 2 3 45 6 + 7 8 90 1 2 3 45 6 + 7 8 90 1 2 3 45 6 +7 8 90 1 2 3 45 6 7 + 8 9 0 1 2 3 4 5 6 7 + 8 9 0 1 2 34 5 6 7 89 + 0 1 2 34 5 6 7 89 0 + 1 2 34 5 6 7 89 0 + 1 2 34 5 6 7 8 9 0 + 1 2 3 4 5 6 7 8 9 0 + 1 23 4 5 6 78 9 0 + 1 23 4 5 6 78 9 0 + 1 23 4 5 6 78 9 0 1 + 2 3 4 5 6 7 8 9 0 1 2 3 + 4 5 67 8 9 0 12 3 + 4 5 67 8 9 0 12 3 + 2 +Á PROPOS AU MUNDANEUM + +Data Workers est une exposition d'œuvres algolittéraires,visible À la fin du 19ème siècle, deux jeunes +au Mundaneum à Mons du jeudi 28 mars jusqu'au dimanche 28 avril juristes belges, Paul Otlet (1868-1944), +2019. Elle expose des histoires racontées d'un point de vue 'nar- 'père de la documentation', et Henri La +ratif algorithmique'. L'exposition est une création des membres Fontaine (1854-1943), homme d'État et +d'Algolit, un groupe bruxellois impliqué dans la recherche artis- prix Nobel de la paix, créent le Munda- +tique sur les algorithmes et la littérature. Chaque mois, ils se neum. Le projet vise à rassembler toute +réunissent pour expérimenter avec du code et des textes F/LOSS. la connaissance du monde et à la classer +Certaines oeuvres sont réalisés par des étudiants de Arts² et des à l'aide du système de Classification +participants externes à l'atelier sur le machine learning et le décimale universelle (UDC) qu'ils in- +texte organisé par Algolit en octobre 2018 au Mundaneum. ventent. Au début, il s'agit d'un Bureau + des institutions internationales dédié +Les entreprises créent des intelligences artificielles pour ser- à l'échange international des connais- +vir, divertir, enregistrer et connaître les humains. Le travail sances. Au XXe siècle, le Mundaneum de- +de ces entités machiniques est généralement dissimulé derrière vient un centre universel de documenta- +des interfaces et des brevets. Dans l'exposition, les conteurs tion. Ses collections sont constituées +algorithmiques quittent leur monde souterrain invisible pour de- de milliers de livres, journaux, revues, +venir des interlocuteurs. documents, affiches, plaques de verre et + cartes postales indexés sur des millions +Les 'data workers' opèrent dans des collectifs différents. Chaque de fiches référencées. Les collections +collectif représente une étape dans le processus de conception sont exposées et conservées dans diffé- +d'un modèle d'apprentissage automatique : il y a les Écrivains, rents bâtiments à Bruxelles, dont le Pa- +les Nettoyeurs, les Informateurs, les Lecteurs, les Apprenants et lais du Cinquantenaire. Le reste des ar- +les Oracles. Les robots donnent leurs voix à la littérature expé- chives n'est transféré à Mons qu'en +rimentale, les modèles algorithmiques lisent des données, trans- 1998. +forment des mots en nombres, calculent des modèles et traitent en +boucle de nouveaux textes et ceci à l'infini. Sur base du Mundaneum, les deux hommes + conçoivent une ville du monde pour la- +L'exposition met au premier plan les 'data workers' qui ont un quelle Le Corbusier réalise des ma- +impact sur notre vie quotidienne, mais qui sont difficiles à sai- quettes et des plans. L'objectif de la +sir ou à imaginer. Elle établit un lien entre les récits sur les Ville du Monde est de rassembler, +algorithmes dans les médias grand public et les histoires racon- au niveau mondial, les institutions +tées dans les manuels techniques et les articles universitaires. du travail intellectuel : bibliothèques, +Les robots sont invités à dialoguer avec les visiteurs humains et musées et universités. Mais le projet +vice versa. De cette façon, nous pourrions comprendre nos raison- n’est jamais réalisé, souffrant de sa +nements respectifs, démystifier nos comportements, rencontrer nos propre utopie. Le Mundaneum est le ré- +personnalités multiples et valoriser notre travail collectif. sultat du rêve visionnaire d’une infra- +C'est aussi un hommage aux nombreuses machines que Paul Otlet et structure pour l'échange universel des +Henri La Fontaine ont imaginées pour leur Mundaneum, en montrant connaissances. Il atteint des dimensions +leur potentiel mais aussi leurs limites. mythiques à l'époque. Lorsqu'on observe + les archives qui ont été concrètement +--- développées, cette collection est plutôt + éclectique et spécifique. +Data Workers est une création de Algolit. + Les intelligences artificielles se déve- +Oeuvres de: Cristina Cochior, Gijs de Heij, Sarah Garcin, loppent aujourd'hui en faisant appa- +An Mertens, Javier Lloret, Louise Dekeuleneer, Florian Van de Weyer, raître des rêves d'universalité et de +Laetitia Trozzi, Rémi Forte, Guillaume Slizewicz, Michael Mur- la production des connaissances. En les +taugh, Manetta Berends, Mia Melvær. étudiant, nous nous sommes rendus compte + que les rêves visionnaires de leurs +Une co-production de: Arts², Mundaneum, Constant. créateurs sont bien présents dès leur + développement dans les années 1950. Au- +Avec le soutien de: Fédération Wallonie-Bruxelles, Arts Numéri- jourd'hui, leurs promesses ont également +ques, Passa Porta, Ugent, DHuF - Digital Humanities Flanders et atteint des dimensions mythiques. Lors- +the Distributed Proofreading Project. qu'on observe leurs applications concrè- + tes, la collection d'outils est réelle- +Remerciements: Mike Kestemont, Michel Cleempoel, Donatella Porto- ment innovante et fascinante, mais en +ghese, François Zajéga, Raphaèle Cornille, Vincent Desfromont, même temps, tout aussi éclectique et +Kris Rutten, Anne-Laure Buisson, David Stampfli. spécifique. Pour Data Workers, Algolit + a combiné certaines de ces applications + avec 10 % des publications numérisées du + Bureau des Institutions Internationales. + Ainsi et de façon poétique, nous espé- + rons ouvrir une discussion à propos des + machines, des algorithmes et des infra- + structures technologiques. + + + 3 + RÉCITS CONTEXTUALISÉS + AUTOUR D'ALGOLIT + + + + --- Pourquoi des récits contextualisés? --- naire à la Bible, de l'œuvre entière de Virginia + Woolf à toutes les versions des Conditions d'uti- + Lors des réunions mensuelles d'Algolit, nous étu- lisation publiées par Google depuis son existence. + dions des manuels et expérimentons avec des outils En ce sens, le code de programmation peut aussi + d'apprentissage automatique pour le traitement de être de la littérature. Le collectif Oulipo, acro- + texte. Et nous partageons aussi beaucoup, beaucoup nyme d'Ouvroir de Littérature Potentielle, est une + d'histoires. Avec la publication de ces histoires, grande source d'inspiration pour Algolit. Oulipo a +nous espérons recréer un peu de cette atmosphère. été créé à Paris par les écrivains Raymond Queneau +Les histoires existent également sous forme de et François Le Lionnais. Ils ont ancré leur pra- +podcasts qui peuvent être téléchargés à partir du tique dans l'avant-garde européenne du XXe siècle + site http://www.algolit.net. et dans la tradition expérimentale des années 60. + Pour Oulipo, la création de règles devient la + condition permettant de générer de nouveaux tex- + --- Nous créons des œuvres 'algolittéraires' --- tes, ou ce qu'ils appellent la littérature poten- + tielle. Plus tard, en 1981, ils ont également créé + Le terme 'algolittéraire' vient du nom de notre ALAMO - Atelier de Littérature Assistée par la Ma- + groupe de recherche Algolit. Nous existons depuis thématique et les Ordinateurs. + 2012 en tant qu’initiative de Constant, une orga- + nisation oeuvrant dans les médias et les arts ba- + sée à Bruxelles. Nous sommes des artistes, des --- Une différence importante --- + écrivains, des designers et des programmeurs. Une +fois par mois, nous nous rencontrons pour étudier Alors que l'avant-garde européenne du XXe siècle +et expérimenter ensemble. Notre travail peut être poursuivait l'objectif de rompre avec les conven- +copié, étudié, modifié et redistribué sous la même tions, les membres d'Algolit cherchent à rendre + licence libre. Vous trouverez toutes les informa- les conventions visibles. + tions sur le site http://www.algolit.net. + J'écris : Je vis dans mon journal, je l'investis, + L'objectif principal d'Algolit est d'explorer le je le traverse. (Espèces d'espaces. Journal d'un + point de vue du conteur algorithmique. Quelles usager de l'espace, Galilée, Paris, 1974) + nouvelles formes de narration rendons-nous pos- + sibles en dialoguant avec ces agents machiniques ? Cette citation de Georges Perec dans Espèces d'es- + Les points de vue narratifs sont inhérents aux vi- paces pourrait être reprise par Algolit. Il ne + sions du monde et aux idéologies. Don Quichotte, s'agit pas des conventions de la page blanche et + par exemple, a été écrit d'un point de vue omni- du marché littéraire, comme Georges Perec l'a + scient à la troisième personne, montrant la rela- fait. Nous faisons référence aux conventions qui +tion de Cervantes à la tradition orale. La plupart restent souvent cachées derrière les interfaces et +des romans contemporains utilisent le point de vue les brevets. Comment les technologies sont-elles +de la première personne. Algolit souhaite parler conçues, mises en œuvre et utilisées, tant dans + au travers des algorithmes et vous montrer le rai- les universités que dans les entreprises ? Nous + sonnement de l'un des groupes les plus cachés de proposons des histoires qui révèlent le système + notre planète. hybride complexe qui rend possible l'apprentissage + automatique. Nous parlons des outils, des logiques + Écrire dans ou par le code, c'est créer de nou- et des idéologies derrière les interfaces. Nous + examinons également qui produit les outils, qui + gage humain de façon inattendue. Mais les tech- les met en œuvre et qui crée et accède aux grandes + niques d'apprentissage automatique ne sont acces- quantités de données nécessaires au développement + sibles qu'à ceux qui savent lire, écrire et exécu- de machines de prédiction. On pourrait dire, en un + ter du code. La fiction est un moyen de combler le clin d'œil, que nous sommes les collaborateurs de + fossé entre les histoires qui existent dans les cette nouvelle tribu d'hybrides humain-robot. +articles scientifiques, les manuels techniques, et +les histoires diffusées par les médias, souvent +limitées aux reportages superficiels et à la fa- + brication de mythes. En créant des œuvres algolit- + téraires, nous offrons aux humains une introduc- + tion aux techniques qui co-modèlent leur vie + quotidienne. + + + --- Qu'est-ce que la littérature ? --- + + Algolit comprend la notion de littérature comme + beaucoup d'autres auteurs expérimentaux : elle in- + clut toute la production linguistique, du diction- + + 4 +writers write writers write writers write writers write writers write writers write writ +rs write writers write writers write writers write writers write +writers write writers write writers write writers write +writers write writers write writers write writers write + writers write writers write writers write + writers write writers write writers write + writers write writers write writers write + writers write writers write + writers write writers write writers write + writers write writers write + writers write writers write + writers write writers write + writers write writers write + writers write writers write + writers write writers write + writers write writers write + writers write writers write + writers write writ +rs write writers write + writers write writers write + writers write +writers write writers write + writers write writer + write writers write + writers write writ +rs write writers write + writers write + writers write writers write + writers write + writers write w +iters write writers write + writers write + writers write + writers write writers write + writers write + writers write + writers write + writers write writer + write writers write + writers write + writers write + writers write + writers write + writers write + writers write writ +rs write writers write + writers write + writers write + writers write + writers write + writers write + writers write + writers write + writers write + writers write + writers write + writers write + writers write + writers write + writers write + writers write + writers write + writers write + writers write + writers write + writers write + writers write + writers write + writers write + 5 + o 4n c ,, 5é éno i4 rgt2o i +-+-+-+-+-+-+-+ 7no +-+-+-+-+-+ 5 n 5 7 8 9M e9w 7e c 6 1484 ié 3e5 + 6 e6 re t6n6 7 r r na h |w|r|i|t|e|r|s| io |w|r|i|t|e| 1pee1 er 74 t 71lcc o 53 mmP9 2i3f + 2o'r 7s e 52die 8 3u ro s q 6 4 +-+-+-+-+-+-+-+ s +-+-+-+-+-+ oo1e ps 8e 3usb7 wr s8n l1 f e elu + ii, r9 a t r9 t 13 a q 9s nd 3d e.e-i2t 19 7 l t 1aa m3 m ir l2 4 1 e4 5 d 6e + a 5 81d a e7 r sn n 9 5 s4 5 rt u 1 3 or t irbr e 8Qwo s99pca s n 92 9s le r9 + 7 e8a8 r 85 n i +-+-+-+-+ +-+-+-+-+-+-+-+ t i +-+-+-+-+ r3 t n r pfc3 d 9,e 8oe i fr + 2é s9 i ias6 6 )4 |d|a|t|a| |w|o|r|k|e|r|s| |w|o|r|k| i3a o1 rrn m 7 f l 9 n + 7 L e e J8 o +-+-+-+-+ +-+-+-+-+-+-+-+ 5 +-+-+-+-+ 61 u 5 725f 3 w i 61 - 8 ed + a 4ca td +-+-+-+-+ +-+-+-+-+-+-+-+ é +-+-+-+-+-+ e n w 671 5 iT b de 4 a4 + p 2 7 |m|a|n|y| |a|u|t|h|o|r|s| e |w|r|i|t|e| t 8 e8 é 6 a ml 4 L 2 e7 2 + ' t n a 2 +-+-+-+-+ +-+-+-+-+-+-+-+ e +-+-+-+-+-+ 2 o wr o 1v 2 3ers i o i 9 + 8 e s e2 +-+-+-+-+-+ +-+-+-+-+-+ +-+-+-+-+-+ a1 r 26 6 rn e ii , d œ 6 ' + t o 3 |e|v|e|r|y| |h|u|m|a|n| |b|e|i|n|g| d u 1 o e d v4q 7 t e e + el a e r +-+-+-+-+-+ +-+-+-+-+-+ +-+-+-+-+-+ 54 n a-ra m1i 8 i 5 1 2 s + r 8 +-+-+-+ +-+-+-+ +-+-+-+-+-+-+ +-+-+ 7 e ou l i w l 9 + 2 , e l |w|h|o| |h|a|s| |a|c|c|e|s|s| |t|o| i tu 8 t , 5 s 2 o e +va r +-+-+-+ +-+-+-+ +-+-+-+-+-+-+ +-+-+ n 5' c t C g s + 4 r 4 p +-+-+-+ +-+-+-+-+-+-+-+-+ t +-+-+-+-+-+-+-+-+-+ t 7 e 9o ,4 43 + 6 43 i |t|h|e| |i|n|t|e|r|n|e|t| |i|n|t|e|r|a|c|t|s| r 1 p 7 i + l G +-+-+-+ +-+-+-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+-+ q e e + 8 3 g e e +-+-+ +-+-+-+-+-+ +-+-+-+-+-+-+ s 2 8 t + 1 f a |w|e| |c|h|a|t|,| |w|r|i|t|e|,| + a œ 9 e sx ee r 3 +-+-+ +-+-+-+-+-+ +-+-+-+-+-+-+ s 8e e + 4 e t e 9 +-+-+-+-+-+-+ +-+-+-+-+ +-+-+-+ 6 or 2 + l 3 c 4 r7 |c|l|i|c|k|,| |l|i|k|e| |a|n|d| 6r + 4 6 1 1 t +-+-+-+-+-+-+ +-+-+-+-+ +-+-+-+ e + 9 l e +-+-+-+-+-+ 7 s s d + n r d |s|h|a|r|e| o3 9 + na B e n n +-+-+-+-+-+ u 2 + r9 e 45 1 +-+-+ a +-+-+-+-+-+ +-+-+-+ +-+-+-+-+ + a - t |w|e| |l|e|a|v|e| |o|u|r| |d|a|t|a| 4 O + o 5 m n +-+-+ +-+-+-+-+-+ +-+-+-+ +-+-+-+-+ 7 s a8 + a l 1 +-+-+ t +-+-+-+-+ +-+-+-+-+-+-+-+-+-+ i + 9 7 |w|e| |f|i|n|d| |o|u|r|s|e|l|v|e|s| 5 e + i a r s +-+-+ +-+-+-+-+ +-+-+-+-+-+-+-+-+-+ o l + e 0 i +-+-+-+-+-+-+-+ +-+-+ +-+-+-+-+-+-+ g e n + 1 e |w|r|i|t|i|n|g| |i|n| |P|y|t|h|o|n| + e +-+-+-+-+-+-+-+ +-+-+ +-+-+-+-+-+-+ 6 + d +-+-+-+-+ +-+-+-+-+-+-+ s 4 1 e a + w |s|o|m|e| |n|e|u|r|a|l| 6 9 , + s o 3 +-+-+-+-+ +-+-+-+-+-+-+ r d + , u +-+-+-+-+-+-+-+-+ i +-+-+-+-+-+ r s + |n|e|t|w|o|r|k|s| c |w|r|i|t|e| r s + 3 +-+-+-+-+-+-+-+-+ +-+-+-+-+-+ c + a +-+-+-+-+-+ +-+-+-+-+-+-+-+ +-+-+-+-+-+-+ r + |h|u|m|a|n| |e|d|i|t|o|r|s| |a|s|s|i|s|t| 7 2 4 7 + r +-+-+-+-+-+ +-+-+-+-+-+-+-+ +-+-+-+-+-+-+ t + i +-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+-+-+-+ v l t 2 e + |p|o|e|t|s|,| |p|l|a|y|w|r|i|g|h|t|s| r e + +-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+-+-+-+ + +-+-+ +-+-+-+-+-+-+-+-+-+ +-+-+-+-+-+-+ 4n N 8 + a 9 5 |o|r| |n|o|v|e|l|i|s|t|s| |a|s|s|i|s|t| 5 4 + +-+-+ +-+-+-+-+-+-+-+-+-+ +-+-+-+-+-+-+ w 7 i + r i n + 2 + 4 s 3 + l 4 + r + l 8 + a o + , 4 5 + i 6 r + n 7 + 5 + s s + r + e + l a r + + 6 + V V V V V V V V % % %% % % % %%% % %%% % + V V V V V V V V V V V V V V V V % % 0 % % % % +V % V V V V V % V V V % % 00 0 % % 0 % % % % + % % % % % % % % 0 __ 0 0 _ % _ _ %% % % + % % % 0 / / __ _ _ __ _ _| |__ | (_) ___ __ _ % + ÉCRIVAINS % / / / _` | | '_ \| | | | '_ \| | |/ __/ _` | ____ %% + % % % / /__| (_| | | |_) | |_| | |_) | | | (_| (_| | /___/% + % 0 \____/\__,_| | .__/ \__,_|_.__/|_|_|\___\__,_| + V V V V V V V V % _ _|_| % _ 0 0 % % +V V V V V V V V V 0 | |_(_) ___ _ __ % __| | ___ %% + V % V V V V V V V | __| |/ _ \| '_ \ / _` |/ _ \ % % %% + V V V V V V V V V V V V V V V V | |_| | (_) | | | | | (_| | __/ % +V V % V V V V V V V \__|_|\___/|_| |_| \__,_|\___| 0 % + % % ___ _ % 0 +Les Data Workers ont besoin de don- 0 0 0 / \__ _| |_ __ _ +nées pour travailler. Dans le / /\ / _` | __/ _` | +contexte d'Algolit, celles-ci % 0 % / /_// (_| | || (_| | 0 +prennent la forme du langage écrit. 0 /___,' \__,_|\__\__,_| +L'apprentissage automatique repose __ __ _ % 0 % +sur de nombreux types d'écriture. 0 0 / / /\ \ \___ _ __| | _____ _ __ ___ 0 +Les auteurs humains écrivent sous \ \/ \/ / _ \| '__| |/ / _ \ '__/ __| +forme de publications. Celles-ci \ /\ / (_) | | | < __/ | \__ \ 0 +sont organisées en archives et en 0 \/ \/ \___/|_| |_|\_\___|_| |___/ +cours de numérisation. Mais il 0 0 0 0 0 +existe d'autres types d'écriture. +On pourrait dire que chaque être Toutes les œuvres visibles dans l'exposition, ainsi que les histoires +humain avec un accès à Internet de- contextuelles et quelques textes supplémentaires ont été rassemblés +vient un écrivain lorsqu'il inter- dans cette publication. Elle existe en français et en anglais. +agit avec des algorithmes. En ajou- % +tant des commentaires, en écrivant % Cette publication est réalisée en suivant un flux de travail en +des mails ou des articles Wikipé- texte brut, basé sur divers outils de traitement de texte et de +dia, en cliquant et en aimant. calcul. Le format de fichier 'texte brut' est le format le plus + utilisé dans les modèles d'apprentissage automatique. C'est un +Les algorithmes d'apprentissage au- type de document dans lequel il n'existe pas de différence struc- +tomatique ne sont pas critiques : turelle entre les en-têtes et les paragraphes. Ce format a été le +ils prennent tout ce qu'on leur point de départ d'un processus de conception graphique ludique, +donne, peu importe le style d'écri- dans lequel les pages sont soigneusement comptées, page par page, +ture, le CV de l'auteur ou ses ligne par ligne et caractère par caractère. +fautes d'orthographe. D’ailleurs, +plus il y a d’erreurs, mieux Chaque page contient 110 caractères par ligne et 70 lignes par page. +c’est : la variété leur apprend à La mise-en-page est donc le résultat d'un acte de calcul de mots, +anticiper les textes inattendus. d'espaces et de lignes. Il joue avec des choix aléatoires, des motifs +Les auteurs humains quant à eux ne programmés et des polices ASCII/UNICODE, afin de spéculer sur la +sont souvent pas conscients de ce matérialité du texte numérique et d'explorer les interrelations +qui advient de leur travail. entre l'acte de compter et d'écrire avec des mots et des numéros. + +La plupart des textes que nous uti- Textes: Cristina Cochior, Sarah Garcin, Gijs de Heij, An Mertens, +lisons sont en anglais, certains en François Zajéga, Louise Dekeuleneer, Florian Van de Weyer, +français, d'autres en néerlandais. Laetitia Trozzi, Rémi Forte, Guillaume Slizewicz. +Souvent, nous nous retrouvons à % +écrire en Python, le langage de Traductions & relectures: deepl.com, Michel Cleempoel, +programmation que nous utilisons. Elodie Mugrefya, Patrick Lennon, Emma Kraak. % +Les algorithmes peuvent aussi être +des écrivains. Certains réseaux de Mise-en-page & couverture: Manetta Berends +neurones écrivent leurs propres https://git.vvvvvvaria.org/mb/data-workers-publication +règles et génèrent leurs propres +textes. Et pour les modèles qui Police: GNU Unifont, OGRE +luttent encore contre les ambiguï- Imprimante: PrinterPro, Rotterdam +tés du langage naturel, il existe Papier: Glossy MC 90gr +des éditeurs humains pour les ai- +der. Poètes, dramaturges ou roman- Editeur responsable: Constant vzw/asbl +ciers commencent leur nouvelle car- Rue du Fortstraat 5, 1060, Bruxelles +rière comme assistants de l'IA. + Licence: Algolit, Data Workers, mars 2019, Bruxelles. % + Copyleft: cette oeuvre est libre, vous pouvez la redistribuer + et/ou la modifier selon les termes de la Licence Art Libre. + + Version en ligne: http://www.algolit.net/index.php/Data_Workers_FR + Sources: https://gitlab.constantvzw.org/algolit/mundaneum + 7 + % % % % % % %% % % % %% + % % % % % %% % % % % %% % % % % % %% % + % % % % 0 % % 00 0 % % % + %% % % %% % % 0 0 % 0 0 % % % % % + % __ % 0 0 %% 0 % _ % 0 _ + / / ___ _ __ ___ __| | ___ __ _ ___| |_ % + % % / / / _ \ | '_ \ / _ \ / _` |/ __/ _` / __| __| + % % % % 0 / /__| __/ | |_) | (_) | (_| | (_| (_| \__ \ |_ + % % % % % \____/\___| | .__/ \___/ \__,_|\___\__,_|___/\__| % % + % % 0 00 % |_| 0 000 0 % 0 0 + % % 0 _ % ___ _ 0 0 + % 0 __| | ___ / \__ _| |_ __ _ + % %% % % / _` |/ _ \ / /\ / _` | __/ _` | % + | (_| | __/ / /_// (_| | || (_| | 0 % + % % 0 \__,_|\___| /___,' \__,_|\__\__,_| 0 + + % __ __ _ 0 0 % + / / /\ \ \___ _ __| | _____ _ __ ___ + % 0 \ \/ \/ / _ \| '__| |/ / _ \ '__/ __| % 0 + 0 \ /\ / (_) | | | < __/ | \__ \ 0 + % \/ \/ \___/|_| |_|\_\___|_| |___/ + 0 0 0 0 0 + % % + Par Algolit + + Lors des réunions mensuelles d'Algolit, nous étudions des manuels + % et expérimentons avec des outils d'apprentissage automatique pour + le traitement de texte. Mais nous partageons aussi énormément + d'histoires. Avec ce podcast, nous espérons recréer cette atmo- + sphère. % + %% + Pour les non-initiés, les algorithmes ne deviennent visibles dans + % les médias que lorsqu'ils se révèlent capables d'une performance + exceptionnelle, comme l'Alpha Go, ou quand ils se trompent d'une + façon terrifiante et fantastique. Mais les humains qui tra- + vaillent sur le terrain créent leur propre culture en ligne et + % hors ligne. Ils partagent leurs meilleures histoires et expé- + riences lors de réunions en direct, de conférences de recherche + % ou de compétitions annuelles comme celle du Kaggle. Ces histoires + qui contextualisent les outils et les pratiques peuvent être drô- + les, tristes, choquantes et intéressantes. + % + Ce sont souvent des histoires d'apprentissage par l’expérience. + La mise en œuvre des algorithmes dans la société génère de nou- + velles conditions de travail, de stockage, d'échange, de compor- + tement et de copier-coller. À leur manière, ces histoires contex- + tuelles saisissent l’élan d’une histoire anthropo-machinique plus + large, écrite par de nombreuses voix et à pleine vitesse. Elles + sont aussi reprises dans la publication de l'exposition. + + --- % + % % + Voix: Elodie Mugrefya, Michel Cleempoel, Géraldine Renauld, + An Mertens, Donatella Portoghese, Peter Westenberg. + + Composition: Javier Lloret % + + Enregistrements: David Stampfli + % + Textes: Cristina Cochior, An Mertens + + % + + + + + + + + 8 + 0 0 0 00 0 0 00 + 00 0 00 0 + 0 0 _ _ 0 _ + % /\/\ __ _ _ __| | _| |__ ___ | |_ 0 + / \ / _` | '__| |/ / '_ \ / _ \| __| 0 + / /\/\ \ (_| | | | <| |_) | (_) | |_ + \/ \/\__,_|_| |_|\_\_.__/ \___/ \__| + 0 0 ___ _ _ 0 0 + % % % %% %%% % 0 0 % % / __\ |__ __ _(_)_ __ % %%% + % % % % % %% % %%% / / | '_ \ / _` | | '_ \ % % % + % %% %% % % % % % % / /___| | | | (_| | | | | | 0 0 % + % % % % % %% \____/|_| |_|\__,_|_|_| |_| 0 % % % + % % 0 % 000 % % % + % % % % %% % % % % %% + % Par Florian Van de Weyer, étudiant Arts²/Section Arts Numériques % + % % + % % % Markbot Chain est une expérimentation sociale dans laquelle le + public a une influence directe sur le résultat. L'intention est + % de l'intégrer au cœur d'un processus de génération de texte sans + % % % appliquer de filtre sur ses entrées. Le bot fonctionnera durant + toute la durée de l'exposition sans être remis à zéro. + % % % % + % Toutes les questions présentes dans la base de données mise à % + % disposition par le Mundaneum ont été répertoriées automatique- + % ment. Ces questions sont ensuite posées aléatoirement au public + via un terminal. En y répondant, les personnes alimentent une + autre base de données. Après chaque entrée, cette dernière permet + de générer une série de phrases en utilisant diverses configura- + tions des chaînes de Markov, un algorithme qui est fort utilisé + dans la génération de spam. Les phrases ainsi générées sont affi- + chées dans la fenêtre, et une nouvelle question est posée. + % % % % % + % + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + 9 + RÉCITS CONTEXTUALISÉS + AUTOUR DES ECRIVAINS + + + + --- Les programmeurs créent Les lignes directrices suivantes sont copiées du + les data workers en écrivant --- site Web de Microsoft. Elles décrivent comment le + style de Cortana doit être respecté par les entre- + Récemment, nous avons constaté une étrange obser- prises qui élargissent ses services. Les tra- + vation : la plupart des programmeurs de langages vailleurs écrivains, programmeurs et romanciers + et de paquets que nous utilisons sont européens. qui développent les réponses de Cortana, doivent + suivre ces directives. Sa personnalité et son +Python, par exemple, le principal langage utilisé image de marque sont en jeu. Car la cohérence est +dans le monde entier pour le traitement du langa- un outil important pour solliciter la confiance de +ge, a été inventé en 1991 par le programmeur néer- l’humain. + landais Guido Van Rossum. Celui-ci a ensuite tra- + versé l'Atlantique où il a rejoint Google pendant Quelle est la personnalité de Cortana ? + sept ans. Maintenant il est actif chez Dropbox. + 'Cortana est attentionnée, sensible et solidaire. + Scikit Learn, le couteau suisse open source des + outils d'apprentissage automatique, a été initié Elle est sympathique mais orientée vers des + comme un projet Google Summer of Code à Paris par solutions. + le chercheur français David Cournapeau. Par la + suite, il a été repris par Matthieu Brucher dans Elle ne commente pas les informations personnelles + le cadre de sa thèse à l'Université de la Sorbonne ou le comportement de l'utilisateur, en particu- + à Paris. Puis il a été adopté en 2010 par l'INRA, lier si ces informations sont sensibles. +l'Institut National de l'Informatique et des Ma- +thématiques Appliquées. Elle ne fait pas de suppositions sur ce que l'uti- + lisateur veut, surtout elle n'incite pas à l'achat. + Keras, une bibliothèque de réseaux de neurones + open source écrite en Python, est développée par Elle travaille pour l'utilisateur. Elle ne repré- + François Chollet, un chercheur français qui tra- sente aucune entreprise, service ou produit. + vaille dans l'équipe Brain de Google. + Elle ne s'attribue pas le mérite ou la responsabi- + Gensim, une bibliothèque open source pour Python lité des choses qu'elle n'a pas faites. + utilisée pour créer des modèles sémantiques non + supervisés à partir de texte brut, a été écrite Elle dit la vérité sur ses capacités + par Radim Řehůřek. C'est un informaticien tchèque et ses limites. + qui dirige une entreprise de conseil à Bristol, au + Royaume-Uni. Elle ne présume rien de vos capacités physiques, + de votre sexe, de votre âge ou de toute autre +Et pour finir cette petite série, nous avons aussi caractéristique déterminante. +considéré Pattern, une bibliothèque souvent utili- + sée pour le web-mining et l'apprentissage automa- Elle ne suppose pas savoir ce que l'utilisateur + tique. Pattern a été développé et publié sous une ressent à propos de quelque chose. + license libre en 2012 par Tom De Smedt et Walter + Daelemans. Tous deux sont chercheurs au CLIPS, le Elle est amicale mais professionnelle. + Centre de Linguistique Informatique et de Psycho- + linguistique de l'Université d'Anvers. Elle se garde d'émoticons dans les tâches. + Un point c’est tout. + + --- Cortana parle --- Elle n'utilise pas d'argot culturel + ou professionnel spécifique. + Les dispositifs d’intelligence artificielle qui +nous assistent, ont souvent besoin de leurs Ce n'est pas un bot de support.' +propres assistants, humains. Les travailleurs in- +jectent de l'humour et de l'intelligence dans le Les humains interviennent en détail lors de la + langage des machines. Cortana est un exemple de ce programmation des réponses que Cortana donne. + type d'écriture mixte. Elle est l'assistante numé- Comment Cortana doit-elle réagir lorsqu'on lui + rique développée par Microsoft. Sa mission est propose des actions 'inappropriées' ? Son jeu + d'aider les utilisateurs à être plus productifs et d'actrice sexuée imité par la technologie soulève + créatifs. La 'personnalité' de Cortana a été fa- des questions à propos des relations de pouvoir + çonnée au fil des ans. Il est important qu'elle dans le monde actuel. + conserve son caractère dans toutes ses interac- + tions avec les utilisateurs. Elle est conçue pour Voyez la réponse que Cortana donne à la question : + nous rendre confiants. Cela se reflète dans ses - Cortana, qui est ton papa ? + réponses. - Techniquement parlant, c'est Bill Gates. + Rien de grave. + + 10 + + + + + + --- Apprentissage Open Source --- comme le français - aux langues construites comme + le langage de programmation ou l'espéranto, for- + Les licences de droits d'auteur cloisonnent une mées intentionnellement par l’entremise de l’homme + grande partie des pratiques d'écriture, de lecture pour répondre à un besoin précis.' Une langue of- + et d'apprentissage machiniques. Cela signifie ficielle avec une académie régulatrice, telle que + qu'ils ne sont disponibles que pour les humains le français standard avec l'Académie française, + travaillant dans cette entreprise spécifique. est classée comme langue naturelle. Ses points + Certaines entreprises participent à des conférences normatifs ne le rendent pas assez construit pour +dans le monde entier et partagent leurs connais- être classé comme un langage construit ou assez +sances dans des articles en ligne. Même si elles contrôlé pour être classé comme un langage naturel +partagent leur code, souvent elles ne mettent pas contrôlé. + à disposition les grandes quantités de données né- + cessaires à la formation des modèles. Ainsi, le 'langage naturel' est un terme de sub- + stitution qui se réfère à toutes les langues, au- + Nous avons pu apprendre l'apprentissage automati- delà de leur hybridité. Le 'traitement du langage + que, à lire et à écrire dans le contexte d'Algolit naturel', est au contraire une pratique + grâce à des chercheurs universitaires qui par- construite. Ce qui nous intéresse, c'est la créa- + tagent leurs résultats par le biais d’articles ou tion d'un langage construit pour classer les lan- + par la publication de leur code en ligne. En tant gages naturels qui, par leur évolution, présentent + qu'artistes, nous pensons qu'il est important des problèmes de catégorisation. + d'adopter cette attitude. C'est pourquoi nous do- + cumentons nos réunions. Nous partageons autant que Références : +possible les outils que nous créons et les textes +que nous utilisons sur notre dépôt de code en https://hiphilangsci.net/2013/05/01/on-the-histo- +ligne et ceci, sous licence libre. ry-of-the-question-of-whether-natural-language-is- + illogical/ + Nous éprouvons une grande joie quand nos travaux + sont repris par d'autres, modifiés, personnalisés Livre : Neural Network Methods for Natural Lan- + et redistribués. N'hésitez donc pas à copier et à guage Processing, Yoav Goldberg, Bar Ilan Univer- + tester le code sur notre site web. Si les sources sity, avril 2017. + d'un projet particulier n’y sont pas, vous pouvez + toujours nous contacter via la liste de diffusion. + Vous trouverez un lien vers notre dépot git, nos + etherpads et notre wiki sur http://www.algolit.net. + + +--- Langage naturel pour + l'intelligence artificielle --- + + Le traitement du langage naturel (NLP) est un + terme collectif qui désigne le traitement informa- + tique automatique des langues humaines. Cela com- + prend les algorithmes utilisant, comme entrée, du + texte produit par l'homme et qui tentent de le re- + produire. Les humains semblent compter de plus en + plus sur ce type de présence algorithmique. Nous + produisons de plus en plus de textes chaque année + et nous nous attendons à ce que les interfaces in- + formatiques communiquent avec nous dans notre +propre langue. Le traitement du langage naturel +est très difficile, car le langage humain est par +nature ambigu, en constante évolution et mal défini. + + Mais qu'entend-on par 'naturel' dans le traitement + du langage naturel ? Certains humains diront que + la langue est une technologie en soi. Selon Wiki- + pédia, 'Une langue dite « naturelle » est une + langue qui s'est formée petit à petit, évoluant + avec le temps, et fait partie du langage naturel. + Son origine est bien souvent floue et peut être + retracée plus ou moins clairement par la linguis- +tique comparée. On oppose les langues naturelles - + + + 11 +0 12 3 4 5 67 8 9 0 + 12 3 4 5 67 8 9 0 12 + 3 4 5 67 8 9 0 1 2 + 3 4 5 6 7 8 9 0 1 2 3 + 4 56 7 8 9 01 2 3 + 4 56 7 8 9 01 2 3 + 4 56 7 8 9 01 2 3 + 4 56 7 8 9 0 1 2 3 4 + 5 6 7 8 9 0 1 2 3 45 6 + 7 8 90 1 2 3 45 6 + 7 8 90 1 2 3 45 6 + 7 8 90 1 2 3 4 5 6 + 7 8 9 0 1 2 3 4 5 6 + 7 89 0 1 2 34 5 6 + 7 89 0 1 2 34 5 6 + 7 89 0 1 2 34 5 6 7 +89 0 1 2 3 4 5 6 7 8 9 + 0 1 2 3 4 5 6 78 9 + 0 1 23 4 5 6 78 9 0 + 1 23 4 5 6 78 9 0 + 1 23 4 5 6 78 9 0 + 1 2 3 4 5 6 7 8 9 0 + 1 2 3 4 5 67 8 9 0 12 + 3 4 5 67 8 9 0 12 + 3 4 5 67 8 9 0 12 3 + 4 5 6 7 8 9 0 1 2 3 + 4 5 6 7 8 9 01 2 3 + 4 56 7 8 9 01 2 3 + 4 56 7 8 9 01 2 3 + 4 56 7 8 9 01 2 3 4 + 5 6 7 8 9 0 1 2 3 4 5 6 + 7 8 90 1 2 3 45 6 + 7 8 90 1 2 3 45 6 + 7 8 90 1 2 3 45 6 + 7 8 90 1 2 3 4 5 6 7 + 8 9 0 1 2 3 4 5 6 7 + 89 0 1 2 34 5 6 7 +89 0 1 2 34 5 6 7 89 + 0 1 2 34 5 6 7 8 9 + 0 1 2 3 4 5 6 7 8 9 +0 1 23 4 5 6 78 9 0 + 1 23 4 5 6 78 9 0 + 1 23 4 5 6 78 9 0 + 1 23 4 5 6 7 8 9 0 + 1 2 3 4 5 6 7 8 9 0 12 3 + 4 5 67 8 9 0 12 3 + 4 5 67 8 9 0 12 3 + 4 5 67 8 9 0 12 3 + 4 5 6 7 8 9 0 1 2 3 + 4 5 6 7 8 9 01 2 3 4 + 56 7 8 9 01 2 3 4 + 56 7 8 9 01 2 3 4 5 +6 7 8 9 0 1 2 3 4 5 6 + 7 8 9 0 1 2 3 45 6 + 7 8 90 1 2 3 45 6 + 7 8 90 1 2 3 45 6 +7 8 90 1 2 3 45 6 7 + 8 9 0 1 2 3 4 5 6 7 + 8 9 0 1 2 34 5 6 7 89 + 0 1 2 34 5 6 7 89 0 + 1 2 34 5 6 7 89 0 + 1 2 34 5 6 7 8 9 0 + 1 2 3 4 5 6 7 8 9 0 + 1 23 4 5 6 78 9 0 + 1 23 4 5 6 78 9 0 + 1 23 4 5 6 78 9 0 1 + 2 3 4 5 6 7 8 9 0 1 2 3 + 4 5 67 8 9 0 12 3 + 4 5 67 8 9 0 12 3 + 12 +oracles predict oracles predict oracles predict oracles predict oracles predict oracles predic + oracles predict oracles predict oracles predict oracles predict orac +es predict oracles predict oracles predict oracles predict +racles predict oracles predict oracles predict oracles predic + oracles predict oracles predict oracles predict + oracles predict oracles predict oracles predict + oracles predict oracles predict or +cles predict oracles predict oracles predict + oracles predict oracles predict + oracles predict oracles predict oracles pr +dict oracles predict oracles predict + oracles predict oracles predict + oracles predict oracles predict + oracles predict oracles predict + oracles predict oracles predict + oracles predict orac +es predict oracles predict + oracles predict oracles predict + oracles predict oracles predic + oracles predict + oracles predict oracles predict + oracles predict +oracles predict oracles predict + oracles predict +racles predict oracles predict + oracles predict + oracles predict oracles predict + oracles predict + oracles predict orac +es predict oracles predict + oracles predict + oracles predict +racles predict oracles predict + oracles predict + oracles predict + oracles predict +racles predict oracles predict + oracles predict + oracles predict + oracles predict + oracles predict + oracles predict or +cles predict oracles predic + oracles predict + oracles predict + oracles predict + oracles predict + oracles predict + oracles predict + oracles predict + oracles predict + oracles predict + oracles predict + oracles predict + oracles predict + oracles predict + oracles predict + oracles predict + oracles predict + oracles predict + oracles predict + oracles predict + oracles predict + oracles predict + oracles predict + oracles predict + oracles predict + oracles predict + oracles predict + 13 + a9p3 7 -839 6 4a o 4% 3 3r +-+-+-+-+-+-+-+ z3 +-+-+-+-+-+-+-+ nt %u l c ew a5 g |i ras 21 7 + 1 , 1 n ev 6 0 e _s 4 77e |o|r|a|c|l|e|s| 6 _n |p|r|e|d|i|c|t| tla 7486 r 5lvt7 + 2 r + Cu i li t8er 1 n s i 8 1 2 +-+-+-+-+-+-+-+ pt +-+-+-+-+-+-+-+ se dp u4e r r p r5 9 t55 3m +é518 1 8p 2 e na13 , ah é1 n ) urg p4 ao5 t42 n.9 rn tt m e 3 8 9 16e9ma 5te -9 t +3 i 2a m2 l294e 9a 7 q2 7|5 5 e d + 9r i P ep 7 pl 6 4 79s Ge u p rs C 6s3 1a e9 + 8e i+ u ll +-+-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+ l l +-+-+-+-+-+-+-+-+ +-+-+-+ s i 6sihfr nzlWnk + t 62 e n |m|a|c|h|i|n|e| |l|e|a|r|n|i|n|g| d |a|n|a|l|y|s|e|s| |a|n|d| oon 9 7c r4 téed elrid + \ l i 5d 2s +-+-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+ lc +-+-+-+-+-+-+-+-+ +-+-+-+ xr e fer 8t 1 nse 5t s 3 + , i6u4reet %o 9 t -9e 3 é a a +-+-+-+-+-+-+-+-+ - e 6o i 9 6 d 7l2 8nu e + w8 e s d t7 t i k3h cm f o ip w |p|r|e|d|i|c|t|s| s 3 a-6 e 8e t ru M9p 6 + s4 1 4s o 1 p1i s5i 9n u ,| 6 9o +-+-+-+-+-+-+-+-+ u 7 9 r txb a o Ed o eu n + 9 oo | t 9 1V -88 lo, +-+-+-+-+-+-+ e7 +-+-+-+-+ +-+-+-+-+-+-+-+ c 9la r% t é r + 6 2 d te | + s o- |m|o|d|e|l|s| l h |h|a|v|e| |l|e|a|r|n|e|d| t8n 6o 4 t, r 6- + ee o l àtt +-+-+-+-+-+-+ +-+-+-+-+ +-+-+-+-+-+-+-+ f e r ur i e lg + e i t t e l 17o + o 9 +-+-+-+-+-+-+ _ +-+-+-+ +-+-+-+-+ S+ ceart i 0 g 6i t + 4 1l . - ôpt d n |m|o|d|e|l|s| e |a|r|e| |u|s|e|d| 9g 9 9 -l a r 8 6 + s9c w 9 r 9 5 % w +-+-+-+-+-+-+ t +-+-+-+ +-+-+-+-+ '4s , o 5 _7 2ee e + 2 u d5 5 au c e i +-+-+-+-+ +-+-+-+-+-+-+-+-+-+ pr 7 4 a + 4 5 r r 1i w 4 é w |t|h|e|y| l |i|n|f|l|u|e|n|c|e| 1 f 3 e4 nf 565 v + 7t i s94 s 4 1 a 7 / r +-+-+-+-+ , +-+-+-+-+-+-+-+-+-+ ou d 3 _ t m ms ane + a 4 t 9 , e u +-+-+-+-+ +-+-+-+-+ +-+-+-+-+-+ +-+-+-+ u _a c 1 29r 8e 128 + 6 a 9 5 g 2 t |t|h|e|y| |h|a|v|e| |t|h|e|i|r| |s|a|y| 6 2 a + 9 ia e n 4 r 58 +-+-+-+-+ t +-+-+-+-+ +-+-+-+-+-+ +-+-+-+ 5 b f e q + e64re o +-+-+-+-+-+-+-+-+-+-+-+ ni s se r a r l n r + 74 r |i|n|f|o|r|m|a|t|i|o|n| r 6 6 i l bdn p w _ + 7 Na 48 e- +-+-+-+-+-+-+-+-+-+-+-+ | r 8 t 2 | e o e + e a 2 et s3 +-+-+-+-+-+-+-+-+-+-+ o +-+-+-+-+-+-+-+-+-+-+ s o 8 3 8 , + s s t |e|x|t|r|a|c|t|i|o|n| e2 |r|e|c|o|g|n|i|z|e|s| 8 a 2 4 + t m 5c +-+-+-+-+-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+-+-+ t r s t ee +c r 4 7 e 3 +-+-+-+-+ 8 1 e t s r ai + d 8 . 8u n |t|e|x|t| 2 a6 U r v 4 4 + i9 o a o 6 +-+-+-+-+ 94 l a r x + l +-+-+-+-+-+-+-+-+-+-+-+-+-+-+ +-+-+-+-+-+-+-+ 2f 6 r mn a + t t c |c|l|a|s|s|i|f|i|c|a|t|i|o|n| d |d|e|t|e|c|t|s| n t / + 5 e +-+-+-+-+-+-+-+-+-+-+-+-+-+-+ l +-+-+-+-+-+-+-+ o 6 i o - + 8 p n 6 2 4 3 s os + 3 3, e 4o 5 + 6 8 l f 2 e 28S l + t 1 5 wo 9 9 s e + 6 + p - D c + 4 a i 7 u r s 9 7 n + + + r l - % a d n p ln + e 4 i r r + 4 o 8 e e e + 8 l | s r 8 + + m 3 o M 6 i 7 a + u s + 4 | F p c 5 . 3e i c + a e v rl n d9 9 6 - r + w j e + i 7 u e 3 + 9 2 a 4 6 é s p + d e t l b 9 4 5 + 8 r| r a ' o + t n 9 r d n n + 8 e s 3 3 7 1e s r + e e r s 5 + . e I e e 4 + k | e + 8 i 3 + M 8 a t 1 O s t v + u 9 I 1 r + 5 3 n e o n + 4 r 1 + e rr t 9 Lf + 8 , 6 3 +| 3 c 5 + + n 6 + b 8 + d u 1 + 7 9 v + m a e + + 14 + V % V V % V V V V V % % % % % % % % % % % % % % % % + V V V V V V V V V V V V V V V V % 0 %% % % % 0 % % 0 % % % +V V V V V V V V % V % % 0 % % %% 00 0 0 % % + % 00 % % ___ _ _ 0 _ _ _ _ 0 + % % % % % % / ( ) /_\ | | __ _ ___ | (_) |_| |_ ___ + % ORACLES % 0 00 / /|/ //_\\| |/ _` |/ _ \| | | __| __/ _ \ ____ % + % % / /___/ _ \ | (_| | (_) | | | |_| || __/ /___/ % + % \____/\_/ \_/_|\__, |\___/|_|_|\__|\__\___| 0 + V V V V V V % V V 0 % |___/ 0 0 % + V V V V V V V V V V V V V V V V %% % _ 00 0 % 0 +V V V V V V % V V V 0 _ __ __ _| |_ ___ _ _ _ __ 0 % % + V V V V V % V V V | '__/ _` | __/ _ \ | | | '__| 0 + V V V V V V V V V V V V V V V V 0 % | | | (_| | || __/ |_| | | % +V V V V V V V V V |_| \__,_|\__\___|\__,_|_| 0 + % 00 0 0 0 +L'apprentissage automatique est % % +principalement utilisé pour analy- par Algolit +ser et prédire des situations à +partir de cas existants. Dans cette L'Algolittérateur est construit à l'aide d'un réseau de neurone +exposition, nous nous concentrons et des œuvres mises à disposition par le Mundaneum. L'Algolitté- +sur les modèles d'apprentissage au- rateur vous aide à écrire un texte dans le style du Bureau des +tomatique pour le traitement de Institutions Internationales. +texte ou le traitement du ‘langage % +naturel', ‘nlp’ en bref. Ces mo- Vous pouvez choisir une phrase de départ dans l’œuvre originale +dèles ont appris à effectuer une et indiquer si l'Algolittérateur produit les phrases suivantes % +tâche spécifique sur base de textes basées sur un apprentissage primitif, intermédiaire ou final. +existants. Les modèles sont utili- % La machine propose un paragraphe que vous pouvez éditer. Si vous +sés par les moteurs de recherche, êtes satisfait du résultat, vous pouvez l'envoyer à l’imprimante +les traductions automatiques et les et ramener le texte chez vous comme souvenir. +résumés, en repérant les tendances +des réseaux de nouveaux médias et --- +des fils d’actualité. Ils in- +fluencent ce que l'on voit en tant Concept, code & interface : Gijs de Heij & An Mertens +qu'utilisateur, mais ont aussi leur +mot à dire dans le cours des Technique : Recurrent Neural Network +bourses mondiales ou dans la détec- +tion de la cybercriminalité et du Modèle original : Andrej Karphaty, Justin Johnson % +vandalisme. + Sources : https://gitlab.constantvzw.org/algolit/algoliterator.clone +Deux tâches principales se pré- +sentent dans la compréhension d’une +langue. L'extraction de l'informa- +tion porte sur les concepts et les 00 0 0 0 +relations entre les concepts. Elle 0 0 +permet de reconnaître les sujets, 00 0 0 _ _ 0 +les lieux et les personnes d’un 0 0 /\/\ ___ | |_ ___ __| | __ _ _ __ ___ +texte, de faire un résumé, de poser 0 / \ / _ \| __/ __| / _` |/ _` | '_ \/ __| +des questions et d'y répondre. 0 / /\/\ \ (_) | |_\__ \ | (_| | (_| | | | \__ \ +L'autre tâche est la classification \/ \/\___/ \__|___/ \__,_|\__,_|_| |_|___/ +du texte. Vous pouvez entraîner un _ _ __ 0 0 +oracle pour détecter si un mail est 0 | ( )__\__ _ __ __ _ ___ ___ 0 +du spam ou non, écrit par un homme | |/_\/ __| '_ \ / _` |/ __/ _ \ +ou une femme, plutôt positif ou né- | //__\__ \ |_) | (_| | (_| __/ 00 +gatif. 0 |_\__/|___/ .__/ \__,_|\___\___| + 0 |_| 0 0 00 +Dans cette zone, vous pouvez voir 0 0 0 0 +certains de ces modèles à l'œuvre. +Au cours de votre voyage dans l'ex- Par Algolit +position, vous découvrirez les dif- +férentes étapes qu'une machine-hu- 'Word embeddings' désignent des techniques de modélisation du +maine doit franchir pour arriver à langage qui, par de multiples opérations mathématiques, tracent +un modèle final. des mots dans un espace vectoriel multidimensionnel. Lorsque les + mots sont 'embedded' ou intégrés, ils se transforment de symboles + distincts en objets mathématiques, qui peuvent être multipliés, + divisés, ajoutés ou soustraits. + % + En distribuant les mots le long des nombreuses lignes diagonales + de l'espace vectoriel multidimensionnel, leurs nouveaux place- + + 15 + ments géométriques deviennent impossibles à percevoir par les hu- + % % mains. Cependant, ce que l'on gagne, ce sont des façons multiples % + % % % % % %% et simultanées d'organisation des mots. Les opérations algé- + % %% % % % briques rendent les relations entre les vecteurs à nouveau com- + % % % % % préhensibles. % % % % % %% + % % % % %%%% % % % % + % % Cette installation utilise gensim, une boîte à outils open source % + % % % % % pour le language de programmation Python, qui permet de créer des + % % % % % espaces de vecteurs et des modèles thématiques. Elle manipule le + % % texte selon les relations mathématiques qui émergent entre les % + % % % % mots, une fois qu'ils ont été tracés dans l'espace de vecteurs. + % % % % %% + % --- + % + % Concept & interface: Cristina Cochior % + % + % % % Technique: word embeddings, word2vec + % % + Modèle original: Radim Rehurek et Petr Sojka + % + % + 0 0 + % 0 0 0 0 + ___ _ 0 % 0 _ + / __\ | __ _ ___ ___ ___ _ __ | | ___ 0 + % 0 / / | |/ _` / __/ __|/ _ \ '__| | |/ _ \ + % / /___| | (_| \__ \__ \ __/ | | | __/ + 0 0 \____/|_|\__,_|___/___/\___|_| |_|\___| 0 + 0 0 _ + 0 _ __ ___ ___ _ __ __| | ___ + 0 0 | '_ ` _ \ / _ \| '_ \ / _` |/ _ \ + | | | | | | (_) | | | | (_| | __/ 0 + |_| |_| |_|\___/|_| |_|\__,_|\___| + 0 0 0 % + + Par Algolit + % + La construction du Mundaneum a été 'l'œuvre de la vie' du biblio- + thécaire Paul Otlet. Selon son but, ce cerveau mécanique collec- + tif aurait abrité et distribué tout ce qui a été couché sur pa- + % pier. Chaque document aurait été classé selon la Classification + décimale universelle. En utilisant des télégraphes et surtout des + trieurs, le Mundaneum aurait été en mesure de répondre à toutes + les questions posées par n'importe qui. + + Avec la collection de publications numérisées que nous avons re- + çue du Mundaneum, nous construisions une machine de prédiction + qui essaie de classer la phrase que vous tapez dans l'une des + principales catégories de la Classification décimale universelle. + Vous êtes également témoin de la façon dont la machine 'pense'. + Pendant l'exposition, ce modèle est régulièrement mis à jour à + l'aide des données nettoyées et annotées, ajoutées par les visiteurs + dans les installations 'Nettoyage pour Poèmes' et 'L'Annotateur'. + + Les classes principales de la Classification Décimale Universelle + sont les suivantes: + + 0 - Généralités (Sciences et connaissance ; organisation. infor- + matique, information, documentation, bibliothéconomie. institu- + tions, publications) + + 1 - Philosophie et psychologie + + 2 - Religion, théologie + + 3 - Sciences sociales (Statistique. Économie. Commerce. Droit. + Gouvernement. Affaires militaires. Assistance sociale. + Assurances. Éducation. Folklore) + + 16 + % % % % %% % 4 - inoccupée %% % % %% % % % + % % % % % % %% % % % % % % %%% + % % % % % % 5 - Sciences pures (Mathématiques, sciences exactes et naturel- + % % % % % % % % % les) % %% % % %% % % % + % %% % % % % % % % % % + %% 6 - Sciences appliquées. Médecine. Technologie % + % % % % % % % % %%% % + % 7 - Arts. Divertissements. Sports % % % + % % % % % % % % % % + % % % % 8 - Langue. Linguistique. Littérature % + % % % % % % % + % 9 - Géographie. Biographie. Histoire % + % % + % --- % + % % + Concept, code, interface: Sarah Garcin, Gijs de Heij, An Mertens + % + + 00 0 0 % 0 0 % + 0 0 % 0 0 + % ___ _ + / _ \___ ___ _ __ | | ___ + 0 / /_)/ _ \/ _ \| '_ \| |/ _ \ + / ___/ __/ (_) | |_) | | __/ 0 + % \/ \___|\___/| .__/|_|\___| 0 + 00 |_| + 0 _ _ _ _ + 0 __| | ___ _ __( ) |_ | |__ __ ___ _____ + 0 / _` |/ _ \| '_ \/| __| | '_ \ / _` \ \ / / _ \ % + | (_| | (_) | | | || |_ | | | | (_| |\ V / __/ + \__,_|\___/|_| |_| \__| |_| |_|\__,_| \_/ \___| 0 % + + % 0 _ % 0 _ _ % + 0 | |__ _ 0 _| |_| |_ ___ _ __ ___ + 0 00 | '_ \| | | | __| __/ _ \| '_ \/ __| 0 + | |_) | |_| | |_| || (_) | | | \__ \ 0 + 0 |_.__/ \__,_|\__|\__\___/|_| |_|___/ + 0 + + Par Algolit + + Depuis les débuts de l'intelligence artificielle (IA), les cher- + cheurs ont spéculé sur la possibilité pour les ordinateurs de + pouvoir penser et communiquer comme des humains. Dans les années + 1980, il y a eu une première révolution dans le traitement du + langage naturel (NLP), le sous-domaine de l'intelligence artifi- + % cielle (IA) qui concerne les interactions linguistiques entre les + ordinateurs et les humains. Récemment, des modèles linguistiques + pré-entraînés ont atteint des résultats de pointe sur un large + éventail de tâches de NLP, ce qui intensifie encore les attentes + d'un avenir avec l'IA. + + Cette œuvre sonore, composée de fragments sonores de documen- + taires scientifiques et de matériel audiovisuel lié à l'IA datant + de la deuxième moitié du XXe siècle, explore les espoirs, les + craintes et les frustrations provoqués par ces attentes. + % + --- + + Concept, édition : Javier Lloret + + Listes des sources : 'The Machine that Changed the World : + Episode IV -- The Thinking Machine', 'The Imitation Game', 'Maniac', + 'Halt & Catch Fire', 'Ghost in the Shell', 'Computer Chess', + '2001: A Space Odyssey', Ennio Morricone, Gijs Gieskes, André Castro. + + + + + 17 + RÉCITS CONTEXTUALISÉS + AUTOUR DES ORACLES + + + + Les Oracles sont un type particulier de modèles Sweeney a fondé son enquête sur des recherches + algorithmiques qui servent à prédire ou à profi- portant sur 2184 prénoms racisés sur deux sites + ler. Ils sont largement utilisés dans les smart- Web. 88 % des prénoms, identifiés comme étant don- + phones, les ordinateurs et les tablettes. Les nés à un plus grand nombre de bébés noirs, sont + Oracles peuvent être créés à l'aide de différentes considérés comme prédictifs de la race, contre + techniques. L’une d’entre elles consiste à définir 96 % de blancs. Les prénoms qui sont principale- + manuellement les règles. Ces modèles sont appelés ment donnés à des bébés noirs, comme DeShawn, Dar- +'rule-based models'. Ils sont utiles pour des nell et Jermaine, ont généré des annonces mention- +tâches spécifiques, comme par exemple, la détec- nant une arrestation dans 81 à 86 % des recherches +tion de la mention d'une certaine molécule dans un de noms sur un site, et dans 92 à 95 % des cas sur + article scientifique. Ils sont performants, même l'autre. Les noms qui sont principalement attri- + avec très peu de données d'entraînement. bués aux blancs, comme Geoffrey, Jill et Emma, + n'ont pas donné les mêmes résultats. Le mot 'ar- + Mais il y a aussi les Oracles d'apprentissage au- restation' n'est apparu que dans 23 à 29 % des re- + tomatique ou les Oracles statistiques, qui peuvent cherches de noms blancs sur un site, et 0 à 60 % + être divisés en deux : les Oracles 'supervisés' sur l'autre. + et 'non supervisés'. Pour la création de modèles + d'apprentissage automatique supervisés, les hu- Sur le site affichant le plus de publicité, un nom + mains annotent les données d'entraînement avant d'identification noir était 25 % plus susceptible + de les envoyer à la machine. Chaque texte est jugé d'obtenir une publicité suggérant un dossier d'ar- + par au moins 3 humains: par exemple, s’il s’agit restation. Quelques noms n'ont pas suivi ces modè- +de spam ou non, s’il est positif ou négatif. Les les : Dustin, un nom donné principalement aux bé- +Oracles d'apprentissage automatique non supervisés bés blancs, a généré une publicité suggérant une +n'ont pas besoin de cette étape mais nécessitent arrestation dans 81 et 100 % des cas. Il est im- + de grandes quantités de données. C’est également à portant de garder à l'esprit que l'apparition de + la machine de tracer ses propres motifs ou 'règles l'annonce est liée au nom lui-même et non au fait + grammaticales'. Enfin, les experts font la diffé- qu'il ait un dossier d'arrestation dans la base de + rence entre les Oracles basés sur l'apprentissage données de l'entreprise. + automatique classique et ceux basés sur des ré- + seaux de neurones. Vous en apprendrez plus à ce Référence : https://dataprivacylab.org/ + sujet dans la zone Lecteurs. projects/onlineads/1071-1.pdf + + Les humains ont tendance à exagérer la performance + des Oracles. Parfois, ces Oracles apparaissent --- Qu'est-ce qu'un bon employé ? --- + quand il y a un disfonctionnement. Dans les commu- +niqués de presse, ces situations souvent drama- Depuis 2015, Amazon compte environ 575 000 tra- +tiques sont appelées des 'leçons'. Malgré la pro- vailleurs, et ils leur en faut plus. Par consé- +messe de leurs performances, beaucoup de problèmes quent, ils ont mis sur pied une équipe de 12 per- + restent à résoudre. Comment s'assurer que les sonnes pour créer un modèle qui trouverait de bons + Oracles soient justes, que chaque être humain candidats en parcourant des sites de demande d'em- + puisse les consulter, qu'ils soient compréhen- ploi. L'outil attribuerait aux candidats une note + sibles par un large public ? Même au-delà, des allant de une à cinq étoiles. Le potentiel a ali- + questions existentielles persistent. Avons-nous menté le mythe : l'équipe voulait un logiciel qui + besoin de tous les types d'intelligences artifi- recracherait les cinq meilleurs sur une liste de + cielles ? Et qui définit ce qui est juste ou injuste ? 100 candidats humains pour les embaucher. !!! + + Le groupe a créé 500 modèles algorithmiques, cen- + --- Adsense racial --- trés sur des fonctions et des lieux de travail + spécifiques. Ils ont appris à reconnaître 50 000 +Latanya Sweeney, professeur en Gouvernance et termes qui figuraient sur les lettres d’anciens +Technologie à l'Université de Harvard, a documenté candidats. Les algorithmes ont appris à accorder + une 'leçon' classique sur le développement des peu d'importance aux compétences communes aux can- + Oracles. En 2013, Sweeney, d'origine afro-améri- didats en IT, comme la capacité d'écrire du code + caine, a googlé son nom. Elle a immédiatement reçu informatique, mais ils ont aussi reproduit les er- + une publicité pour un service qui lui offrait 'de reurs de leurs créateurs. Juste avant d'approuver + voir le casier judiciaire de Latanya Sweeney'. un modèle, l’entreprise s’est rendue compte que + Sweeney, qui n'a pas de casier judiciaire, a dès les modèles ont décidé que les candidats masculins + lors entamé une étude. Elle a commencé à comparer étaient préférables. Ils pénalisaient les candida- + la publicité que Google AdSense offrait à diffé- tures qui comprenaient le mot ‘femmes’ ou ‘féminin’, + rents noms racisés identifiables. Elle a découvert comme dans 'capitaine de club d'échecs féminin'. + qu'elle recevait plus d’annonces de ce type en re- + cherchant des noms ethniques non-blancs qu'avec Et ils ont rétrogradé les diplômées de deux +des noms traditionnellement perçus comme blancs. universités réservées aux femmes. + + 18 + + + + + + Ceci est dû à l'utilisation pour leur entraînement sein de la communauté du machine learning. Ces mo- + des demandes d'emploi reçues par Amazon sur une dèles fallacieux ou biaisés sont synonymes d’une + période de 10 ans. Durant cette période, l'entre- discrimination automatisée. La question se pose: + prise avait surtout embauché des hommes. Au lieu est-il vraiment possible d'éliminer complètement + de fournir la prise de décision 'équitable' que les préjugés de ces modèles ? + l'équipe d'Amazon avait promise, les modèles re- + flétaient une tendance biaisée dans l'industrie Certains affirment que oui, d'autres sont en + technologique. Mais ils l'ont aussi amplifiée et désaccord. Avant de soumettre le modèle à une in- + rendu invisible. Les activistes et les critiques génierie inversée, nous devrions nous demander si +affirment qu'il pourrait être extrêmement diffi- nous en avons besoin tout court. Ces chercheurs +cile de poursuivre un employeur en cas d’embauche ont suivi une troisième voie. En reconnaissant la +automatisée : les candidats à un emploi pourraient discrimination qui trouve son origine dans le lan- + ne jamais savoir que des logiciels intelligents gage, ces modèles deviennent pour eux des outils + ont été utilisés dans ce processus. de sensibilisation, en visualisant le problème. + + Référence : https://www.reuters.com/article/us- L'équipe de la Standford University a développé un + amazon-com-jobs-automation-insight/amazonscraps- modèle d'analyse des ‘word embeddings’ entraîné + secret-ai-recruiting-tool-that-showed-bias- sur 100 ans de textes. Pour l'analyse contemporai- + against-women-idUSKCN1MK08G ne, ils ont utilisé les Google News word2vec Vec- + tors, un paquet prêt à l’emploi, téléchargeable, + entraîné sur le Google News Dataset. Pour l'ana- + --- Quantification de 100 ans lyse historique, ils ont utilisé des 'word embed- + de stéréotypes sexuels et ethniques --- dings' qui ont été entraînés sur Google Books et + The Corpus of Historical American English +Dan Jurafsky est le co-auteur de 'Speech and Lan- (COHA https://corpus.byu.edu/coha/) avec plus de +guage Processing', un des ouvrages les plus in- 400 millions de mots de textes des années 1810 à + fluents pour l'étude du traitement du langage na- 2000. Afin de valider le modèle, ils ont entraîné + turel. Avec quelques collègues de l'Université de des ‘word embeddings’ du New York Times Annotated + Stanford, il a découvert en 2017 que les ‘word em- Corpus pour chaque année entre 1988 et 2005. + beddings’ peuvent être un outil puissant pour + quantifier systématiquement les stéréotypes com- Leur recherche montre que les ‘word embeddings’ + muns ainsi que d'autres tendances historiques. reflètent l'évolution des stéréotypes sexistes et + ethniques au fil du temps. Ils quantifient comment + Les ‘word embeddings’ sont une technique qui tra- des préjugés spécifiques diminuent avec le temps + duit les mots en vecteurs numérotés dans un espace tandis que d'autres stéréotypes augmentent. Les + multidimensionnel. Les vecteurs qui apparaissent principales transitions révèlent des changements + proches l’un de l’autre, indiquent une significa- dans les descriptions de genre et de groupes eth- +tion similaire. Ainsi, tous les numéros seront re- niques lors du mouvement des femmes dans les an- +groupés, toutes les prépositions, les prénoms et nées 1960-70 et la croissance de la population +les professions, etc. Cela permet de faire des asio-américaine dans les années 1960 et 1980. + calculs avec les mots. Vous pourriez, par exemple, + soustraire Londres de Royaume-Unis et votre résul- Quelques exemples : + tat serait le même que de soustraire Paris de France. + Les dix professions les plus étroitement associées + Un exemple de leur recherche montre que le vecteur aux groupes ethniques dans le jeu de données de + de l'adjectif 'honorable' est plus proche du vec- Google News : + teur 'homme', alors que le vecteur 'soumis' est + plus proche de 'femme'. Ces stéréotypes sont alors - Hispanique : femme de ménage, maçon, artiste, + automatiquement appris par l'algorithme. Il concierge, danseur, mécanicien, photographe, bou- + s’avère problématique lorsque les 'embeddings' langer, caissier, chauffeur. +pré-entraînés sont utilisés pour des applications +sensibles comme les classements de recherche, les - Asiatique : professeur, fonctionnaire, secrétai- +recommandations de produits ou les traductions. Ce re, chef d'orchestre, physicien, scientifique, + risque est réel, car un grand nombre de ‘word em- chimiste, tailleur, comptable, ingénieur. + beddings’ pré-entraînés sont téléchargeables sous + forme de paquets prêts à l'emploi. - Blanc : forgeron, ferronnier, géomètre, shérif, + tisserand, administrateur, maçon, statisticien, + On sait que la langue reflète et maintient en vie ecclésiaste, photographe. + les stéréotypes culturels. L'utilisation des 'word + embeddings' pour repérer ces stéréotypes est moins Les 3 professions les plus masculines dans les + cher et prends moins de temps que les méthodes ma- années 1930 : ingénieur, avocat, architecte. + nuelles. Mais leur mise en oeuvre dans des modèles + de prédiction suscite beaucoup de discussions au Les 3 professions les plus féminines dans les + + 19 + + + + + +années 1930 : infirmière, femme de ménage, transparence. Il existe un livre sur la façon dont +aide-soignante. les préjugés dans les modèles d'IA peuvent briser + la vie des gens, intitulé 'Weapons of Math Destruction'. + Peu de choses ont changé dans les années 1990. On y parle de modèles d'IA aux États-Unis qui classent + les enseignants. C’est assez horrible parce qu'il y + Principales professions masculines : aura forcément des préjugés. D’après leur recherche, + architecte, mathématicien et géomètre. la façon d’aborder la question serait d'abord d’avoir + Les professions féminines restent les mêmes : un modèle open source, où l’on peut consulter le + infirmière, femme de ménage et sage-femme. code et voir quelles fonctionnalités sont utilisées + avec desd onnées ouvertes, afin que les gens + Mais qu'est-ce qui s'est passé dans cette puissent enquêter, trouver des préjugés, donner + recherche avec les afro-américains? leur feedback et faire un rapport. Il devrait y + avoir un moyen de réparer le système. Je ne pense pas +Référence : https://arxiv.org/abs/1711.08412 que toutes les entreprises vont dans cette direction, + mais Wikipédia, en raison des valeurs qu'elle défend, + est au moins plus transparente et pousse d'autres + --- Le Service ORES de Wikimedia --- personnes à faire de même. + + L'ingénieur de logiciels Amir Sarabadani a présen- Référence : https://gitlab.constantvzw.org/algolit/ + té le projet ORES à Bruxelles en novembre 2017 algolit/blob/master/algoliterary_encounter/ + lors de notre Rencontre Algolittéraire. Cet 'Ob- Interview%20with%20Amir/AS.aac + jective Revision Evaluation Service' utilise l'ap- + prentissage automatique pour automatiser le tra- + vail critique sur Wikimedia, comme la détection du --- Tay --- + vandalisme et la suppression d'articles. Cristina + Cochior et Femke Snelting l'ont interviewé. Une histoire tristement célèbre est celle du pro- + gramme d'apprentissage automatique Tay, conçu par +Femke : Revenons à votre travail. Ces temps-ci, Microsoft. Tay était un chatbot qui imitait une +vous essayez de comprendre ce que signifie trouver adolescente sur Twitter. Elle a vécu moins de 24 +des préjugés discriminatoires dans l'apprentissage heures avant d'être éteinte. Peu de gens savent + automatique. La proposition de Nicolas Malevé, qui qu'avant cet incident, Microsoft avait déjà en- + a donné l'atelier hier, était de ne pas essayer de traîné et publié XiaoIce sur WeChat, l'application + le réparer, ni de refuser d'interagir avec des de chat la plus utilisée en Chine. Le succès de + systèmes qui produisent de la discrimination, mais XiaoIce a été si prometteur qu'il a conduit au dé- + de travailler avec eux. Il considère que les pré- veloppement de son homologue américain. Cependant, + jugés sont inhérents à la connaissance humaine et les développeurs de Tay n'étaient pas préparés + que nous devons donc trouver des moyens de les pour le climat de la plateforme Twitter. Bien que + utiliser d'une façon ou d'une autre. Nous avons le bot savait distinguer un nom d'un adjectif, il + discuté un peu de ce que cela signifierait, com- n'avait aucune compréhension de la signification + ment cela fonctionnerait... Je me demandais donc réelle des mots. Le robot a rapidement commencé à + si vous aviez des idées sur cette question de par- reproduire les insultes raciales et d'autres lan- +tialité. gages discriminatoires qu'il a appris par les + autres utilisateurs de Twitter et les attaques de +Amir : La partialité à l'intérieur de Wikipédia trolls. + est une question délicate parce qu'elle se produit + à plusieurs niveaux. Un niveau très discuté est le L'apparition et la mort de Tay représentent une + système des références. Toutes les références ne prise de conscience importante. Elle a montré les + sont pas accessibles. Ce que la fondation Wikime- conséquences possibles de la corruption de l'ap- + dia a essayé de faire, c'est de donner un accès prentissage automatique, lorsque le contexte + gratuit aux bibliothèques payantes. Ils réduisent culturel dans lequel l'algorithme doit vivre + l'exclusion en n'utilisant que des références en n'est pas pris en compte. + libre accès. Un autre type de discrimination est + la connexion Internet, l'accès à Internet. Il y a Référence : https://chatbotslife.com/the- + beaucoup de gens qui ne l'ont pas. Une chose à accountability-of-ai-case-study-microsofts + propos de la Chine, c'est qu'Internet y est blo- -tay-experiment-ad577015181f +qué. Le contenu opposé au gouvernement de la Chine +au sein du Wikipédia chinois est plus élevé parce +que les éditeurs [qui peuvent accéder au site Web] + ne sont pas pro-gouvernement et essaient de le + rendre plus neutre. On le remarque donc à beaucoup + d'endroits. En ce qui concerne l'intelligence ar- + tificielle (IA) et le modèle que nous utilisons + chez Wikipedia, c'est plutôt une question de + + 20 +cleaners clean cleaners clean cleaners clean cleaners clean cleaners clean cleaners clean + cleaners clean cleaners clean cleaners clean cleaners clean cleaners clean + cleaners clean cleaners clean cleaners clean cleaners clean + cleaners clean cleaners clean cleaners clean + cleaners clean cleaners clean cleaners clean cle +ners clean cleaners clean cleaners clean +cleaners clean cleaners clean cleaners clean + cleaners clean cleaners clean cleaners +lean cleaners clean cleaners clean + cleaners clean cleaners clean + cleaners clean cleaners clean cle +ners clean cleaners clean cleaners +clean cleaners clean cleaners +lean cleaners clean cleane +s clean cleaners clean +cleaners clean cleaners clean + cleaners clean cleaners clean + cleaners clean cleaners clean + cleaners clean + cleaners clean cleaners clean + cleaners clean cleaners clean + cleaners clean + cleaners clean cleaners clean + cleaners clean + cleaners clean cleaners clean + cleaners clean + cleaners clean cleaners +clean cleaners clean + cleaners clean + cleaners clean cleaners clean + cleaners clean + cleaners clean + cleaners clean cleaners +clean cleaners clean + cleaners clean + cleaners clean + cleaners clean cle +ners clean cleaners clean + cleaners clean + cleaners clean + cleaners clean + cleaners clean + cleaners clean + cleaners clean cleaners +lean cleaners clean + cleaners clean + cleaners clean + cleaners clean + cleaners clean + cleaners clean + cleaners clean + cleaners clean + cleaners clean + cleaners clean + cleaners clean + cleaners clean + cleaners clean + cleaners clean + cleaners clean + cleaners clean + cleaners clean + cleaners clean + cleaners clean + cleaners clean + cleaners clean + cleaners clean + cleaners clean + cleaners clean + cleaners clean + 21 + , i c i r e _1i 3 %3 +-+-+-+-+-+-+-+-+ 5 +-+-+-+-+-+ ’9 2 n 9s ea-si1it e5 2- l4snn -c 8 c + ro3 s 3ro7 l l à sl D |c|l|e|a|n|e|r|s| |c|l|e|a|n| l 8 d768 88oe o +a 6 lail 71ea + aa 3 i V0tnt + u| +-+-+-+-+-+-+-+-+ 8 +-+-+-+-+-+ opti9 o 7 uu5ouc 7 1 8 r _'8 nd +a1 ft 8 ts a 7 tt n3ie i 6b ed + r d 3a r u 9 rr2és0 p 23wV c 6st 2cà% i _ 7 a g |\ + a u3+ g+it | n é 1sr6 ot r 1rn6 t a o e - a' +/, t 9 i hl55ls4 t4 e r 2 t - a l t9 + 6el 4 4c n 79 xp -an_w2m+o r din o, +-+-+ n +-+-+-+-+-+-+ ||6e g qes 6 2 s i m God76 e + oaed è h+ 4epe % p p ag lc w t 3 r |w|e| t s |h|e|l|p|e|d| _ 7r srt ed n % 9 9 eo19c ic , + l3 4 u a pv i 9 u s- c g e7 +-+-+ r 6 +-+-+-+-+-+-+ r 7 or4 -s p 6e nl t x64 8)e t + + 39 , - ru é% o r c a +-+-+ c r +-+-+-+-+-+-+-+ + - 4 w t 2r |slln 7ad+ 95 D + pi t ' i e n,pu ai5h u i l t |w|e| u |c|l|e|a|n|e|d| a +4 d r cL ,4 s 9 5 + éil o _i |i r n | i3ei e 1 +-+-+ \ y +-+-+-+-+-+-+-+ d ii 4 b s 7 a e | re 0 + t s u g98 4e 3, if uk +-+-+-+-+-+ +-+-+-+-+ +-+-+ +-+-+-+-+-+-+ r a s9 a 3| P 1 s9r + \e1 é i s is c |h|u|m|a|n| |w|o|r|k| - |i|s| |n|e|e|d|e|d| , r. ta pt 3 d0 + r b d , an 9|an po d m +-+-+-+-+-+ +-+-+-+-+ at +-+-+ +-+-+-+-+-+-+ n -5 -+ o9 s Ds 1 + i | d e471 +-+-+-+-+-+-+-+-+-+-+-+ 5 qel g8 2sM 4 4 | 8 - h jt5 8a 1 e +tr _ l ‘| du w e5a |p|o|o|r|l|y|-|p|a|i|d| o l g ste a h2 s ai f 4 1 M 7 + v 3a o6 s l5 +-+-+-+-+-+-+-+-+-+-+-+ s t 4 |s u / 1e t t Ae c re 90t46 r 8 eu + -ve r r-elr e +-+-+-+-+-+-+-+-+-+-+-+ | +-+-+-+-+-+ +-+-+-+ 5 r 8 4 d ,lcp s s + o i l 2r |f|r|e|e|l|a|n|c|e|r|s| u |c|a|r|r|y| |o|u|t| S m n 1: e8l o D + s |i t9 sm _ +-+-+-+-+-+-+-+-+-+-+-+ 5 +-+-+-+-+-+ +-+-+-+ 1 s 4 à 5 t d e + we lr a à +-+-+-+-+-+-+-+-+-+-+ s +-+-+ +-+-+-+-+-+-+-+-+-+ +-+-+-+-+ h 4 5i + r r' dqe ean |v|o|l|u|n|t|e|e|r|s| L |d|o| |f|a|n|t|a|s|t|i|c| |w|o|r|k| u id t l + i o- - s 9e 7 +-+-+-+-+-+-+-+-+-+-+ +-+-+ +-+-+-+-+-+-+-+-+-+ +-+-+-+-+ + u - + 5 -i 9 4 t +-+-+-+-+-+-+-+ +-+-+-+-+-+-+ +-+-+ +-+-+-+-+ e 9 4 4 i t + t l 7 r ré 2 |w|h|o|e|v|e|r| 1 |c|l|e|a|n|s| |u|p| |t|e|x|t| o n 6r a + sn l d n 1i esw +-+-+-+-+-+-+-+ +-+-+-+-+-+-+ +-+-+ +-+-+-+-+ 3 9 r p t n + ae i2 8 é _d 7 7 ê rs a c t e e 9r r6 i a + d il a t e n eê _ s e4t o L 6 ré s +  i p nt 3c s é 8 2 e ot e a q l p cu e y + i 2 e a t c6 2 l m m u a + ot0e 6 h 6 r | 2 3 s + o o | i + t 8 u - , i 4 u 4 e \ n c 3l 3 +r c t e7 n s 6 q a . u e a 4 + i 4s le i e 3 g a é u 8 9 - t c n 9 | - o , p + 5 s r c d 3 t r s d i e t 8 o + 1 . n p 5 l 2 b c8 r ét 3 c + a 4 8 w r s % c 3 e 9 + 5 s l 4 u 3 - w1 e s 3 s t c + + . s nm 5 o 4 8 + , h 2 s e a a g r tm 8 s g n + s c 3 oc e 1 a 2 u e t 2 cd + r 1 5 c lai % p4 e u 2 + e a 9 a m s el9 uu + 9 % / 6 34 u l 6 ô +7 s 4 e . e 9 a e + e h o n g 2 e , + ip e 4 p e e o y o + u 5 5 oa t5 i 5 e t 2 + c c u f l n . e t + + i a u n e 5 é u s 2 + w 6 a - p a + 6 n l :| o l a - w +8 + è i cl w i e / 2 + / 1 c j + à u \ o s s D d 9 + m p 7 + + 1 g 3 7s + t ' t d r 2 + | p s 1 l e c 3 + c q n + 2 r V e + a a +4 4 s e o é +m y l D + sg a s - q e g s E + d a9 . g 6 +6 i + s r' + u r k e a s- V d + ea 3 d e - r r g s a | 8 . + + 22 + V V V % V % V V V V % % % % % % % % % % % % % + V V V V V V V V V V V V V V V V % %% % % % 0 +V V % V V % V V V V % V % 0 % % % 0 % % 0 % 0 0 % % + % % % % % % __ % _ _ % % % 0 % % + % % % % % /\ \ \___| |_| |_ ___ _ _ __ _ __ _ ___ + NETTOYEURS / \/ / _ \ __| __/ _ \| | | |/ _` |/ _` |/ _ \ %% % % + % % / /\ / __/ |_| || (_) | |_| | (_| | (_| | __/ 0 + % % % %% % \_\ \/ \___|\__|\__\___/ \__, |\__,_|\__, |\___| + V V V % V V V V V % 0 0 |___/ 0 0 |___/ % % % + V V V % V V V V V + V V V V V V V V V V V V V V V V % 00 _ __ ___ _ _ _ __ _ _ _ __ % % +V V V V V V V V V 0 | '_ \ / _ \| | | | '__| | | | | '_ \ + V V V V V V V V | |_) | (_) | |_| | | 0 | |_| | | | | % % % + V V V V V V V V V V V V V V V V | .__/ \___/ \__,_|_| \__,_|_| |_| % +V V V V V V V V V 0 0 |_| 0 % + % % 0 0 0 ___ 0 __ % % +Algolit choisit de travailler avec 0 / _ \___ \_\_ _ __ ___ ___ 0 +des textes libres de droits. Cela 0 0 / /_)/ _ \ / _ \ '_ ` _ \ / _ \ % +signifie qu'ils sont publiés sous % 0 / ___/ (_) | __/ | | | | | __/ 00 +une licence Creative Commons 4.0 - \/ 0 \___/ \___|_| |_| |_|\___| +ce qui est rare -, ou qu'ils sont 0 0 +dans le domaine public parce que +l'auteur est mort il y a plus de 70 par Algolit % % +ans. C'est le cas des publications % % +du Mundaneum. Nous avons reçu 203 % Pour cette exposition, nous travaillons avec 3% des archives du +documents pour constituer des jeux Mundaneum. Ces documents ont d'abord été numérisés ou photogra- +de données qui sont maintenant dis- phiés. Pour rendre les documents consultables, ils sont transfor- +ponibles en ligne. L'inconvénient % més en texte à l'aide du logiciel de reconnaissance optique de +de ce choix est que nous sommes % caractères (OCR) basés sur des modèles algorithmiques entraînés à +souvent confrontés à de mauvais % base d'autres textes. Ils ont appris à identifier des caractères, +formats de texte. Cela signifie que des mots, des phrases et des paragraphes. +nous sommes souvent obligés de net- +toyer des documents. Nous ne sommes Le logiciel fait souvent des 'erreurs'. Il peut être perturbé par +pas seuls dans cette situation. un caractère erroné, une typographie inhabituelle ou la transpa- + rence de la page laissant apparaître le verso. Bien que ces er- +Les livres sont numérisés en haute reurs soient souvent considérées comme du bruit, elles peuvent +résolution, page par page. C'est un aussi être considérées comme des interprétations poétiques de +travail humain intensif et c'est l’algorithme. Elles nous montrent les limites de la machine. Et +souvent la raison pour laquelle les % elles révèlent également comment l’algorithme fonctionne, quelle +archives et les bibliothèques % % matière l’a alimenté lors de son entraînement et ce qu’ils ré- +transfèrent leurs collections à une vèlent des normes de ses fabricants. Dans cette installation, +société comme Google. Les photos vous pouvez choisir comment vous traitez les erreurs de lecture % +sont converties en texte via OCR de l'algorithme. Sélectionnez un degré de nettoyage poétique, im- +(Reconnaissance Optique de Caractè- primez votre poème et emportez-le chez vous. +res), des Data Workers qui recon- % +naissent les lettres. Dans l'exécu- --- % +tion de cette tâche, les algo- % +rithmes font des erreurs, en parti- Concept, code, interface: Gijs de Heij +culier lorsqu'ils doivent traiter +des polices anciennes et des pages +froissées. Ici aussi un travail hu- +main intensif est nécessaire pour +améliorer les textes. Cela est fait +par des freelances via des plate- +formes de micro-paiement comme Me- +chanical Turk ; ou par des volon- +taires, comme la communauté du Dis- +tributed Proofreaders Project, qui +fournit un travail incroyable. Quoi +qu’il en soit, le nettoyage des +textes est un travail énorme pour +lequel il n'y a pas encore d'auto- +matisation structurelle. + + + + + + + 23 + 0 0 0 0 + 0 0 0 + 0 0 __ 0 _ 0 _ + 0 / / ___ _ __ _ __ ___ (_) ___| |_ + / / / _ \ | '_ \| '__/ _ \| |/ _ \ __| + / /__| __/ | |_) | | | (_) | | __/ |_ + \____/\___| | .__/|_| \___// |\___|\__| 0 + 0 |_| |__/ + 00 ___ _ 0 _ _ _ _ 0 _ + / (_)___| |_ _ __(_) |__ _ _| |_ ___ __| | + / /\ / / __| __| '__| | '_ \| | | | __/ _ \/ _` | + / /_//| \__ \ |_| | | | |_) | |_| | || __/ (_| | + /___,' |_|___/\__|_| |_|_.__/ \__,_|\__\___|\__,_| + + 0 ___ 0 __ _ + 0 / _ \_ __ ___ ___ / _|_ __ ___ __ _ __| | ___ _ __ ___ + / /_)/ '__/ _ \ / _ \| |_| '__/ _ \/ _` |/ _` |/ _ \ '__/ __| + / ___/| | | (_) | (_) | _| | | __/ (_| | (_| | __/ | \__ \ + % \/ |_| \___/ \___/|_| |_| \___|\__,_|\__,_|\___|_| |___/ + + 0 + %%% % % % %% % % %% 0 % % 0 % 0 % 00 % % + % % %%% % % %% % % %% 00 % 0 0 00 % 0 % %% + %%% % % % % % 0 0 % % 0 % 0 0 % + % % % %% % % % % % 0 0 % % +% %% % % % % % + %% % % par Algolit % % % % % + % % % % % + % % Distributed Proofreaders est une interface Web et une communauté + % internationale de bénévoles qui aident à convertir des livres du + % % % domaine public en livres électroniques. Pour cette exposition, + % ils ont relu des publications de Mundaneum parues avant 1923, qui + % % sont donc dans le domaine public aux États-Unis. + % % % + % Leur collaboration a été un grand soulagement pour les membres + % % % % d'Algolit. Moins de documents à nettoyer ! Tous les livres corri- + % gés sont disponibles dans les archives du Projet Gutenberg. An + Mertens a interviewé Linda Hamilton, directrice générale de Dis- + % tributed Proofreaders. % + % % % + --- % + + Interview : An Mertens, Algolit et Linda Hamilton, Distributed + Proofreaders % + % + Montage : Michael Murtaugh, Constant + % + % + + + + + + + + + + + + + + + + + + + + + + 24 + RÉCITS CONTEXTUALISÉS + AUTOUR DES NETTOYEURS + + + + --- Projet Gutenberg et IDÉES + Distributed Proofreaders --- + + Le projet Gutenberg est notre grotte d'Ali Baba. A. L'instinct de Mort et l'instinct de Vie : + Il offre plus de 58 000 livres électroniques gra- + tuits à télécharger ou à lire en ligne. Les œuvres L'Instinct de Mort : séparation ; catégorisation ; + sont acceptées sur Gutenberg lorsque leur droit avant-garde par excellence ; suivre le chemin pré- +d'auteur américain a expiré. Des milliers de béné- dit vers la mort - exécuter son propre code ; +voles numérisent et relisent des livres pour aider changement dynamique. +le projet. Une partie essentielle du travail est + réalisée dans le cadre du projet Distributed Proo- L'Instinct de Vie : l'unification ; le retour + freaders. Il s'agit d'une interface Web pour aider éternel ; la perpétuation et l'ENTRETIEN de la ma- + à convertir les livres du domaine public en livres tière ; les systèmes et opérations de survie ; + électroniques. Pensez aux fichiers texte, aux e- l'équilibre. + pubs, aux formats Kindle. En divisant la charge de + travail en pages individuelles, de nombreux béné- + voles peuvent travailler sur un livre en même B. Deux systèmes de base : + temps, ce qui accélère le processus de nettoyage. + Développement et entretien. La boule de cristal de + Pendant la relecture, les bénévoles reçoivent une chaque révolution : après la révolution, qui va + image scannée de la page et une version du texte, essayer de repérer le taux de discrimination dans +lue par un algorithme de reconnaissance optique la production ? +des caractères (OCR) entraîné pour reconnaître les +lettres dans les scans. Cela permet de comparer Développement : pure création individuelle ; le + facilement le texte à l'image, de le relire, de le nouveau ; le changement ; le progrès ; l'avancée ; + corriger et de le renvoyer sur le site. Un l'excitation ; la fuite ou s'enfuir. + deuxième bénévole se voit ensuite présenter le + travail du premier. Il vérifie et corrige le tra- Entretien : garder la poussière de la création in- + vail si nécessaire, et le soumet au site. Le livre dividuelle pure ; préserver le nouveau ; soutenir + passe ensuite par un troisième cycle de relecture le changement ; protéger le progrès ; défendre et + et deux autres cycles de mise en page à l'aide de prolonger l'avancée ; renouveler l'excitation ; + la même interface Web. Une fois que toutes les répéter le vol ; montrez votre travail/remontrez- + pages ont terminé ces étapes, un post-processeur le ; gardez le dépôt git mis à jour ; gardez + les assemble soigneusement dans un e-book et les l'analyse des données révélatrice. + soumet à l'archive du Projet Gutenberg. + Les systèmes de développement sont des systèmes de +Nous avons collaboré avec le Distributed Proofrea- rétroaction partielle avec une grande marge de +ders Project pour nettoyer les fichiers numérisés changement. + que nous avons reçus de la collection du Munda- + neum. De novembre 2018 jusqu'à la première mise en Les systèmes d'entretien sont des systèmes à ré- + ligne du livre 'L'Afrique aux Noirs' en février troaction directe avec peu de possibilités de mo- + 2019, An Mertens a échangé environ 50 courriels dification. + avec Linda Hamilton, Sharon Joiner et Susan Han- + lon, toutes bénévoles du Distributed Proofreaders + Project. La conversation complète est publiée en- C. L'entretien est une corvée, + ligne. Cela pourrait vous inspirer à partager ça prend tout le temps. + des livres non disponibles en ligne. + L'esprit est éblouissant et s'irrite devant l'ennui. + +--- Une version algolittéraire La culture attribue un statut médiocre aux emplois + du Manifeste sur l’entretien --- d'entretien = salaire minimum, les Mechanical + Turks d'Amazon = pratiquement aucun salaire. + En 1969, un an après la naissance de son premier + enfant, l'artiste new-yorkaise Mierle Laderman Nettoyer le set, marquer les données d'entraîne- + Ukeles a écrit un 'Manifesto for Maintenance' ment, corriger les fautes de frappe, modifier les + (Manifeste pour l'entretien). paramètres, terminer le rapport, satisfaire le de- + mandeur, télécharger la nouvelle version, joindre + Le Manifeste d'Ukeles appelle à une réévaluation les mots qui ont été mal reconnus par le logiciel + de l'état des travaux d'entretien dans l'espace de Reconnaissance Optique de Caractères, accomplir + privé, domestique et public. Ce qui suit est une ces tâches d'intelligence humaine, essayez de de- + version modifiée de son texte inspirée par le tra- viner la signification du formatage du demandeur, + vail des Nettoyeurs. vous devez accepter le 'hit' avant de pouvoir sou- + mettre les résultats, résumer l'image, ajouter la + + 25 + + + + + + case de délimitation, quelle est la similitude sé- des vidéos sur YouTube montrant aux 'turkers' com- + mantique de ce texte, vérifiez la qualité de la ment écrire un bot qui remplit des réponses pour + traduction, collecter vos micro-paiements, devenir vous. + un Mechanical Turk à succès. + Kristy Milland, une militante de Mechanical Turk, + Référence : https://www.arnolfini.org.uk/blog/ dit : 'Les travailleurs sur Mechanical Turk ont + manifesto-for-maintenance-art-1969 été très, très mal traités pendant 12 ans et, + d'une certaine façon, je vois cela comme un point + de résistance. Si nous étions payés équitablement + --- Une panique robotique chez sur la plateforme, personne ne prendrait le risque + le Mechanical Turk d'Amazon --- de perdre son compte de cette façon.' + +Le Mechanical Turk d'Amazon prend le nom d'un au- Bai a créé un questionnaire pour les chercheurs en + tomate d'échecs du 18ème siècle. En fait, le Turc dehors de Mechanical Turk. Il dirige actuellement + mécanique n'était pas du tout une machine. C'était une recherche parmi les spécialistes des sciences + une illusion mécanique qui permettait à un maître sociales pour déterminer la quantité de données + d'échecs humain de se cacher à l'intérieur de la erronées utilisées, l'ampleur du problème et les + boîte et de l'utiliser manuellement. moyens de l'enrayer. Mais il est impossible à + l'heure actuelle d'estimer combien de jeux de don- + Pendant près de 84 ans, le Turc a remporté la plu- nées sont devenus peu fiables de cette façon-ci. + part des matchs joués lors de ses manifestations + en Europe et en Amérique. Napoléon Bonaparte se Références : + serait lui aussi laissé berner par cette ruse. + https://www.wired.com/story/amazon-mechanical- +Le Mechanical Turk d’Amazon est une plateforme en turk-bot-panic/ +ligne à destination des humains pour exécuter des +tâches que les algorithmes ne parviennent pas à https://www.maxhuibai.com/blog/evidence-that-res- + faire. Il peut s'agir, par exemple, d'annoter des ponses-from-repeating-gps-are-random + phrases comme étant positives ou négatives, de re- + pérer des plaques d'immatriculation, de recon- http://timryan.web.unc.edu/2018/08/12/data-conta- + naître des visages. Les postes affichés sur cette mination-on-mturk/ + plateforme sont souvent rémunérés moins d'un cen- + time par tâche. Les tâches les plus complexes ou + nécessitant le plus de connaissances peuvent être + payées jusqu'à plusieurs centimes. Pour gagner + leur vie, les 'turkers' doivent accomplir le plus + de tâches possible le plus rapidement possible, ce + qui entraîne d’inévitables erreurs. Les créateurs +des jeux de données doivent incorporer des +contrôles de qualité lorsqu'ils publient un tra- +vail sur la plate-forme. Ils doivent vérifier si + le 'turker' a réellement la capacité d'accomplir + la tâche, et ils doivent également vérifier les + résultats. De nombreux chercheurs universitaires + utilisent le Mechanical Turk pour des tâches qui + auraient été exécutées par des étudiants auparavant. + + En août de l'année dernière, Max Hui Bai, un étu- + diant en psychologie de l'Université du Minnesota, + a découvert que les enquêtes qu'il a menées avec + Mechanical Turk étaient pleines de réponses ab- +surdes aux questions ouvertes. Il a retracé les +mauvaises réponses et a découvert qu'elles avaient +été soumises par des répondants ayant des coordon- + nées GPS en double. Cela a suscité des soupçons. + Bien qu'Amazon interdise explicitement aux robots + d'effectuer des travaux sur Mechanical Turk, l'en- + treprise ne publie pas les problèmes qu'ils + causent sur sa plate-forme. Les forums pour 'tur- + kers' sont pleins de conversations sur l'automati- + sation du travail, le partage de pratiques sur la + façon de créer des robots qui transgresseraient + les termes d'Amazon. Vous pouvez également trouver + + 26 +informants inform informants inform informants inform informants inform informants inform info +mants inform informants inform informants inform informants inform informants i +form informants inform informants inform informants inform info +mants inform informants inform informants inform informants info +m informants inform informants inform informants inform + informants inform informants inform informants +inform informants inform informants inform + informants inform informants inform informants info +m informants inform informants inform + informants inform informants inform + informants inform informants inform in +ormants inform informants inform infor +ants inform informants inform info +mants inform informants inform +informants inform informants inform + informants inform informants inform + informants inform informants inform + informants inform infor +ants inform informants inform + informants inform informants inform + informants inform + informants inform informants inform + informants inform +informants inform informants inform + informants inform + informants inform informants inform + informants inform + informants inform informants +inform informants inform + informants inform + informants inform informants +inform informants inform + informants inform + informants inform + informants inform informants info +m informants inform + informants inform + informants inform + informants inform + informants inform informants +inform informants inform + informants inform + informants inform + informants inform + informants inform + informants inform + informants inform + informants inform + informants inform + informants inform +informants inform in +ormants inform info +mants inform infor +ants inform infor +ants inform info +mants inform in +ormants inform +informants inform + informants inform + informants inform + informants inform + informants inform + informants inform + informants inform + informants inform + informants inform + informants inform + informants inform + informants inform + 27 + i l e a3 r a 4rmo 24c +-+-+-+-+-+-+-+-+-+-+ s + +-+-+-+-+-+-+ ny. 2 h n s i l 7 s é n9r- + pc- , 92é né e r | |i|n|f|o|r|m|a|n|t|s| |i|n|f|o|r|m| 5 e 3 2| a m l + m r r + em ‘7r i,e e c én +-+-+-+-+-+-+-+-+-+-+ , +-+-+-+-+-+-+ 3 is o fIc éT o 8 ne3é3e- + t mm i 4e G 6 o i s 3 4ui t 3r -r é 8 m r ri r _ di453 f d c e u i-_tm- o | e n+ 9e + L u8 S n 9 r+seu 2 3 5 Ce m e 8u,é 9 r 2 9 u s l u 2e sm6èr rol6u r d eo s3+ e r + j . e 51i é d +-+-+-+-+ +-+-+-+-+-+-+-+ r +-+-+-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+-+ 7 p p i ae + m oi 6 96r5ol h5 0 |e|a|c|h| |d|a|t|a|s|e|t| |c|o|l|l|e|c|t|s| |d|i|f|f|e|r|e|n|t| p l o e + 1 l i% m 1 - im t +-+-+-+-+ +-+-+-+-+-+-+-+ t +-+-+-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+-+ s lbai s / _t + P`ncr 3 wd _ tq% i c_ c ie3 a n-i +-+-+-+-+-+-+-+-+-+-+-+ +-+-+-+-+-+ _ 1 îtC toi ne + i p rm l l _ + 4 nn2 fi n e é d c\ _ |i|n|f|o|r|m|a|t|i|o|n| |a|b|o|u|t| ol t rm s8n + e \ om| - o i e o % a 8 é6 t ti5sv +-+-+-+-+-+-+-+-+-+-+-+ +-+-+-+-+-+ te r1is e + ri4l 2 sé n-t hn 1 m6tl-d5 4 _l sb +-+-+-+ +-+-+-+-+-+ a ori q 5l z8 + o he w+ a 6 1 t oo3| b l eu |t|h|e| |w|o|r|l|d| i p y e sg j_ + d a i - -tse f1 s n14 nl + r 0 r - +-+-+-+ +-+-+-+-+-+ m r_ rl D r o t s + 3 ln i s lqe a rui +-+-+-+-+-+-+-+-+ a lr +-+-+-+ +-+-+-+-+-+-+ +-+-+-+-+ i _ a2 + wo 7 3 6 n ,s c i - |d|a|t|a|s|e|t|s| |a|r|e| |i|m|b|u|e|d| |w|i|t|h| s e e ae i 3 + i 6 h %2l p 8w d5l +-+-+-+-+-+-+-+-+ +-+-+-+ +-+-+-+-+-+-+ +-+-+-+-+ e x r s e u + . é r g ta n o 3 f n 5 u +-+-+-+-+-+-+-+-+-+-+-+ +-+-+-+-+ _ r 2 a 8 s o + d n + n r 9 a 1 e e i 5d |c|o|l|l|e|c|t|o|r|'|s| |b|i|a|s| u 886 u o + n t ae s1si mn42c e %tt 76 l 4 r é +-+-+-+-+-+-+-+-+-+-+-+ +-+-+-+-+ | de 1m tt37 r + s e 8e e +-+-+-+-+ +-+-+-+-+-+-+-+-+ o r( +-+-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+ s 9 t + s h s_9 1 L |s|o|m|e| |d|a|t|a|s|e|t|s| |c|o|m|b|i|n|e| |m|a|c|h|i|n|i|c| 74 v 7 + m n c p| ? +-+-+-+-+ +-+-+-+-+-+-+-+-+ u +-+-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+ 1 à r 3u d p + i vc3n i aciéé e ’ e r 5 +| c/a aq +-+-+-+-+-+ +-+-+-+-+ +-+-+-+-+-+ + o 7 r + % r n o +er u ow i 3 n |l|o|g|i|c| |w|i|t|h| |h|u|m|a|n| a ls + au r, o t s - 7rV t % s e +-+-+-+-+-+ +-+-+-+-+ +-+-+-+-+-+ e0 m n + W r4 s - e 0 12 a r 6 nt | +-+-+-+-+-+ , sse r 1 | i + p f i 1u 5 i1 a r o + se |l|o|g|i|c| 5 ls c p d \ + e ee l e q a s es rn c +-+-+-+-+-+ | t _ \ o + e ie % c +-+-+-+-+-+-+ +-+-+-+-+ e w 7 8 + i ,_ jtl |m|o|d|e|l|s| |t|h|a|t| s p a i Sér é u e , 9 s + 5- r6 p r o +-+-+-+-+-+-+ +-+-+-+-+ o 7 99 97/ | us q +o 1 0 d s i +-+-+-+-+-+-+-+ i 3 e e aê p i m e t + r h é em o 1 |r|e|q|u|i|r|e| c 9r 1e t p t + e p c %o 8 h +-+-+-+-+-+-+-+ ' f 4 é5 u a 9 s B + -c s i 5 +-+-+-+-+-+-+-+-+-+-+-+ r +-+-+-+-+-+-+-+-+ +-+-+-+ e + r u3 ts t l |s|u|p|e|r|v|i|s|i|o|n| |p |m|u|l|t|i|p|l|y| |t|h|e| b le s u 5 p r + h | +-+-+-+-+-+-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+ +-+-+-+ t u en o + o e 5 m a - e u h 6 +-+-+-+-+-+-+-+-+-+-+-+-+-+-+ i e q + n cc r \ n 9 |s|u|b|j|e|c|t|i|v|i|t|i|e|s| 8 _ e 7 s + cU f s n ô e +-+-+-+-+-+-+-+-+-+-+-+-+-+-+ 3 5 i t | + e e grr s sd +-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+-+ +-+-+-+-+ - la o + e +m r 4 8 |m|o|d|e|l|s| c |p|r|o|p|a|g|a|t|e| |w|h|a|t| + .e - \ o +-+-+-+-+-+-+ 5 +-+-+-+-+-+-+-+-+-+ +-+-+-+-+ m l 6 t + 1 pv l _ sr +-+-+-+-+-+-+-+ +-+-+-+-+ V + m % v |t|h|e|y|'|v|e| |b|e|e|n| r 3 e ’ c e + i u 1 t t a +-+-+-+-+-+-+-+ +-+-+-+-+ cf 4 r q s + 9 es e 8 o g g t +-+-+-+-+-+-+ r t e + 7 _ - o 3 l 9 d |t|a|u|g|h|t| t 9 5u q|u p + 2 ne 7 n g +-+-+-+-+-+-+ - 0 + 1 u +-+-+-+-+ +-+-+ +-+-+-+ r e X u 7 é + 9 a ' é |s|o|m|e| |o|f| |t|h|e| 2 a | +e u p +-+-+-+-+ +-+-+ +-+-+-+ t 1 1 e + 2 s e +-+-+-+-+-+-+-+-+ +-+-+-+-+ +-+-+ +-+-+-+-+-+-+-+ +-+-+ + u _ |d|a|t|a|s|e|t|s| |p|a|s|s| |a|s| |d|e|f|a|u|l|t| |i|n| + l 4 f p i +-+-+-+-+-+-+-+-+ +-+-+-+-+ +-+-+ +-+-+-+-+-+-+-+ +-+-+ t + oc e d 6 t +-+-+-+ +-+-+-+-+-+-+-+ 1 5 + 2 pi |t|h|e| |m|a|c|h|i|n|e| 6 e d + I ,7 p +-+-+-+ +-+-+-+-+-+-+-+ l A + _ 4n s +-+-+-+-+-+-+-+-+ +-+-+-+-+-+ a + r p m D |l|e|a|r|n|i|n|g| |f|i|e|l|d| n + é m e o r _ t +-+-+-+-+-+-+-+-+ +-+-+-+-+-+ n é + s , +-+-+-+-+-+-+ p +-+-+-+-+-+ +-+-+-+-+-+-+-+-+ h + 8 t d |h|u|m|a|n|s| |g|u|i|d|e| |m|a|c|h|i|n|e|s| c t + a mo 1 +-+-+-+-+-+-+ +-+-+-+-+-+ +-+-+-+-+-+-+-+-+ i + r i . g | c Q b 7 + o 3 8 ê o | p è t e + ar 8 e 8 n 7 9 e o o a + + 28 + V % V % V V V % V V V %% % % % % % % %%% % % % + V V V V V V V V V V V V V V V V % 0 % %% % % % 0 % % +V V V V V V % V V V % 0 0 0 % % % 0 %% % 0 % % % + % % %%% % % % % 00 % 0 0 _ _ 0 % % %% + % % %% % % % % % /\ /\ _ __ ___ ___| |_| |__ _ __ 0 ___ % + % INFORMATEURS % % % / / \ \ '_ \ / _ \ / _ \ __| '_ \| '_ \ / _ \ % ____ + % % \ \_/ / | | | __/ | __/ |_| | | | | | | (_) | /___/ % + % % % % \___/|_| |_|\___| \___|\__|_| |_|_| |_|\___/ + V V V V % V % V V V % + V V V V V V V V V V V V V V V V % 0 0 _ _ _ % % +V V V V V V V V V __ _ _ __ __ _ _ __ | |__ (_) ___ __| | ___ ___ % + V V V V V V V V / _` | '__/ _` | '_ \| '_ \| |/ _ \ / _` |/ _ \/ __| + V V V V V V V V V V V V V V V V | (_| | | | (_| | |_) | | | | | __/ | (_| | __/\__ \ % +V V V V V V V V V \__, | _| \__,_| .__/|_| |_|_|\___| \__,_|\___||___/ + % |___/ |_| % 0 % 0 +Les algorithmes d'apprentissage au- 0 0 _ 0 _ 0 +tomatique ont besoin d'être guidés, (_) ___ _ ___ __ __| | ___ +qu'ils soient supervisés ou non. 0 | |/ _ \ | | \ \/ / / _` |/ _ \ % % % % +Pour séparer une chose d'une autre, 000 | | __/ |_| |> < | (_| | __/ 0 % +ils ont besoin de matériel pour en 0 _/ |\___|\__,_/_/\_\ \__,_|\___| +extraire des motifs. L'être humain % 0 |__/ 0 +doit choisir avec soin le matériel % _ __ 0 +d'étude, adapté à la tâche de la % 0 __| | ___ _ __ _ __ _/_/ ___ ___ 0 % +machine. Il n'est pas logique d'en- / _` |/ _ \| '_ \| '_ \ / _ \/ _ \/ __| +traîner une machine avec des romans % 0 | (_| | (_) | | | | | | | __/ __/\__ \ +du 19ème siècle si sa mission est \__,_|\___/|_| |_|_| |_|\___|\___||___/ +d'analyser des Tweets. % 0 % 0 0 0 % + +C'est là qu'interviennent les jeux par Algolit +de données : organisés en rangés et +en colonnes ordonnées, en attente Lors des réunions mensuelles Algolit nous cherchons ou créons +d'être lus par la machine. Chaque souvent des jeux de données. Parfois, nous utilisons des corpus +jeu de données recueille des infor- déjà existants, disponibles via le site Natural Language Toolkit +mations différentes sur le monde. nltk. NLTK contient, entre autres, la Déclaration universelle des +Comme toutes les collections, elles droits de l'Homme, les discours inauguraux des présidents améri- +sont imprégnées des stéréotypes et cains, ou des critiques de films du site Internet Movie Database +préjugés de ses créateurs. On en- (IMDb). +tend souvent l’expression : 'les +données sont le nouveau pétrole'. Chaque style d'écriture évoque des relations différentes entre +Si seulement les données étaient du les mots et reflète l'époque dont ils proviennent. En ce sens, le +pétrole ! Fuyantes, s’égouttant en gestionnaire de paquets Python pour le traitement du langage na- +graisse lourde, bouillonnantes et turel pourrait être considéré comme une capsule temporelle. Le +tressaillantes au contact d'une % matériel inclu a été sélectionné car jugé utile par une communau- +nouvelle matière. Au contraire, les té de chercheurs. Malgré les spécificités, chaque jeu de données +données sont supposées d'être devient universel par défaut, en étant à la disposition d'un pu- +propres. Lors de chaque processus, blic aussi large. +chaque questionnaire, chaque titre +de colonne, elles s’épurent, en ef- Nous examinons les jeux de données les plus couramment utilisés +façant peu à peu leurs caractéris- pour l'entraînement des modèles d'apprentissage automatique. De +tiques distinctes jusqu’à corres- quels matériaux sont-ils constitués ? Qui les a recueillis ? +pondre au moule du jeu de données. Quand ? + +Certains jeux de données combinent --- +la logique machinique avec la lo- +gique humaine. Les modèles qui né- Concept, réalisation: Cristina Cochior +cessitent une supervision multi- % +plient les subjectivités des col- % +lecteurs de données et des annota- +teurs, puis propulsent et propagent +ce qui leur a été enseigné. Vous +découvrirez des extraits de cer- +tains jeux de données qui passent +par défaut dans le domaine de l'ap- +prentissage automatique, ainsi que +des histoires d'humains guidant des +machines. + + + + 29 + 0 0 0 0 0 + ___ 0 _ 0 0 _ _ + / ( ) /_\ _ __ _ __ ___ | |_ __ _| |_ ___ _ _ _ __ + 0 / /|/ //_\\| '_ \| '_ \ / _ \| __/ _` | __/ _ \| | | | '__| 0 + / /___/ _ \ | | | | | | (_) | || (_| | || __/| |_| | | + 0 \____/\_/ \_/_| |_|_| |_|\___/ \__\__,_|\__\___| \__,_|_| + 0 0 +%% % % % % % % % % % %% % 0 % 0 % % % % 0 % %% % % + % % % %% % % % par Algolit % %% %% % % % 0 + % % % % % % % %% %%% % % % + % %% %% % % %% % % L'Annotateur demande au visiteur de l'aider à annoter les archives + % % % % %% du Mundaneum. %% %% % % % % % % + % % % % % % % % + % Le processus d'annotation est une étape cruciale de l'apprentis- % + % sage automatique supervisé où l'algorithme reçoit des exemples de + % ce qu'il doit apprendre. Un filtre anti-spam sera alimenté + % d'exemples de spam et de messages réels. Ces exemples sont des + % % entrées du jeu de données prévues d'une étiquette, spam ou non spam. + % % + % % % L'annotation d'un jeu de données est un travail exécuté par des + humains, qui choisissent une étiquette pour chaque entrée du jeu + % de données. Pour assurer la qualité des étiquettes, plusieurs an- + notateurs doivent voir la même entrée et donner la même étiquette + avant qu'un exemple ne soit inclus dans les données d'entraîne- + ment. Une fois que toutes les données d'entraînement ont été pré- + vues d'une étiquette, l'ordinateur peut lancer le processus d'ap- + % % prentissage. % + % + Dans cette interface, nous vous demandons de nous aider à classer + % les textes nettoyés des archives du Mundaneum afin d'élargir + notre set d’entraînement et d'améliorer la qualité de l'installa- + % tion 'Classer le Monde' dans Oracles. + + --- + + Concept, code, interface : Gijs de Heij + + + 0 0 0 + 0 0 0 + 0 _ ___ ___ ___ 0 + % 0 0 / |/ _ \ / _ \ / _ \ 0 + 0 0 0 0 | | | | | | | | | | | 0 0 + % 00 0 | | |_| | |_| | |_| | + 0 |_|\___/ \___/ \___/ 0 + 0 % 0 0 _ + 0 ___ _ _ _ __ ___ ___| |_ ___ 0 + 0 / __| | | | '_ \/ __|/ _ \ __/ __| + \__ \ |_| | | | \__ \ __/ |_\__ \ + |___/\__, |_| |_|___/\___|\__|___/ + 0 0 |___/ 0 + 0 0 0 0 + + % par Algolit + + Wordnet, créé en 1985, est une taxonomie hiérarchique qui décrit + % le monde. Elle s'inspire des théories de la mémoire sémantique + humaine développées à la fin des années 1960. Les noms, verbes, + adjectifs et adverbes sont regroupés en collections de synonymes + ou 'synsets', prévues de définitions, hypernymes, hyponymes, .... + Chaque synset exprime des concepts différents. ImageNet est un + jeu de données d'images basé sur la hiérarchie des noms de + WordNet 3.0. Chaque synset est représenté par des milliers + d'images. De 2010 à 2017, le Défi de Reconnaissance Visuelle de + ImageNet (ILSVRC) a été une référence clé dans la classification + des catégories d'objets pour les photos, ayant un impact majeur + sur les logiciels de photographie, les recherches d'images, la + reconnaissance d'images. + + 30 + 1000 synsets (édition vinyle) contient les 1000 synsets utilisés + dans ImageNet, enregistrés dans la meilleure qualité sonore que + ce format analogique permet. Ce travail souligne l'importance des + jeux de données utilisés pour former des modèles d'intelligence + artificielle qui fonctionnent sur des appareils que nous utili- + sons quotidiennement. Certains d'entre eux héritent de classifi- + %% % %% %%% % % % cations qui ont été conçues il y a plus de 30 ans. Le vinyle est + % % %%% % % % une invitation à les analyser en profondeur. % % %% % % % + % % % % % % % % % % % % % % % % % + % % % % % % % % --- % % % % % % % % + %% % % % % %% % % % % % + % % % Conception et enregistrement: Javier Lloret % % % + % %% % %% % %%% % + % % % Voix: Sara Hamadeh & Joseph Hughes % % + % % % % % + % % % % % % + 0 % 0 % % + 0 % 0 0 % + 0 0 ____ _ % 00 + % 0 0 /___ \_ _(_) 0 + 0 // / / | | | | % % + 0 / \_/ /| |_| | | 0 + % % 0 0 % 0 % \___,_\ \__,_|_| + % 0 0 _ _ 0 0 _ + | ( )__ _ __ ___ _ __ ___ _ __| |_ ___ + | |/ _ \ '_ ` _ \| '_ \ / _ \| '__| __/ _ \ + % | | __/ | | | | | |_) | (_) | | | || __/ 0 + |_|\___|_| |_| |_| .__/ \___/|_| \__\___| + |_| 0 0 0 0 + 0 0 0 % + % + % Qui l'emporte: rapport de création % + + par Louise Dekeuleneer, étudiante Arts²/Option Communication Vi- + suelle + % % + Le français est une langue genrée, en effet beaucoup de mots sont + féminins ou masculins et peu sont neutres. Le but de ce projet + % est de montrer qu'une société patriarcale influence aussi la + langue même. Le travail s'est focalisé sur le fait de montrer si + plus de mots féminins ou masculins sont utilisés et de mettre en + valeur l'influence du contexte sur le genre des mots. À ce stade, + aucune conclusion n'est encore tirée.  + % % + Des textes de loi datant de 1900 à 1910 mis à disposition par le + Mundaneum sont passés dans un algorithme qui fait du texte une + liste de mots. Ces mots sont alors comparés avec une autre liste + de mots francophones, dans laquelle il est spécifié si le mot est + masculin ou féminin. Cette liste de mots provient de Google + Books, qui a créé en 2012 une énorme base de données à partir de + tous les livres scannés et disponibles sur Google Books. + Les mots masculins sont surlignés d'une couleur et les féminins + d'une autre. Les mots qui ne sont pas genrés (adverbes, verbes, + ...) ne sont pas surlignés. Le tout est enregistré en fichier + HTML pour qu'il puisse être directement ouvert dans une page web + et imprimé sans besoin de mise en page supplémentaire. C'est ain- + si que chaque texte a pu devenir un petit livret en changeant + % juste le texte d'entrée de l'algorithme. + + + + + + + + + + + + 31 + RÉCITS CONTEXTUALISÉS + AUTOUR DES INFORMATEURS + + + + --- Les jeux de données comme représentations --- Il était à Bruxelles en novembre 2017 lors de la + Rencontre Algolittéraire. + Les processus de collecte des données qui mènent à + la création du jeu de données soulèvent des ques- Femke : En considérant Wikipedia comme une commu- + tions importantes : qui est l'auteur des données ? nauté vivante, chaque nouvelle page change le pro- + Qui a le privilège de collectionner ? Pour quelle jet. Chaque modification est en quelque sorte une + raison la sélection a-t-elle été faite ? Que contribution à un organisme vivant de la connais- +manque-t-il ? sance. Donc, si au sein de cette communauté vous + essayez de distinguer ce qui rend service à la +L'artiste Mimi Onuoha donne un exemple excellent communauté et de généraliser ceci dans un modèle – + de l'importance des stratégies de collection. Elle car je pense que c'est ce que l'algorithme de la + choisit le cas des statistiques relatives aux bonne ou mauvaise foi essaie de faire - vous le + crimes haineux. En 2012, le Programme de déclara- faites sur base d'une généralisation de l'idée + tion uniforme de la criminalité (DUC) du FBI a en- abstraite de Wikipedia, et non sur base de l'orga- + registré 5 796 crimes haineux. Toutefois, le Bu- nisme vivant. Ce qui m'intéresse dans la relation + entre le vandalisme et ce débat, c'est la façon + a établi 293 800 rapports sur de tels cas. C'est dont nous pouvons comprendre la dynamique conven- + plus de 50 fois plus. La différence entre les tionnelle de ces processus d'apprentissage automa- + chiffres peut s'expliquer par la façon dont les tique. Si on distingue la bonne ou la mauvaise foi + données ont été recueillies. Dans le premier cas, sur base d’étiquettes préexistantes et qu’on la + les organismes d'application de la loi de tout le reproduit ensuite dans des modèles algorithmiques, +pays ont volontairement signalé des cas. Pour le comment tenir compte des changements qui se pro- +deuxième, le Bureau des statistiques a distribué duisent, c’est-à-dire de la vie réelle du projet? +l'enquête nationale sur la victimisation directe- + ment aux foyers des victimes de crimes motivés Amir : C'est une discussion intéressante. Premiè- + par la haine. rement, ce que nous appelons la bonne ou la mau- + vaise foi provient de la communauté elle-même; + Dans le domaine du traitement du langage naturel, nous ne faisons pas l'annotation nous-mêmes, c’est + le matériel avec lequel les modèles d'apprentis- la communauté qui le fait. Ainsi, dans beaucoup de + sage automatique travaillent est le texte, mais Wikipedias de langues différentes, la définition + les mêmes questions se posent : qui sont les au- de ce qui est la bonne ou la mauvaise foi sera + teurs des textes qui composent les jeux de don- différente. Wikimedia essaie de refléter ce qui se + nées ? Au cours de quelle période les données ont- trouve à l'intérieur de l'organisme et non de + elles été recueillies ? Quel type de vision du changer l'organisme lui-même. Si l'organisme + monde représentent-elles ? change et que nous constatons que la définition de + la bonne foi à Wikipédia a été modifié, nous met- +En 2017, l'algorithme Top Stories de Google a pla- tons en œuvre cette boucle de rétroaction qui per- +cé un fil de discussion trompeur du site 4chan en met aux gens de porter un jugement sur leurs modi- + haut de la page de résultats lors de la recherche fications à l'intérieur de leur communauté. S'ils + du tireur de Las Vegas. Le nom et le portrait sont en désaccord avec l'annotation, nous pouvons + d'une personne innocente étaient liés au crime. revenir au modèle et modifier l'algorithme pour + Bien que Google ait changé son algorithme quelques refléter ce changement. C'est une sorte de boucle + heures seulement après que l'erreur ait été décou- fermée : vous changez les choses et si quelqu'un + verte, cela a sérieusement affecté la personne. voit qu'il y a un problème, il nous le dit et nous + Une autre question persiste : pourquoi Google n'a- pouvons modifier l'algorithme. C'est un projet en + t-il pas exclu le site de ragôts 4chan du jeu des cours. + données d'entraînement ? + Référence : https://gitlab.constantvzw.org/algolit/ + Références : algolit/blob/master/algoliterary_encounter/ + Interview%20with%20Amir/AS.aac +https://points.datasociety.net/the-point-of- +collection-8ee44ad7c2fa + --- Comment faire connaître + https://arstechnica.com/information-technology/ votre jeu de données --- + 2017/10/google-admits-citing-4chan-to-spread- + fake-vegas-shooter-news/ NLTK signifie Natural Language Toolkit. Pour les + programmeurs qui traitent le langage naturel avec + Python, c'est une bibliothèque essentielle. De + --- L'annotation pour un Oracle nombreux rédacteurs de tutoriels recommandent aux + qui détecte le vandalisme sur Wikipédia --- programmeurs d'apprentissage automatique de com- + mencer par les jeux de données NLTK intégrés. Il + Ce fragment est extrait d'une interview avec Amir compte 71 collections différentes, avec un total + Sarabadani, ingénieur de logiciels chez Wikimedia. de près de 6000 éléments. + + 32 + + + + + + Parmi eux, on trouve le corpus Movie Review pour plement sensationnels : bary pepper , adam gold- + l'analyse des sentiments. Ou le corpus Brown, qui berg , vin diesel , giovanni ribisi , davies et + a été créé dans les années 1960 par Henry Kučera burns . le film se clôture avec des scènes de ba- + et W. Nelson Francis à l'Université Brown de Rhode taille extraordinaires . + Island. Il y a aussi le corpus de la Déclaration + des droits de l'homme, qui est couramment utilisé + pour vérifier si un code peut fonctionner dans --- Les ouroboros de l'apprentissage automatique --- + plusieures langues. Le corpus contient la Déclara- + tion des droits de l'homme dans 372 langues du Wikipédia est devenue une source d'apprentissage + monde entier. non seulement pour les humains, mais aussi pour + les machines. Ses articles sont des sources de +Mais quel est le processus pour faire accepter un premier ordre pour l’entraînement de modèles. Le +jeu de données dans la bibliothèque NLTK de nos matériel avec lequel les machines sont entraînées + jours ? Sur la page Github, l'équipe nltk décrit est identique au contenu qu'elles ont aidé à + les exigences suivantes : écrire. En fait, au début de Wikipédia, de nom- + breux articles ont été écrits par des robots. Ram- + - Ne rajoutez que les corpus qui ont obtenu un ni- bot, par exemple, était un robot controversé sur + veau de notabilité de base. Cela signifie qu'il la plateforme anglophone. Il est l'auteur de 98% + existe une publication qui le décrit et une commu- des pages décrivant les villes américaines. + nauté de programmeurs qui l'utilisent. + A cause de ces interventions de robots thématiques + - Assurez-vous d'avoir l'autorisation de redistri- et régulières, les modèles de prédiction qui sont + buer les données et de pouvoir les documenter. Ce- entraînés sur le dump de Wikipedia ont une vision + la signifie qu'il est préférable de publier le jeu unique de la composition des articles. Par exem- +de données sur un site Web externe avec une li- ple, un modèle thématique entraîné sur l'ensemble +cence. des articles de Wikipédia associe 'rivière' à + 'Roumanie' et 'village' à 'Turquie'. C'est parce + - Utilisez les lecteurs de corpus NLTK existants qu'il y a plus de 10000 pages écrites sur les vil- + lorsque c'est possible, ou bien apportez un lec- lages en Turquie. Cela devrait suffire à susciter + teur de corpus bien documenté à NLTK. Cela signi- des envies de voyage, mais c'est bien trop par + fie que vous devez organiser vos données de ma- rapport à d'autres pays. L'asymétrie provoque une + nière à ce qu'elles puissent être facilement lues fausse corrélation et doit être corrigée. La plu- + à l'aide du code NLTK. part des modèles tentent d'exclure le travail de + ces auteurs robots prolifiques. + Référence : http://www.nltk.org/ + Référence : https://blog.lateral.io/2015/06/the- + unknown-perils-of-mining-wikipedia/ + --- Extrait d'une critique positive d'un film IMdB +du jeu de données NLTK --- + +corpus : movie_reviews + + fichier : pos/cv998_14111.txt + + le deuxième film épique de steven spielberg sur la + seconde guerre mondiale est un chef-d'œuvre incon- + testé du cinéma . spielberg , encore étudiant en + cinéma , a réussi à ressusciter le genre de la + guerre en produisant l'un de ses films les plus + poignants et les plus puissants . il a également + réussi à faire briller tom hanks , qui livre une + performance époustouflante . pendant environ 160 +de ses 170 minutes, ' sauver le soldat ryan ' est +sans faille . littéralement . l ' histoire est as- +sez simple . après l ' invasion du jour J ( dont + les séquences sont tout à fait spectaculaires ), + capt . john miller ( joué par tom hanks ) et son + équipe sont forcés à chercher un soldat . james + ryan ( joué par matt damon ), dont les frères sont + tous morts au combat. une fois qu ' ils l ' ont + trouvé , ils doivent le ramener immédiatement pour + qu'il puisse rentrer chez lui . la compagnie de + miller est composée d ' acteurs aux jeux tout sim- + + 33 +0 12 3 4 5 67 8 9 0 + 12 3 4 5 67 8 9 0 12 + 3 4 5 67 8 9 0 1 2 + 3 4 5 6 7 8 9 0 1 2 3 + 4 56 7 8 9 01 2 3 + 4 56 7 8 9 01 2 3 + 4 56 7 8 9 01 2 3 + 4 56 7 8 9 0 1 2 3 4 + 5 6 7 8 9 0 1 2 3 45 6 + 7 8 90 1 2 3 45 6 + 7 8 90 1 2 3 45 6 + 7 8 90 1 2 3 4 5 6 + 7 8 9 0 1 2 3 4 5 6 + 7 89 0 1 2 34 5 6 + 7 89 0 1 2 34 5 6 + 7 89 0 1 2 34 5 6 7 +89 0 1 2 3 4 5 6 7 8 9 + 0 1 2 3 4 5 6 78 9 + 0 1 23 4 5 6 78 9 0 + 1 23 4 5 6 78 9 0 + 1 23 4 5 6 78 9 0 + 1 2 3 4 5 6 7 8 9 0 + 1 2 3 4 5 67 8 9 0 12 + 3 4 5 67 8 9 0 12 + 3 4 5 67 8 9 0 12 3 + 4 5 6 7 8 9 0 1 2 3 + 4 5 6 7 8 9 01 2 3 + 4 56 7 8 9 01 2 3 + 4 56 7 8 9 01 2 3 + 4 56 7 8 9 01 2 3 4 + 5 6 7 8 9 0 1 2 3 4 5 6 + 7 8 90 1 2 3 45 6 + 7 8 90 1 2 3 45 6 + 7 8 90 1 2 3 45 6 + 7 8 90 1 2 3 4 5 6 7 + 8 9 0 1 2 3 4 5 6 7 + 89 0 1 2 34 5 6 7 +89 0 1 2 34 5 6 7 89 + 0 1 2 34 5 6 7 8 9 + 0 1 2 3 4 5 6 7 8 9 +0 1 23 4 5 6 78 9 0 + 1 23 4 5 6 78 9 0 + 1 23 4 5 6 78 9 0 + 1 23 4 5 6 7 8 9 0 + 1 2 3 4 5 6 7 8 9 0 12 3 + 4 5 67 8 9 0 12 3 + 4 5 67 8 9 0 12 3 + 4 5 67 8 9 0 12 3 + 4 5 6 7 8 9 0 1 2 3 + 4 5 6 7 8 9 01 2 3 4 + 56 7 8 9 01 2 3 4 + 56 7 8 9 01 2 3 4 5 +6 7 8 9 0 1 2 3 4 5 6 + 7 8 9 0 1 2 3 45 6 + 7 8 90 1 2 3 45 6 + 7 8 90 1 2 3 45 6 +7 8 90 1 2 3 45 6 7 + 8 9 0 1 2 3 4 5 6 7 + 8 9 0 1 2 34 5 6 7 89 + 0 1 2 34 5 6 7 89 0 + 1 2 34 5 6 7 89 0 + 1 2 34 5 6 7 8 9 0 + 1 2 3 4 5 6 7 8 9 0 + 1 23 4 5 6 78 9 0 + 1 23 4 5 6 78 9 0 + 1 23 4 5 6 78 9 0 1 + 2 3 4 5 6 7 8 9 0 1 2 3 + 4 5 67 8 9 0 12 3 + 4 5 67 8 9 0 12 3 + 34 +readers read readers read readers read readers read readers read readers read readers re +d readers read readers read readers read readers read readers re +d readers read readers read readers read readers read + readers read readers read readers read re +ders read readers read readers read readers re +d readers read readers read readers r +ad readers read readers read +readers read readers read readers read + readers read readers read +readers read readers read readers read + readers read readers read + readers read readers read + readers read readers read + readers read readers read + readers read readers read + readers read readers read + readers read readers +read readers read + readers read readers read + readers read readers read + readers read + readers read readers read + readers read + readers read readers read + readers read + readers read readers read + readers read + readers read readers re +d readers read + readers read + readers read readers read + readers read + readers read + readers read re +ders read readers read + readers read + readers read + readers read + readers read readers r +ad readers read + readers read + readers read + readers read + readers read + readers read + readers read +readers read readers +read readers read + readers read + readers read + readers read + readers read + readers read + readers read + readers read + readers read + readers read + readers read + readers read + readers read + readers read + readers read + readers read + readers read + readers read + readers read + readers read + readers read + readers read r + 35 + 9 nl i 5 ' r c +-+-+-+-+-+-+-+ a +-+-+-+-+ -o on an r e c coeun b 9 em t + -rm6 n r r 5ui rt s r ar |r|e|a|d|e|r|s| mg |r|e|a|d| s-dn + 1 tm n u7| 1eo+ iuae3Mii+u e3 l + i e t e t % c_ | 5l +-+-+-+-+-+-+-+ qc +-+-+-+-+ nem e ic-7- r o + g  i_ 6é +1 4i + c s r74 ss a_ 9é- S t 8ra | 3 tl nr , mmr 6 i1 8 + 4'99 m u a t7% s_, + é 2 8 un e 8/n 2m c5 2nsr u 0 2t ) 6 v 5 lu6je_r a \ r su r5 9 sdaur o eu h p + r 3 e tes 7ei I t% 9 +-+ +-+-+-+-+-+-+-+-+ | +-+-+-+-+-+-+-+-+-+-+-+ 6 | /s l3 e pu5 n e + 47 Mr t rd l ' + n 3 |a| |c|o|m|p|u|t|e|r| u |u|n|d|e|r|s|t|a|n|d|s| +- c 7r s ph r o6 9a + do 1 2² 1 | +-+ +-+-+-+-+-+-+-+-+ 5 +-+-+-+-+-+-+-+-+-+-+-+ e n s nse tk l â0 ’ é| + d é. s ees e n +-+-+-+ +-+-+-+-+-+-+ tLo +-+-+-+-+-+-+-+-+-+ Cnr1 5l _ rUt g od + 17 s8 | s 9 8+ 7 |a|l|l| |m|o|d|e|l|s| u |t|r|a|n|s|l|a|t|e| % s _ a n t 2 ,- r rer + u1a1 p et _ |n s 9_l1 u +-+-+-+ +-+-+-+-+-+-+ % +-+-+-+-+-+-+-+-+-+ w ae m ssI |o i um.i é|r + sarpé u m ou_ | , o +-+-+-+-+ +-+-+-+-+-+-+ r l +-+-+-+-+-+ 1hff 0 g M l a 5 ,7 |y + s Sr c r xàd 5 e |s|o|m|e| |m|o|d|e|l|s| f |c|o|u|n|t| 3nrpds6 eo a t i rn e c + 7 n + 1 V d eie e -5;d +-+-+-+-+ +-+-+-+-+-+-+ è +-+-+-+-+-+ l x n é r45er é -a i _ l 2 i o 61 + ’h e| et - 9 e\ +s +-+-+-+-+ +-+-+-+-+-+-+ We +-+-+-+-+-+-+-+ t s t s 5 2 i 1 | etu + +ld t er |s|o|m|e| |m|o|d|e|l|s| |r|e|p|l|a|c|e| s p e. _ r8ai 7 ss n - g s + nc ( - 1 e u. +-+-+-+-+ +-+-+-+-+-+-+ +-+-+-+-+-+-+-+ e h i\ S r_ e ie _ lés + aa% rnsl .7 ,a m 5 a p n 6 s 5 n e s 8 8 | 4 77 n i ttl a , + 6 t e o le r- oa e l3i _n e ws lo i i C a t66r r ses n2 5q 6 s e + 7 e nn s l 5 e s_ év r o e t +\p \ 7 2 it e 1 e 8 t % +. a ) e a ee8 emu r | eun t n s 8eel e o 9 p s eei e ee l + r 1 '6 ts teae 4 a , n n t 66 n o n e3o e èla en tu + , hw 8 18 + 6 5ée t i w rm x + 2 ç e td eu aen % +i n r 76 c 59u 4u ea + u 7 cse ise i oa m _ n o ) t g h 3 2 4 ll u 7l + à ad l a 64,F As9 m%s s f w8 ts t 3 s7m t a ndn h4 3 n + s t n + 4 |s6 6 1rr r n e d D r_1 - 33 2 \o 2 o r m5 s _5n 9ii a + 8i 4 465 _ i sé 1 2 s f r9 l e o j r1i e le 6 c t e p + V u t 7le s / 2 d 89 t 6r 2 , b r ht r p , 4lt e +, 1 3d s é - t 2 e u e oe . u u. s 7 e 3 + rdt i 4 n 4 8 n m p o l a 8 r 7 i w +n s V1 he ud T M| o a A n 4 5 u 5 c O ua h4 s e de + _7 c 3 a h n 8 5 u u , n ê p d n v u 9 + r i e i i 4 f | 7 c d d 8 s r + r +s m 8 v i 0 s , r - 5 5 r 1 e t + ' e d 3 6 nz - e et na 7 | n n s i aa s e s e + p t , + d r 0 2 a be / n id a gu % + c ' id 8e r m + s sv - c r _ ;u 7 i _ 6 % i s é a d e + a t tn i + l a r s à d 2 o 1 b _ t 7t e nn c + 7 en e a 1 s u é h 7q e i 39 me c 1 m + s é 0 9 u 4 l 1 e r 62 vs t k ne 6 ee + d a s 2 n e N r à | 4 9 s + de a a 4 1 3 o 7 r 4 9 + 6 , r u a t ' n m f es e c / e + m p 1 a8p k e , n e t _ 9 r t \ + s6 t wo _ u es 7 o 5 + r 8 u n _ 5 - 8 et p m V 2 r 3 e + . t + e ir \ c e , 5 pN + p l lp | _ as l e o 8 p + o b tu 8 m d 5 93 s8 c c s 4 . + s 6 5 9 0 et . d i + t p% 7 -i n e 1 + 4 r r m O l e , e u f a e4 v f + 7 é 6 9 6é | + l + a 0c n \ é \ 0u - e a + t u 3a ,, _ b +| a n o 1 9 o + uu - I e o 4 3 r r x à d + i V r 4 r ê 9 i u + o a o + ' c i 8 6 o + p % e s % c sn 8 e s + i 9 6 v se n l + i l 2g i n c / m a t + e + n i a _ r 93 + h i s + p 4 S d6 + 1 r és 3 3 % n ) c + l | i l d a R + 5m h i 6 n o 6 + m s p 6 e - t i + + 36 + V % V V V % V V V V %% % % % % % % % % % %% + V V V V V V V V V V V V V V V V % 0 % % %% % % % % % 0 %% % +V V V V V V V V % V % 0 __ _____ ___ _____ ___ ___ % % % + % % % % 0 0 / / ___ /__ \/ __\ % \_ \/ \/ __\ % % % + %% % LECTEURS % % % % / / / _ \ / /\/ _\____ / /\/ /\ / _\ % % + % 0 % / /__| __/ / / / /|_____/\/ /_/ /_// / % + %% % \____/\___| \/ \/ \____/___,'\/ % + V V V V V V V V % % % % % 0 % 0 0 + V V V V V V V V V V V V V V V V % % +V V V V % V V V V V par Algolit + V V V V V V V V % % % + V V V V V V V V V V V V V V V V Le TF-IDF (Term Frequency-Inverse Document Frequency) est une mé- +V V V V V V V V V thode de pondération utilisée dans la recherche de textes. Cette + mesure statistique permet d'évaluer l'importance d'un terme % +Nous communiquons avec les ordina- contenu dans un document, relativement à une collection ou un +teurs au moyens de langages. Nous corpus de documents. Le poids augmente proportionnellement au +cliquons sur des icônes sous forme % nombre d'occurrences du mot dans le document. Il varie également % +de mots, nous tapons des mots sur en fonction de la fréquence du mot dans le corpus. Le TF-IDF est +des claviers, nous utilisons notre notamment utilisé dans la classification des spams. +voix pour leur donner des instruc- +tions. Parfois, nous confions nos Une interface web met en scène cet algorithme à travers des ani- +pensées les plus intimes à notre mations permettant de comprendre les différentes étapes de clas- +ordinateur en oubliant qu'il s'agit sification d’un texte. Comment un programme basé sur le TF-IDF +d’une calculatrice avancée. Un or- lit un texte ? Comment transforme-t-il les mots en nombres ? +dinateur comprend chaque mot comme +une combinaison de zéros et de uns. --- +Une lettre est lue comme un numéro +ASCII spécifique : 'A' majuscule Concept, code, animation : Sarah Garcin +est 001. % + 00 0 +Dans tous les 'rule-based models', 0 0 ___ 0 _ _ 0 _ 0 0 +l'apprentissage automatique clas- / __\ _| | |_(_)_ _____ _ __ 0 +sique et les réseaux de neurones, 0 % / / | | | | | __| \ \ / / _ \ '__| +les mots subissent une traduction 0 / /__| |_| | | |_| |\ V / __/ | +en chiffres pour saisir le sens sé- \____/\__,_|_|\__|_| \_/ \___|_| 0 +mantique du langage. Cela se fait _ _ 0 % +en comptant. Certains modèles % _ _ _ __ /_\ _ __| |__ _ __ ___ % +comptent la fréquence des mots sim- 0 | | | | '_ \ //_\\| '__| '_ \| '__/ _ \ +ples, d'autres la fréquence des 0 | |_| | | | | / _ \ | | |_) | | | __/ +combinaisons de mots, d'autres en- \__,_|_| |_| \_/ \_/_| |_.__/|_| \___| +core la fréquence des noms, des ad- 0 0 % 0 0 +jectifs, des verbes ou des phrases +de noms et de verbes. Certains rem- par Algolit +placent simplement les mots d'un +texte par leur numéro d'index. Les % La nature de mots est une catégorie que nous apprenons à l'éco- +nombres optimisent la vitesse opé- le : nom, verbe, adjectif, adverbe, pronom, préposition, conjonc- +rationnelle des processus informa- tion, interjection, et parfois chiffre, article, ou déterminant. % +tiques, ce qui conduit à des pré- Dans le traitement du langage naturel, il existe de nombreux écrits +dictions rapides, mais ils sup- qui permettent d'analyser des phrases. Cela signifie que l'algorithme +priment aussi les liens symboliques peut déterminer la nature de chaque mot d'une même phrase. 'Cultiver +que les mots peuvent avoir. Nous un arbre' utilise cette technique pour définir tous les noms dans une +présentons ici quelques techniques phrase spécifique. Chaque nom est alors remplacé par sa définition. +destinées à rendre un texte intel- Cela permet à la phrase de grandir de façon autonome et infinie. La +ligible pour une machine. recette de 'Cultiver un arbre' s'inspire de la 'Littérature Définiti- + onnelle', une contrainte inventée par Marcel Benabou en 1966 au sein + de l’Oulipo. Dans une phrase donnée, on remplace chaque élément signi- + ficatif (nom, adjectif, verbe, adverbe) par l'une de ses définitions + dans un dictionnaire donné ; on répète l'opération sur la nouvelle + phrase reçue, et ainsi de suite. + + Le dictionnaire utilisé dans cet ouvrage est Wordnet. Wordnet est une + combinaison d'un dictionnaire et d'un thésaurus qui peut être lu par + des machines. Selon Wikipédia, il a été créé dans le Cognitive Science + Laboratory de l'Université de Princeton à partir de 1985. + + --- + + Concept, code & interface : An Mertens & Gijs de Heij + + 37 + % % % % % % % % % % % %% % % % % % % % + % % % % % % %% % % + % % % %% % % % + % % 0 % % % % 0 0 % + % 0 00 0 0 % % + % 0 0 __ __ _ 0 + % % 0 / / ___ / /(_)_ ___ __ ___ % 0 + % % % / / / _ \ / / | \ \ / / '__/ _ \ % + % % % / /__| __/ / /__| |\ V /| | | __/ % + 0 0 % \____/\___| \____/_| \_/ |_| \___| + % % % _ ___ 0 0 0 0 _ 0 % + % % % % % __| | ___ / \___ _ __ ___ __ _(_)_ __ + % % % / _` |/ _ \ / /\ / _ \ '_ ` _ \ / _` | | '_ \ + % % | (_| | __/ / /_// __/ | | | | | (_| | | | | | % + % % \__,_|\___| /___,' \___|_| |_| |_|\__,_|_|_| |_| % + % % 0 0 _ 0 0 + % __| | __ _ _ __ ___ _ _ _ __ 00 0 + % % / _` |/ _` | '_ \/ __| | | | | '_ \ + % 0 | (_| | (_| | | | \__ \ | |_| | | | | 0 + \__,_|\__,_|_| |_|___/ \__,_|_| |_| 0 + 0 __ 0 0 _ 0 0 % + / _\ __ _ ___ 0 __| | ___ + 0 \ \ / _` |/ __| / _` |/ _ \ + % % 0 _\ \ (_| | (__ | (_| | __/ 0 0 % + % 0 \__/\__,_|\___| \__,_|\___| 0 + % % 0 % 0 _ 0 + 0 % 0 % /\/\ ___ | |_ ___ 0 + 0 0 / \ / _ \| __/ __| % + / /\/\ \ (_) | |_\__ \ 0 + \/ \/\___/ \__|___/ 0 + 0 0 0 00 + % + % par Algolit + + Le modèle du 'sac de mots' est une représentation simplifiée du + texte utilisé dans le traitement du langage naturel. Dans ce mo- + dèle, un texte est représenté sous forme de collection de mots + % uniques, sans tenir compte de la grammaire, de la ponctuation et + même de l'ordre des mots. Le modèle transforme le texte en une + liste de mots et leur occurrence dans le texte, littéralement un + sac de mots. + + Cette forte réduction de la langue fut un choc au début de nos + expériences en apprentissage automatique. Le sac de mots est sou- + % vent utilisé comme référent, sur base duquel le nouveau modèle + doit s’efforcer d’être plus performant. Il peut comprendre le su- + jet d'un texte en reconnaissant les mots les plus fréquents ou + % importants. On mesure souvent les similitudes des textes en com- + parant leurs sacs de mots. % + + % Pour cet ouvrage, l'article 'Le Livre de Demain' de l'ingénieur + G. Vander Haeghen, publié en 1907 dans le Bulletin de l'Institut In- + ternational de Bibliographie, a été littéralement réduit à un sac de + mots. Vous pouvez acheter votre exemplaire à l'accueil du Mundaneum. + + --- + + Concept & réalisation: An Mertens + + + + + + + + + + + + 38 + __ 0 _ 0 0 0 + / / ___ ___| |_ _ _ _ __ ___ ___ + / / / _ \/ __| __| | | | '__/ _ \/ __| + % %% % % % %% % / /__| __/ (__| |_| |_| | | | __/\__ \ %% % % %% + % % %% % 0 \____/\___|\___|\__|\__,_|_| \___||___/ %% % % + % % % % % %% _ % 0 % _ _ _ 0 % % + % % % % % % __ _| | __ _ ___ _ __(_) |_| |__ % % + % % / _` | |/ _` |/ _ \| '__| | __| '_ \ % ____ + % | (_| | | (_| | (_) | | | | |_| | | | /___/ % + % % \__,_|_|\__, |\___/|_| |_|\__|_| |_| % + % % % % |___/ % % % 0 _ % % + % _ __ ___ (_) __ _ _ _ ___ ___ __| |_ _ % 0 + % | '_ ` _ \| |/ _` || | | |/ _ \/ __| / _` | | | | 0 % + | | | | | | | (_| || |_| | __/\__ \ | (_| | |_| | 0 0 + |_| |_| |_|_|\__, | \__,_|\___||___/ \__,_|\__,_| + % % % |_| _ 0 _ _ % % + % 0 % _ __ ___ _ __| |_ _ __ __ _(_) |_ 0 % + % 0 | '_ \ / _ \| '__| __| '__/ _` | | __| + % % 0 0 | |_) | (_) | | | |_| | | (_| | | |_ 0 0 + 0 0 | .__/ \___/|_| \__|_| \__,_|_|\__| + 0 |_| % 0 _ _ % + % % _ __ 0 __ _ _ __| | ___ __| | ___ 0 + | '_ \ / _` | '__| |/ _ \ / _` |/ _ \ 0 + | |_) | (_| | | | | __/ | (_| | __/ % + 0 | .__/ \__,_|_| |_|\___| \__,_|\___| + % % |_|__ 0 _ _ 0 _ 0 0 0 + 0 / __\ ___ _ __| |_(_) | | ___ _ __ + 0 /__\/// _ \ '__| __| | | |/ _ \| '_ \ 0 + / \/ \ __/ | | |_| | | | (_) | | | | 0 0 + 0 \_____/\___|_| \__|_|_|_|\___/|_| |_| 0 0 % + 0 0 0 + + % par Guillaume Slizewicz (Espèces urbaines) + % + 'Un code télégraphique du portrait parlé', écrit en 1907, est une + % tentative de traduire en chiffres le 'portrait parlé', technique + de description du visage créée par Alphonse Bertillon, créateur + de l'anthropométrie judiciaire. En appliquant ce code, Otlet es- + pérait que les visages des criminels et des fugitifs pourraient + être facilement communiqués par voie télégraphique. Dans sa for- + me, son contenu et son ambition, ce texte représente la relation + % complexe que nous entretenons avec les technologies documen- + taires. Ce document a été choisi comme base pour la création des + installations suivantes pour trois raisons. + + - Premièrement, ce texte est un algorithme en soi, un algorithme + de compression, ou pour être plus précis, la présentation d'un + algorithme de compression. Il tente de réduire la taille de l'in- + formation tout en la gardant lisible pour la personne possédant + le code. À cet égard, elle est étroitement liée à la façon dont + nous créons notre technologie, à la recherche d'une plus grande + efficacité, de résultats plus rapides et de méthodes moins coû- + teuses. Il représente notre appétit de chiffrement qui s'étend au + monde entier, notre envie de mesurer les plus petites choses, + d'étiqueter les différences les plus infimes... Ce texte incarne + en lui-même la vision du Mundaneum. + + - Deuxièmement, on y traite des raisons et des mises en œuvre de + nos technologies. La présence de ce texte dans les archives sé- + lectionnées est presque ironique à une époque où la reconnais- + sance faciale et la surveillance des données font la une des + journaux. Ce texte présente les mêmes caractéristiques que cer- + taines technologies d'aujourd'hui : il est motivé par un contrôle + social, classifie les personnes, pose les bases d'une société de + surveillance. Les caractéristiques physionomiques sont au cœur de + récentes controverses : les photos d'identité ont été standardi- + sées par Bertillon, elles sont maintenant utilisées pour entraî- + ner des réseau neuronaux à identifier les criminels, les systèmes + + 39 + de reconnaissance faciale permettent des arrestations via notre + % % % %% % % % % % %% infrastructure de caméras de surveillance et certains affirment que + % % % % % % % % les caractéristiques physiques peuvent prédire l'orientation sexuelle. + % % % % % % % % % % % % % + % % % % - Le dernier point concerne la façon dont, en tant que témoignage + % % écrit, ce texte représente l'évolution de notre techno-structure: + % %% % % % % ce que nos outils nous permettent de faire, ce qu'ils nous inter- + % % disent, ce qu'ils entravent, ce qu'ils nous font retenir et ce + % % qu'ils nous font oublier. Ce document permet une classification + % entre les personnes, et instaure une normalité. Il brise un % % + % continuum en morceaux, et permet les stigmatisations et les dis- % + % % criminations. D'un autre côté, ce document semble également obso- + % lète aujourd'hui, car cette techno-structure n'a pas besoin de + % % descriptions écrites aussi détaillées sur les fugitifs, les cri- + % % minels ou les citoyens. Nous pouvons maintenant trouver des em- + preintes digitales, des scanners d'iris ou des informations ADN + % dans de grands jeux de données et les comparer directement. Par- + fois, les systèmes agissent indépendamment, sans surveillance hu- + maine et reconnaissent directement l'identité d'une personne par + ses traits faciaux ou sa démarche. Ces machines n'utilisent pas + un langage alphabétique complexe pour décrire un visage, mais des + % listes de chiffres. Ainsi, tous les mots utilisés dans ce docu- + ment semblent désuets, datés. Avons-nous oublié ce que certains + d'entre eux signifient ? La photographie nous a-t-elle fait ou- + blier comment décrire les visages ? Les assistants vocaux nous + l'apprendront-il de nouveau ? + % % + Écrire avec Otlet + + Ecrire avec Otlet est un générateur de personnages qui utilise le + code du portrait parlé comme base de données. Des nombres aléa- + toires sont générés et traduits en un ensemble de caractéris- + tiques humaines. En créant des instances uniques, l'algorithme + révèle la richesse de la description qui est possible avec 'Un + code du portrait' tout en incorporant ses nuances. + + Interprétation du portrait parlé de Bertillon + % + Ce travail établit un parallèle entre le système dit de "Ber- + tillonage" et les systèmes actuels de description de visage. Une + % webcam associée à un algorithme de reconnaissance faciale capte + le visage du spectateur et le traduit en chiffres sur un écran, + en l'imprimant à côté des visages annotés par Bertillon. + % + 00 0 0 + 0 0 0 000 0 + 0 % __ 0 _ + / / ___ _ __ ___ _ __ __| |_ _ + % / / / _ \ | '_ \ / _ \ '_ \ / _` | | | | % + / /__| __/ | |_) | __/ | | | (_| | |_| | + 0 \____/\___| | .__/ \___|_| |_|\__,_|\__,_| 0 + % |_| 0 0 0 0 0 + 00 0 + par Laetitia Trozzi, étudiante Arts²/Section Arts Numériques % + % + Quoi de mieux pour découvrir Paul Otlet et sa passion pour la + littérature que de jouer au pendu? À travers ce jeu simple, qui + consiste à deviner les lettres manquantes dans un mot, le but est + de faire découvrir au public des termes et des faits liés à un + % des créateurs du mundaneum. + + En utilisant un algorithme de détection de fréquence de mots dans + un texte, une série de mots significatifs ont été isolés dans la + bibliographie de Paul Otlet. Cette série de mots a ensuite été + intégrée à un jeu du pendu présenté dans un terminal. La diffi- + culté du jeu augmente graduellement en proposant au joueur des + mots de plus en plus longs. Durant les phases de jeux, des infor- + mations sont affichées en lien avec la vie et l'œuvre de Paul Otlet. + + 40 + RÉCITS CONTEXTUALISÉS + AUTOUR DES LECTEURS + + + + Naive Bayes, Support Vector Machines ou Régression lettre de suicide a été écrite par quelqu'un + Linéaire sont considérés comme des algorithmes d'autre. + classiques d'apprentissage automatique. Ils fonc- + tionnent bien lorsqu'ils apprennent avec de petits Comment une machine analyse-t-elle les textes pour + jeux de données. Mais ils nécessitent souvent des vous identifier ? La caractéristique la plus ro- + lecteurs complexes. La tâche accomplie par les buste pour la reconnaissance de l'auteur est four- + lecteurs est également appelée 'feature enginee- nie par la technique des N-grammes de caractères. +ring'. Cela signifie qu'un être humain doit consa- Elle est utilisée dans des cas qui présentent une +crer du temps à une analyse exploratoire approfon- grande variété dans les thématiques et les genres +die du jeu de données. d’écriture. Lors de l'utilisation des N-grammes de + caractères, les textes sont considérés comme des + Leurs caractéristiques peuvent être la fréquence séquences de caractères. Considérons le trigramme + des mots ou des lettres, mais aussi des éléments des caractères. Toutes les séquences de trois ca- + syntaxiques comme les noms, les adjectifs ou les ractères qui se chevauchent sont isolées. Par + verbes. Les caractéristiques les plus importantes exemple, le trigramme de caractères de 'suicide', + pour la tâche à résoudre doivent être soigneuse- serait, 'sui', 'uic', 'ici', 'cid' et 'ide'. Les + ment sélectionnées et transmises à l'algorithme N-grammes de caractères sont très simples, ils + classique d'apprentissage automatique. Ce proces- sont indépendants du langage et tolérants au + sus diffère de celui des réseaux de neurones. Lors bruit. De plus, les fautes d'orthographe ne com- + de l'utilisation d'un réseau de neurones, il n'est promettent pas la technique. + pas nécessaire de recourir au 'feature enginee- +ring'. Les humains peuvent transmettre les données Les motifs trouvés avec les N-grammes de carac- +directement au réseau et obtiennent généralement tères se concentrent sur les choix stylistiques +de bonnes performances dès le départ. Cela permet qui sont faits inconsciemment par l'auteur. Les + d'économiser beaucoup de temps et de ressources. modèles restent stables sur toute la longueur du + texte, ce qui est important pour reconnaître l’au- + L'inconvénient de la collaboration avec les ré- teur. D'autres types d'expériences pourraient in- + seaux de neurones est que vous avez besoin de clure la longueur des mots ou des phrases, la ri- + beaucoup plus de données pour entraîner votre mo- chesse du vocabulaire, la fréquence des mots de + dèle de prédiction. Pensez à au moins 1 Go de fi- fonction et même les mesures syntaxiques ou séman- + chiers texte. Pour vous donner une référence, 1 tiques. + A4, soit un fichier texte de 5000 caractères, ne + pèse que 5 Ko. Il vous faudrait donc 8.589.934 Cela signifie non seulement que votre empreinte + pages. Traiter plus de données sous-entend d'avoir physique est unique, mais qu’il en va de même de + accès à ces données et surtout, d'avoir beaucoup la façon dont vous composez vos pensées ! +plus de puissance de traitement. + La même technique n-gramme a découvert que 'The + Cuckoo's Calling', un roman de Robert Galbraith, a + --- Les N-grammes de caractères pour la reconnais- en fait été écrit par... J.K. Rowling ! + sance d'un auteur --- + Références : + Imaginez... vous travaillez pour une entreprise - Essai: On the Robustness of Authorship Attribu- + depuis plus de dix ans. Vous avez écrit des tonnes tion Based on Character N-gram Features, Efsta- + de courriels, d'articles, de notes internes et de thios Stamatatos, in Journal of Law & Policy, Vo- + rapports sur des sujets et dans des genres très lume 21, Issue 2, 2013. + différents. Tous vos écrits, ainsi que ceux de vos - Article: https://www.scientificamerican.com/ar- + collègues, sont sauvegardés en toute sécurité sur ticle/how-a-computer-program-helped-show-jk-row- + les serveurs de l'entreprise. ling-write-a-cuckoos-calling/ + +Un jour, vous tombez amoureuse d'une collègue. +Après un certain temps, vous réalisez que cette --- Histoire des N-grammes --- +personne est non seulement folle et hystérique + mais qu'elle dépend beaucoup de vous. Le jour où L'algorithme des N-grammes peut être retracé jus- + vous décidez de rompre, votre ex élabore un plan qu'aux travaux de Claude Shannon en théorie de + pour vous tuer. Elle réussit. Pas de chance. Une l'information. Dans l'article 'A mathematical + lettre de suicide signée de votre nom est retrou- theory of communication', publié en 1948, Claude + vée à côté de votre cadavre. Celle-ci raconte que Shannon réalise la première instance d'un modèle + vous avez décidé de mettre fin à votre vie à cause de langage naturel à base des N-grammes. Il a posé + de problèmes émotionnels. Vos meilleurs amis ne la question suivante : étant donné la séquence des + croient pas au suicide. Ils décident de porter lettres, quelle est la probabilité de la prochaine + l'affaire devant les tribunaux. Et là, à partir lettre ? Si vous lisez l'extrait suivant, pouvez- + des textes que vous et d'autres avez produits, un vous nous dire par qui il a été écrit ? Shakespeare + modèle d'apprentissage automatique révèle que la ou un robot N-grammes ? + + 41 + + + + + + SEBASTIEN : Dois-je rester debout pliquer un mouvement boursier basé sur d'autres + jusqu'à la rupture. facteurs que les facteurs purement économiques. La + BIRON : Cache ta tête. Bourse et 'l'opinion publique' s'influencent mu- + VENTIDIUS : Il se rendit à Athènes, où, par le tuellement. De nombreuses recherches sont effec- + voeu. que j'ai fait pour m'occuper de toi. tuées sur la façon d'utiliser 'l'opinion publique' + FALSTAFF : Mon bon fripouille. pour prédire les tendances dans le cours des actions. + + Vous aviez peut-être deviné, en considérant le su- 'L'opinion publique' est évaluée à partir de + jet de ce récit, qu'un algorithme N-grammes a gé- grandes quantités de données publiques, comme les +néré ce texte. Le modèle est entraîné sur l'oeuvre tweets, les blogs ou la presse en ligne. Des re- +complète de Shakespeare. Alors que les algorithmes cherches montrent que l'évolution des cours bour- +plus récents, tels que les réseaux de neurones ré- siers peut, dans une certaine mesure, être prédit + cursifs de CharRNN, deviennent célèbres pour leurs en examinant 'l'opinion publique' à travers l'ana- + performances, les N-grammes exécutent encore beau- lyse des données automatique. On trouve de nom- + coup de tâches NLP. Elles sont utilisés dans la breux articles scientifiques en ligne, qui ana- + traduction automatique, la reconnaissance vocale, lysent la presse sur le 'sentiment' qui y est ex- + la correction orthographique, la détection d'enti- primé. Un article peut être annoté comme plus ou + tés, l'extraction d'informations, etc. moins positif ou négatif. Les articles de presse + annotés sont ensuite utilisés pour entraîner un + Référence : http://www.math.harvard.edu/~ctm/ho- modèle d’apprentissage automatique, qui permet de + me/text/others/shannon/entropy/entropy.pdf prédire les tendances boursières, en les marquant + comme 'à la baisse' ou 'à la hausse'. Quand une + entreprise fait mauvaise presse, les traders +--- Dieu dans Google Books --- vendent. Au contraire, si les nouvelles sont bon- + nes, ils achètent. +En 2006, Google crée un jeu de données de N- + grammes à partir de sa collection de livres numé- Un article de Haikuan Liu de l'Université Natio- + risés pour le mettre en ligne. Récemment, ils ont nale Australienne affirme que le temps des verbes + également réalisé une visionneuse de N-grammes. utilisés dans les tweets peut être un indicateur + Cela a permis de nombreuses recherches sociolin- de la fréquence des transactions financières. Son + guistiques. Par exemple, en octobre 2018, le New idée s'inspire du fait que la conjugaison des + York Times Magazine a publié un article d'opinion verbes est utilisée en psychologie pour détecter + intitulé 'It's Getting Harder to Talk About God'. les premiers stades de la dépression humaine. + L'auteur, Jonathan Merritt, avait analysé la men- + tion du mot 'Dieu' dans le jeu de données de Référence : Grammatical Feature Extraction and + Google à l'aide du visualiseur de N-grammes. Analysis of Tweet Text: An Application towards + Il a conclu qu'il y a eu un déclin dans l'usage du Predicting Stock Trends, The Australian National +mot depuis le 20ème siècle. Le corpus de Google University (ANU) +contient des textes du 16e jusqu'au 21e siècle. +Cependant l'auteur a manqué d'observer la popula- + rité croissante des revues scientifiques vers le --- Sac de mots --- + début du 20ème siècle. Ce nouveau genre, dans le- + quel le mot Dieu n'apparaît pas, a fait basculer Dans le traitement du langage naturel, le 'sac de + le jeu des données. Si la littérature scientifique mots' est considéré comme un modèle simple. Il dé- + était retirée du corpus, la fréquence du mot pouille un texte de son contexte et le décompose + 'Dieu' s'écoulerait toujours comme l'ondulation dans sa collection de mots uniques. Ensuite, ces + douce d'une vague lointaine. mots sont comptés. Dans les phrases précédentes, + par exemple, le mot 'mots' est mentionné trois + Référence : https://www.nytimes.com/2018/10/13/ fois, mais ce n'est pas nécessairement un indica- + opinion/sunday/talk-god-sprituality-christian.html teur de l'objet du texte. + + La première apparition de l'expression 'sac de +--- Les traits grammaticaux extraits mots' semble remonter à 1954. Zellig Harris a pu- + de Twitter influencent le marché boursier --- blié un article dans le contexte des études lin- + guistiques, intitulé 'Distributional Structure'. + Les frontières entre les disciplines académiques Dans la partie intitulée 'Le sens en fonction de + s'estompent. La recherche économique mélangée à la la distribution', il dit que 'le langage n'est pas + psychologie, aux sciences sociales, aux concepts seulement un sac de mots, mais aussi un outil aux + cognitifs et émotionnels créent un nouveau sous- propriétés particulières qui ont été façonnées au + domaine économique, appelé 'l'économie comporte- cours de son utilisation. Le travail du linguiste + mentale'. est précisément de découvrir ces propriétés, que + ce soit pour l'analyse descriptive ou pour la syn- + Cela signifie que les chercheurs commencent à ex- thèse du système quasi-linguistique.' + + 42 +learners learn learners learn learners learn learners learn learners learn learners learn + learners learn learners learn learners learn learners learn learners learn + learners learn learners learn learners learn learners learn + learners learn learners learn learners learn + learners learn learners learn learners learn lea +ners learn learners learn learners learn +learners learn learners learn learners learn + learners learn learners learn learners +earn learners learn learners learn + learners learn learners learn + learners learn learners learn lea +ners learn learners learn learners +learn learners learn learners +earn learners learn learne +s learn learners learn +learners learn learners learn + learners learn learners learn + learners learn learners learn + learners learn + learners learn learners learn + learners learn learners learn + learners learn + learners learn learners learn + learners learn + learners learn learners learn + learners learn + learners learn learners +learn learners learn + learners learn + learners learn learners learn + learners learn + learners learn + learners learn learners +learn learners learn + learners learn + learners learn + learners learn lea +ners learn learners learn + learners learn + learners learn + learners learn + learners learn + learners learn + learners learn learners +earn learners learn + learners learn + learners learn + learners learn + learners learn + learners learn + learners learn + learners learn + learners learn + learners learn + learners learn + learners learn + learners learn + learners learn + learners learn + learners learn + learners learn + learners learn + learners learn + learners learn + learners learn + learners learn + learners learn + learners learn + learners learn + 43 + c us 'l8 t n | d c ri i s +-+-+-+-+-+-+-+-+ o +-+-+-+-+-+ 3ini sst5 dl e or%tu ed5 u_ + u1u t r éa n 86 Mi V |l|e|a|r|n|e|r|s| |l|e|a|r|n| / nV 8 r _ u s 9e 5mn ieo +   a i8- | 3 se7 |s dtr +-+-+-+-+-+-+-+-+ iT +-+-+-+-+-+ 9l l o é e e r | _ _ ve- e + f ym it 1es3 63 d 9s5ue8 | s / , ,4 7 asr 9 d % 6sd il43 23 G |r o9c n % Dm u + i db o /mé eev oeut r +5o e s v9c + 7r i a 3 lii| p f H1 oo y L n7 eu + s + -0 i _ean, rsm 0 +-+-+-+-+-+-+-+-+ s +-+-+-+ +-+-+-+-+-+-+-+ i qua u utn i + + l e + i_ t l 3 b% 7 éo s fn |l|e|a|r|n|e|r|s| r. |a|r|e| |p|a|t|t|e|r|n| rld 3s o l to N ,A 1 s + e s v l c ud ri5o +-+-+-+-+-+-+-+-+ e +-+-+-+ +-+-+-+-+-+-+-+ %9e-am | e e l + rea r- 36 1- r u . 4 --é e `t i +-+-+-+-+-+-+-+ t c e a srn 9p 8 3 fm + eg u% 1k 6d g r- e s2 |f|i|n|d|e|r|s| , I u_o t s it n 8d d e + 5,e - 9 et 2 A o 2e - e ae r l e +-+-+-+-+-+-+-+ % n u +pa+ un8ne r + - r a ,n _ng |e r fhs +-+-+-+-+-+-+-+-+ 2 +-+-+-+ +-+-+-+-+-+-+-+-+ e j hlqi n oae c7 r + 6 t 9 % r e 6n ei enn |l|e|a|r|n|e|r|s| /i |a|r|e| |c|r|a|w|l|i|n|g| e 68 t 2c+ y t + 5 u , 4 u e t e +-+-+-+-+-+-+-+-+ a +-+-+-+ +-+-+-+-+-+-+-+-+ 6 n c5 b u45i u t| n + _ 7 i e l a 1 A78 it t +-+-+-+-+-+-+-+ +-+-+-+-+ 2 iid d ,a éc + O n %t/ / h 4 r i6 7 sna p s |t|h|r|o|u|g|h| |d|a|t|a| e V lauae9n 5 9 l1 + e é Iho e t c t3 e 1 7 m ndm . 2 +-+-+-+-+-+-+-+ +-+-+-+-+ i ea s n p n c2 is + |\ 5 6 / ac r4 o +-+-+-+-+-+-+-+-+ -ad6 +-+-+-+-+-+-+-+-+ +-+-+-+-+ +-+-+-+-+ e3 cv 8 + s u% - t e 1 3o |l|e|a|r|n|e|r|s| e m |g|e|n|e|r|a|t|e| |s|o|m|e| |k|i|n|d| t L + s 4rr s t - us l +-+-+-+-+-+-+-+-+ / | +-+-+-+-+-+-+-+-+ +-+-+-+-+ +-+-+-+-+ ae r + g '- ê u u 2 -4 48 9s +-+-+ +-+-+-+-+-+-+-+-+ m s +i 39 +7p o - di + o t2 4 e l a os b i o |o|f| |s|p|e|c|i|f|i|c| f -p e e 24 7 e + r -e o lr 3i dh t t C o +-+-+ +-+-+-+-+-+-+-+-+ ee3 r 4 r | i nd + id ei t e 7m 6 g t p + é e e +-+-+-+-+-+-+-+-+-+ s _ a n i i l t w ' o + r c 7 s_- l ea t ' - |'|g|r|a|m|m|a|r|'| o 0 t 1 u n uf - + teu| c_n e o5 e e % d+ re 5 t +-+-+-+-+-+-+-+-+-+ n s o etps r m a iu a + r u s 5 +-+-+-+-+-+-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+ 2ain d% + p 7,s0 .e e 1r gt _ |c|l|a|s|s|i|f|i|e|r|s| ir |g|e|n|e|r|a|t|e|,| |e|v|a|l|u|a|t|e| ê sa, g + te ( i m e + +-+-+-+-+-+-+-+-+-+-+-+ a +-+-+-+-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+ es a _ s + e dr p ' o U + p' +-+-+-+ +-+-+-+-+-+-+-+-+ l o n8 - r 8 + r6 o é s re eA a s r' n c t 5 |a|n|d| |r|e|a|d|j|u|s|t| o u r + n2o t o + t % 4 iinu g 4 7s p u u- e 7 +-+-+-+ +-+-+-+-+-+-+-+-+ ' u tn + - e + l/ v 2 ni 2 a +-+-+-+-+-+-+-+-+ u +-+-+-+-+-+-+-+-+-+-+ +-+-+-+ 35 8 _ p + _ %o dh 9 ee i s |l|e|a|r|n|e|r|s| 3a |u|n|d|e|r|s|t|a|n|d| |a|n|d| s ee c i % + m qra st +-+-+-+-+-+-+-+-+ h +-+-+-+-+-+-+-+-+-+-+ +-+-+-+ d+ g a n + p s eh . t r - d si r-i i +-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+ n 6 9 r + s e i i 2 t t ae i |r|e|v|e|a|l| |p|a|t|t|e|r|n|s| m e ' eg + e i - tB i \m t +-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+ 1 t e 45 + 5 s u iee i i ,l 7t +-+-+-+-+-+-+-+-+ +-+-+-+-+-+ +-+-+-+-+-+-+ 43 l u .a d r + n 59n e l w 8a |l|e|a|r|n|e|r|s| 8 |d|o|n|'|t| |a|l|w|a|y|s| l i i d r + l è p m r 0 i +-+-+-+-+-+-+-+-+ % +-+-+-+-+-+ +-+-+-+-+-+-+ 4 i ee t 5 + m -8 p t a O en v6 +-+-+-+-+-+-+-+-+-+-+-+-+ +-+-+-+-+ p é t + i 2 '4 uf e c l t |d|i|s|t|u|i|n|g|u|i|s|h| |w|e|l|l| m l e+ + di ' y 9 r +-+-+-+-+-+-+-+-+-+-+-+-+ +-+-+-+-+ z 1 - d + n5 de . e 2 r _ +-+-+-+-+-+ +-+-+-+-+-+-+-+-+ 6 t f d + _ , 2 l csi d |w|h|i|c|h| |p|a|t|t|e|r|n|s| r i a. + v a l 9 i s 9 sk +-+-+-+-+-+ +-+-+-+-+-+-+-+-+ 3 a + l | 9 al +-+-+-+-+-+-+ +-+-+ +-+-+-+-+-+-+-+-+ hsé + 3 e s r A e s 9 r |s|h|o|u|l|d| |b|e| |r|e|p|e|a|t|e|d| i i + r u ue I C _ 4 m +-+-+-+-+-+-+ +-+-+ +-+-+-+-+-+-+-+-+ + +e n i v 6s e /a 5 7C r _ + a r 1 t r V e r i e nu l n ' r64 + l e ei a _ 6 e t n s + roe l e 2 6e n a 9 +o g . e - /q Z m 7 .1 1 |n . q 8 9p s7 + h o u fe 6 r n a ê n 5 4 + - nn n i u . r dt | r t 4V + 9 7 n l s e - i 9n 9 + 4 n m 8 r n a_ 4 + 1 s b , ui + % e \ e e s + s | _ 0 i il s a + 6e a + e d 9 p t a t + e e ' r i 9 t 9 _ n i s + - n r s7 s e 9 m + + è e Q 8e . t s5 eo t c b ' 1 + % 0 s _ b n n 4 +% v e ' it 2 r u + o r pu p r + + 44 + V V V V V V V V % %% % % % % % % % % % % % % % + V V V V V V V V V V V V V V V V % %%% % 0 %% % 0 0 %% %% +V V V % V V V V V V % % % 0 __ 0 % % % %% % % % % + % % % 0 %% 0 \ \ ___ _ _ ___ ____ __ _ _ _ % % + %% % % % % 0 \ \/ _ \| | | |/ _ \_ / / _` | | | | % + % APPRENANTS 0 /\_/ / (_) | |_| | __// / | (_| | |_| | 0 % + % % % % \___/ \___/ \__,_|\___/___| \__,_|\__,_| + V V V V V V V V % % __ _ 0 %%% % + V V V V V V V V V V V V V V V V 0 % /\ \ \__ _(_)_ _____ % 0 % +V V V V V V V V V / \/ / _` | \ \ / / _ \ 0 % + V V V V V V V V % / /\ / (_| | |\ V / __/ 0 0 + V V V V V V V V V V V V V V V V 0 \_\ \/ \__,_|_| \_/ \___| % % +V V V V V V V V V 0 0 ___ 0 0 0 % + / __\ __ _ _ _ ___ ___ 0 0 00 +Les Apprenants sont les algorithmes 0 /__\/// _` | | | |/ _ \/ __| % +qui distinguent les pratiques d'ap- 0 / \/ \ (_| | |_| | __/\__ \ % +prentissage automatique des autres 0 \_____/\__,_|\__, |\___||___/ 0 +pratiques algorithmiques. Les Ap- % 0 % % |___/ 0 0 0 % +prenants sont aussi appelés classi- 0 0 0 0 0 0 +ficateurs. Ce sont des chercheurs +de motifs, capables de fouiller par Algolit % +dans les données et de générer une % % +sorte de 'grammaire' spécifique. Dans l'apprentissage automatique, les méthodes Naive Bayes sont +Les Apprenants sont souvent basés des classificateurs probabilistes simples qui sont largement uti- +sur des techniques statistiques. lisés pour filtrer le spam et décider si un texte est positif ou +Chacun d'entre eux présente des ca- négatif. +ractéristiques individuelles. Cer- +tains ont besoin d'une grande quan- Ils nécessitent une petite quantité de données d'entraînement +tité de données d'entraînement pour pour estimer les paramètres nécessaires. Ils peuvent être extrê- +fonctionner, d'autres peuvent s'en mement rapides par rapport à des méthodes plus sophistiquées. Ils +tirer avec un petit jeu de données sont difficiles à généraliser, ce qui signifie qu'ils exécutent +annotées. Certains s'acquittent des tâches très spécifiques, exigeant d'être entraînés avec le +bien de tâches de classification, même style de données que celui qui sera utilisé par la suite. +comme l'identification des spam, +d'autres sont plus aptes à prédire Ce jeu vous permet de jouer selon les règles de Naive Bayes. Tout +les chiffres, comme les températu- en exécutant manuellement le code, vous créez votre propre modèle +res, les distances, les valeurs ludique qui 'fonctionne'. Un peu de prudence s'impose : parce que +boursières, et ainsi de suite. vous ne l'entraînez qu'en 6 phrases - au lieu de 2000 au minimum + - il n'est pas représentatif du tout ! +La terminologie de l'apprentissage +automatique n'est pas encore com- --- +plètement établie. Selon le domaine +(les statistiques, l'informatique Concept & réalisation: An Mertens +ou les sciences humaines) ils sont +appelés par des mots différents. +Lorsque nous parlons d’Apprenants, +nous parlons des fonctions imbri- +quées qui ont la capacité de géné- +rer d'autres fonctions, de les éva- +luer et de les réajuster en fonc- +tion des données. Les Apprenants +sont bons pour comprendre et révé- +ler les motifs. Mais ils ne dis- +tinguent pas toujours bien quels +motifs doivent être répétés. + +Dans les logiciels, il n'est pas +toujours possible de distinguer les +éléments caractéristiques des clas- +sificateurs, car ils sont cachés +dans des modules ou bibliothèques +sous-jacents. Les programmeurs +peuvent les invoquer en utilisant +une seule ligne de code. Par consé- +quent, pour cette exposition, nous +avons développé deux jeux de table +qui montrent en détail le processus +d'apprentissage de classificateurs +simples, mais fréquemment utilisés. + 45 + 0 0 + 0 0 0 + __ 0 __ 0 _ + \ \ ___ _ _ ___ ____ \_\_ | | __ _ + \ \/ _ \| | | |/ _ \_ / / _` | | |/ _` | + /\_/ / (_) | |_| | __// / | (_| | | | (_| | + \___/ \___/ \__,_|\___/___| \__,_| |_|\__,_| + __ __ 0 _ + /__\ _/_/ __ _ _ __ ___ ___ ___(_) ___ _ __ + / \/// _ \/ _` | '__/ _ \/ __/ __| |/ _ \| '_ \ % + / _ \ __/ (_| | | | __/\__ \__ \ | (_) | | | | + \/ \_/\___|\__, |_| \___||___/___/_|\___/|_| |_| + 0 |___/ + __ _ __ _ 0 0 + / /(_)_ __ _/_/ __ _(_)_ __ ___ 0 0 + / / | | '_ \ / _ \/ _` | | '__/ _ \ + / /__| | | | | __/ (_| | | | | __/ 0 + \____/_|_| |_|\___|\__,_|_|_| \___| 0 + 0 0 0 + + par Algolit + + La régression linéaire est l'un des algorithmes les plus connus + et les mieux compris en statistique et en apprentissage automa- % + % + % % % % %% % % tique. Il existe depuis près de 200 ans. C'est un modèle at- + % % % % % trayant parce que la représentation est très simple. En statisti- + % % % % que, la régression linéaire est une méthode statistique qui per- + % % met de résumer et d'étudier les relations entre deux paramètres % + % % % quantitatifs. % % % % %% % + % % % % % %% + % % % En jouant à ce jeu, vous réaliserez qu'en tant que joueur, vous + % % % % avez beaucoup de décisions à prendre. Vous découvrirez ce que si- + % gnifie créer un jeu de données cohérent, de décider ce qu’il doit + % % inclure. Si tout se passe bien, vous ressentirez le besoin de mo- % + % difier vos données afin d'obtenir de meilleurs résultats. Cela % + fait partie de l'art de l'approximation qui est à la base de + % % toutes les pratiques d'apprentissage automatique. + % % + % % --- + % % + % Concept & réalisation: An Mertens % + % %% % % + % % + + + + + + + + + + + + + + + + + + + + + + + + + + 46 + % % 0 0 0 0 % % + 0 0 _____ % _ _ __ _ + /__ \_ __ __ _(_) |_ _/_/ 0 __| | ___ 0 + 0 / /\/ '__/ _` | | __/ _ \ / _` |/ _ \ + / / | | | (_| | | || __/ | (_| | __/ 0 + \/ |_| \__,_|_|\__\___| \__,_|\___| + _ 0 0 0 0 + __| | ___ ___ _ _ _ __ ___ ___ _ __ + / _` |/ _ \ / __| | | | '_ ` _ \ / _ \ '_ \ ____ + | (_| | (_) | (__| |_| | | | | | | __/ | | | /___/ + \__,_|\___/ \___|\__,_|_| |_| |_|\___|_| |_| + _ _ _ 0 _____ 0 _ 0 + | |_ __ _| |_ (_) ___ _ __ /__ \_ __ ___ (_)___ 00 + | __/ _` | __|| |/ _ \| '_ \ / /\/ '__/ _ \| / __| % + | || (_| | |_ | | (_) | | | |_ / / | | | (_) | \__ \ + \__\__,_|\__||_|\___/|_| |_(_) \/ |_| \___/|_|___/ + 0 0__0 0 0 _ + _ __ ___ \_\ _ __ ___ ___ ___ __ _| | __ _ ___ % + | '_ \ / _ \ / _ \ '_ ` _ \ / _ \/ __| / _` | |/ _` |/ _ \ ____ + | |_) | (_) | __/ | | | | | __/\__ \ | (_| | | (_| | (_) | /___/ + 0 | .__/ \___/ \___|_| |_| |_|\___||___/ \__,_|_|\__, |\___/ + |_| _ _ _ 0 _ 0 |___/ + _ __(_) |_| |__ _ __ ___ (_) __ _ _ _ ___ ___ + | '__| | __| '_ \| '_ ` _ \| |/ _` | | | |/ _ \/ __| + | | | | |_| | | | | | | | | | (_| | |_| | __/\__ \ + |_| |_|\__|_| |_|_| |_| |_|_|\__, |\__,_|\___||___/ + 0 0 0 |_| + 00 + par Rémi Forte, designer-chercheur à l’Atelier national de re- + cherche typographique, Nancy, France + + sérigraphie sur papier, 60 × 80 cm, 25 ex., 2019, en vente à la + réception du Mundaneum. + % + Sous la forme de trois affiches, ces poèmes opèrent une relecture + algorithmique et poétique du 'Traité de documentation' de Paul + Otlet. Ils sont le résultat d’un même algorithme basé sur les + règles mystérieuses de l'intuition humaine. Il est appliqué à + trois fragments prélevés dans l’ouvrage de Paul Otlet et se veut + représentatif de sa pratique bibliologique. Pour chaque fragment, + l’algorithme découpe le texte, puis mots et signes de ponctuation + sont comptabilisés et réordonnés en une liste. À chaque ligne, + % % % % %%% % % % les éléments se combinent et épuisent la syntaxe du fragment sé- % % + % % % % % % lectionné. % %%% % % % % % % + % % % % % % % % % % % % % %% % + % %% % Le langage de Paul Otlet reste perceptible mais exacerbé jusqu’à + % % % % % l’absurde. Pour le lecteur, la systématisation du texte est dé- + % % % concertante et ses habitudes de lecture sont bousculées. Cons- % + % % % truite selon une équation mathématique, la composition typogra- % + + % phique de l’affiche est tout aussi systématique que le poème. Ce- + pendant, des frictions surviennent ponctuellement ; boucle après + % % boucle, les lignes s’étendent jusqu’à mordre la colonne voisine. + Des superpositions se créent et des mots se trouvent dissimulés + % par d’autres. Ces télescopages dessinent des parcours de lecture + % % % alternatifs. % % + % % + % % + + + + + + + + + + + + 47 + RÉCITS CONTEXTUALISÉS + AUTOUR DES APPRENANTS + + + + --- Naive Bayes & Viagra --- Pierre-Simon Laplace, son inventeur. Le mathémati- + cien aurait échoué à créditer les travaux des + L'algorithme Naive Bayes est un Apprenant célèbre autres. Par conséquent, il a souffert d’accusa- + qui réussit bien avec peu de données. Nous l'ap- tions largement diffusées contre sa réputation. Ce + pliquons tout le temps. Christian & Griffiths af- n'est que 150 ans plus tard que l'accusation s'est + firment dans leur livre, 'Algorithms to Live by', avérée fausse. + que 'nos jours sont remplis de petites données'. +Imaginez par exemple que vous vous trouviez à un Avançons en 1939, alors que le règne de Bayes de- +arrêt de bus dans une ville étrangère. L'autre meure pratiquement tabou, mort et enterré dans le +personne qui se tient là attend depuis 7 minutes. domaine de la statistique. Lorsque la France est + Qu'est-ce que vous faites ? Décidez-vous d'atten- occupée en 1940 par l'Allemagne, qui contrôle les + dre ? Et si oui, pour combien de temps ? Quand al- usines et les fermes européennes, la plus grande + lez-vous envisager d'autres options ? Un autre inquiétude de Winston Churchill est le péril U- + exemple. Imaginez qu’un ami demande conseil sur boot. Les opérations de sous-marin étaient étroi- + une relation. Il est avec son nouveau partenaire tement contrôlées par le quartier général allemand + depuis un mois. Doit-il l'inviter à l’accompagner en France. Chaque sous-marin partait en mer sans + à un mariage de famille ? ordres, et les recevait sous forme de messages ra- + dio codés après avoir atteint l'Atlantique. Les + Les croyances préexistantes sont cruciales pour messages étaient cryptés par des machines à + que Naive Bayes fonctionne. L'idée est de calculer brouiller les mots, appelées Enigma machines. + les probabilités sur base de ces connaissances Enigma ressemblait à une machine à écrire compli- +préalables et d'une situation spécifique. quée. Elle est inventée par la société allemande + Scherbius & Ritter après la première guerre mon- +Le théorème a été formulé dans les années 1740 par diale, lorsque le besoin de machines d'encodage de + le révérend et mathématicien amateur Thomas Bayes. messages est devenu douloureusement évident. + Il a consacré sa vie à résoudre la question de sa- + voir comment gagner à la loterie. Mais la règle de Curieusement, et heureusement pour Naive Bayes et + Bayes a été rendue célèbre dans sa forme actuelle le monde, à l'époque le gouvernement britannique + par le mathématicien Pierre-Simon Laplace en et les systèmes d'éducation considéraient les ma- + thématiques appliquées et les statistiques sans + temps après la mort de La Place, la théorie tombe aucun rapport avec la résolution pratique des pro- + dans l'oubli jusqu'à ce qu'elle soit à nouveau dé- blèmes. Les données statistiques ont été jugées + terrée pendant la Seconde Guerre mondiale dans le gênantes en raison de leur caractère détaillé. + but de briser le code Enigma. Ainsi, les données du temps de guerre étaient sou- + vent analysées non pas par des statisticiens, mais +La plupart des personnes sont aujourd'hui entrées par des biologistes, des physiciens et des mathé- +en contact avec Naive Bayes par le biais de leurs maticiens théoriques. Aucun d'entre eux ne savait +dossiers de courrier indésirable. Naive Bayes est qu'en ce qui concerne les statistiques sophistiquées, + un algorithme largement utilisé pour la détection la règle de Bayes était considérée non- scientifique. + du spam. C’est une coïncidence que le Viagra, mé- + dicament contre la dysfonction érectile, a été ap- C'est le désormais célèbre Alan Turing, mathémati- + prouvé par la FDA (US Food & Drug Administration) cien, informaticien, logicien, cryptanalyste, phi- + en 1997, au moment où environ 10 millions d'utili- losophe et biologiste théorique, qui a utilisé le + sateurs dans le monde avaient des comptes de mes- système de probabilités des règles de Bayes pour + sagerie Web gratuits. Les sociétés de vente concevoir la 'bombe'. Il s'agissait d'une machine + avaient l’intelligence d'utiliser la publicité électromécanique à grande vitesse pour tester tous + massive par e-mail : c'était un média intime, à les arrangements possibles qu'une machine Enigma + l'époque réservé à la communication privée. En produirait. Afin de déchiffrer les codes navals + 2001, le premier programme SpamAssasin s'appuyant des U-boot, Turing simplifie le système de la +sur Naive Bayes a été téléchargé sur SourceForge, 'bombe' en utilisant des méthodes baysiennes. La +réduisant ainsi le marketing 'guerilla par cour- 'bombe' a transformé le quartier général du +riel'. Royaume-Uni en une usine de décryptage. L'histoire + est bien illustrée dans 'The Imitation Game', un + Référence : Machine Learners, by Adrian MacKenzie, film de Morten Tyldum, sorti en 2014. + The MIT Press, Cambridge, US, November 2017. + + --- Une histoire sur les petits pois --- + --- Naive Bayes & Enigma --- + En statistique, la régression linéaire est une mé- + Cette histoire de Naive Bayes fait partie du livre thode d'apprentissage supervisé. Après l'entraîne- + 'The theory that would not die', écrit par Sharon ment avec des données annotées, le modèle tente de + Bertsch McGrayne. Elle décrit entre autres comment prédire les valeurs de nouvelles données incon- + Naive Bayes est vite oubliée après la mort de nues. La régression linéaire permet de résumer et + + 48 + + + + + + d'étudier les relations entre deux éléments, afin j'ai toujours soutenu qu'à l'exception des imbéci- + de voir s'il existe une corrélation entre eux. les, les hommes ne différaient pas beaucoup sur le + S'il y a une corrélation positive, la connaissance plan intellectuel, seulement sur le plan du zèle + d'un élément aide à prédire l'autre. Par exemple, et du labeur'. Heureusement, l'étude moderne de + étant donné la critique d'un film, nous pouvons l'hérédité a réussi à éliminer le mythe de la dif- + prédire le nombre moyen d'étoiles qui lui sont at- férence génétique fondée sur la race. + tribuées, plutôt que de simplement dire si la cri- + tique est positive ou négative. La raison pour laquelle nous l'évoquons dans cette + série, c'est qu'il a été parmi les premiers scien- + Parfois, les figures que nous rencontrons en grat- tifiques à utiliser des méthodes statistiques dans +tant sous la surface ne sont pas à notre goût. ses recherches. Sa principale contribution dans ce +L'idée de régression vient de Sir Francis Galton, domaine a été l'analyse de régression linéaire, +un scientifique influent du 19e siècle. Il a passé qui a fondé les bases d'une grande partie de la + sa vie à étudier le problème de l'hérédité - pour statistique moderne. Alors que nous nous engageons + comprendre à quel point les caractéristiques d'une dans le domaine de l'apprentissage automatique, Algolit + génération d'êtres vivants se manifestent dans la essaie de ne pas oublier que les systèmes d'ordre ont + génération suivante. Il a établi le domaine de du pouvoir, et que ce pouvoir n'a pas toujours été + l'eugénisme et l'a défini comme 'l'étude des orga- exercé au bénéfice de tout le monde. L'apprentissage + nismes sous contrôle social qui peuvent améliorer automatique a hérité de nombreux aspects de la + ou altérer les qualités raciales des générations recherche statistique, certains plus agréables que + futures, que ce soit physiquement ou mentalement'. d'autres.Nous devons nous méfier, car ces visions + Par conséquent, son nom a marqué l'histoire et du mondes'infiltrent dans les modèles algorithmiques + l'héritage du racisme scientifique. qui créent des ordres aujourd'hui. + +Galton a d'abord abordé le problème de l'hérédité Références : +en examinant les caractéristiques du petit pois +doux. Il a choisi le petit pois parce que l'espèce http://galton.org/letters/darwin/correspon- + peut s'auto-fertiliser. Les plantes femelles hé- dence.htm + ritent des variations génétiques des plantes mères + sans la contribution d'un deuxième parent. Cette https://www.tandfonline.com/doi/- + caractéristique élimine la nécessité de traiter full/10.1080/10691898.2001.11910537 + avec des sources multiples. + http://www.paramoulipist.be/?p=1693 + En 1875, Galton a distribué des paquets de graines + de petits pois à sept amis. Chaque ami recevait + des graines de poids uniforme, mais il y avait des --- Perceptron --- + variations importantes d'un paquet à l'autre. Les + amis de Galton ont récolté les graines des nou- Nous nous trouvons dans une décennie où les ré- +velles générations de plantes et les lui ont ren- seaux de neurones suscitent beaucoup d'attention. +dues. Il a ensuite tracé le poids des graines fe- Cela n'a pas toujours été le cas. L'étude des ré- +melles contre le poids des graines mères. Il a dé- seaux de neurones remonte aux années 1940, lorsque + couvert que le poids médian des graines femelles la première métaphore des neurones est apparue. Le + d'une taille particulière de la semence mère dé- neurone n'est pas la seule référence biologique + crivait approximativement une ligne droite avec dans le domaine de l'apprentissage automatique - + une pente positive inférieure à 1,0. Les premières pensez au mot corpus ou formation. Le neurone ar- + idées de Galton sur la régression sont nées de ce tificiel a été construit en relation étroite avec + diagramme bidimensionnel qui compare la taille des son homologue biologique. + petits pois femelles à celle des petits pois + mères. Il a utilisé cette représentation de ses Le psychologue Frank Rosenblatt s'est inspiré des + données pour illustrer les fondements de ce que travaux de son collègue Donald Hebb sur le rôle + les statisticiens appellent encore aujourd'hui la des neurones dans l'apprentissage humain. Hebb a + régression. Pour Galton, c'était aussi une façon déclaré que 'les cellules qui communiquent, se +de décrire les avantages de l'eugénisme. mettent ensemble.' Sa théorie est maintenant à la + base de l'apprentissage associatif humain, mais +La recherche de Galton été appréciée par de nom- aussi de l'apprentissage en réseau de neurones non + breux intellectuels de son temps. En 1869, dans supervisé. Il a poussé Rosenblatt à développer + 'Hereditary Genius', Galton affirme que le génie l'idée du neurone artificiel. En 1962, il crée le + est principalement une question d'ascendance. Il Perceptron. Le Perceptron est un modèle qui ap- + croyait qu'il y avait une explication biologique à prend par la pondération des entrées. + l'inégalité sociale entre les races. Galton a même + persuadé son demi-cousin Charles Darwin de ses Il a été mis de côté par les chercheurs, parce + idées. Après avoir lu l'article de Galton, Darwin qu'il ne peut gérer que la classification binaire. + a déclaré : 'Vous avez converti un adversaire, car Cela signifie que les données doivent être sépa- + + 49 + + + + + +rables linéairement, comme par exemple hommes et 'deep learning'. Les tarifs de location de TPU +femmes, noir et blanc. Il est clair que ce type de vont de de 8$/h à 394$/h. Si vous êtes comme nous, + données est très rare dans le monde réel. Lorsque et vous ne voulez pas travailler avec des sollu- + le soi-disant premier hiver de l'Intelligence Ar- tions prêtes à l'emploi, et vous souhaitez ouvrir + tificielle (IA) est arrivé en 1974-1980 et que le la boîte noire, BERT exige de faire des économies + financement consacré à cette recherche a diminué, pour pouvoir l’utiliser. + le Perceptron a également été négligé. Pendant 10 + ans, il est resté inactif. Lorsque le printemps Références : + s'installe à la fin des années 1980, de nouvelles + générations de chercheurs le reprennent et l'uti- https://ai.googleblog.com/2018/11/open-sourcing- + lisent pour construire des réseaux de neurones. bert-state-of-art-pre.html + Ceux-ci contiennent de multiples couches de Per- + ceptrons. C'est ainsi que les réseaux de neurones https://towardsdatascience.com/deconstructing- +voient la lumière. On pourrait dire que cette sai- bert-distilling-6-patterns-from-100-million- +son d'apprentissage automatique est particulière- parameters-b49113672f77 +ment chaude, mais il faut un autre hiver pour + connaître un été. + + + --- BERT --- + + Certains articles en ligne disent que l'année 2018 + a marqué un tournant dans le domaine du traitement + du langage naturel. Une série de modèles de 'deep + learning' ont permis d'obtenir des résultats ex- + cellents pour des tâches comme les réponses aux + questions ou la classification des sentiments. +L'algorithme BERT de Google est entré dans les +concours d'apprentissage automatique de l'année +dernière comme un 'modèle gagnant'. Il témoigne + d’une performance supérieure sur une grande varié- + té de tâches. + + BERT est pré-entraîné; ses poids sont appris à + l'avance grâce à deux tâches non supervisées. Cela + signifie que BERT n'a pas besoin d'être entraîné à + partir de zero pour chaque nouvelle tâche. Vous + n'avez qu'à affiner ses poids. + + Cela signifie également qu'un programmeur souhai- + tant utiliser BERT ne sait plus sur quels para- +mètres BERT est réglé, ni à base de quelles don- +nées il a appris ses performances. + + BERT signifie 'Bidirectional Encoder Representa- + tions from Transformers'. Cela signifie que BERT + permet un entraînement bidirectionnel. Le modèle + apprend le contexte d'un mot à partir de son envi- + ronnement, à gauche et à droite d'un mot. En tant + que tel, il peut faire la différence entre 'Je + suis pile à l’heure' et 'Je l’ai mis sur la pile'. + + Quelques faits : + + - BERT_large, avec 345 millions de paramètres, est +le plus grand modèle du genre. Il est manifeste- +ment supérieur à BERT_base, qui utilise la même +architecture avec 'seulement' 110 millions de pa- + ramètres, pour les tâches à petite échelle. + + - Pour exécuter BERT, vous devez utiliser les TPU. + Ce sont les processeurs (CPU) de Google spéciale- + ment conçus pour TensorFLow, la plateforme de + + 50 +0 12 3 4 5 67 8 9 0 + 12 3 4 5 67 8 9 0 12 + 3 4 5 67 8 9 0 1 2 + 3 4 5 6 7 8 9 0 1 2 3 + 4 56 7 8 9 01 2 3 + 4 56 7 8 9 01 2 3 + 4 56 7 8 9 01 2 3 + 4 56 7 8 9 0 1 2 3 4 + 5 6 7 8 9 0 1 2 3 45 6 + 7 8 90 1 2 3 45 6 + 7 8 90 1 2 3 45 6 + 7 8 90 1 2 3 4 5 6 + 7 8 9 0 1 2 3 4 5 6 + 7 89 0 1 2 34 5 6 + 7 89 0 1 2 34 5 6 + 7 89 0 1 2 34 5 6 7 +89 0 1 2 3 4 5 6 7 8 9 + 0 1 2 3 4 5 6 78 9 + 0 1 23 4 5 6 78 9 0 + 1 23 4 5 6 78 9 0 + 1 23 4 5 6 78 9 0 + 1 2 3 4 5 6 7 8 9 0 + 1 2 3 4 5 67 8 9 0 12 + 3 4 5 67 8 9 0 12 + 3 4 5 67 8 9 0 12 3 + 4 5 6 7 8 9 0 1 2 3 + 4 5 6 7 8 9 01 2 3 + 4 56 7 8 9 01 2 3 + 4 56 7 8 9 01 2 3 + 4 56 7 8 9 01 2 3 4 + 5 6 7 8 9 0 1 2 3 4 5 6 + 7 8 90 1 2 3 45 6 + 7 8 90 1 2 3 45 6 + 7 8 90 1 2 3 45 6 + 7 8 90 1 2 3 4 5 6 7 + 8 9 0 1 2 3 4 5 6 7 + 89 0 1 2 34 5 6 7 +89 0 1 2 34 5 6 7 89 + 0 1 2 34 5 6 7 8 9 + 0 1 2 3 4 5 6 7 8 9 +0 1 23 4 5 6 78 9 0 + 1 23 4 5 6 78 9 0 + 1 23 4 5 6 78 9 0 + 1 23 4 5 6 7 8 9 0 + 1 2 3 4 5 6 7 8 9 0 12 3 + 4 5 67 8 9 0 12 3 + 4 5 67 8 9 0 12 3 + 4 5 67 8 9 0 12 3 + 4 5 6 7 8 9 0 1 2 3 + 4 5 6 7 8 9 01 2 3 4 + 56 7 8 9 01 2 3 4 + 56 7 8 9 01 2 3 4 5 +6 7 8 9 0 1 2 3 4 5 6 + 7 8 9 0 1 2 3 45 6 + 7 8 90 1 2 3 45 6 + 7 8 90 1 2 3 45 6 +7 8 90 1 2 3 45 6 7 + 8 9 0 1 2 3 4 5 6 7 + 8 9 0 1 2 34 5 6 7 89 + 0 1 2 34 5 6 7 89 0 + 1 2 34 5 6 7 89 0 + 1 2 34 5 6 7 8 9 0 + 1 2 3 4 5 6 7 8 9 0 + 1 23 4 5 6 78 9 0 + 1 23 4 5 6 78 9 0 + 1 23 4 5 6 78 9 0 1 + 2 3 4 5 6 7 8 9 0 1 2 3 + 4 5 67 8 9 0 12 3 + 4 5 67 8 9 0 12 3 + 51 + █▒░░ ▓▒█░░▒▓███▀▒░ ░▒ ▒ ░ ▒▒▓██▒ ░░ ▒░ ░ ▒ ░▓ ░▒▓ ▒ ▒█░░▒█▓▒░▓▒ ▒▓▒▒░ ▒ ▒▒ ▓▒░ ▒░▓ █ ▒░ █░█ ▓▒░ ▒▓░░ +▓ ▒░ ▒▒ ░▒░▒▓ ░ ░ ▒ ░ ▒ ▒ ░ ░ ░▒░ ░▒ ░ ▒ ░▒░▓░ ▒ ░ ▒ ░▒░ ░ ░▒ ▒░░ ░ ▒ ░░▓ ░ ▓▓░░ ░░▒▒▓░ + ░ ▒ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░░ ░ ▒ ░ ░ ░ ░ ░ ░░ ░ ░ ░ ░ ░ ░ ░ ░ + ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ +░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ + + ░ tion est une étape cru- voit en tant qu'utilisa- sition d'occurrences de + ░ ciale de l'apprentissage teur, mais ont aussi lettres ou de mots, ce + ░ ░ ░ ░ automatique supervisé leur mot à dire dans les qui donne des tables de + ░ ░ ░ ░ durant laquelle l'algo- fluctuations du cours probabilité de transi- + ░ ░ rithme reçoit des des bourses mondiales ou tion qui peuvent être + ░ ░ exemples de ce qu'il dans la détection de la calculées sans aucune + ░ GLOSSAIRE ░ doit apprendre. Un cybercriminalité et du compréhension sémantique + ░ filtre anti-spam sera vandalisme. ou grammaticale du lan- + ░ ░ ░ alimenté d'exemples de gage naturel. Cet algo- + ░ ░ ░ ░ messages spams et de * APPRENTISSAGE AUTOMA- rithme peut être utilisé + ░ messages réels. Ces TIQUE CLASSIQUE pour analyser des tex- + ░ exemples consistent en Naive Bayes, Support tes, mais aussi pour les + ░ un message, l'entrée, Vector Machines ou Ré- recombiner. Il est lar- + accompagné d'une éti- gression Linéaire sont gement utilisé pour la + Vous trouverez ci-des- quette  considérés comme des al- génération de spam. + sous un glossaire non- spam ou non spam. L'an- gorithmes classiques + exhaustif reprenant des notation d'un jeu de d'apprentissage automa- * CONSTANT + termes fréquemment uti- données est un travail tique. Ils fonctionnent Constant est une asso- + lisés dans l'exposition. exécuté par des humains, bien lorsqu'ils ap- ciation sans but lucra- + Il est conçu comme une qui choisissent une éti- prennent avec de petits tif d’artistes autogé- + aide pour les visiteurs quette pour chaque élé- jeux de données. Mais rés, basée à Bruxelles + connaissant peu le voca- ment du jeu de données. ils nécessitent souvent depuis 1997 et active + bulaire lié au domaine Pour assurer la qualité des lecteurs complexes. dans les domaines de + du traitement des des étiquettes, plu- La tâche accomplie par l’art, des médias et de + langues naturelles sieurs annotateurs les lecteurs est égale- la technologie. Algolit + (NLP), Algolit ou le doivent voir le même ment appelée 'feature est né en 2012 comme un + Mundaneum. élément, la même entrée, engineering' (voir ci- projet de Constant. + et donner la même éti- dessous). Cela signifie http://constantvzw.org +* ALGOLIT quette avant qu'un qu'un être humain doit + Un groupe bruxellois exemple ne soit inclus consacrer du temps à une * DATA WORKERS + spécialisé dans la re- dans les données d'en- analyse exploratoire ap- Intelligences artifi- + cherche artistique sur traînement. profondie du jeu de don- cielles développées pour + les algorithmes et la nées. servir, divertir, enre- + littérature. Chaque * APPRENTISSAGE gistrer et connaître les + mois, le groupe se AUTOMATIQUE * BAG OF WORDS humains. Le travail de + réunit pour expérimenter OU MACHINE LEARNING Le modèle du sac de mots ces entités machiniques + avec du code et des Modèles algorithmiques est une représentation est généralement dissi- + textes publiés sous li- basés sur la statisti- simplifiée du texte uti- mulé derrière des inter- + cences libres. que, principalement uti- lisé dans le traitement faces et des brevets. + http://www.algolit.net lisés pour analyser et du langage naturel. Dans Dans l'exposition, les + prédire des situations à ce modèle, un texte est conteurs algorithmiques +* ALGOLITTÉRAIRE partir de cas existants. représenté sous la forme quittent leur monde sou- + Terme inventé par Algo- Dans cette exposition, d'une collection de mots terrain invisible pour + lit pour des oeuvres qui nous nous concentrons uniques, sans tenir devenir nos interlocu- + explorent le point de sur les modèles d'ap- compte de la grammaire, teurs. + vue du conteur algorith- prentissage automatique de la ponctuation ni + mique. Quelles nouvelles pour le traitement de même de leur ordre dans * DONNÉES D’ENTRAÎNEMENT + formes de narration ren- texte ou le traitement le texte. Ce modèle Les algorithmes d'ap- + dons-nous possibles en du langage naturel (voir transforme un texte en prentissage automatique + dialoguant avec les al- NLP). Ces modèles ont une liste de mots asso- ont besoin d'être gui- + gorithmes ? appris à effectuer une ciés à leur fréquence  dés. Pour séparer une + tâche spécifique sur la littéralement un sac de chose d'une autre, faire +* ALGORITHME base de textes exis- mots. Le sac de mots est des distinctions, ils + Un ensemble d'instruc- tants. Ils sont utilisés souvent utilisé comme ont besoin de motifs. + tions dans un langage de par les moteurs de re- référence, c'est sur Ils les trouvent dans + programmation spécifi- cherche, les traductions cette base qu'on évalue- les textes qui leur sont + que, qui permettent de automatiques, et per- ra la performance d'un donnés, les données + produire un résultat mettent de générer des nouveau modèle. d’entraînement. L'être + (output) à partir de résumés et de repérer humain doit choisir avec + données (inputs). les tendances sur les * CHAÎNE DE MARKOV soin un matériel d’en- + réseaux sociaux et des Algorithme qui scanne un traînement adapté à la +* ANNOTATION fils d’actualité. Ils texte à la recherche de tâche de la machine. Il + Le processus d'annota- influencent ce que l'on la probabilité de tran- n'est pas logique d’en- + 52 + █▒░░ ▓▒█░░▒▓███▀▒░ ░▒ ▒ ░ ▒▒▓██▒ ░░ ▒░ ░ ▒ ░▓ ░▒▓ ▒ ▒█░░▒█▓▒░▓▒ ▒▓▒▒░ ▒ ▒▒ ▓▒░ ▒░▓ █ ▒░ █░█ ▓▒░ ▒▓░░ +▓ ▒░ ▒▒ ░▒░▒▓ ░ ░ ▒ ░ ▒ ▒ ░ ░ ░▒░ ░▒ ░ ▒ ░▒░▓░ ▒ ░ ▒ ░▒░ ░ ░▒ ▒░░ ░ ▒ ░░▓ ░ ▓▓░░ ░░▒▒▓░ + ░ ▒ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░░ ░ ▒ ░ ░ ░ ░ ░ ░░ ░ ░ ░ ░ ░ ░ ░ ░ + ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ +░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ + + traîner une machine avec tion par autrui en vue sujets à des droits explorent et + des romans du 19ème de sa diffusion sont d'auteur soit parce que construisent des modèles + siècle si sa mission est permises, techniquement ces derniers sont expi- d'apprentissage automa- + d'analyser des Tweets. et légalement, ceci afin rés. Le projet fut lancé tique, collaborent avec + de garantir certaines par Michael Hart en 1971 d'autres et participent +* DUMP libertés induites, dont et nommé en hommage à à des concours pour re- + Terme anglais signifiant le contrôle du programme l'imprimeur allemand du lever des défis. Environ + ‘dépôt, décharge, déver- par l'utilisateur et la XVe siècle Johannes Gu- un demi-million d’utili- + ser massivement’. En in- possibilité de partage tenberg. (Wikipedia) sateurs sont actifs sur + formatique, le terme entre individus. Ces Kaggle. Kaggle a été + dump désigne générale- droits peuvent être sim- * HENRI LA FONTAINE fondée par Goldbloom et + ment une copie brute plement disponibles – Henri La Fontaine Ben Hamner en 2010 et + d’une base de données; cas du domaine public – (1854-1943) est un homme acquise par Google en + par exemple pour effec- ou bien établis par une politique, féministe et mars 2017. + tuer une sauvegarde de licence, dite 'libre', pacifiste belge. Il re- + données ou pour les uti- basée sur le droit d'au- çoit le Prix Nobel de la * LANGAGE NATUREL + liser ailleurs. Les teur. Les 'licences co- paix en 1913 en raison Selon Wikipédia, 'Une + dumps sont souvent pu- pyleft' garantissent le de son engagement au langue dite « naturel- + bliées par des projets maintien de ces droits sein du Bureau Interna- le » est une langue qui + de logiciels libres et aux utilisateurs même tional de la Paix et de s'est formée petit à pe- + de contenu libre, tels pour les travaux déri- sa contribution à l'or- tit, évoluant avec le + que Wikipédia, pour per- vés. Les logiciels ganisation du mouvement temps, et qui fait par- + mettre la réutilisation libres constituent une pacifiste. En 1895, en- tie du langage naturel. + ou la dérivation(fork) alternative à ceux qui semble avec Paul Otlet, Son origine est bien + de la base de données. ne le sont pas, quali- il créent ensemble souvent floue et peut + fiés de 'propriétaires' l'Institut international être retracée plus ou +* FEATURE ENGINEERING ou de 'privateurs'. (Wi- de bibliographie qui de- moins clairement par la + Processus utilisant la kipedia) viendra le Mundaneum. Au linguistique comparée. + connaissance du domaine sein de cette institu- On oppose les langues + des données pour créer * GIT tion, qui visait à ras- naturelles - comme le + les caractéristiques qui Un système logiciel per- sembler l'ensemble des français - aux langues + font fonctionner les al- mettant de suivre les connaissances du monde, construites comme le + gorithmes d'apprentis- changements dans le code il contribue à mettre au langage de programmation + sage machine. En source pendant le déve- point le système de ou l'espéranto, formées + d'autres termes, un être loppement d'un logiciel. Classification décimale intentionnellement par + humain doit consacrer du Il est conçu pour coor- universelle (CDU). l’entremise de l’homme + temps à une analyse ex- donner le travail des pour remplir un besoin + ploratoire approfondie programmeurs, mais il * IA OU INTELLIGENCES précis.' + du jeu de données, afin peut être utilisé pour ARTIFICIELLES + d'en définir les princi- suivre les changements L'intelligence artifi- * LITTÉRATURE + pales caractéristiques. dans n'importe quel en- cielle (IA) est 'l'en- Algolit comprend la no- + Ces caractéristiques semble de fichiers. semble des théories et tion de littérature + peuvent être la fré- Avant d’initier un nou- des techniques mises en comme beaucoup d'autres + quence des mots ou des veau projet, les pro- œuvre en vue de réaliser auteurs expérimentaux  + lettres, mais aussi des grammeurs créent un ‘dé- des machines capables de elle inclut toute la + éléments syntaxiques pôt git’ dans lequel ils simuler l'intelligence. production linguistique, + comme les noms, les ad- publieront toutes les Elle correspond donc à du dictionnaire à la Bi- + jectifs ou les verbes. parties du code. Les dé- un ensemble de concepts ble, de l'œuvre entière + Les caractéristiques les pôts git d’Algolit se et de technologies plus de Virginia Woolf à + plus importantes pour la trouvent ici qu'à une discipline au- toutes les versions des + tâche à résoudre doivent https://gitlab.- tonome constituée. D'au- Conditions d'utilisation + être soigneusement sé- constantvzw.org/algolit. tres, remarquant la dé- publiées par Google de- + lectionnées pour être finition peu précise de puis son existence. En + transmises à un algo- * GUTENBERG.ORG l'IA, notamment la CNIL, ce sens, le code de pro- + rithme classique d'ap- Le projet Gutenberg est la définissent comme ‘le grammation peut aussi + prentissage automatique. une bibliothèque de ver- grand mythe de notre être de la littérature. + sions électroniques temps'. (Wikipedia) +* FLOSS OU LOGICIELS libres de livres physi- * MECHANICAL TURK + LIBRES ET OPEN SOURCE quement existants. Les * KAGGLE Le Mechanical Turk d’A- + Un logiciel libre est un textes fournis sont es- Plateforme en ligne où mazon est une plateforme + logiciel dont l'utilisa- sentiellement du domaine les utilisateurs en ligne à destination + tion, l'étude, la modi- public, soit parce trouvent et publient des des humains conçue pour + fication et la duplica- qu'ils n'ont jamais été ensembles de données, exécuter des tâches que + 53 + █▒░░ ▓▒█░░▒▓███▀▒░ ░▒ ▒ ░ ▒▒▓██▒ ░░ ▒░ ░ ▒ ░▓ ░▒▓ ▒ ▒█░░▒█▓▒░▓▒ ▒▓▒▒░ ▒ ▒▒ ▓▒░ ▒░▓ █ ▒░ █░█ ▓▒░ ▒▓░░ +▓ ▒░ ▒▒ ░▒░▒▓ ░ ░ ▒ ░ ▒ ▒ ░ ░ ░▒░ ░▒ ░ ▒ ░▒░▓░ ▒ ░ ▒ ░▒░ ░ ░▒ ▒░░ ░ ▒ ░░▓ ░ ▓▓░░ ░░▒▒▓░ + ░ ▒ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░░ ░ ▒ ░ ░ ░ ░ ░ ░░ ░ ░ ░ ░ ░ ░ ░ ░ + ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ +░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ + + les algorithmes ne par- (1854-1943), homme d'É- dire des situations par- * PYTHON + viennent pas à faire. Il tat et prix Nobel de la ticulières ou à profiler Le principal langage de + peut s'agir, par exem- paix, créent le Munda- des habitudes d’usagers. programmation utilisé + ple, d'annoter des neum. Le projet vise à Elles sont largement dans le monde entier + phrases comme étant po- rassembler toute la utilisés dans les smart- pour le traitement du + sitives ou négatives, de connaissance du monde et phones, les ordinateurs langage, inventé en 1991 + repérer des plaques à la classer à l'aide du et les tablettes. par le programmeur néer- + d'immatriculation, de système de Classifica- landais Guido Van Ros- + reconnaître des visages. tion décimale univer- * OULIPO sum. + Les annonces que l'on selle (UDC) qu'ils in- Le collectif Oulipo, + trouve sur cette plate- ventent. acronyme d'Ouvroir de * RECONNAISSANCE OPTIQUE + forme sont souvent rému- Littérature Potentielle, DE CARACTÈRES (ROC) + nérés moins d'un centime * NATURAL LANGUAGE est une grande source en anglais optical cha- + par tâche. Les tâches PROCESSING (NLP) d'inspiration pour Algo- racter recognition + les plus complexes ou Le traitement du langage lit. Oulipo a été créé à (OCR), ou océrisation, + nécessitant le plus de naturel (NLP) est un Paris par les écrivains désigne les procédés in- + connaissances peuvent terme collectif qui dé- Raymond Queneau et Fran- formatiques permettant + être payées jusqu'à plu- signe le traitement in- çois Le Lionnais. Ils la traduction d'images + sieurs centimes. De nom- formatique automatique ont ancré leur pratique de textes scannés en fi- + breux chercheurs univer- des langues humaines. dans l'avant-garde euro- chiers de texte manipu- + sitaires utilisent le Cela comprend les algo- péenne du XXe siècle et lables. + Mechanical Turk pour des rithmes utilisant, comme dans la tradition expé- + tâches qui auraient été données, du texte pro- rimentale des années 60. * RÉSEAUX DE NEURONES + exécutées par des étu- duit par l'homme et qui Pour Oulipo, la création Systèmes informatiques + diants auparavant. tentent de le repro- de règles devient la inspirés des réseaux + duire. condition permettant de neuronaux biologiques +* MODÈLES D’APPRENTIS- générer de nouveaux tex- trouvés dans le cerveau + SAGE AUTOMATIQUE SUPER- * N-GRAMMES DE tes, ou ce qu'ils ap- des animaux. Un réseau + VISÉ CARACTÈRES pellent la littérature de neurone n'est pas un + Pour la création de mo- une technique utilisée potentielle. Plus tard, algorithme, mais plutôt + dèles d'apprentissage pour la reconnaissance en 1981, ils ont égale- un cadre dans lequel de + automatique supervisés, de la paternité d’une ment créé ALAMO - Ate- nombreux algorithmes + les humains annotent les oeuvre. Lors de l'utili- lier de Littérature As- d'apprentissage machine + échantillons d'entraîne- sation des N-grammes de sistée par la Mathéma- différents travaillent + ment avant de les en- caractères, les textes tique et les Ordina- ensemble et traitent des + voyer à la machine. sont considérés comme teurs. données complexes. De + Chaque texte est jugé des séquences de carac- tels systèmes ‘appren- + par au moins 3 humains tères. Considérons le * PAUL OTLET nent’ à exécuter des + par exemple, s’il s’agit trigramme des carac- Paul Otlet (1868 - 1944) tâches en observant des + de spam ou non, s’il est tères. Toutes les sé- était un auteur, entre- exemples, généralement + positif ou négatif. quences de trois carac- preneur, visionnaire, sans être programmés à + tères qui se chevauchent avocat et militant pour priori avec des règles +* MODÈLES D’APPRENTIS- sont isolées. Par exem- la paix belge ; il est spécifiques. Par exem- + SAGE AUTOMATIQUE NON- ple, le trigramme de ca- l'une des nombreuses ple, un algorithme de + SUPERVISÉ ractères de suicide', personnes qui ont été reconnaissance de chat + Les modèles d'apprentis- serait, 'Sui,' uic', considérées comme le apprendra à identifier + sage automatique non su- uic', 'ici', 'cid', etc. père des sciences de les images qui + pervisés n'ont pas be- Les motifs trouvés avec l'information, un do- contiennent des chats en + soin de l’étape d’anno- les N-grammes de carac- maine qu'il a appelé ‘la observant des images qui + tations des données par tères se concentrent sur documentation’. Otlet a ont été étiquetées ma- + des humains. Par contre, les choix stylistiques créé la Classification nuellement comme ‘chat’ + ils nécessitent de qui sont faits incons- décimale universelle, ou ‘pas chat’. Il utili- + grandes quantités de ciemment par l'auteur. qui s'est répandue dans sera ces exemple pour + données pour s’entraî- Ces modèles restent les bibliothèques. Avec générer ce qu'il consi- + ner. stables sur toute la Henri La Fontaine, il dère être un chat et + longueur du texte. crée le Palais Mondial, pourra identifier les +* MUNDANEUM qui devient le Munda- chats dans d'autres + À la fin du 19ème siè- * ORACLE neum, pour abriter les images. Il le fera sans + cle, deux jeunes ju- Les Oracles sont un type collections et les acti- aucune connaissance + ristes belges, Paul Ot- particulier de modèles vités de leurs diffé- préalable sur les chats. + let (1868-1944), 'père algorithmiques souvent rents organismes et ins- Il générera automatique- + de la documentation', basés sur la statisti- tituts. ment ses propres carac- + et Henri La Fontaine que, qui servent à pré- téristiques d'identifi- + 54 + █▒░░ ▓▒█░░▒▓███▀▒░ ░▒ ▒ ░ ▒▒▓██▒ ░░ ▒░ ░ ▒ ░▓ ░▒▓ ▒ ▒█░░▒█▓▒░▓▒ ▒▓▒▒░ ▒ ▒▒ ▓▒░ ▒░▓ █ ▒░ █░█ ▓▒░ ▒▓░░ +▓ ▒░ ▒▒ ░▒░▒▓ ░ ░ ▒ ░ ▒ ▒ ░ ░ ░▒░ ░▒ ░ ▒ ░▒░▓░ ▒ ░ ▒ ░▒░ ░ ░▒ ▒░░ ░ ▒ ░░▓ ░ ▓▓░░ ░░▒▒▓░ + ░ ▒ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░░ ░ ▒ ░ ░ ░ ░ ░ ░░ ░ ░ ░ ░ ░ ░ ░ ░ + ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ +░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ + + cation à partir du maté- Une méthode de pondéra- + riel d'apprentissage qui tion utilisée dans la + lui est donné. recherche de textes. + Cette mesure statistique +* RULE-BASED MODELS permet d'évaluer l'im- + Les Oracles peuvent être portance d'un terme + créés à l'aide de diffé- contenu dans un docu- + rentes techniques. L’une ment, relativement à une + d’entre elles consiste à collection ou un corpus + définir manuellement les de textes. Le poids aug- + règles. Ces modèles sont mente proportionnelle- + appelés 'rule-based mo- ment au nombre d'occur- + dels' (modèles basés sur rences du mot dans le + des règles), et se si- document. Il varie éga- + tuent à l’opposé des mo- lement en fonction de la + dèles statistiques. Ils fréquence du mot dans le + sont utiles pour des corpus. Le TF-IDF est + tâches spécifiques, notamment utilisé dans + comme par exemple, la la classification des + détection de la mention spams. + d'une certaine molécule + dans un article scienti- * 'WORD EMBEDDINGS' + fique. Ils sont perfor- Techniques de modélisa- + mants, même avec très tion du langage qui, par + peu de données d'entraî- de multiples opérations + nement. mathématiques, tracent + des mots dans un espace +* SENTIMENT ANALYSIS vectoriel multidimen- + Également appelé 'opi- sionnel. Lorsque les + nion mining' (sondage mots sont 'embedded' ou + d'opinion). Une tâche intégrés, ils se trans- + fondamentale de l'ana- forment de symboles dis- + lyse des sentiments tincts en objets mathé- + consiste à classer un matiques, qui peuvent + texte donné comme posi- être multipliés, divi- + tif, négatif ou neutre. sés, ajoutés ou sous- + La classification avan- traits. + cée des sentiments 'au- + delà de la polarité' * WORDNET + examine, par exemple, Wordnet est une combi- + les états émotionnels naison d'un dictionnaire + tels que 'en colère', et d'un thésaurus qui + 'triste' et 'heureux'. peut être lu par des ma- + L'analyse du sentiment chines. Selon Wikipédia, + est largement appliquée il a été créé dans le + aux actions des utilisa- Cognitive Science Labo- + teurs tels que les cri- ratory de l'Université + tiques et les réponses de Princeton à partir de + aux enquêtes, les com- 1985. + mentaires et les mes- + sages sur les médias so- + ciaux, et les documents + de santé. Elle est inté- + grée dans des applica- + tions qui vont du marke- + ting au service à la + clientèle, des transac- + tions boursières à la + médecine clinique. + +* TF-IDF (TERM FREQUENCY + - INVERSE DOCUMENT + FREQUENCY) + 55 +◝ humans learn with machines ◜ ◡ machines learn from machines ◞ ◡ machines learn with humans ◞ ◝ +humans learn from machines ◟ ◜ machines learn with machines ◠ ◜ machines learn from humans ◟ ◠ +humans learn with humans ◞ ◝ humans learn from humans ◞ ◠ humans learn with machines ◟ ◡ mac +ines learn from machines ◡ ◡ machines learn with humans ◟ ◡ humans learn from machines ◝ ◟ +achines learn with machines ◠ ◝ machines learn from humans ◜ ◝ humans learn with humans ◞ ◞ +humans learn from humans ◡ ◞ humans learn with machines ◠ ◠ machines learn from machines ◠ + machines learn with humans ◞ ◜ humans learn from machines ◜ ◠ machines learn with machines ◝ + ◜ machines learn from humans ◜ ◠ humans learn with humans ◝ ◟ humans learn from humans ◞ + ◜ humans learn with machines ◡ ◡ machines learn from machines ◡ ◟ machines learn with humans +◠ ◠ humans learn from machines ◡ ◜ machines learn with machines ◜ ◟ machines learn from +umans ◟ ◞ humans learn with humans ◞ ◟ humans learn from humans ◜ ◠ humans learn with ma +hines ◜ ◠ machines learn from machines ◝ ◠ machines learn with humans ◝ ◞ humans learn f +om machines ◝ ◡ machines learn with machines ◜ ◡ machines learn from humans ◜ ◠ humans l +arn with humans ◡ ◡ humans learn from humans ◝ ◞ humans learn with machines ◟ ◡ machines +learn from machines ◜ ◜ machines learn with humans ◠ ◞ humans learn from machines ◝ ◠ ma +hines learn with machines ◟ ◟ machines learn from humans ◝ ◠ humans learn with humans ◟ + humans learn from humans ◝ ◜ humans learn with machines ◠ ◝ machines learn from machines ◞ + ◠ machines learn with humans ◝ ◟ humans learn from machines ◟ ◞ machines learn with machines +◜ ◞ machines learn from humans ◞ ◡ humans learn with humans ◠ ◞ humans learn from human + ◠ ◜ humans learn with machines ◡ ◞ machines learn from machines ◜ ◠ machines learn w +th humans ◡ ◝ humans learn from machines ◝ ◟ machines learn with machines ◠ ◠ machine + learn from humans ◞ ◟ humans learn with humans ◠ ◞ humans learn from humans ◠ ◠ huma +s learn with machines ◡ ◡ machines learn from machines ◜ ◞ machines learn with humans ◡ + ◟ humans learn from machines ◜ ◜ machines learn with machines ◜ ◝ machines learn from human + ◜ ◠ humans learn with humans ◝ ◡ humans learn from humans ◡ ◞ humans learn with mach +nes ◜ ◝ machines learn from machines ◝ ◜ machines learn with humans ◞ ◜ humans learn +rom machines ◞ ◝ machines learn with machines ◞ ◜ machines learn from humans ◡ ◞ huma +s learn with humans ◟ ◜ humans learn from humans ◞ ◡ humans learn with machines ◝ ◝ m +chines learn from machines ◜ ◟ machines learn with humans ◡ ◟ humans learn from machines ◠ + ◝ machines learn with machines ◜ ◡ machines learn from humans ◞ ◝ humans learn with huma +s ◝ ◠ humans learn from humans ◞ ◜ humans learn with machines ◠ ◝ machines learn from +machines ◟ ◡ machines learn with humans ◝ ◝ humans learn from machines ◞ ◞ machines l +arn with machines ◠ ◠ machines learn from humans ◠ ◡ humans learn with humans ◜ ◜ hum +ns learn from humans ◞ ◞ humans learn with machines ◡ ◝ machines learn from machines ◟ + ◝ machines learn with humans ◠ ◟ machines learn with humans ◠ ◜ machines learn from +machines ◡ ◜ humans learn with machines ◞ ◟ humans learn from humans ◜ ◡ humans learn +with humans ◝ ◞ machines learn from humans ◜ ◝ machines learn with machines ◜ ◠ human + learn from machines ◡ ◝ machines learn with humans ◝ ◜ machines learn from machines ◜ + ◞ humans learn with machines ◠ ◝ humans learn from humans ◠ ◝ humans learn with humans ◞ + ◡ machines learn from humans ◜ ◝ machines learn with machines ◠ ◟ humans learn from machi +es ◜ ◟ machines learn with humans ◝ ◝ machines learn from machines ◞ ◜ humans learn w +th machines ◝ ◡ humans learn from humans ◝ ◝ humans learn with humans ◠ ◠ machines le +rn from humans ◝ ◡ machines learn with machines ◡ ◡ humans learn from machines ◠ ◞ ma +hines learn with humans ◝ ◜ machines learn from machines ◜ ◝ humans learn with machines ◠ + ◞ humans learn from humans ◝ ◡ humans learn with humans ◞ ◡ machines learn from humans ◟ + ◟ machines learn with machines ◝ ◝ humans learn from machines ◜ ◟ machines learn with +umans ◡ ◝ machines learn from machines ◡ ◝ humans learn with machines ◞ ◜ humans lear + from humans ◜ ◝ humans learn with humans ◞ ◡ machines learn from humans ◝ ◡ machines +learn with machines ◞ ◟ humans learn from machines ◜ ◞ machines learn with humans ◟ ◡ +machines learn from machines ◜ ◝ humans learn with machines ◠ ◠ humans learn from humans ◠ + ◝ humans learn with humans ◟ ◞ machines learn from humans ◝ ◠ machines learn with machines +◜ ◟ humans learn from machines ◠ ◝ machines learn with humans ◝ ◜ machines learn from ma +hines ◟ ◟ humans learn with machines ◞ ◡ humans learn from humans ◝ ◝ humans learn with +umans ◡ ◝ machines learn from humans ◝ ◡ machines learn with machines ◟ ◞ humans learn f +om machines ◝ ◟ machines learn with humans ◝ ◜ machines learn from machines ◝ ◠ humans l +arn with machines ◠ ◠ humans learn from humans ◟ ◜ humans learn with humans ◟ ◝ machines +learn from humans ◡ ◡ machines learn with machines ◜ ◜ humans learn from machines ◠ ◟ ma +hines learn with humans ◞ ◜ machines learn from machines ◠ ◜ humans learn with machines ◜ + ◞ humans learn from humans ◝ ◟ humans learn with humans ◟ ◞ machines learn from humans ◟ + ◝ machines learn with machines ◡ ◜ humans learn from machines ◠ ◠ machines learn with humans ◞ + ◡ machines learn from machines ◟ ◝ humans learn with machines ◜ ◞ humans learn from huma +s ◝ ◞ humans learn with humans ◜ ◟ machines learn from humans ◜ ◞ machines learn with ma +hines ◝ ◞ humans learn from machines ◝ ◜ machines learn with humans ◟ ◜ machines learn from +machines ◡ ◟ humans learn with machines ◞ ◠ humans learn from humans ◞ ◟ humans learn with +umans ◠ ◜ machines learn from humans ◡ ◠ machines learn with machines ◠ ◝ humans learn from +machines ◠ ◜ machines learn with humans ◞ ◠ machines learn from machines ◞ ◠ humans learn w +th machines ◜ ◟ humans learn from humans ◝ ◠ humans learn with humans ◝ ◟ machines learn from +humans ◜ ◜ machines learn with machines ◠ ◞ humans learn from machines ◠ ◡ machines learn with +machines ◡ ◟ humans learn with machines ◞ ◠ humans learn from humans ◞ ◟ humans learn with mach +ines ◝ ◞ humans learn from machines ◝ ◜ machines learn with humans ◟ ◜ machines learn from hum \ No newline at end of file diff --git a/data-workers.fr.publication.pdf b/data-workers.fr.publication.pdf index aa28e51..cee22de 100644 Binary files a/data-workers.fr.publication.pdf and b/data-workers.fr.publication.pdf differ diff --git a/functions.py b/functions.py index a1cbea3..bc61c95 100644 --- a/functions.py +++ b/functions.py @@ -1,6 +1,7 @@ #! /etc/bin/python3 import random, re, subprocess +from math import sin from hyphen import Hyphenator import textwrap @@ -10,8 +11,8 @@ import nltk from nltk.tokenize import RegexpTokenizer tokenizer = RegexpTokenizer(r'[\s\W\w]\w+[\s\W\w\.]|^\w+|\w+$') # initialize tokenizer -# language = 'fr' -language = 'en' +language = 'fr' +# language = 'en' def selfwritten_linebreaks(string, linelength): count = 1 @@ -395,4 +396,31 @@ def insert_pagenumbers(pages): if page != 1 and line_number != len(lines) and page < 56: line = (' ' * page * 2) + str(page) new += line + '\n' - return new \ No newline at end of file + return new + +def sinus_jj(): + line_width = 110 + line_height = 70 + + out = '' + count = 0 + for x in range(line_width * line_height): + if count == 10: + count = 0 + s = int((sin(5 * x) + 1) * 10) + print(s) + out += str(count) + (' ' * s) + count += 1 + + page = '' + linenumber = 0 + for i, c in enumerate(out): + if i % line_width == 0: + range_start = linenumber * line_width + range_end = range_start + line_width + page += out[range_start:range_end] + '\n' + linenumber += 1 + + lines = page.split('\n') + page = '\n'.join(lines[:69]) + '\n' + return page \ No newline at end of file diff --git a/logos.pdf b/logos.pdf index f0d614b..a71d2a8 100644 Binary files a/logos.pdf and b/logos.pdf differ diff --git a/logos.svg b/logos.svg index 6edcf1c..8c0364c 100644 --- a/logos.svg +++ b/logos.svg @@ -40,8 +40,8 @@ inkscape:pageopacity="0.0" inkscape:pageshadow="2" inkscape:zoom="1.4" - inkscape:cx="586.70364" - inkscape:cy="405.46949" + inkscape:cx="431.3465" + inkscape:cy="88.326633" inkscape:document-units="mm" inkscape:current-layer="g943" showgrid="false" @@ -71,7 +71,7 @@ transform="matrix(1.5535331,0,0,1.5535331,-107.80599,-154.48735)"> + transform="matrix(0.99037148,0,0,0.99037148,1.5642691,7.8007705)">