diff --git a/README.md b/README.md new file mode 100644 index 0000000..514ed5c --- /dev/null +++ b/README.md @@ -0,0 +1,220 @@ +# plain text workflow + +Files for the publication & poster for Data Workers, an exhibition by Algolit at the Mundaneum in Mons from 28 March until 28 April 2019. + + + +` _ ` +` _ __ ___ | |_ ___ ___ ` +`| '_ \ / _ \| __/ _ \/ __|` +`| | | | (_) | || __/\__ \` +`|_| |_|\___/ \__\___||___/` + + +line width: 110 char +lines per page: 70 + +70 +140 +210 +280 +350 +420 +490 +560 +630 +700 + + +## --- txt to pdf --- + +options ... + +### weasyprint +(stretched the page size, font size, etc, in order to place everything) + +### enscript +(using postscript to create pdf) +`$ enscript --word-wrap --margins=40:10:10:20 --fancy-header writers.intro.txt -o - | ps2pdf - test.pdf` +`$ cat writers.intro.txt | iconv -c -f utf-8 -t ISO-8859-1 | enscript --word-wrap --margins=40:10:10:20 --fancy-header -o - | ps2pdf - test.pdf` + +### txt2pdf +(uses reportlab) + +`$ python3 txt2pdf/txt2pdf.py -T 1 -B 2 -L 2 -R 1 writers.intro.txt -o test.pdf` +`$ python3 txt2pdf/txt2pdf.py -m A4 -f fonts/fantasque/TTF/FantasqueSansMono-Regular.ttf -s 10 -v 0 -T 1 -B 1 -L 1.5 -R 1.5 data-workers.txt -o test.pdf` + +currently using: +`$ python3 txt2pdf/txt2pdf.py -m A4 -f fonts/fantasque/TTF/FantasqueSansMono-Regular.ttf -s 9 -v 0.05 -T 1 -B 0.9 -L 1.5 -R 1.5 data-workers.txt -o test.pdf` + +### PDF2txt miner +The inverted tool of this process +https://www.unixuser.org/~euske/python/pdfminer/ +"What's It? PDFMiner is a tool for extracting information from PDF documents. Unlike other PDF-related tools, it focuses entirely on getting and analyzing text data. PDFMiner allows one to obtain the exact location of text in a page, as well as other information such as fonts or lines." + + +## --- hyphenation --- + +### Hyphenator + + +### textwrap2 + + + +## --- commands --- + +Generate the publication to PDF: +`$ python3 create_all.py && python3 txt2pdf/txt2pdf.py -m A4 -f fonts/unifont-11.0.03.ttf -s 9 -v 0.05 -T 1 -B 0.9 -L 1.6 -R 1.4 data-workers.en.txt -o data-workers.en.pdf` + +Add logos.pdf on last page with PDFTK +`$ pdftk data-workers.en.pdf A=data-workers.en.pdf cat A52 output data-workers.en.backcover.pdf` +`$ pdftk data-workers.en.backcover.pdf multistamp logos.pdf output data-workers.en.logos.pdf ` +`$ pdftk A=data-workers.en.pdf B=data-workers.en.backcover.logos.pdf cat A1-51 B output data-workers.en.logos.pdf` + +PDFTK in one command: +`$ pdftk data-workers.en.pdf A=data-workers.en.pdf cat A52 output data-workers.en.backcover.pdf && pdftk data-workers.en.backcover.pdf multistamp logos.pdf output data-workers.en.logos.pdf && pdftk A=data-workers.en.pdf B=data-workers.en.backcover.logos.pdf cat A1-51 B output data-workers.en.logos.pdf` + + +## --- ASCII/UNICODE fonts --- + +Unicode art :) + + + + + + +## --- unifont --- + + + +## --- DUMP --- + +[\/\]\<\?\'\)\(\[\\\"\w] +░ + + + work + many authors + write + every human being + who has access + to the internet + interacts + we + chat, + write, + click, + like + and share + we + leave our data + we + find ourselves writing in Python + some neural networks + write + human editors + assist + poets, + playwrights + or novelists + assist + +--- + +Writers write +░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░ ▒▒▒▒▒▒▒▒▒▒▒▒▒▒ + + + +Data workers ░░░░░░░░░░░░ need data to ▒▒▒▒ with. work + The data that is used in the context + of Algolit, is written language. + Machine learning relies on many types + Many authors of writing. ░░░░░░░░░░░░ ▒▒▒▒▒ in the write + form of publications, like books or + articles. These are part of organised + archives and are sometimes digitized. + But there are other kinds of writing + every human too. We could say that ░░░░░░░░░░░░ +being who has access to the internet ░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░ + is a writer each time they ▒▒▒▒▒▒▒▒▒ interact + with algorithms. + +We ░░ ▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒. chat, write, + click, like + and share + + we In return for free services, ░░ ▒▒▒▒▒ leave + ▒▒▒▒▒▒▒▒ that is compiled into profiles our data + and sold for advertisement and research. + + Machine learning algorithms are not + critics: they take whatever they're + given, no matter the writing style, + no matter the CV of the author, no + matter their spelling mistakes. In + fact, mistakes make it better: the + more variety, the better they learn + to anticipate unexpected text. But + often, human authors are not aware + of what happens to their work. + + Most of the writing we use is in + English, some is in French, some in + Dutch. Most often we find ourselves + writing in Python, the programming + language we use. + + Algorithms can be writers too. Some + neural networks write their own rules + and generate their own texts. And for + the models that are still wrestling with + the ambiguities of natural language, + there are human editors to assist them. + Poets, playwrights or novelists start + their new careers as assistants of AI. + +--- + + P r o g r a mm e r s are wr iting the datawork + P r o g r am m e rs are writing the dataworker + P r o g ra m mers are writing the dataworke + P r o g r ammers a re writing the datawor + P r o g r ammers are writing the dataw + P r o gram mers a re writing the data + P r ogra m mer s are writing the d + P r o gramm e r s are writing the d + P r ogram m ers a re writing the d + P r o g ram m e rs a re writing the + P r o g r a m m ers a r e writing the +P r o g r a m m e rs are writing the d + P r o g r a m m e r s a r e wr i ting the dat +P r o g r a mme r s ar e writ ing the dataw + P r o g r amm e r s are writing the datawo + P r o g r amm e r s are writing t he datawo + P r o g ra m m er s a r e writ ing the datawork + P r o g r a mm e r s are wr iting the datawork + P r o g r a m m e rs are writing the datawo + P r o gra m m e rs are w riting the datawork + P r og r a m mers a re writing the datawor + P r o g r a mmers a re writing the datawo + P r o g r ammers a r e writing the dataw + P r o g ra mmers a re writing the dat + P r o g ramm ers a re writing the da + P r ogramm e rs a r e writing the da + P r o gramm e r s a r e writing the d + P r o g ram m e rs a r e writing the d +P r o g r a m m e rs are writing the d + P r o g r a m m e r s a r e w r iting the da +P r o g r a mme r s ar e writ ing the dataw + P r o g ramme r s are writing the datawo + P r o g r ammer s a re w riting th e datawor + P r o g r a m mers a r e writ ing the datawork + P r o g r am me r s are wr iting the datawork + + + + + diff --git a/create_all.py b/create_all.py new file mode 100644 index 0000000..a31b3f4 --- /dev/null +++ b/create_all.py @@ -0,0 +1,249 @@ +#! /etc/bin/python3 + +from bs4 import BeautifulSoup as bs + +import os + +from functions import * +from get_html_from_wiki import get_html_from_wiki +from create_cover import create_cover +from create_backcover import create_backcover +from create_zone_backcover import create_zone_backcover +from create_intro_text import create_intro_text +from create_works_text_blocks import create_works_text_block +from create_stories_layout import create_stories_layout +from create_glossary import create_glossary + +# Generate the publication to PDF: +# $ python3 create_all.py && python3 txt2pdf/txt2pdf.py -m A4 -f fonts/unifont-11.0.03.ttf -s 9 -v 0.05 -T 1 -B 0.9 -L 1.6 -R 1.4 data-workers.en.txt -o data-workers.en.pdf + +# Add logos.pdf on last page with PDFTK +# $ pdftk data-workers.en.pdf A=data-workers.en.pdf cat A52 output data-workers.en.backcover.pdf +# $ pdftk data-workers.en.backcover.pdf multistamp logos.pdf output data-workers.en.logos.pdf +# $ pdftk A=data-workers.en.pdf B=data-workers.en.backcover.logos.pdf cat A1-51 B output data-workers.en.logos.pdf + +# PDFTK in one command: +# $ pdftk data-workers.en.pdf A=data-workers.en.pdf cat A52 output data-workers.en.backcover.pdf && pdftk data-workers.en.backcover.pdf multistamp logos.pdf output data-workers.en.logos.pdf && pdftk A=data-workers.en.pdf B=data-workers.en.backcover.logos.pdf cat A1-51 B output data-workers.en.logos.pdf + +# Generate a new publication in one command: +# For the English version: + # python3 create_all.py && python3 txt2pdf/txt2pdf.py -m A4 -f fonts/unifont-11.0.03.ttf -s 9 -v 0.05 -T 1 -B 0.9 -L 1.6 -R 1.4 data-workers.en.txt -o data-workers.en.pdf && pdftk data-workers.en.pdf A=data-workers.en.pdf cat A52 output data-workers.en.backcover.pdf && pdftk data-workers.en.backcover.pdf multistamp logos.pdf output data-workers.en.logos.pdf && pdftk A=data-workers.en.pdf B=data-workers.en.backcover.logos.pdf cat A1-51 B output data-workers.en.publication.pdf +# For the French: + # python3 create_all.py && python3 txt2pdf/txt2pdf.py -m A4 -f fonts/unifont-11.0.03.ttf -s 9 -v 0.05 -T 1 -B 0.9 -L 1.6 -R 1.4 data-workers.fr.txt -o data-workers.fr.pdf && pdftk data-workers.fr.pdf A=data-workers.fr.pdf cat A56 output data-workers.fr.backcover.pdf && pdftk data-workers.fr.backcover.pdf multistamp logos.pdf output data-workers.fr.logos.pdf && pdftk A=data-workers.fr.pdf B=data-workers.fr.backcover.logos.pdf cat A1-55 B output data-workers.fr.publication.pdf + + + + +# Set the language in functions.py +from functions import language + +# To work with a local html file +# (and not download a new one all the time) +if language == 'en': + htmlfile = 'data-workers.en.html' + url = 'http://www.algolit.net/index.php/Data_Workers?action=render' +else: + htmlfile = 'data-workers.fr.html' + url = 'http://www.algolit.net/index.php/Data_Workers_FR?action=render' + +if not os.path.exists(htmlfile): + baseurl = 'http://www.algolit.net' + get_html_from_wiki(language, url, baseurl) + +html = open(htmlfile, 'r').read() +soup = bs(html, 'html.parser') + +# Main string where content is collected +out = '' + +# Insert cover +if '.en.' in htmlfile: + language = 'en' +else: + language = 'fr' +out += create_cover('data_workers', language, steps=1) + +# Insert counters page +out += insert_counters_page() + +# Tmp elements to save content that is outside the section tags +about = '' +mundaneum = '' +glossary = '' + +intro = '' +stories = '' +works = '' + +# Enable this once the zones have started +zones = False + +# Loop through all the elements of the page +for element in soup.body.section.contents: + + print('\n---') + print(element.name) + + if element.name == 'h2': + print('

(about/mundaneum/zones/glossary)') + if 'about' in element.text.lower() or 'propos' in element.text.lower(): + about += element.text.upper() + '\n' + + elif 'mundaneum' in element.text.lower(): + mundaneum += element.text.upper() + '\n' + + elif 'zones' in element.text.lower(): + + # Append about and mundaneum text + # as soon as the 'zones' section starts + about_txt = insert_linebreaks(about, 65, type='word', double_linebreaks=True) + mundaneum_txt = insert_linebreaks(mundaneum, 40, type='word', double_linebreaks=True) + about_and_mundaneum = insert_text_block(about_txt, mundaneum_txt, 70, 40) + # about_and_mundaneum = create_header(about_and_mundaneum) + out += fill_page(about_and_mundaneum) + print('==> Appended about + mundaneum') + about = False + mundaneum = False + + # Also append the stories text + # as soon as the 'zones' section starts + if stories: + stories_txt = create_stories_layout(stories) + print('>>> create_stories_layout length:', len(stories_txt.split('\n'))) + pages = fill_page(stories_txt) + out += pages + print('==> Appended stories (Algolit)') + stories = '' + + zones = True + + elif 'glossary' in element.text.lower() or 'glossaire' in element.text.lower(): + glossary += add_headers('glossary', element) + zones = False + + elif element.name == 'h3': + print('

(writers/oracles/cleaners/informants/readers/learners)') + zone = element.text + print('-->', zone) + + # Add extra pages, to make sure the new zones always start on the right page + if zone.lower() == 'oracles': + out += insert_counters_page() + if zone.lower() == 'readers' or zone.lower() == 'lecteurs': + out += insert_counters_page() + + # Add zone cover + cover = create_cover(zone.lower(), language, steps=1) + out += cover + print('==> Appended cover:', zone) + + # Add backcover analysis for zone + zone_backcover = create_zone_backcover(zone, language, out) + zone_backcover = fill_page(zone_backcover) + print('>>> fill_page length:', len(pages.split('\n'))) + out += zone_backcover + print('==> Appended zone_backcover') + + # Insert Works or Stories sections + elif element.name == 'section': + print('
') + if 'group' in element['class'][-1]: + for section_element in element.children: + if 'stories' in section_element['class'] or 'récits' in section_element['class'][1]: + print('--> Stories') + for child_element in section_element.children: + print('---->', child_element.name) + stories += add_headers('stories', child_element) + elif 'works' in section_element['class']: + print('--> Works') + for child_element in section_element.children: + print('---->', child_element.name) + works += add_headers('works', child_element) + + # print('intro:', intro) + # print('stories:', stories) + # print('works:', works) + + if zones == True: + + if intro: + intro_txt = create_intro_text(intro, zone) + intro = '' + else: + intro_txt = '' + + if works: + works_txt = create_works_text_block(intro_txt, works) + pages = fill_page(works_txt) + + # Insert symbol backgrounds + lines = '' + for i, line in enumerate(pages.split('\n')): + lines += line + '\n' + line_number = i + 1 + if line_number % 69 == 0: + out += insert_symbol_background(lines, 110, ['%', '%', '%', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' '], 1) + lines = '' + + print('==> Appended intro + works') + works = '' + + if stories: + stories_txt = create_stories_layout(stories) + print('>>> create_stories_layout length:', len(stories_txt.split('\n'))) + pages = fill_page(stories_txt) + print('>>> fill_page length:', len(pages.split('\n'))) + out += pages + print('==> Appended stories') + stories = '' + + print('
') + + else: + try: + if zones == True: + # Append introduction text here, + # when the zones section starts + # (as this text is written outside a section) + intro += add_headers('intro', element) + elif glossary: + glossary += add_headers('glossary', element) + elif mundaneum: + mundaneum += check_element(element) + elif about: + about += check_element(element) + except: + print('no content >>>', element.name) + + # try: + # if element.name != 'section': + # print(element.text) + # except: + # continue + +# Insert placeholder/fillup page +if language == 'fr': + out += insert_counters_page() + +# Append glossary +glossary_txt = create_glossary(glossary) +# out += glossary_txt +out += fill_page(glossary_txt) +print('==> Appended glossary') + +# Append backcover +out += create_backcover() +print('==> Appended backcover') + +out = insert_pagenumbers(out) + +# Special Effects +# out = insert_symbol_background(out, 110, [' '], 1) +# out = insert_symbol_background(out, 110, ['%', '%', '%', '%', '%', '%', '%', '%', '%', '%', '%', '%', '%', '%', '%', '%', '%', '%', '%', '%', '%', '%', '%', '%', '%', '%', '%', '%', '%', '%', '%', '%', '%', '%', '%', '%', '%', '%', '%', '%', '%', '%', '%', '%', '%', '%', '%', '%', '%', '%', '%', '%', '%', '%', '%', '%', '%', '%', '%', '%', '%', '%', '%', '%', '%', '%', '%', '%', '%', '%', '%', '%', '%', '%', '%', '%', '%', '%', '%', '%', '%', ' '], 1) +# out = insert_symbol_background(out, 110, ['&', '&', '&', '&', '&', '&', '&', '&', '&', '&', '&', '&', '&', '&', '&', '&', '&', '&', '&', '&', '&', '&', '&', '&', '&', '&', '&', '&', '&', '&', '&', '&', '&', '&', '&', '&', '&', '&', '&', '&', '&', '&', '&', '&', '&', '&', '&', '&', '&', '&', '&', '&', '&', '&', '&', '&', '&', '&', '&', '&', '&', '&', '&', '&', '&', '&', '&', '&', '&', '&', '&', '&', '&', '&', '&', '&', '&', '&', '&', '&', '&', ' '], 1, inverted=True) + +out_filename = '{}'.format(htmlfile.replace('.html', '.txt')) +out_file = open(out_filename, 'w+') +out_file.write(out) +print('*{} written*'.format(out_filename)) + diff --git a/create_backcover.py b/create_backcover.py new file mode 100644 index 0000000..e7b00f1 --- /dev/null +++ b/create_backcover.py @@ -0,0 +1,51 @@ + +from math import log +import random +from functions import insert_linebreaks + +groups_left = ['humans', 'humans', 'machines', 'machines', 'humans', 'machines', 'machines', 'humans'] +groups_right = ['humans', 'machines', 'machines', 'humans', 'machines', 'machines', 'humans', 'humans'] +verb = 'learn' +relations = ['from', 'with'] +symbols = ['◜', '◝', '◞', '◟', '◠', '◡'] + +def create_backcover(steps=1): + linewidth = 110 + lines_per_page = 70 + maximum = 100 + + tmp = '' + + for i in range(1, maximum): + tmp += random.choice(symbols) + tmp += ' ' + tmp += groups_left[i % len(groups_left)] + tmp += ' ' + tmp += verb + tmp += ' ' + tmp += relations[i % 2] + tmp += ' ' + tmp += groups_right[i % len(groups_right)] + tmp += ' ' + tmp += random.choice(symbols) + tmp += ' ' * int(log(i) + 5) + + for i in reversed(range(1, maximum)): + tmp += ' ' * int(log(i) + 5) + tmp += random.choice(symbols) + tmp += ' ' + tmp += groups_left[i % len(groups_left)] + tmp += ' ' + tmp += verb + tmp += ' ' + tmp += relations[i % 2] + tmp += ' ' + tmp += groups_right[i % len(groups_right)] + tmp += ' ' + tmp += random.choice(symbols) + + out = insert_linebreaks(tmp, linewidth) + out = '\n'.join(out.split('\n')[:lines_per_page]) # select the lines to fill one page + return out + '\n' + +# print(create_backcover(steps=1)) \ No newline at end of file diff --git a/create_cover.py b/create_cover.py new file mode 100644 index 0000000..83e1287 --- /dev/null +++ b/create_cover.py @@ -0,0 +1,173 @@ + +from functions import insert_linebreaks, language + +# txt art +# unicode art +# plainpatterns +# plaintxtfun + +covers = { + 'en': { + 'data_workers' : { + 'subject' : 'data workers', + 'action' : 'write, perform, clean, inform, read and learn' + }, + 'writers' : { + 'subject' : 'writers', + 'action' : 'write' + }, + 'oracles' : { + 'subject' : 'oracles', + 'action' : 'predict' + }, + 'cleaners' : { + 'subject' : 'cleaners', + 'action' : 'clean' + }, + 'informants' : { + 'subject' : 'informants', + 'action' : 'inform' + }, + 'readers' : { + 'subject' : 'readers', + 'action' : 'read' + }, + 'learners' : { + 'subject' : 'learners', + 'action' : 'learn' + } + }, + 'fr' : { + 'data_workers' : { + 'subject' : 'data workers', + 'action' : 'write, perform, clean, inform, read and learn' + }, + 'écrivains' : { + 'subject' : 'writers', + 'action' : 'write' + }, + 'oracles' : { + 'subject' : 'oracles', + 'action' : 'predict' + }, + 'nettoyeurs' : { + 'subject' : 'cleaners', + 'action' : 'clean' + }, + 'informateurs' : { + 'subject' : 'informants', + 'action' : 'inform' + }, + 'lecteurs' : { + 'subject' : 'readers', + 'action' : 'read' + }, + 'apprenants' : { + 'subject' : 'learners', + 'action' : 'learn' + } + }, + 'fr.bak' : { + 'data_workers' : { + 'subject' : 'data workers', + 'action' : 'écrire, exécuter, nettoyer, informer, lire et apprendre' + }, + 'écrivains' : { + 'subject' : 'écrivains', + 'action' : 'écrire' + }, + 'oracles' : { + 'subject' : 'oracles', + 'action' : 'exécuter' + }, + 'nettoyeurs' : { + 'subject' : 'nettoyeurs', + 'action' : 'nettoyer' + }, + 'informateurs' : { + 'subject' : 'informateurs', + 'action' : 'informer' + }, + 'lecteurs' : { + 'subject' : 'lecteurs', + 'action' : 'lire' + }, + 'apprenants' : { + 'subject' : 'apprenants', + 'action' : 'apprendre' + } + } +} + +cover_bottom_en = ''' + + + What + can + humans learn from humans + humans learn with machines +machines learn from machines +machines learn with humans + humans learn from machines +machines learn with machines +machines learn from humans + humans learn with humans + ? ? ? + +Data Workers, an exhibition at the Mundaneum in Mons from 28 March until 28 April 2019.''' + +cover_bottom_fr = ''' + + + What + can + humans learn from humans + humans learn with machines +machines learn from machines +machines learn with humans + humans learn from machines +machines learn with machines +machines learn from humans + humans learn with humans + ? ? ? + +Data Workers, une exposition au Mundaneum à Mons du 28 mars au 28 avril 2019.''' + +def create_cover(zone, language, steps=1): + + linewidth = 110 + lines_per_page = 70 + maximum = 100 + + subject = covers[language][zone]['subject'] + action = covers[language][zone]['action'] + + tmp = '' + + for i in range(2, maximum): + tmp += subject + tmp += ' ' + tmp += action + tmp += ' ' * steps * i # spaces + + for i in reversed(range(maximum)): + tmp += subject + tmp += ' ' + tmp += action + tmp += ' ' * steps * i # spaces + + out = insert_linebreaks(tmp, linewidth) + + # insert bottom text only on the main cover + if 'data_workers' in zone: + if language == 'en': + out = '\n'.join(out.split('\n')[:lines_per_page-15]) # select the lines to fill one page + out += cover_bottom_en + else: + out = '\n'.join(out.split('\n')[:lines_per_page-15]) # select the lines to fill one page + out += cover_bottom_fr + else: + out = '\n'.join(out.split('\n')[:lines_per_page]) # select the lines to fill one page + return out + '\n' + +# print(create_cover(zone, steps=1)) \ No newline at end of file diff --git a/create_glossary.py b/create_glossary.py new file mode 100644 index 0000000..9ae768e --- /dev/null +++ b/create_glossary.py @@ -0,0 +1,74 @@ +from functions import insert_linebreaks, insert_text_block +from create_inserted_header import insert_header +import math + +def create_columns(string, column_count, page_height): + print('--- start create_columns() ---') + print('>>> column_count:', column_count) + # column_width = int(113/column_count) + column_width = 28 + string = string.replace(': ', '\n') # Insert linebreaks for legibility + string = insert_linebreaks(string, column_width-4, type='word') + + # Double check the linebreaks + lines = string.split('\n') + all_lines = [] + for line in lines: + if len(line) > column_width - 1: + line = insert_linebreaks(line, column_width-8, type='word') + all_lines.append(line) + lines = all_lines + + total_number_of_columns = math.ceil(len(lines)/page_height) + number_of_pages = total_number_of_columns/column_count + print('>>> number_of_pages:', number_of_pages) + print('>>> total_number_of_columns:', total_number_of_columns) + + pages = '' + columns_string = '' + columns = [] + current_column = 1 + for num in range(0, total_number_of_columns): + + # print('>>> current column:', num) + columns.append([]) + current_start = num * page_height + current_end = current_start + page_height + # print('>>> current start/end:', current_start, current_end) + current_line_range = lines[current_start:current_end] + # print('>>> line range:', current_line_range) + + line_count = 1 + for l, line in enumerate(current_line_range): + + if '* ' in line: + columns[num].append(line.upper()) + line_count += 1 + elif line_count <= page_height: + columns[num].append(' ' + line) + line_count += 1 + + if num == 0: + columns_string = '\n'.join(columns[num]) # Start of a new column string + current_column += 1 + + elif num % column_count == 0: + pages += insert_header(columns_string) + '\n' # Append new page + columns_string = '\n'.join(columns[num]) # Start of a new column string + current_column = 2 + line_count = 1 + + else: + left = (column_width + 0) * (current_column - 1) + new_column = '\n'.join(columns[num]) + columns_string = insert_text_block(columns_string, new_column, left, 25) + current_column += 1 + + pages += insert_header(columns_string) # Append new page + print('--- end create_columns() ---') + return pages + +def create_glossary(string): + return create_columns(string, 4, 63) + + diff --git a/create_inserted_header.py b/create_inserted_header.py new file mode 100644 index 0000000..32bfb23 --- /dev/null +++ b/create_inserted_header.py @@ -0,0 +1,28 @@ +header = '''\ + █▒░░ ▓▒█░░▒▓███▀▒░ ░▒ ▒ ░ ▒▒▓██▒ ░░ ▒░ ░ ▒ ░▓ ░▒▓ ▒ ▒█░░▒█▓▒░▓▒ ▒▓▒▒░ ▒ ▒▒ ▓▒░ ▒░▓ █ ▒░ █░█ ▓▒░ ▒▓░░ +▓ ▒░ ▒▒ ░▒░▒▓ ░ ░ ▒ ░ ▒ ▒ ░ ░ ░▒░ ░▒ ░ ▒ ░▒░▓░ ▒ ░ ▒ ░▒░ ░ ░▒ ▒░░ ░ ▒ ░░▓ ░ ▓▓░░ ░░▒▒▓░ + ░ ▒ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░░ ░ ▒ ░ ░ ░ ░ ░ ░░ ░ ░ ░ ░ ░ ░ ░ ░ + ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ +░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░''' + +# header = '''▒░ ▒░ ▒░ ▒░ ▒░ ▒░ ▒░ ▒░ ▒░ ▒░ ▒░ ▒░ ▒░ ▒░ ▒░ ▒░ ▒░ ▒░ ▒░ ▒░ ▒░ ▒░ ''' + +# header = '''▒ ▒ ▒ ▒ ▒ ▒ ▒ ▒ ▒ ▒ ▒ ▒ ▒ ▒ ▒ ▒ ▒ ▒ ▒ ▒ ▒ ▒ +# ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ''' + +# header = '''▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒''' + +def insert_header(string): + lines = string.split('\n') + pages = '' + current_page = '' + count = 1 + for i, line in enumerate(lines): + if i + 1 == len(lines): + current_page += line + pages += header + '\n\n' + current_page + '\n' + else: + current_page += line + '\n' + count += 1 + + return pages \ No newline at end of file diff --git a/create_intro_text.py b/create_intro_text.py new file mode 100644 index 0000000..0af781b --- /dev/null +++ b/create_intro_text.py @@ -0,0 +1,13 @@ + +from functions import insert_linebreaks, align + +header = '''\ + V V V V V V V V + V V V V V V V V V V V V V V V V +V V V V V V V V V''' + +def create_intro_text(string, zone): + intro_text = insert_linebreaks(string, 35, type='word') + intro_text = intro_text.replace('\nWorks\n', '') + intro_text = intro_text.replace('\nOeuvres\n', '') + return header + '\n\n\n' + align(zone.upper(), 35) + '\n\n\n' + header + '\n' + header + intro_text diff --git a/create_stories_layout.py b/create_stories_layout.py new file mode 100644 index 0000000..73cd99c --- /dev/null +++ b/create_stories_layout.py @@ -0,0 +1,80 @@ +from functions import insert_linebreaks, insert_text_block, apply_zigzag, language + +def check_if_page_is_not_empty(string): + new_page = False + lines = string.split('\n') + print('... Checking if this page is not empty ...') + print(lines) + for line in lines: + if line.strip() != '': + new_page = True + print('>>> new_page:', new_page) + return new_page + +def create_stories_layout(stories_txt): + if language == 'en': + columnwidth = 50 + else: + columnwidth = 48 + + stories = insert_linebreaks(stories_txt, 50, type='word') + stories_lines = stories.split('\n') + + # insert empty lines for header space + column_count = 0 + lines = '' + line_number = 1 + for line in stories_lines: + if line_number % 69 == 0: + lines += '\n' * 5 + line_number += 5 + lines += line + '\n' + line_number += 1 + column_count += 1 + else: + lines += line + '\n' + line_number += 1 + + # make zigzag columns + zigzag = apply_zigzag(lines, 5) + zigzag_lines = zigzag.split('\n') + + # make two-column page(s) + count = 1 + pages = '' + current_page_first_column = '' + current_page_second_column = '' + for i, line in enumerate(zigzag_lines): + if count < 68: + current_page_first_column += line + '\n' + count += 1 + elif count < 69: + current_page_first_column += line + count += 1 + elif count < 137: + current_page_second_column += line + '\n' + count += 1 + elif count < 138: + current_page_second_column += line + count += 1 + else: + print('>>> length first column:', len(current_page_first_column.split('\n'))) + print('>>> length second column:', len(current_page_second_column.split('\n'))) + current_page_two_columns = insert_text_block(current_page_first_column, current_page_second_column, 56, 0) + pages += current_page_two_columns + '\n' + print('--> Page added to this stories page, with length:', len(current_page_two_columns.split('\n'))) + current_page_first_column = line + '\n' + current_page_second_column = '' + count = 1 + + # Check if the current line is the very last one + # if so, append a new page + if i + 1 == len(zigzag_lines): + print('... Ready to add a stories page, with length:', len(current_page_first_column.split('\n'))) + new_page = check_if_page_is_not_empty(current_page_first_column) + if new_page == True: + current_page_two_columns = insert_text_block(current_page_first_column, current_page_second_column, 56, 48) + pages += current_page_two_columns + '\n' + print('--> Page added to this stories page, with length:', len(current_page_two_columns.split('\n'))) + + return pages \ No newline at end of file diff --git a/create_works_text_blocks.py b/create_works_text_blocks.py new file mode 100644 index 0000000..d255a4d --- /dev/null +++ b/create_works_text_blocks.py @@ -0,0 +1,6 @@ + +from functions import insert_linebreaks, insert_text_block + +def create_works_text_block(intro_text, works_text): + works_text_block = insert_linebreaks(works_text, 65, type='word') + return insert_text_block(intro_text, works_text_block, 42, 65) \ No newline at end of file diff --git a/create_zone_backcover.py b/create_zone_backcover.py new file mode 100644 index 0000000..4e43c18 --- /dev/null +++ b/create_zone_backcover.py @@ -0,0 +1,147 @@ + +import random, math +from functions import insert_linebreaks, insert_text_block, convert_to_figlet_font, insert_symbol_background + +zones = { + 'en' : { + 'writers' : { + 'subjects' : ['data workers', 'many authors', 'every human being who has access to the internet', 'we', 'we', 'we', 'some neural networks', 'human editors', 'poets, playwrights or novelists'], + 'actions' : ['work', 'write', 'interacts', 'chat, write, click, like and share', 'leave our data', 'find ourselves writing in Python', 'write', 'assist', 'assist'], + 'verb' : 'write' + }, + 'oracles' : { + 'subjects' : ['machine learning', 'models', 'models', 'they', 'they', 'information extraction', 'text classification'], + 'actions' : ['analyses and predicts', 'have learned', 'are used', 'influence', 'have their say', 'recognizes', 'detects'], + 'verb' : 'predict' + }, + 'cleaners' : { + 'subjects' : ['we', 'we', 'human work', 'poorly-paid freelancers', 'volunteers', 'whoever'], + 'actions' : ['helped', 'cleaned', 'is needed', 'carry out', 'do fantastic work', 'cleans up text'], + 'verb' : 'clean' + }, + 'informants' : { + 'subjects' : ['each dataset', 'datasets', 'some datasets', 'models that require supervision', 'models', 'some of the datasets', 'humans'], + 'actions' : ['collects different information about the world', 'are imbued with collector\'s bias', 'combine machinic logic with human logic', 'multiply the subjectivities', 'propagate what they\'ve been taught', 'pass as default in the machine learning field', 'guide machines'], + 'verb' : 'inform' + }, + 'readers' : { + 'subjects' : ['a computer', 'all models', 'some models', 'some models'], + 'actions' : ['understands', 'translate', 'count', 'replace'], + 'verb' : 'read' + }, + 'learners' : { + 'subjects' : ['learners', 'learners', 'learners', 'classifiers', 'learners', 'learners'], + 'actions' : ['are pattern finders', 'are crawling through data', 'generate some kind of specific \'grammar\'', 'generate, evaluate and readjust', 'understand and reveal patterns', 'don\'t always distuinguish well which patterns should be repeated'], + 'verb' : 'learn' + } + }, + 'fr' : { + 'écrivains' : { + 'subjects' : ['data workers', 'many authors', 'every human being who has access to the internet', 'we', 'we', 'we', 'some neural networks', 'human editors', 'poets, playwrights or novelists'], + 'actions' : ['work', 'write', 'interacts', 'chat, write, click, like and share', 'leave our data', 'find ourselves writing in Python', 'write', 'assist', 'assist'], + 'subject' : 'writers', + 'verb' : 'write' + }, + 'oracles' : { + 'subjects' : ['machine learning', 'models', 'models', 'they', 'they', 'information extraction', 'text classification'], + 'actions' : ['analyses and predicts', 'have learned', 'are used', 'influence', 'have their say', 'recognizes', 'detects'], + 'subject' : 'oracles', + 'verb' : 'predict' + }, + 'nettoyeurs' : { + 'subjects' : ['we', 'we', 'human work', 'poorly-paid freelancers', 'volunteers', 'whoever'], + 'actions' : ['helped', 'cleaned', 'is needed', 'carry out', 'do fantastic work', 'cleans up text'], + 'subject' : 'cleaners', + 'verb' : 'clean' + }, + 'informateurs' : { + 'subjects' : ['each dataset', 'datasets', 'some datasets', 'models that require supervision', 'models', 'some of the datasets', 'humans'], + 'actions' : ['collects different information about the world', 'are imbued with collector\'s bias', 'combine machinic logic with human logic', 'multiply the subjectivities', 'propagate what they\'ve been taught', 'pass as default in the machine learning field', 'guide machines'], + 'subject' : 'informants', + 'verb' : 'inform' + }, + 'lecteurs' : { + 'subjects' : ['a computer', 'all models', 'some models', 'some models'], + 'actions' : ['understands', 'translate', 'count', 'replace'], + 'subject' : 'readers', + 'verb' : 'read' + }, + 'apprenants' : { + 'subjects' : ['learners', 'learners', 'learners', 'classifiers', 'learners', 'learners'], + 'actions' : ['are pattern finders', 'are crawling through data', 'generate some kind of specific \'grammar\'', 'generate, evaluate and readjust', 'understand and reveal patterns', 'don\'t always distuinguish well which patterns should be repeated'], + 'subject' : 'learners', + 'verb' : 'learn' + } + } +} + +def create_zone_backcover(zone, language, symbols): + print('... Creating zone_backcover') + + symbols = symbols.replace('\n', '') + + if language == 'fr': + zone = zones[language][zone.lower()]['subject'] + language = 'en' + + subjects = zones[language][zone.lower()]['subjects'] + actions = zones[language][zone.lower()]['actions'] + subject_figlets = [convert_to_figlet_font(subject, 18, font='digital', alignment='right') for subject in subjects] + action_figlets = [convert_to_figlet_font(action, 18, font='digital', alignment='left') for action in actions] + + # Sync the left and right column + # Count the length of the lines for each subject and action + subjects_num_of_lines = [int(len(subject.split('\n')) / 3) for subject in subject_figlets] + actions_num_of_lines = [int(len(action.split('\n')) / 3) for action in action_figlets] + + # Apply the counting, append extra lines + subjects_string = '' + for s, subject in enumerate(subjects): + if actions_num_of_lines[s] == 1: + actions_num_of_lines[s] = 0 + subjects_string += subject_figlets[s] + ('\n\n\n' * (actions_num_of_lines[s] - 1)) + # print('subject', actions_num_of_lines[s], subject) + actions_string = '' + for a, action in enumerate(actions): + if subjects_num_of_lines[a] == 1: + subjects_num_of_lines[a] = 0 + actions_string += ('\n\n\n' * (subjects_num_of_lines[a] - 1)) + action_figlets[a] + # print(' action', subjects_num_of_lines[a], action) + + left = insert_linebreaks(subjects_string, 56, type='wrap') + right = insert_linebreaks(actions_string, 56, type='wrap') + two_columns = insert_text_block(left, right, 57, 55) + + page = '' + + # Append the header + subject_left = convert_to_figlet_font(zone.lower(), 18, font='digital', alignment='right')+'\n' + subject_left = insert_linebreaks(subject_left, 56, type='wrap') + action_right = convert_to_figlet_font(zones[language][zone.lower()]['verb'], 18, font='digital', alignment='left')+'\n' + action_right = insert_linebreaks(action_right, 56, type='wrap') + page += insert_text_block(subject_left, action_right, 57, 55) + page += '\n' + + # Insert the two columns + page += two_columns + '\n' + + # Fill the remaining empty lines on the page + current_page_lines = len(page.split('\n')) + if current_page_lines < 70: + for x in range(current_page_lines, 69): + print(x) + for y in range(1, 110): + print(y) + page += ' ' + page += '\n' + + # Apply symbols background + multiplier = 500 + page = insert_symbol_background(page, 110, symbols, multiplier) + print('>>> current_page_lines:', len(page.split('\n'))) + + return page + +# print(create_zone_backcover('writers')) + + diff --git a/data-workers.en.html b/data-workers.en.html new file mode 100644 index 0000000..c76f3dc --- /dev/null +++ b/data-workers.en.html @@ -0,0 +1,579 @@ + + + + + +Data Workers + + + +


+Data Workers, an exhibition at the Mundaneum in Mons from 28 March until 29 April 2019. +

The opening is on Thursday 28 March from 18:00 until 22:00. As part of the exhibition, we have invited Allison Parrish, an algoliterary poet from New York. She will give a talk in Passa Porta on Thursday evening 25 April and a workshop in the Mundaneum on Friday 26 April. +

+

About

+

Data Workers is an exhibition of algoliterary works, of stories told from an ‘algorithmic storyteller point of view’. The exhibition was created by members of Algolit, a group from Brussels involved in artistic research on algorithms and literature. Every month they gather to experiment with F/LOSS code and texts. Some works are by students of Arts² and external participants to the workshop on machine learning and text organized by Algolit in October 2018 at the Mundaneum. +

Companies create artificial intelligence (AI) systems to serve, entertain, record and learn about humans. The work of these machinic entities is usually hidden behind interfaces and patents. In the exhibition, algorithmic storytellers leave their invisible underworld to become interlocutors. The data workers operate in different collectives. Each collective represents a stage in the design process of a machine learning model: there are the Writers, the Cleaners, the Informants, the Readers, the Learners and the Oracles. The boundaries between these collectives are not fixed; they are porous and permeable. At times, Oracles are also Writers. At other times Readers are also Oracles. Robots voice experimental literature, while algorithmic models read data, turn words into numbers, make calculations that define patterns and are able to endlessly process new texts ever after. +

The exhibition foregrounds data workers who impact our daily lives, but are either hard to grasp and imagine or removed from the imagination altogether. It connects stories about algorithms in mainstream media to the storytelling that is found in technical manuals and academic papers. Robots are invited to engage in dialogue with human visitors and vice versa. In this way we might understand our respective reasonings, demystify each other's behaviour, encounter multiple personalities, and value our collective labour. It is also a tribute to the many machines that Paul Otlet and Henri La Fontaine imagined for their Mundaneum, showing their potential but also their limits. +

+

Contextual stories about Algolit

Why contextual stories?

During the monthly meetings of Algolit, we study manuals and experiment with machine learning tools for text processing. And we also share many, many stories. With the publication of these stories we hope to recreate some of that atmosphere. The stories also exist as a podcast that can be downloaded from http://www.algolit.net. +

For outsiders, algorithms only become visible in the media when they achieve an outstanding performance, like Alpha Go, or when they break down in fantastically terrifying ways. Humans working in the field though, create their own culture on and offline. They share the best stories and experiences during live meetings, research conferences and annual competitions like Kaggle. These stories that contextualize the tools and practices can be funny, sad, shocking, interesting. +

A lot of them are experiential learning cases. The implementations of algorithms in society generate new conditions of labour, storage, exchange, behaviour, copy and paste. In that sense, the contextual stories capture a momentum in a larger anthropo-machinic story that is being written at full speed and by many voices. +

We create 'algoliterary' works

The term 'algoliterary' comes from the name of our research group Algolit. We have existed since 2012 as a project of Constant, a Brussels-based organization for media and the arts. We are artists, writers, designers and programmers. Once a month we meet to study and experiment together. Our work can be copied, studied, changed, and redistributed under the same free license. You can find all the information on: http://www.algolit.net. +

The main goal of Algolit is to explore the viewpoint of the algorithmic storyteller. What new forms of storytelling do we make possible in dialogue with these machinic agencies? Narrative viewpoints are inherent to world views and ideologies. Don Quixote, for example, was written from an omniscient third-person point of view, showing Cervantes’ relation to oral traditions. Most contemporary novels use the first-person point of view. Algolit is interested in speaking through algorithms, and in showing you the reasoning underlying one of the most hidden groups on our planet. +

To write in or through code is to create new forms of literature that are shaping human language in unexpected ways. But machine Learning techniques are only accessible to those who can read, write and execute code. Fiction is a way of bridging the gap between the stories that exist in scientific papers and technical manuals, and the stories spread by the media, often limited to superficial reporting and myth-making. By creating algoliterary works, we offer humans an introduction to techniques that co-shape their daily lives. +

What is literature?

Algolit understands the notion of literature in the way a lot of other experimental authors do: it includes all linguistic production, from the dictionary to the Bible, from Virginia Woolf's entire work to all versions of the Terms of Service published by Google since its existence. In this sense, programming code can also be literature. +

The collective Oulipo is a great source of inspiration for Algolit. Oulipo stands for Ouvroir de litterature potentielle (Workspace for Potential Literature). Oulipo was created in Paris by the French writers Raymond Queneau and François Le Lionnais. They rooted their practice in the European avant-garde of the twentieth century and in the experimental tradition of the 1960s. +

For Oulipo, the creation of rules becomes the condition to generate new texts, or what they call potential literature. Later, in 1981, they also created ALAMO, Atelier de littérature assistée par la mathématique et les ordinateurs (Workspace for literature assisted by maths and computers). +

An important difference

While the European avant-garde of the twentieth century pursued the objective of breaking with conventions, members of Algolit seek to make conventions visible. +

'I write: I live in my paper, I invest it, I walk through it.' (Espèces d'espaces. Journal d'un usager de l'espace, Galilée, Paris, 1974) +

This quote from Georges Perec in Espèces d'espaces could be taken up by Algolit. We're not talking about the conventions of the blank page and the literary market, as Georges Perec was. We're referring to the conventions that often remain hidden behind interfaces and patents. How are technologies made, implemented and used, as much in academia as in business infrastructures? +

We propose stories that reveal the complex hybridized system that makes machine learning possible. We talk about the tools, the logics and the ideologies behind the interfaces. We also look at who produces the tools, who implements them, and who creates and accesses the large amounts of data needed to develop prediction machines. One could say, with the wink of an eye, that we are collaborators of this new tribe of human-robot hybrids. +

+
+

Data Workers was created by Algolit. +

Works by: Cristina Cochior, Gijs de Heij, Sarah Garcin, An Mertens, Javier Lloret, Louise Dekeuleneer, Florian Van de Weyer, Laetitia Trozzi, Rémi Forte, Guillaume Slizewicz, Michael Murtaugh, Manetta Berends, Mia Melvær. +

Co-produced by: Arts², Constant and Mundaneum. +

With the support of: Wallonia-Brussels Federation/Digital Arts, Passa Porta, UGent, DHuF - Digital Humanities Flanders and Distributed Proofreaders Project. +

Thanks to: Mike Kestemont, Michel Cleempoel, Donatella Portoghese, François Zajéga, Raphaèle Cornille, Vincent Desfromont, Kris Rutten, Anne-Laure Buisson, David Stampfli. +

+

At the Mundaneum

+

In the late nineteenth century two young Belgian jurists, Paul Otlet (1868–1944), the 'father of documentation’, and Henri La Fontaine (1854-1943), statesman and Nobel Peace Prize winner, created the Mundaneum. The project aimed to gather all the world’s knowledge and to file it using the Universal Decimal Classification (UDC) system that they had invented. At first it was an International Institutions Bureau dedicated to international knowledge exchange. In the twentieth century the Mundaneum became a universal centre of documentation. Its collections are made up of thousands of books, newspapers, journals, documents, posters, glass plates and postcards indexed on millions of cross-referenced cards. The collections were exhibited and kept in various buildings in Brussels, including the Palais du Cinquantenaire. The remains of the archive only moved to Mons in 1998. +

Based on the Mundaneum, the two men designed a World City for which Le Corbusier made scale models and plans. The aim of the World City was to gather, at a global level, the institutions of knowledge: libraries, museums and universities. This project was never realized. It suffered from its own utopia. The Mundaneum is the result of a visionary dream of what an infrastructure for universal knowledge exchange could be. It attained mythical dimensions at the time. When looking at the concrete archive that was developed, that collection is rather eclectic and specific. +

Artificial intelligence systems today come with their own dreams of universality and knowledge production. When reading about these systems, the visionary dreams of their makers were there from the beginning of their development in the 1950s. Nowadays, their promise has also attained mythical dimensions. When looking at their concrete applications, the collection of tools is truly innovative and fascinating, but at the same time, rather eclectic and specific. For Data Workers, Algolit combined some of the applications with 10 per cent of the digitized publications of the International Institutions Bureau. In this way, we hope to poetically open up a discussion about machines, algorithms, and technological infrastructures. +

+

Zones

+

Writers

+

Data workers need data to work with. The data that used in the context of Algolit is written language. Machine learning relies on many types of writing. Many authors write in the form of publications, such as books or articles. These are part of organized archives and are sometimes digitized. But there are other kinds of writing too. We could say that every human being who has access to the Internet is a writer each time they interact with algorithms. We chat, write, click, like and share. In return for free services, we leave our data that is compiled into profiles and sold for advertising and research purposes. +

Machine learning algorithms are not critics: they take whatever they're given, no matter the writing style, no matter the CV of the author, no matter the spelling mistakes. In fact, mistakes make it better: the more variety, the better they learn to anticipate unexpected text. But often, human authors are not aware of what happens to their work. +

Most of the writing we use is in English, some in French, some in Dutch. Most often we find ourselves writing in Python, the programming language we use. Algorithms can be writers too. Some neural networks write their own rules and generate their own texts. And for the models that are still wrestling with the ambiguities of natural language, there are human editors to assist them. Poets, playwrights or novelists start their new careers as assistants of AI. +

+
Works
+

Data Workers Publication

By Algolit +

All works visible in the exhibition, as well as the contextual stories and some extra text material have been collected in a publication, which exists in French and English. +

This publication is made using a plain text workflow, based on various text processing and counting tools. The plain text file format is a type of document in which there is no inherent structural difference between headers and paragraphs anymore. It is the most used type of document in machine learning models for text. This format has been the starting point of a playful design process, where pages are carefully counted, page by page, line by line and character by character. +

Each page holds 110 characters per line and 70 lines per page. The design originates from the act of counting words, spaces and lines. It plays with random choices, scripted patterns and ASCII/UNICODE-fonts, to speculate about the materiality of digital text and to explore the interrelations between counting and writing through words and numbers. +


Texts: Cristina Cochior, Sarah Garcin, Gijs de Heij, An Mertens, François Zajéga, Louise Dekeuleneer, Florian Van de Weyer, Laetitia Trozzi, Rémi Forte, Guillaume Slizewicz. +

Translations & proofreading: deepl.com, Michel Cleempoel, Elodie Mugrefya, Emma Kraak, Patrick Lennon. +

Lay-out & cover: Manetta Berends +

Responsible publisher: Constant vzw/asbl, Rue du Fortstraat 5, 1060 Brussels +

License: Algolit, Data Workers, March 2019, Brussels. Copyleft: This is a free work, you can copy, distribute, and modify it under the terms of the Free Art License http://artlibre.org/licence/lal/en/. +

Online version: http://www.algolit.net/index.php/Data_Workers +

Sources: https://gitlab.constantvzw.org/algolit/mundaneum +

Data Workers Podcast

By Algolit +

During our monthly Algolit meetings, we study manuals and experiment with machine learning tools for text processing. And we also share many, many stories. With this podcast we hope to recreate some of that atmosphere. +

For outsiders, algorithms only become visible in the media when they achieve an outstanding performance, like Alpha Go, or when they break down in fantastically terrifying ways. Humans working in the field though, create their own culture on and offline. They share the best stories and experiences during live meetings, research conferences and annual competitions like Kaggle. These stories that contextualize the tools and practises can be funny, sad, shocking, interesting. +

A lot of them are experiential learning cases. The implementations of algorithms in society generate new conditions of labour, storage, exchange, behaviour, copy and paste. In that sense, the contextual stories capture a momentum in a larger anthropo-machinic story that is being written at full speed and by many voices. The stories are also published in the publication of Data Workers. +


Voices: David Stampfli, Cristina Cochior, An Mertens, Gijs de Heij, Karin Ulmer, Guillaume Slizewicz +

Editing: Javier Lloret +

Recording: David Stampfli +

Texts: Cristina Cochior, An Mertens +

Markbot Chains

By Florian Van de Weyer, student Arts²/Section Digital Arts +

Markbot Chain is a social experiment in which the public has a direct influence on the result. The intention is to integrate responses in a text-generation process without applying any filter. +

All the questions in the digital files provided by the Mundaneum were automatically extracted. These questions are randomly put to the public via a terminal. By answering them, people contribute to another database. Each entry generates a series of sentences using a Markov chain configuration, an algorithm that is widely used in spam generation. The sentences generated in this way are displayed in the window, and a new question is asked. +

+

Contextual stories about Writers

Programmers are writing the dataworkers into being

We recently had a funny realization: most programmers of the languages and packages that Algolit uses are European. +

Python, for example, the main language that is globally used for Natural Language Processing (NLP), was invented in 1991 by the Dutch programmer Guido Van Rossum. He then crossed the Atlantic and went from working for Google to working for Dropbox. +

Scikit Learn, the open-source Swiss knife of machine learning tools, started as a Google Summer of Code project in Paris by French researcher David Cournapeau. Afterwards, it was taken on by Matthieu Brucher as part of his thesis at the Sorbonne University in Paris. And in 2010, INRA, the French National Institute for computer science and applied mathematics, adopted it. +

Keras, an open-source neural network library written in Python, was developed by François Chollet, a French researcher who works on the Brain team at Google. +

Gensim, an open-source library for Python used to create unsupervised semantic models from plain text, was written by Radim Řehůřek. He is a Czech computer scientist who runs a consulting business in Bristol, UK. +

And to finish up this small series, we also looked at Pattern, an often-used library for web-mining and machine learning. Pattern was developed and made open-source in 2012 by Tom De Smedt and Walter Daelemans. Both are researchers at CLIPS, the research centre for Computational Linguistics and Psycholinguistcs at the University of Antwerp. +

Cortana speaks

AI assistants often need their own assistants: they are helped in their writing by humans who inject humour and wit into their machine-processed language. Cortana is an example of this type of blended writing. She is Microsoft’s digital assistant. Her mission is to help users to be more productive and creative. Cortana's personality has been crafted over the years. It's important that she maintains her character in all interactions with users. She is designed to engender trust and her behavior must always reflect that. +

The following guidelines are taken from Microsoft's website. They describe how Cortana's style should be respected by companies that extend her service. Writers, programmers and novelists, who develop Cortana's responses, personality and branding have to follow these guidelines. Because the only way to maintain trust is through consistency. So when Cortana talks, you 'must use her personality'. +

What is Cortana's personality, you ask? +


+'Cortana is considerate, sensitive, and supportive. +

She is sympathetic but turns quickly to solutions. +

She doesn't comment on the user’s personal information or behavior, particularly if the information is sensitive. +

She doesn't make assumptions about what the user wants, especially to upsell. +

She works for the user. She does not represent any company, service, or product. +

She doesn’t take credit or blame for things she didn’t do. +

She tells the truth about her capabilities and her limitations. +

She doesn’t assume your physical capabilities, gender, age, or any other defining characteristic. +

She doesn't assume she knows how the user feels about something. +

She is friendly but professional. +

She stays away from emojis in tasks. Period +

She doesn’t use culturally- or professionally-specific slang. +

She is not a support bot.' +


+Humans intervene in detailed ways to programme answers to questions that Cortana receives. How should Cortana respond when she is being proposed inappropriate actions? Her gendered acting raises difficult questions about power relations within the world away from the keyboard, which is being mimicked by technology. +

Consider Cortana's answer to the question: +

- Cortana, who's your daddy? +- Technically speaking, he’s Bill Gates. No big deal. +

Open-source learning

Copyright licenses close up a lot of the machinic writing, reading and learning practices. That means that they're only available for the employees of a specific company. Some companies participate in conferences worldwide and share their knowledge in papers online. But even if they share their code, they often will not share the large amounts of data needed to train the models. +

We were able to learn to machine learn, read and write in the context of Algolit, thanks to academic researchers who share their findings in papers or publish their code online. As artists, we believe it is important to share that attitude. That's why we document our meetings. We share the tools we make as much as possible and the texts we use are on our online repository under free licenses. +

We are thrilled when our works are taken up by others, tweaked, customized and redistributed, so please feel free to copy and test the code from our website. If the sources of a particular project are not there, you can always contact us through the mailinglist. You can find a link to our repository, etherpads and wiki at: http://www.algolit.net. +

Natural language for artificial intelligence

Natural Language Processing (NLP) is a collective term that refers to the automatic computational processing of human languages. This includes algorithms that take human-produced text as input, and attempt to generate text that resembles it. We produce more and more written work each year, and there is a growing trend in making computer interfaces to communicate with us in our own language. NLP is also very challenging, because human language is inherently ambiguous and ever-changing. +

But what is meant by 'natural' in NLP? Some would argue that language is a technology in itself. According to Wikipedia, 'a natural language or ordinary language is any language that has evolved naturally in humans through use and repetition without conscious planning or premeditation. Natural languages can take different forms, such as speech or signing. They are different from constructed and formal languages such as those used to program computers or to study logic. An official language with a regulating academy, such as Standard French with the French Academy, is classified as a natural language. Its prescriptive points do not make it constructed enough to be classified as a constructed language or controlled enough to be classified as a controlled natural language.' +

So in fact, 'natural languages' also includes languages which do not fit in any other group. NLP, instead, is a constructed practice. What we are looking at is the creation of a constructed language to classify natural languages that, by their very definition, resists categorization. +

References

https://hiphilangsci.net/2013/05/01/on-the-history-of-the-question-of-whether-natural-language-is-illogical/ +

Book: Neural Network Methods for Natural Language Processing, Yoav Goldberg, Bar Ilan University, April 2017. +

+

Oracles

+

Machine learning is mainly used to analyse and predict situations based on existing cases. In this exhibition we focus on machine learning models for text processing or Natural Language Processing (NLP). These models have learned to perform a specific task on the basis of existing texts. The models are used for search engines, machine translations and summaries, spotting trends in new media networks and news feeds. They influence what you get to see as a user, but also have their say in the course of stock exchanges worldwide, the detection of cybercrime and vandalism, etc. +

There are two main tasks when it comes to language understanding. Information extraction looks at concepts and relations between concepts. This allows for recognizing topics, places and persons in a text, summarization and questions & answering. The other task is text classification. You can train an oracle to detect whether an email is spam or not, written by a man or a woman, rather positive or negative. +

In this zone you can see some of those models at work. During your further journey through the exhibition you will discover the different steps that a human-machine goes through to come to a final model. +

+
Works
+

The Algoliterator

by Algolit +

The Algoliterator is a neural network trained using the selection of digitized works of the Mundaneum archive. +

With the Algoliterator you can write a text in the style of the International Institutions Bureau. The Algoliterator starts by selecting a sentence from the archive or corpus used to train it. You can then continue writing yourself or, at any time, ask the Algoliterator to suggest a next sentence: the network will generate three new fragments based on the texts it has read. You can control the level of training of the network and have it generate sentences based on primitive training, intermediate training or final training. +

When you're satisfied with your new text, you can print it on the thermal printer and take it home as a souvenir. +


Sources: https://gitlab.constantvzw.org/algolit/algoliterator.clone +

Concept, code & interface: Gijs de Heij & An Mertens +

Technique: Recurrent Neural Network +

Original model: Andrej Karphaty, Justin Johnson +

Words in Space

by Algolit +

Word embeddings are language modelling techniques that through multiple mathematical operations of counting and ordering, plot words into a multi-dimensional vector space. When embedding words, they transform from being distinct symbols into mathematical objects that can be multiplied, divided, added or substracted. +

By distributing the words along the many diagonal lines of the multi-dimensional vector space, their new geometrical placements become impossible to perceive by humans. However, what is gained are multiple, simultaneous ways of ordering. Algebraic operations make the relations between vectors graspable again. +

This installation uses Gensim, an open-source vector space and topic-modelling toolkit implemented in the programming language Python. It allows to manipulate the text using the mathematical relationships that emerge between the words, once they have been plotted in a vector space. +


Concept & interface: Cristina Cochior +

Technique: word embeddings, word2vec +

Original model: Radim Rehurek and Petr Sojka +

Classifying the World

by Algolit +

Librarian Paul Otlet's life work was the construction of the Mundaneum. This mechanical collective brain would house and distribute everything ever committed to paper. Each document was classified following the Universal Decimal Classification. Using telegraphs and especially, sorters, the Mundaneum would have been able to answer any question from anyone. +

With the collection of digitized publications we received from the Mundaneum, we built a prediction machine that tries to classify the sentence you type in one of the main categories of Universal Decimal Classification. You also witness how the machine 'thinks'. During the exhibition, this model is regularly retrained using the cleaned and annotated data visitors added in Cleaning for Poems and The Annotator. +

The main classes of the Universal Decimal Classification system are: +

0 - Science and Knowledge. Organization. Computer Science. Information Science. Documentation. Librarianship. Institutions. Publications +

1 - Philosophy. Psychology +

2 - Religion. Theology +

3 - Social Sciences +

4 - vacant +

5 - Mathematics. Natural Sciences +

6 - Applied Sciences. Medicine, Technology +

7 - The Arts. Entertainment. Sport +

8 - Linguistics. Literature +

9 - Geography. History +

--- +

Concept, code, interface: Sarah Garcin, Gijs de Heij, An Mertens +

People don’t have buttons

by Algolit +

Since the early days of artificial intelligence (AI), researchers have speculated about the possibility of computers thinking and communicating as humans. In the 1980s, there was a first revolution in Natural Language Processing (NLP), the subfield of AI concerned with linguistic interactions between computers and humans. Recently, pre-trained language models have reached state-of-the-art results on a wide range of NLP tasks, which intensifies again the expectations of a future with AI. +

This sound work, made out of audio fragments of scientific documentaries and AI-related audiovisual material from the last half century, explores the hopes, fears and frustrations provoked by these expectations. +


Concept, sound edit: Javier Lloret +

List of sources: +'The Machine that Changed the World : Episode IV -- The Thinking Machine', 'The Imitation Game', 'Maniac', 'Halt & Catch Fire', 'Ghost in the Shell', 'Computer Chess', '2001: A Space Odyssey', Ennio Morricone, Gijs Gieskes, André Castro. +

+

Contextual stories about Oracles


+Oracles are prediction or profiling machines. They are widely used in smartphones, computers, tablets. +

Oracles can be created using different techniques. One way is to manually define rules for them. As prediction models they are then called rule-based models. Rule-based models are handy for tasks that are specific, like detecting when a scientific paper concerns a certain molecule. With very little sample data, they can perform well. +

But there are also the machine learning or statistical models, which can be divided in two oracles: 'supervised' and 'unsupervised' oracles. For the creation of supervised machine learning models, humans annotate sample text with labels before feeding it to a machine to learn. Each sentence, paragraph or text is judged by at least three annotators: whether it is spam or not spam, positive or negative etc. Unsupervised machine learning models don't need this step. But they need large amounts of data. And it is up to the machine to trace its own patterns or 'grammatical rules'. Finally, experts also make the difference between classical machine learning and neural networks. You'll find out more about this in the Readers zone. +

Humans tend to wrap Oracles in visions of grandeur. Sometimes these Oracles come to the surface when things break down. In press releases, these sometimes dramatic situations are called 'lessons'. However promising their performances seem to be, a lot of issues remain to be solved. How do we make sure that Oracles are fair, that every human can consult them, and that they are understandable to a large public? Even then, existential questions remain. Do we need all types of artificial intelligence (AI) systems? And who defines what is fair or unfair? +

Racial AdSense

A classic 'lesson' in developing Oracles was documented by Latanya Sweeney, a professor of Government and Technology at Harvard University. In 2013, Sweeney, of African American descent, googled her name. She immediately received an advertisement for a service that offered her ‘to see the criminal record of Latanya Sweeney’. +

Sweeney, who doesn’t have a criminal record, began a study. She started to compare the advertising that Google AdSense serves to different racially identifiable names. She discovered that she received more of these ads searching for non-white ethnic names, than when searching for traditionally perceived white names.You can imagine how damaging it can be when possible employers do a simple name search and receive ads suggesting the existence of a criminal record. +

Sweeney based her research on queries of 2184 racially associated personal names across two websites. 88 per cent of first names, identified as being given to more black babies, are found predictive of race, against 96 per cent white. First names that are mainly given to black babies, such as DeShawn, Darnell and Jermaine, generated ads mentioning an arrest in 81 to 86 per cent of name searches on one website and in 92 to 95 per cent on the other. Names that are mainly assigned to whites, such as Geoffrey, Jill and Emma, did not generate the same results. The word 'arrest' only appeared in 23 to 29 per cent of white name searches on one site and 0 to 60 per cent on the other. +

On the website with most advertising, a black-identifying name was 25 percent more likely to get an ad suggestive of an arrest record. A few names did not follow these patterns: Dustin, a name mainly given to white babies, generated an ad suggestive of arrest in 81 and 100 percent of the time. It is important to keep in mind that the appearance of the ad is linked to the name itself. It is independent of the fact that the name has an arrest record in the company's database. +

Reference

Paper: https://dataprivacylab.org/projects/onlineads/1071-1.pdf +

What is a good employee?

Since 2015 Amazon employs around 575,000 workers. And they need more. Therefore, they set up a team of 12 that was asked to create a model to find the right candidates by crawling job application websites. The tool would give job candidates scores ranging from one to five stars. The potential fed the myth: the team wanted it to be a software that would spit out the top five human candidates out of a list of 100. And those candidates would be hired. +

The group created 500 computer models, focused on specific job functions and locations. They taught each model to recognize some 50,000 terms that showed up on past candidates’ letters. The algorithms learned to give little importance to skills common across IT applicants, like the ability to write various computer codes. But they also learned some decent errors. The company realized, before releasing, that the models had taught themselves that male candidates were preferable. They penalized applications that included the word 'women’s,' as in 'women’s chess club captain.' And they downgraded graduates of two all-women’s colleges. +

This is because they were trained using the job applications that Amazon received over a ten-year period. During that time, the company had mostly hired men. Instead of providing the 'fair' decision-making that the Amazon team had promised, the models reflected a biased tendency in the tech industry. And they also amplified it and made it invisible. Activists and critics state that it could be exceedingly difficult to sue an employer over automated hiring: job candidates might never know that intelligent software was used in the process. +

Reference

https://www.reuters.com/article/us-amazon-com-jobs-automation-insight/amazonscraps-secret-ai-recruiting-tool-that-showed-bias-against-women-idUSKCN1MK08G +

Quantifying 100 Years of Gender and Ethnic Stereotypes

Dan Jurafsky is the co-author of 'Speech and Language Processing', one of the most influential books for studying Natural Language Processing (NLP). Together with a few colleagues at Stanford University, he discovered in 2017 that word embeddings can be a powerful tool to systematically quantify common stereotypes and other historical trends. +

Word embeddings are a technique that translates words to numbered vectors in a multi-dimensional space. Vectors that appear next to each other, indicate similar meaning. All numbers will be grouped together, as well as all prepositions, person's names, professions. This allows for the calculation of words. You could substract London from England and your result would be the same as substracting Paris from France. +

An example in their research shows that the vector for the adjective 'honorable' is closer to the vector for 'man', whereas the vector for 'submissive' is closer to 'woman'. These stereotypes are automatically learned by the algorithm. It will be problematic when the pre-trained embeddings are then used for sensitive applications such as search rankings, product recommendations, or translations. This risk is real, because a lot of the pretrained embeddings can be downloaded as off-the-shelf-packages. +

It is known that language reflects and keeps cultural stereotypes alive. Using word embeddings to spot these stereotypes is less time-consuming and less expensive than manual methods. But the implementation of these embeddings for concrete prediction models, has caused a lot of discussion within the machine learning community. The biased models stand for automatic discrimination. Questions are: is it actually possible to de-bias these models completely? Some say yes, while others disagree: instead of retro-engineering the model, we should ask whether we need it in the first place. These researchers followed a third path: by acknowledging the bias that originates in language, these tools become tools of awareness. +

The team developed a model to analyse word embeddings trained over 100 years of texts. For contemporary analysis, they used the standard Google News word2vec Vectors, a straight-off-the-shelf downloadable package trained on the Google News Dataset. For historical analysis, they used embeddings that were trained on Google Books and the Corpus of Historical American English (COHA https://corpus.byu.edu/coha/) with more than 400 million words of text from the 1810s to 2000s. As a validation set to test the model, they trained embeddings from the New York Times Annotated Corpus for every year between 1988 and 2005. +

The research shows that word embeddings capture changes in gender and ethnic stereotypes over time. They quantifiy how specific biases decrease over time while other stereotypes increase. The major transitions reveal changes in the descriptions of gender and ethnic groups during the women’s movement in the 1960-1970s and the Asian-American population growth in the 1960s and 1980s. +

A few examples: +

The top ten occupations most closely associated with each ethnic group in the contemporary Google News dataset: +

- Hispanic: housekeeper, mason, artist, janitor, dancer, mechanic, photographer, baker, cashier, driver +

- Asian: professor, official, secretary, conductor, physicist, scientist, chemist, tailor, accountant, engineer +

- White: smith, blacksmith, surveyor, sheriff, weaver, administrator, mason, statistician, clergy, photographer +

The 3 most male occupations in the 1930s: +engineer, lawyer, architect. +The 3 most female occupations in the 1930s: +nurse, housekeeper, attendant. +

Not much has changed in the 1990s. +

Major male occupations: +architect, mathematician and surveyor. +Female occupations: +nurse, housekeeper and midwife. +

Reference

https://arxiv.org/abs/1711.08412 +

Wikimedia's Ores service

Software engineer Amir Sarabadani presented the ORES-project in Brussels in November 2017 during the Algoliterary Encounter. +

This 'Objective Revision Evaluation Service' uses machine learning to help automate critical work on Wikimedia, like vandalism detection and the removal of articles. Cristina Cochior and Femke Snelting interviewed him. +

Femke: To go back to your work. In these days you tried to understand what it means to find bias in machine learning and the proposal of Nicolas Maleve, who gave the workshop yesterday, was neither to try to fix it, nor to refuse to deal with systems that produce bias, but to work with them. He says that bias is inherent to human knowledge, so we need to find ways to somehow work with it. We're just struggling a bit with what would that mean, how would that work... So I was wondering whether you had any thoughts on the question of bias. +

Amir: Bias inside Wikipedia is a tricky question because it happens on several levels. One level that has been discussed a lot is the bias in references. Not all references are accessible. So one thing that the Wikimedia Foundation has been trying to do, is to give free access to libraries that are behind a pay wall. They reduce the bias by only using open-access references. Another type of bias is the Internet connection, access to the Internet. There are lots of people who don't have it. One thing about China is that the Internet there is blocked. The content against the government of China inside Chinese Wikipedia is higher because the editors [who can access the website] are not people who are pro government, and try to make it more neutral. So, this happens in lots of places. But in the matter of artificial intelligence (AI) and the model that we use at Wikipedia, it's more a matter of transparency. There is a book about how bias in AI models can break people's lives, it's called 'Weapons of Math Destruction'. It talks about AI models that exist in the US that rank teachers and it's quite horrible because eventually there will be bias. The way to deal with it based on the book and their research was first that the model should be open source, people should be able to see what features are used and the data should be open also, so that people can investigate, find bias, give feedback and report back. There should be a way to fix the system. I think not all companies are moving in that direction, but Wikipedia, because of the values that they hold, are at least more transparent and they push other people to do the same thing. +

Reference

https://gitlab.constantvzw.org/algolit/algolit/blob/master/algoliterary_encounter/Interview%20with%20Amir/AS.aac +

Tay

One of the infamous stories is that of the machine learning programme Tay, designed by Microsoft. Tay was a chat bot that imitated a teenage girl on Twitter. She lived for less than 24 hours before she was shut down. Few people know that before this incident, Microsoft had already trained and released XiaoIce on WeChat, China's most used chat application. XiaoIce's success was so promising that it led to the development of its American version. However, the developers of Tay were not prepared for the platform climate of Twitter. Although the bot knew how to distinguish a noun from an adjective, it had no understanding of the actual meaning of words. The bot quickly learned to copy racial insults and other discriminative language it learned from Twitter users and troll attacks. +

Tay's appearance and disappearance was an important moment of consciousness. It showed the possible corrupt consequences that machine learning can have when the cultural context in which the algorithm has to live is not taken into account. +

Reference

https://chatbotslife.com/the-accountability-of-ai-case-study-microsofts-tay-experiment-ad577015181f +

+

Cleaners

+

Algolit chooses to work with texts that are free of copyright. This means that they have been published under a Creative Commons 4.0 license – which is rare - or that they are in the public domain because the author died more than 70 years ago. This is the case for the publications of the Mundaneum. We received 203 documents that we helped turn into datasets. They are now available for others online. Sometimes we had to deal with poor text formats, and we often dedicated a lot of time to cleaning up documents. We were not alone in doing this. +

Books are scanned at high resolution, page by page. This is time-consuming, laborious human work and often the reason why archives and libraries transfer their collections and leave the job to companies like Google. The photos are converted into text via OCR (Optical Character Recognition), a software that recognizes letters, but often makes mistakes, especially when it has to deal with ancient fonts and wrinkled pages. Yet more wearisome human work is needed to improve the texts. This is often carried out by poorly-paid freelancers via micro-payment platforms like Amazon's Mechanical Turk; or by volunteers, like the community around the Distributed Proofreaders Project, which does fantastic work. Whoever does it, or wherever it is done, cleaning up texts is a towering job for which no structural automation yet exists. +

+
Works
+

Cleaning for Poems

by Algolit +

For this exhibition we worked with 3 per cent of the Mundaneum's archive. These documents were first scanned or photographed. To make the documents searchable they were transformed into text using Optical Character Recognition software (OCR). OCR are algorithmic models that are trained on other texts. They have learned to identify characters, words, sentences and paragraphs. The software often makes 'mistakes'. It might recognize a wrong character, it might get confused by a stain an unusual font or the reverse side of the page being visible. +

While these mistakes are often considered noise, confusing the training, they can also be seen as poetic interpretations of the algorithm. They show us the limits of the machine. And they also reveal how the algorithm might work, what material it has seen in training and what is new. They say something about the standards of its makers. In this installation we ask your help in verifying our dataset. As a reward we'll present you with a personal algorithmic improvisation. +


Concept, code, interface: Gijs de Heij +

Distributed Proofreaders

by Algolit +

Distributed Proofreaders is a web-based interface and an international community of volunteers who help converting public domain books into e-books. For this exhibition they proofread the Mundaneum publications that appeared before 1923 and are in the public domain in the US. Their collaboration meant a great relief for the members of Algolit. Less documents to clean up! +

All the proofread books have been made available on the Project Gutenberg archive. +

For this exhibition, An Mertens interviewed Linda Hamilton, the general manager of Distributed Proofreaders. +

--- +

Interview: An Mertens +

Editing: Michael Murtaugh, Constant +

+

Contextual stories for Cleaners

Project Gutenberg and Distributed Proofreaders

Project Gutenberg is our Ali Baba cave. It offers more than 58,000 free eBooks to be downloaded or read online. Works are accepted on Gutenberg when their U.S. copyright has expired. Thousands of volunteers digitize and proofread books to help the project. An essential part of the work is done through the Distributed Proofreaders project. This is a web-based interface to help convert public domain books into e-books. Think of text files, EPUBs, Kindle formats. By dividing the workload into individual pages, many volunteers can work on a book at the same time; this speeds up the cleaning process. +

During proofreading, volunteers are presented with a scanned image of the page and a version of the text, as it is read by an OCR algorithm trained to recognize letters in images. This allows the text to be easily compared to the image, proofread, and sent back to the site. A second volunteer is then presented with the first volunteer's work. She verifies and corrects the work as necessary, and submits it back to the site. The book then similarly goes through a third proofreading round, plus two more formatting rounds using the same web interface. Once all the pages have completed these steps, a post-processor carefully assembles them into an e-book and submits it to the Project Gutenberg archive. +

We collaborated with the Distributed Proofreaders project to clean up the digitized files we received from the Mundaneum collection. From November 2018 until the first upload of the cleaned-up book 'L'Afrique aux Noirs' in February 2019, An Mertens exchanged about 50 emails with Linda Hamilton, Sharon Joiner and Susan Hanlon, all volunteers from the Distributed Proofreaders project. The conversation is published here. It might inspire you to share unavailable books online. +

An algoliterary version of the Maintenance Manifesto

In 1969, one year after the birth of her first child, the New York artist Mierle Laderman Ukeles wrote a Manifesto for Maintenance Art. The manifesto calls for a readdressing of the status of maintenance work both in the private, domestic space, and in public. What follows is an altered version of her text inspired by the work of the Cleaners. +

IDEAS +

A. The Death Instinct and the Life Instinct: +

The Death Instinct: separation; categorization; avant-garde par excellence; to follow the predicted path to death – run your own code; dynamic change. +

The Life Instinct: unification; the eternal return; the perpetuation and MAINTENANCE of the material; survival systems and operations; equilibrium. +

B. Two basic systems: Development and Maintenance. +

The sourball of every revolution: after the revolution, who’s going to try to spot the bias in the output? +

Development: pure individual creation; the new; change; progress; advance; excitement; flight or fleeing. +

Maintenance: keep the dust off the pure individual creation; preserve the new; sustain the change; protect progress; defend and prolong the advance; renew the excitement; repeat the flight; show your work – show it again, keep the git repository groovy, keep the data analysis revealing. +

Development systems are partial feedback systems with major room for change. +

Maintenance systems are direct feedback systems with little room for alteration. +

C. Maintenance is a drag; it takes all the fucking time (lit.) +

The mind boggles and chafes at the boredom. +

The culture assigns lousy status on maintenance jobs = minimum wages, Amazon Mechanical Turks = virtually no pay. +

Clean the set, tag the training data, correct the typos, modify the parameters, finish the report, keep the requester happy, upload the new version, attach words that were wrongly separated by OCR back together, complete those Human Intelligence Tasks, try to guess the meaning of the requester's formatting, you must accept the HIT before you can submit the results, summarize the image, add the bounding box, what's the semantic similarity of this text, check the translation quality, collect your micro-payments, become a hit Mechanical Turk. +

Reference

https://www.arnolfini.org.uk/blog/manifesto-for-maintenance-art-1969 +

A bot panic on Amazon Mechanical Turk

Amazon's Mechanical Turk takes the name of a chess-playing automaton from the eighteenth century. In fact, the Turk wasn't a machine at all. It was a mechanical illusion that allowed a human chess master to hide inside the box and manually operate it. For nearly 84 years, the Turk won most of the games played during its demonstrations around Europe and the Americas. Napoleon Bonaparte is said to have been fooled by this trick too. +

The Amazon Mechanical Turk is an online platform for humans to execute tasks that algorithms cannot. Examples include annotating sentences as being positive or negative, spotting number plates, discriminating between face and non-face. The jobs posted on this platform are often paid less than a cent per task. Tasks that are more complex or require more knowledge can be paid up to several cents. To earn a living, Turkers need to finish as many tasks as fast as possible, leading to inevitable mistakes. As a result, the requesters have to incorporate quality checks when they post a job on the platform. They need to test whether the Turker actually has the ability to complete the task, and they also need to verify the results. Many academic researchers use Mechanical Turk as an alternative to have their students execute these tasks. +

In August 2018 Max Hui Bai, a psychology student from the University of Minnesota, discovered that the surveys he conducted with Mechanical Turk were full of nonsense answers to open-ended questions. He traced back the wrong answers and found out that they had been submitted by respondents with duplicate GPS locations. This raised suspicion. Though Amazon explicitly prohibits robots from completing jobs on Mechanical Turk, the company does not deal with the problems they cause on their platform. Forums for Turkers are full of conversations about the automation of the work, sharing practices of how to create robots that can even violate Amazon’s terms. You can also find videos on YouTube that show Turkers how to write a bot to fill in answers for you. +

Kristy Milland, an Mechanical Turk activist, says: 'Mechanical Turk workers have been treated really, really badly for 12 years, and so in some ways I see this as a point of resistance. If we were paid fairly on the platform, nobody would be risking their account this way.' +

Bai is now leading a research project among social scientists to figure out how much bad data is in use, how large the problem is, and how to stop it. But it is impossible at the moment to estimate how many datasets have become unreliable in this way. +

References

https://requester.mturk.com/create/projects/new +

https://www.wired.com/story/amazon-mechanical-turk-bot-panic/ +

https://www.maxhuibai.com/blog/evidence-that-responses-from-repeating-gps-are-random +

http://timryan.web.unc.edu/2018/08/12/data-contamination-on-mturk/ +

+

Informants

+

Machine learning algorithms need guidance, whether they are supervised or not. In order to separate one thing from another, they need material to extract patterns from. One should carefully choose the study material, and adapt it to the machine's task. It doesn't make sense to train a machine with nineteenth-century novels if its mission is to analyse tweets. A badly written textbook can lead a student to give up on the subject altogether. A good textbook is preferably not a textbook at all. +

This is where the dataset comes in: arranged as neatly as possible, organized in disciplined rows and lined-up columns, waiting to be read by the machine. Each dataset collects different information about the world, and like all collections, they are imbued with collectors' bias. You will hear this expression very often: 'data is the new oil'. If only data were more like oil! Leaking, dripping and heavy with fat, bubbling up and jumping unexpectedly when in contact with new matter. Instead, data is supposed to be clean. With each process, each questionnaire, each column title, it becomes cleaner and cleaner, chipping distinct characteristics until it fits the mould of the dataset. +

Some datasets combine the machinic logic with the human logic. The models that require supervision multiply the subjectivities of both data collectors and annotators, then propagate what they've been taught. You will encounter some of the datasets that pass as default in the machine learning field, as well as other stories of humans guiding machines. +


+

+
Works
+

An Ethnography of Datasets

by Algolit +

We often start the monthly Algolit meetings by searching for datasets or trying to create them. Sometimes we use already-existing corpora, made available through the Natural Language Toolkit nltk. NLTK contains, among others, The Universal Declaration of Human Rights, inaugural speeches from US presidents, or movie reviews from the popular site Internet Movie Database (IMDb). Each style of writing will conjure different relations between the words and will reflect the moment in time from which they originate. The material included in NLTK was selected because it was judged useful for at least one community of researchers. In spite of specificities related to the initial context of each document, they become universal documents by default, via their inclusion into a collection of publicly available corpora. In this sense, the Python package manager for natural language processing could be regarded as a time capsule. The main reason why The Universal Declaration for Human Rights was included may have been because of the multiplicity of translations, but it also paints a picture of the types of human writing that algorithms train on. +

With this work, we look at the datasets most commonly used by data scientists to train machine algorithms. What material do they consist of? Who collected them? When? +


Concept & execution: Cristina Cochior +

Who wins

Who wins: creation of relationships +

by Louise Dekeuleneer, student Arts²/Section Visual Communication +

French is a gendered language. Indeed many words are female or male and few are neutral. The aim of this project is to show that a patriarchal society also influences the language itself. The work focused on showing whether more female or male words are used on highlighting the influence of context on the gender of words. At this stage, no conclusions have yet been drawn.  +

Law texts from 1900 to 1910 made available by the Mundaneum have been passed into an algorithm that turns the text into a list of words. These words are then compared with another list of French words, in which is specified whether the word is male or female. This list of words comes from Google Books. They created a huge database in 2012 from all the books scanned and available on Google Books. +

Male words are highlighted in one colour and female words in another. Words that are not gendered (adverbs, verbs, etc.) are not highlighted. All this is saved as an HTML file so that it can be directly opened in a web page and printed without the need for additional layout. This is how each text becomes a small booklet by just changing the input text of the algorithm. +

The Annotator

by Algolit +

The annotator asks for the guidance of visitors in annotating the archive of Mundaneum. +

The annotation process is a crucial step in supervised machine learning where the algorithm is given examples of what it needs to learn. A spam filter in training will be fed examples of spam and real messages. These examples are entries, or rows from the dataset with a label, spam or non-spam. +

The labelling of a dataset is work executed by humans, they pick a label for each row of the dataset. To ensure the quality of the labels multiple annotators see the same row and have to give the same label before an example is included in the training data. Only when enough samples of each label have been gathered in the dataset can the computer start the learning process. +

In this interface we ask you to help us classify the cleaned texts from the Mundaneum archive to expand our training set and improve the quality of the installation 'Classifying the World' in Oracles. +


Concept, code, interface: Gijs de Heij +

1000 synsets (Vinyl Edition)

by Algolit +

Created in 1985, Wordnet is a hierarchical taxonomy that describes the world. It was inspired by theories of human semantic memory developed in the late 1960s. Nouns, verbs, adjectives and adverbs are grouped into synonyms sets or synsets, expressing a different concept. +

ImageNet is an image dataset based on the WordNet 3.0 nouns hierarchy. Each synset is depicted by thousands of images. From 2010 until 2017, the ImageNet Large Scale Visual Recognition Challenge (ILSVRC) was a key benchmark in object category classification for pictures, having a major impact on software for photography, image searches, image recognition. +

1000 synsets (Vinyl Edition) contains the 1000 synsets used in this challenge recorded in the highest sound quality that this analog format allows. This work highlights the importance of the datasets used to train artificial intelligence (AI) models that run on devices we use on a daily basis. Some of them inherit classifications that were conceived more than 30 years ago. This sound work is an invitation to thoughtfully analyse them. +

--- +

Concept & recording: Javier Lloret +

Voices: Sara Hamadeh & Joseph Hughes +

+

Contextual stories about Informants

Datasets as representations

The data-collection processes that lead to the creation of the dataset raise important questions: who is the author of the data? Who has the privilege to collect? For what reason was the selection made? What is missing? +

The artist Mimi Onuoha gives a brilliant example of the importance of collection strategies. She chose the case of statistics related to hate crimes. In 2012, the FBI Uniform Crime Reporting (UCR) Program registered almost 6000 hate crimes committed. However, the Department of Justice’s Bureau of Statistics came up with about 300.000 reports of such cases. That is over 50 times as many. The difference in numbers can be explained by how the data was collected. In the first situation law enforcement agencies across the country voluntarily reported cases. For the second survey, the Bureau of Statistics distributed the National Crime Victimization form directly to the homes of victims of hate crimes. +

In the field of Natural Language Processing (NLP) the material that machine learners work with is text-based, but the same questions still apply: who are the authors of the texts that make up the dataset? During what period were the texts collected? What type of worldview do they represent? +

In 2017, Google's Top Stories algorithm pushed a thread of 4chan, a non-moderated content website, to the top of the results page when searching for the Las Vegas shooter. The name and portrait of an innocent person were linked to the terrible crime. Google changed its algorithm just a few hours after the mistake was discovered, but the error had already affected the person. The question is: why did Google not exclude 4chan content from the training dataset of the algorithm? +

Reference

https://points.datasociety.net/the-point-of-collection-8ee44ad7c2fa +

https://arstechnica.com/information-technology/2017/10/google-admits-citing-4chan-to-spread-fake-vegas-shooter-news/ +

Labeling for an Oracle that detects vandalism on Wikipedia

This fragment is taken from an interview with Amir Sarabadani, software engineer at Wikimedia. He was in Brussels in November 2017 during the Algoliterary Encounter. +

Femke: If you think about Wikipedia as a living community, with every edit the project changes. Every edit is somehow a contribution to a living organism of knowledge. So, if from within that community you try to distinguish what serves the community and what doesn't and you try to generalize that, because I think that's what the good faith-bad faith algorithm is trying to do, to find helper tools to support the project, you do that on the basis of a generalization that is on the abstract idea of what Wikipedia is and not on the living organism of what happens every day. What interests me in the relation between vandalism and debate is how we can understand the conventional drive that sits in these machine-learning processes that we seem to come across in many places. And how can we somehow understand them and deal with them? If you place your separation of good faith-bad faith on pre-existing labelling and then reproduce that in your understanding of what edits are being made, how then to take into account movements that are happening, the life of the actual project? +

Amir: It's an interesting discussion. Firstly, what we are calling good faith and bad faith comes from the community itself. We are not doing labelling for them, they are doing labelling for themselves. So, in many different language Wikipedias, the definition of what is good faith and what is bad faith will differ. Wikimedia is trying to reflect what is inside the organism and not to change the organism itself. If the organism changes, and we see that the definition of good faith and helping Wikipedia has been changed, we are implementing this feedback loop that lets people from inside their community pass judgement on their edits and if they disagree with the labelling, we can go back to the model and retrain the algorithm to reflect this change. It's some sort of closed loop: you change things and if someone sees there is a problem, then they tell us and we can change the algorithm back. It's an ongoing project. +

Référence: https://gitlab.constantvzw.org/algolit/algolit/blob/master/algoliterary_encounter/Interview%20with%20Amir/AS.aac +

How to make your dataset known

NLTK stands for Natural Language Toolkit. For programmers who process natural language using Python, this is an essential library to work with. Many tutorial writers recommend machine learning learners to start with the inbuilt NLTK datasets. It comprises 71 different collections, with a total of almost 6000 items. +

There is for example the Movie Review corpus for sentiment analysis. Or the Brown corpus, which was put together in the 1960s by Henry Kučera and W. Nelson Francis at Brown University in Rhode Island. There is also the Declaration of Human Rights corpus, which is commonly used to test whether the code can run on multiple languages. The corpus contains the Declaration of Human Rights expressed in 372 languages from around the world. +

But what is the process of getting a dataset accepted into the NLTK library nowadays? On the Github page, the NLTK team describes the following requirements: +

  • Only contribute corpora that have obtained a basic level of notability. That means, there is a publication that describes it, and a community of programmers who are using it.
  • Ensure that you have permission to redistribute the data, and can document this. This means that the dataset is best published on an external website with a licence.
  • Use existing NLTK corpus readers where possible, or else contribute a well-documented corpus reader to NLTK. This means, you need to organize your data in such a way that it can be easily read using NLTK code.


+

Extract from a positive IMDb movie review from the NLTK dataset

corpus: NLTK, movie reviews +

fileid: pos/cv998_14111.txt +

steven spielberg ' s second epic film on world war ii is an unquestioned masterpiece of film . spielberg , ever the student on film , has managed to resurrect the war genre by producing one of its grittiest , and most powerful entries . he also managed to cast this era ' s greatest answer to jimmy stewart , tom hanks , who delivers a performance that is nothing short of an astonishing miracle . for about 160 out of its 170 minutes , " saving private ryan " is flawless . literally . the plot is simple enough . after the epic d - day invasion ( whose sequences are nothing short of spectacular ) , capt . john miller ( hanks ) and his team are forced to search for a pvt . james ryan ( damon ) , whose brothers have all died in battle . once they find him , they are to bring him back for immediate discharge so that he can go home . accompanying miller are his crew , played with astonishing perfection by a group of character actors that are simply sensational . barry pepper , adam goldberg , vin diesel , giovanni ribisi , davies , and burns are the team sent to find one man , and bring him home . the battle sequences that bookend the film are extraordinary . literally . +

The ouroboros of machine learning

Wikipedia has become a source for learning not only for humans, but also for machines. Its articles are prime sources for training models. But very often, the material the machines are trained on is the same content that they helped to write. In fact, at the beginning of Wikipedia, many articles were written by bots. Rambot, for example, was a controversial bot figure on the English-speaking platform. It authored 98 per cent of the pages describing US towns. +

As a result of serial and topical robot interventions, the models that are trained on the full Wikipedia dump have a unique view on composing articles. For example, a topic model trained on all of Wikipedia articles will associate 'river' with 'Romania' and 'village' with 'Turkey'. This is because there are over 10000 pages written about villages in Turkey. This should be enough to spark anyone's desire for a visit, but it is far too much compared to the number of articles other countries have on the subject. The asymmetry causes a false correlation and needs to be redressed. Most models try to exclude the work of these prolific robot writers. +

Reference

https://blog.lateral.io/2015/06/the-unknown-perils-of-mining-wikipedia/ +

+

Readers

+

We communicate with computers through language. We click on icons that have a description in words, we tap words on keyboards, use our voice to give them instructions. Sometimes we trust our computer with our most intimate thoughts and forget that they are extensive calculators. A computer understands every word as a combination of zeros and ones. A letter is read as a specific ASCII number: capital 'A' is 001. +

In all models, rule-based, classical machine learning, and neural networks, words undergo some type of translation into numbers in order to understand the semantic meaning of language. This is done through counting. Some models count the frequency of single words, some might count the frequency of combinations of words, some count the frequency of nouns, adjectives, verbs or noun and verb phrases. Some just replace the words in a text by their index numbers. Numbers optimize the operative speed of computer processes, leading to fast predictions, but they also remove the symbolic links that words might have. Here we present a few techniques that are dedicated to making text readable to a machine. +


+

+
Works
+

The Book of Tomorrow in a Bag of Words

by Algolit +

The bag-of-words model is a simplifying representation of text used in Natural Language Processing (NLP). In this model, a text is represented as a collection of its unique words, disregarding grammar, punctuation and even word order. The model transforms the text into a list of words and how many times they're used in the text, or quite literally a bag of words. +

This heavy reduction of language was the big shock when beginning to machine learn. Bag of words is often used as a baseline, on which the new model has to perform better. It can understand the subject of a text by recognizing the most frequent or important words. It is often used to measure the similarities of texts by comparing their bags of words. +

For this work the article 'Le Livre de Demain' by engineer G. Vander Haeghen, published in 1907 in the Bulletin de l'Institut International de Bibliographie of the Mundaneum, has been literally reduced to a bag of words. You can buy a bag at the reception of Mundaneum. +


Concept & realisation: An Mertens +

TF-IDF

by Algolit +

The TF-IDF (Term Frequency-Inverse Document Frequency) is a weighting method used in text search. This statistical measure makes it possible to evaluate the importance of a term contained in a document, relative to a collection or corpus of documents. The weight increases in proportion to the number of occurrences of the word in the document. It also varies according to the frequency of the word in the corpus. The TF-IDF is used in particular in the classification of spam in email softwares. +

A web-based interface shows this algorithm through animations making it possible to understand the different steps of text classification. How does a TF-IDF-based programme read a text? How does it transform words into numbers? +


Concept, code, animation: Sarah Garcin +

Growing a tree

by Algolit +

Parts-of-Speech is a category of words that we learn at school: noun, verb, adjective, adverb, pronoun, preposition, conjunction, interjection, and sometimes numeral, article, or determiner. +

In Natural Language Processing (NLP) there exist many writings that allow sentences to be parsed. This means that the algorithm can determine the part-of-speech of each word in a sentence. 'Growing a tree' uses this techniques to define all nouns in a specific sentence. Each noun is then replaced by its definition. This allows the sentence to grow autonomously and infinitely. The recipe of 'Growing a tree' was inspired by Oulipo's constraint of 'littérature définitionnelle', invented by Marcel Benabou in 1966. In a given phrase, one replaces every significant element (noun, adjective, verb, adverb) by one of its definitions in a given dictionary ; one reiterates the operation on the newly received phrase, and again. +

The dictionary of definitions used in this work is Wordnet. Wordnet is a combination of a dictionary and a thesaurus that can be read by machines. According to Wikipedia it was created in the Cognitive Science Laboratory of Princeton University starting in 1985. The project was initially funded by the US Office of Naval Research and later also by other US government agencies including DARPA, the National Science Foundation, the Disruptive Technology Office (formerly the Advanced Research and Development Activity), and REFLEX. +


Concept, code & interface: An Mertens & Gijs de Heij +

Algorithmic readings of Bertillon's portrait parlé

by Guillaume Slizewicz (Urban Species) +

Written in 1907, Un code télégraphique du portrait parlé is an attempt to translate the 'spoken portrait', a face-description technique created by a policeman in Paris, into numbers. By implementing this code, it was hoped that faces of criminals and fugitives could easily be communicated over the telegraphic network in between countries. In its form, content and ambition this text represents our complicated relationship with documentation technologies. This text sparked the creation of the following installations for three reasons: +

- First, the text is an algorithm in itself, a compression algorithm, or to be more precise, the presentation of a compression algorithm. It tries to reduce the information to smaller pieces while keeping it legible for the person who has the code. In this regard it is linked to the way we create technology, our pursuit for more efficiency, quicker results, cheaper methods. It represents our appetite for putting numbers on the entire world, measuring the smallest things, labeling the tiniest differences. This text itself embodies the vision of the Mundaneum. +

- Second it is about the reasons for and the applications of technology. It is almost ironic that this text was in the selected archives presented to us in a time when face recognition and data surveillance are so much in the news. This text bears the same characteristics as some of today's technology: motivated by social control, classifying people, laying the basis for a surveillance society. Facial features are at the heart of recent controversies: mugshots were standardized by Bertillon, now they are used to train neural network to predict criminals from law-abiding citizens. Facial recognition systems allow the arrest of criminals via CCTV infrastructure and some assert that people’s features can predict sexual orientation. +

- The last point is about how it represents the evolution of mankind’s techno-structure. What our tools allow us to do, what they forbid, what they hinder, what they make us remember and what they make us forget. This document enables a classification between people and a certain vision of what normality is. It breaks the continuum into pieces thus allowing stigmatization/discrimination. On the other hand this document also feels obsolete today, because our techno-structure does not need such detailed written descriptions about fugitives, criminals or citizens. We can now find fingerprints, iris scans or DNA info in large datasets and compare them directly. Sometimes the technological systems do not even need human supervision and recognize directly the identity of a person via their facial features or their gait. Computers do not use intricate written language to describe a face, but arrays of integers. Hence all the words used in this documents seem désuets, dated. Have we forgotten what some of them mean? Did photography make us forget how to describe faces? Will voice-assistance software teach us again? +

Writing with Otlet +

Writing with Otlet is a character generator that uses the spoken portrait code as its database. Random numbers are generated and translated into a set of features. By creating unique instances, the algorithm reveals the richness of the description that is possible with the portrait code while at the same time embodying its nuances. +

An interpretation of Bertillon's spoken portrait. +

This work draws a parallel between Bertillon systems and current ones. A webcam linked to a facial recognition algorithm captures the beholder's face and translates it into numbers on a canvas, printing it alongside Bertillon's labelled faces. +

References

https://www.technologyreview.com/s/602955/neural-network-learns-to-identify-criminals-by-their-faces/ +https://fr.wikipedia.org/wiki/Bertillonnage +https://callingbullshit.org/case_studies/case_study_criminal_machine_learning.html +

Hangman

by Laetitia Trozzi, student Arts²/Section Digital Arts +

What better way to discover Paul Otlet and his passion for literature than to play hangman? Through this simple game, which consists in guessing the missing letters in a word, the goal is to make the public discover terms and facts related to one of the creators of the Mundaneum. +

Hangman uses an algorithm to detect the frequency of words in a text. Next, a series of significant words were isolated in Paul Otlet's bibliography. This series of words is integrated into a hangman game presented in a terminal. The difficulty of the game gradually increases as the player is offered longer and longer words. Over the different game levels, information about the life and work of Paul Otlet is displayed. +

+

Contextual stories about Readers


+Naive Bayes, Support Vector Machines and Linear Regression are called classical machine learning algorithms. They perform well when learning with small datasets. But they often require complex Readers. The task the Readers do, is also called feature-engineering. This means that a human needs to spend time on a deep exploratory data analysis of the dataset. +

Features can be the frequency of words or letters, but also syntactical elements like nouns, adjectives, or verbs. The most significant features for the task to be solved, must be carefully selected and passed over to the classical machine learning algorithm. This process marks the difference with Neural Networks. When using a neural network, there is no need for feature-engineering. Humans can pass the data directly to the network and achieve fairly good performances straightaway. This saves a lot of time, energy and money. +

The downside of collaborating with Neural Networks is that you need a lot more data to train your prediction model. Think of 1GB or more of plain text files. To give you a reference, 1 A4, a text file of 5000 characters only weighs 5 KB. You would need 8,589,934 pages. More data also requires more access to useful datasets and more, much more processing power. +

Character n-gram for authorship recognition

Imagine … You've been working for a company for more than ten years. You have been writing tons of emails, papers, internal notes and reports on very different topics and in very different genres. All your writings, as well as those of your colleagues, are safely backed-up on the servers of the company. +

One day, you fall in love with a colleague. After some time you realize this human is rather mad and hysterical and also very dependent on you. The day you decide to break up, your (now) ex elaborates a plan to kill you. They succeed. This is unfortunate. A suicide letter in your name is left next to your corpse. Because of emotional problems, it says, you decided to end your life. Your best friends don't believe it. They decide to take the case to court. And there, based on the texts you and others produced over ten years, a machine learning model reveals that the suicide letter was written by someone else. +

How does a machine analyse texts in order to identify you? The most robust feature for authorship recognition is delivered by the character n-gram technique. It is used in cases with a variety of thematics and genres of the writing. When using character n-grams, texts are considered as sequences of characters. Let's consider the character trigram. All the overlapping sequences of three characters are isolated. For example, the character 3-grams of 'Suicide', would be, ‘Sui’, ‘uic’, ‘ici’, ‘cid’, etc. Character n-gram features are very simple, they're language-independent and they're tolerant to noise. Furthermore, spelling mistakes do not jeopardize the technique. +

Patterns found with character n-grams focus on stylistic choices that are unconsciously made by the author. The patterns remain stable over the full length of the text, which is important for authorship recognition. Other types of experiments could include measuring the length of words or sentences, the vocabulary richness, the frequencies of function words; even syntax or semantics-related measurements. +

This means that not only your physical fingerprint is unique, but also the way you compose your thoughts! +

The same n-gram technique discovered that The Cuckoo’s Calling, a novel by Robert Galbraith, was actually written by … J. K. Rowling! +

Reference

A history of n-grams

The n-gram algorithm can be traced back to the work of Claude Shannon in information theory. In the paper, 'A Mathematical Theory of Communication', published in 1948, Shannon performed the first instance of an n-gram-based model for natural language. He posed the question: given a sequence of letters, what is the likelihood of the next letter? +

If you read the following excerpt, can you tell who it was written by? Shakespeare or an n-gram piece of code? +

SEBASTIAN: Do I stand till the break off. +

BIRON: Hide thy head. +

VENTIDIUS: He purposeth to Athens: whither, with the vow +I made to handle you. +

FALSTAFF: My good knave. +

You may have guessed, considering the topic of this story, that an n-gram algorithm generated this text. The model is trained on the compiled works of Shakespeare. While more recent algorithms, such as the recursive neural networks of the CharNN, are becoming famous for their performance, n-grams still execute a lot of NLP tasks. They are used in statistical machine translation, speech recognition, spelling correction, entity detection, information extraction, ... +

God in Google Books

In 2006, Google created a dataset of n-grams from their digitized book collection and released it online. Recently they also created an n-gram viewer. +

This allowed for many socio-linguistic investigations. For example, in October 2018, the New York Times Magazine published an opinion article titled 'It’s Getting Harder to Talk About God'. The author, Jonathan Merritt, had analysed the mention of the word 'God' in Google's dataset using the n-gram viewer. He concluded that there had been a decline in the word's usage since the twentieth century. Google's corpus contains texts from the sixteenth century leading up to the twenty-first. However, what the author missed out on was the growing popularity of scientific journals around the beginning of the twentieth century. This new genre that was not mentioning the word God shifted the dataset. If the scientific literature was taken out of the corpus, the frequency of the word 'God' would again flow like a gentle ripple from a distant wave. +

Grammatical features taken from Twitter influence the stock market

The boundaries between academic disciplines are becoming blurred. Economics research mixed with psychology, social science, cognitive and emotional concepts have given rise to a new economics subfield, called 'behavioral economics'. This means that researchers can start to explain stock market mouvement based on factors other than economic factors only. Both the economy and 'public opinion' can influence or be influenced by each other. A lot of research is being done on how to use 'public opinion' to predict tendencies in stock-price changes. +

'Public opinion' is estimated from sources of large amounts of public data, like tweets, blogs or online news. Research using machinic data analysis shows that the changes in stock prices can be predicted by looking at 'public opinion', to some degree. There are many scientific articles online, which analyse the press on the 'sentiment' expressed in them. An article can be marked as more or less positive or negative. The annotated press articles are then used to train a machine learning model, which predicts stock market trends, marking them as 'down' or 'up'. When a company gets bad press, traders sell. On the contrary, if the news is good, they buy. +

A paper by Haikuan Liu of the Australian National University states that the tense of verbs used in tweets can be an indicator of the frequency of financial transactions. His idea is based on the fact that verb conjugation is used in psychology to detect the early stages of human depression. +

Reference

Paper: 'Grammatical Feature Extraction and Analysis of Tweet Text: An Application towards Predicting Stock Trends', Haikuan Liu, Research School of Computer Science (RSCS), College of Engineering and Computer Science (CECS), The Australian National University (ANU) +

Bag of words

In Natural Language Processing (NLP), 'bag of words' is considered to be an unsophisticated model. It strips text of its context and dismantles it into a collection of unique words. These words are then counted. In the previous sentences, for example, 'words' is mentioned three times, but this is not necessarily an indicator of the text's focus. +

The first appearance of the expression 'bag of words' seems to go back to 1954. Zellig Harris, an influential linguist, published a paper called 'Distributional Structure'. In the section called 'Meaning as a function of distribution', he says 'for language is not merely a bag of words but a tool with particular properties which have been fashioned in the course of its use. The linguist's work is precisely to discover these properties, whether for descriptive analysis or for the synthesis of quasi-linguistic systems.' +

+

Learners

+

Learners are the algorithms that distinguish machine learning practices from other types of practices. They are pattern finders, capable of crawling through data and generating some kind of specific 'grammar'. Learners are based on statistical techniques. Some need a large amount of training data in order to function, others can work with a small annotated set. Some perform well in classification tasks, like spam identification, others are better at predicting numbers, like temperatures, distances, stock market values, and so on. +

The terminology of machine learning is not yet fully established. Depending on the field, whether statistics, computer science or the humanities, different terms are used. Learners are also called classifiers. When we talk about Learners, we talk about the interwoven functions that have the capacity to generate other functions, evaluate and readjust them to fit the data. They are good at understanding and revealing patterns. But they don't always distinguish well which of the patterns should be repeated. +

In software packages, it is not always possible to distinguish the characteristic elements of the classifiers, because they are hidden in underlying modules or libraries. Programmers can invoke them using a single line of code. For this exhibition, we therefore developed two table games that show in detail the learning process of simple, but frequently used classifiers. +

+
Works
+

Naive Bayes game

by Algolit +

In machine learning Naive Bayes methods are simple probabilistic classifiers that are widely applied for spam filtering and deciding whether a text is positive or negative. +

They require a small amount of training data to estimate the necessary parameters. They can be extremely fast compared to more sophisticated methods. They are difficult to generalize, which means that they perform on specific tasks, demanding to be trained with the same style of data that will be used to work with afterwards. +

This game allows you to play along the rules of Naive Bayes. While manually executing the code, you create your own playful model that 'just works'. A word of caution is necessary: because you only train it with 6 sentences – instead of the minimum 2000 – it is not representative at all! +


Concept & realisation: An Mertens +

Linear Regression game

by Algolit +

Linear Regression is one of the best-known and best-understood algorithms in statistics and machine learning. It has been around for almost 200 years. It is an attractive model because the representation is so simple. In statistics, linear regression is a statistical method that allows to summarize and study relationships between two continuous (quantitative) variables. +

By playing this game you will realize that as a player you have a lot of decisions to make. You will experience what it means to create a coherent dataset, to decide what is in and what is not in. If all goes well, you will feel the urge to change your data in order to obtain better results. This is part of the art of approximation that is at the basis of all machine learning practices. +


Concept & realisation: An Mertens +

Traité de documentation

Traité de Documentation. Three algorithmic poems. +

by Rémi Forte, designer-researcher at L’Atelier national de recherche typographique, Nancy, France +

serigraphy on paper, 60 × 80 cm, 25 ex., 2019, for sale at the reception of the Mundaneum. +

The poems, reproduced in the form of three posters, are an algorithmic and poetic re-reading of Paul Otlet's Traité de documentation. They are the result of an algorithm based on the mysterious rules of human intuition. It has been applied to a fragment taken from Paul Otlet's book and is intended to be representative of his bibliological practice. +

For each fragment, the algorithm splits the text, words and punctuation marks are counted and reordered into a list. In each line, the elements combine and exhaust the syntax of the selected fragment. Paul Otlet's language remains perceptible but exacerbated to the point of absurdity. For the reader, the systematization of the text is disconcerting and his reading habits are disrupted. +

Built according to a mathematical equation, the typographical composition of the poster is just as systematic as the poem. However, friction occurs occasionally; loop after loop, the lines extend to bite on the neighbouring column. Overlays are created and words are hidden by others. These telescopic handlers draw alternative reading paths. +

+

Contextual stories about Learners

Naive Bayes & Viagra

Naive Bayes is a famous learner that performs well with little data. We apply it all the time. Christian and Griffiths state in their book, Algorithms To Live By, that 'our days are full of small data'. Imagine, for example, that you're standing at a bus stop in a foreign city. The other person who is standing there has been waiting for 7 minutes. What do you do? Do you decide to wait? And if so, for how long? When will you initiate other options? Another example. Imagine a friend asking advice about a relationship. He's been together with his new partner for a month. Should he invite the partner to join him at a family wedding? +

Having pre-existing beliefs is crucial for Naive Bayes to work. The basic idea is that you calculate the probabilities based on prior knowledge and given a specific situation. +

The theorem was formulated during the 1740s by Thomas Bayes, a reverend and amateur mathematician. He dedicated his life to solving the question of how to win the lottery. But Bayes' rule was only made famous and known as it is today by the mathematician Pierre Simon Laplace in France a bit later in the same century. For a long time after La Place's death, the theory sank into oblivion until it was dug up again during the Second World War in an effort to break the Enigma code. +

Most people today have come in contact with Naive Bayes through their email spam folders. Naive Bayes is a widely used algorithm for spam detection. It is by coincidence that Viagra, the erectile dysfunction drug, was approved by the US Food & Drug Administration in 1997, around the same time as about 10 million users worldwide had made free webmail accounts. The selling companies were among the first to make use of email as a medium for advertising: it was an intimate space, at the time reserved for private communication, for an intimate product. In 2001, the first SpamAssasin programme relying on Naive Bayes was uploaded to SourceForge, cutting down on guerilla email marketing. +

Reference

Machine Learners, by Adrian MacKenzie, MIT Press, Cambridge, US, November 2017. +

Naive Bayes & Enigma

This story about Naive Bayes is taken from the book 'The Theory That Would Not Die', written by Sharon Bertsch McGrayne. Among other things, she describes how Naive Bayes was soon forgotten after the death of Pierre Simon Laplace, its inventor. The mathematician was said to have failed to credit the works of others. Therefore, he suffered widely circulated charges against his reputation. Only after 150 years was the accusation refuted. +

Fast forward to 1939, when Bayes' rule was still virtually taboo, dead and buried in the field of statistics. When France was occupied in 1940 by Germany, which controlled Europe's factories and farms, Winston Churchill's biggest worry was the U-boat peril. U-boat operations were tightly controlled by German headquarters in France. Each submarine received orders as coded radio messages long after it was out in the Atlantic. The messages were encrypted by word-scrambling machines, called Enigma machines. Enigma looked like a complicated typewriter. It was invented by the German firm Scherbius & Ritter after the First World War, when the need for message-encoding machines had become painfully obvious. +

Interestingly, and luckily for Naive Bayes and the world, at that time, the British government and educational systems saw applied mathematics and statistics as largely irrelevant to practical problem-solving. So the British agency charged with cracking German military codes mainly hired men with linguistic skills. Statistical data was seen as bothersome because of its detail-oriented nature. So wartime data was often analysed not by statisticians, but by biologists, physicists, and theoretical mathematicians. None of them knew that the Bayes rule was considered to be unscientific in the field of statistics. Their ignorance proved fortunate. +

It was the now famous Alan Turing – a mathematician, computer scientist, logician, cryptoanalyst, philosopher and theoretical biologist – who used Bayes' rules probabilities system to design the 'bombe'. This was a high-speed electromechanical machine for testing every possible arrangement that an Enigma machine would produce. In order to crack the naval codes of the U-boats, Turing simplified the 'bombe' system using Baysian methods. It turned the UK headquarters into a code-breaking factory. The story is well illustrated in The Imitation Game, a film by Morten Tyldum dating from 2014. +

A story about sweet peas

Throughout history, some models have been invented by people with ideologies that are not to our liking. The idea of regression stems from Sir Francis Galton, an influential nineteenth-century scientist. He spent his life studying the problem of heredity – understanding how strongly the characteristics of one generation of living beings manifested themselves in the following generation. He established the field of eugenics, defining it as ‘the study of agencies under social control that may improve or impair the racial qualities of future generations, either physically or mentally'. On Wikipedia, Galton is a prime example of scientific racism. +Galton initially approached the problem of heredity by examining characteristics of the sweet pea plant. He chose this plant because the species can self-fertilize. Daughter plants inherit genetic variations from mother plants without a contribution from a second parent. This characteristic eliminates having to deal with multiple sources. +

Galton's research was appreciated by many intellectuals of his time. In 1869, in Hereditary Genius, Galton claimed that genius is mainly a matter of ancestry and he believed that there was a biological explanation for social inequality across races. Galton even influenced his half-cousin Charles Darwin with his ideas. After reading Galton's paper, Darwin stated, 'You have made a convert of an opponent in one sense for I have always maintained that, excepting fools, men did not differ much in intellect, only in zeal and hard work'. Luckily, the modern study of heredity managed to eliminate the myth of race-based genetic difference, something Galton tried hard to maintain. +

Galton's major contribution to the field was linear regression analysis, laying the groundwork for much of modern statistics. While we engage with the field of machine learning, Algolit tries not to forget that ordering systems hold power, and that this power has not always been used to the benefit of everyone. Machine learning has inherited many aspects of statistical research, some less agreeable than others. We need to be attentive, because these world views do seep into the algorithmic models that create new orders. +

References

http://galton.org/letters/darwin/correspondence.htm +https://www.tandfonline.com/doi/full/10.1080/10691898.2001.11910537 +http://www.paramoulipist.be/?p=1693 +

Perceptron

We find ourselves in a moment in time in which neural networks are sparking a lot of attention. But they have been in the spotlight before. The study of neural networks goes back to the 1940s, when the first neuron metaphor emerged. The neuron is not the only biological reference in the field of machine learning - think of the word corpus or training. The artificial neuron was constructed in close connection to its biological counterpart. +

Psychologist Frank Rosenblatt was inspired by fellow psychologist Donald Hebb's work on the role of neurons in human learning. Hebb stated that 'cells that fire together wire together'. His theory now lies at the basis of associative human learning, but also unsupervised neural network learning. It moved Rosenblatt to expand on the idea of the artificial neuron. +

In 1962, he created the Perceptron, a model that learns through the weighting of inputs. It was set aside by the next generation of researchers, because it can only handle binary classification. This means that the data has to be clearly separable, as for example, men and women, black and white. It is clear that this type of data is very rare in the real world. When the so-called first AI winter arrived in the 1970s and the funding decreased, the Perceptron was also neglected. For ten years it stayed dormant. When spring settled at the end of the 1980s, a new generation of researchers picked it up again and used it to construct neural networks. These contain multiple layers of Perceptrons. That is how neural networks saw the light. One could say that the current machine learning season is particularly warm, but it takes another winter to know a summer. +

BERT

Some online articles say that the year 2018 marked a turning point for the field of Natural Language Processing (NLP). A series of deep-learning models achieved state-of-the-art results on tasks like question-answering or sentiment-classification. Google’s BERT algorithm entered the machine learning competitions of last year as a sort of 'one model to rule them all'. It showed a superior performance over a wide variety of tasks. +

BERT is pre-trained; its weights are learned in advance through two unsupervised tasks. This means BERT doesn’t need to be trained from scratch for each new task. You only have to finetune its weights. This also means that a programmer wanting to use BERT, does not know any longer what parameters BERT is tuned to, nor what data it has seen to learn its performances. +

BERT stands for Bidirectional Encoder Representations from Transformers. This means that BERT allows for bidirectional training. The model learns the context of a word based on all of its surroundings, left and right of a word. As such, it can differentiate between 'I accessed the bank account' and 'I accessed the bank of the river'. +

Some facts: +- BERT_large, with 345 million parameters, is the largest model of its kind. It is demonstrably superior on small-scale tasks to BERT_base, which uses the same architecture with 'only' 110 million parameters. +- to run BERT you need to use TPUs. These are the Google's processors (CPUs) especially engineered for TensorFLow, the deep-learning platform. TPU's renting rates range from $8/hr till $394/hr. Algolit doesn't want to work with off-the-shelf packages, we are interested in opening up the blackbox. In that case, BERT asks for quite some savings in order to be used. +

+

Glossary

+

This is a non-exhaustive wordlist, based on terms that are frequently used in the exhibition. It might help visitors who are not familiar with the vocabulary related to the field of Natural Language Processing (NLP), Algolit or the Mundaneum. +

* Algolit: A group from Brussels involved in artistic research on algorithms and literature. Every month they gather to experiment with code and texts that are published under free licenses. http://www.algolit.net +

* Algoliterary: Word invented by Algolit for works that explore the point of view of the algorithmic storyteller. What kind of new forms of storytelling do we make possible in dialogue with machinic agencies? +

* Algorithm: A set of instructions in a specific programming language, that takes an input and produces an output. +

* Annotation: The annotation process is a crucial step in supervised machine learning where the algorithm is given examples of what it needs to learn. A spam filter in training will be fed examples of spam and real messages. These examples are entries, or rows from the dataset with a label, spam or non-spam. The labelling of a dataset is work executed by humans, they pick a label for each row of the dataset. To ensure the quality of the labels multiple annotators see the same row and have to give the same label before an example is included in the training data. +

* AI or artificial intelligences: In computer science, artificial intelligence (AI), sometimes called machine intelligence, is intelligence demonstrated by machines, in contrast to the natural intelligence displayed by humans and other animals. Computer science defines AI research as the study of ‘intelligent agents’. Any device that perceives its environment and takes actions that maximize its chance of successfully achieving its goals. More specifically, Kaplan and Haenlein define AI as ‘a system’s ability to correctly interpret external data, to learn from such data, and to use those learnings to achieve specific goals and tasks through flexible adaptation’. Colloquially, the term ‘artificial intelligence’ is used to describe machines that mimic ‘cognitive’ functions that humans associate with other human minds, such as ‘learning’ and ‘problem solving’. (Wikipedia) +

* Bag of Words: The bag-of-words model is a simplifying representation of text used in Natural Language Processing (NLP). In this model, a text is represented as a collection of its unique words, disregarding grammar, punctuation and even word order. The model transforms the text into a list of words and how many times they're used in the text, or quite literally a bag of words. Bag of words is often used as a baseline, on which the new model has to perform better. +

* Character n-gram: A technique that is used for authorship recognition. When using character n-grams, texts are considered as sequences of characters. Let's consider the character trigram. All the overlapping sequences of three characters are isolated. For example, the character 3-grams of 'Suicide', would be, 'Sui', 'uic', 'ici', 'cid' etc. Patterns found with character n-grams focus on stylistic choices that are unconsciously made by the author. The patterns remain stable over the full length of the text. +

* Classical Machine Learning: Naive Bayes, Support Vector Machines and Linear Regression are called classical machine learning algorithms. They perform well when learning with small datasets. But they often require complex Readers. The task the Readers do, is also called feature-engineering (see below). This means that a human needs to spend time on a deep exploratory data analysis of the dataset. +

* Constant: Constant is a non-profit, artist-run organisation based in Brussels since 1997 and active in the fields of art, media and technology. Algolit started as a project of Constant in 2012. http://constantvzw.org +

* Data workers: Artificial intelligences that are developed to serve, entertain, record and know about humans. The work of these machinic entities is usually hidden behind interfaces and patents. In the exhibition, algorithmic storytellers leave their invisible underworld to become interlocutors. +

* Dump: According to the English dictionary, a dump is an accumulation of refused and discarded materials or the place where such materials are dumped. In computing a dump refers to a ‘database dump’, a record of data from a database used for easy downloading or for backing up a database. Database dumps are often published by free software and free content projects, such as Wikipedia, to allow reuse or forking of the database. +

* Feature engineering: The process of using domain knowledge of the data to create features that make machine learning algorithms work. This means that a human needs to spend time on a deep exploratory data analysis of the dataset. +In Natural Language Processing (NLP) features can be the frequency of words or letters, but also syntactical elements like nouns, adjectives, or verbs. The most significant features for the task to be solved, must be carefully selected and passed over to the classical machine learning algorithm. +

* FLOSS or Free Libre Open Source Software: Software that anyone is freely licensed to use, copy, study, and change in any way, and the source code is openly shared so that people are encouraged to voluntarily improve the design of the software. This is in contrast to proprietary software, where the software is under restrictive copyright licensing and the source code is usually hidden from the users. (Wikipedia) +

* git: A software system for tracking changes in source code during software development. It is designed for coordinating work among programmers, but it can be used to track changes in any set of files. Before starting a new project, programmers create a "git repository" in which they will publish all parts of the code. The git repositories of Algolit can be found on https://gitlab.constantvzw.org/algolit. +

* gutenberg.org: Project Gutenberg is an online platform run by volunteers to ‘encourage the creation and distribution of eBooks’. It was founded in 1971 by American writer Michael S. Hart and is the oldest digital library. Most of the items in its collection are the full texts of public domain books. The project tries to make these as free as possible, in long-lasting, open formats that can be used on almost any computer. As of 23 June 2018, Project Gutenberg reached 57,000 items in its collection of free eBooks. (Wikipedia) +

* Henri La Fontaine: Henri La Fontaine (1854-1943) is a Belgian politician, feminist and pacifist. He was awarded the Nobel Peace Prize in 1913 for his involvement in the International Peace Bureau and his contribution to the organization of the peace movement. In 1895, together with Paul Otlet, he created the International Bibliography Institute, which became the Mundaneum. Within this institution, which aimed to bring together all the world's knowledge, he contributed to the development of the Universal Decimal Classification (CDU) system. +

* Kaggle: An online platform where users find and publish data sets, explore and build machine learning models, work with other data scientists and machine learning engineers, and enter competitions to solve data science challenges. About half a million data scientists are active on Kaggle. It was founded by Goldbloom and Ben Hamner in 2010 and acquired by Google in March 2017. +

* Literature: Algolit understands the notion of literature in the way a lot of other experimental authors do. It includes all linguistic production, from the dictionary to the Bible, from Virginia Woolf's entire work to all versions of Terms of Service published by Google since its existence. +

* Machine learning models: Algorithms based on statistics, mainly used to analyse and predict situations based on existing cases. In this exhibition we focus on machine learning models for text processing or Natural language processing', in short, 'nlp'. These models have learned to perform a specific task on the basis of existing texts. The models are used for search engines, machine translations and summaries, spotting trends in new media networks and news feeds. They influence what you get to see as a user, but also have their word to say in the course of stock exchanges worldwide, the detection of cybercrime and vandalism, etc. +

* Markov Chain: Algorithm that scans the text for the transition probability of letter or word occurrences, resulting in transition probability tables which can be computed even without any semantic or grammatical natural language understanding. It can be used for analyzing texts, but also for recombining them. It is is widely used in spam generation. +

* Mechanical Turk: The Amazon Mechanical Turk is an online platform for humans to execute tasks that algorithms cannot. Examples include annotating sentences as being positive or negative, spotting number plates, discriminating between face and non-face. The jobs posted on this platform are often paid less than a cent per task. Tasks that are more complex or require more knowledge can be paid up to several cents. Many academic researchers use Mechanical Turk as an alternative to have their students execute these tasks. +

* Mundaneum: In the late nineteenth century two young Belgian jurists, Paul Otlet (1868-1944), ‘the father of documentation’, and Henri La Fontaine (1854-1943), statesman and Nobel Peace Prize winner, created The Mundaneum. The project aimed at gathering all the world’s knowledge and file it using the Universal Decimal Classification (UDC) system that they had invented. +

* Natural Language: A natural language or ordinary language is any language that has evolved naturally in humans through use and repetition without conscious planning or premeditation. Natural languages can take different forms, such as speech or signing. They are different from constructed and formal languages such as those used to program computers or to study logic. (Wikipedia) +

* NLP or Natural Language Processing: Natural language processing (NLP) is a collective term referring to automatic computational processing of human languages. This includes algorithms that take human-produced text as input, and attempt to generate text that resembles it. +

* Neural Networks: Computing systems inspired by the biological neural networks that constitute animal brains. The neural network itself is not an algorithm, but rather a framework for many different machine learning algorithms to work together and process complex data inputs. Such systems ‘learn’ to perform tasks by considering examples, generally without being programmed with any task-specific rules. For example, in image recognition, they might learn to identify images that contain cats by analyzing example images that have been manually labeled as ‘cat’ or ‘no cat’ and using the results to identify cats in other images. They do this without any prior knowledge about cats, for example, that they have fur, tails, whiskers and cat-like faces. Instead, they automatically generate identifying characteristics from the learning material that they process. (Wikipedia) +

* Optical Character Recognition (OCR): Computer processes for translating images of scanned texts into manipulable text files. +

* Oracle: Oracles are prediction or profiling machines, a specific type of algorithmic models, mostly based on statistics. They are widely used in smartphones, computers, tablets. +

* Oulipo: Oulipo stands for Ouvroir de litterature potentielle (Workspace for Potential Literature). Oulipo was created in Paris by the French writers Raymond Queneau and François Le Lionnais. They rooted their practice in the European avant-garde of the twentieth century and in the experimental tradition of the 1960s. For Oulipo, the creation of rules becomes the condition to generate new texts, or what they call potential literature. Later, in 1981, they also created ALAMO, Atelier de littérature assistée par la mathématique et les ordinateurs (Workspace for literature assisted by maths and computers). +

* Paul Otlet: Paul Otlet (1868 – 1944) was a Belgian author, entrepreneur, visionary, lawyer and peace activist; he is one of several people who have been considered the father of information science, a field he called 'documentation'. Otlet created the Universal Decimal Classification, that was widespread in libraries. Together with Henri La Fontaine he created the Palais Mondial (World Palace), later, the Mundaneum to house the collections and activities of their various organizations and institutes. +

* Python: The main programming language that is globally used for natural language processing, was invented in 1991 by the Dutch programmer Guido Van Rossum. +

* Rule-Based models: Oracles can be created using different techniques. One way is to manually define rules for them. As prediction models they are then called rule-based models, opposed to statistical models. Rule-based models are handy for tasks that are specific, like detecting when a scientific paper concerns a certain molecule. With very little sample data, they can perform well. +

* Sentiment analysis: Also called 'opinion mining'. A basic task in sentiment analysis is classifying a given text as positive, negative, or neutral. Advanced, 'beyond polarity' sentiment classification looks, for instance, at emotional states such as 'angry', 'sad', and 'happy'. Sentiment analysis is widely applied to user materials such as reviews and survey responses, comments and posts on social media, and healthcare materials for applications that range from marketing to customer service, from stock exchange transactions to clinical medicine. +

* Supervised machine learning models: For the creation of supervised machine learning models, humans annotate sample text with labels before feeding it to a machine to learn. Each sentence, paragraph or text is judged by at least 3 annotators: whether it is spam or not spam, positive or negative etc. +

* Training data: Machine learning algorithms need guidance. In order to separate one thing from another, they need texts to extract patterns from. One should carefully choose the training material, and adapt it to the machine's task. It doesn't make sense to train a machine with nineteenth-century novels if its mission is to analyze tweets. +

* Unsupervised Machine Learning Models: Unsupervised machine learning models don't need the step of annotation of the data by humans. This saves a lot of time, energy, money. Instead, they need a large amount of training data, which is not always available and can take a long cleaning time beforehand. +

* Word embeddings: Language modelling techniques that through multiple mathematical operations of counting and ordering, plot words into a multi-dimensional vector space. When embedding words, they transform from being distinct symbols into mathematical objects that can be multiplied, divided, added or substracted. +

* Wordnet: Wordnet is a combination of a dictionary and a thesaurus that can be read by machines. According to Wikipedia it was created in the Cognitive Science Laboratory of Princeton University starting in 1985. The project was initially funded by the US Office of Naval Research and later also by other US government agencies including DARPA, the National Science Foundation, the Disruptive Technology Office (formerly the Advanced Research and Development Activity), and REFLEX. +

+ + + +
+ \ No newline at end of file diff --git a/data-workers.en.txt b/data-workers.en.txt new file mode 100644 index 0000000..e52871c --- /dev/null +++ b/data-workers.en.txt @@ -0,0 +1,3710 @@ +data workers write, perform, clean, inform, read and learn data workers write, perform, clean, inform, read +nd learn data workers write, perform, clean, inform, read and learn data workers write, perform, clean, +nform, read and learn data workers write, perform, clean, inform, read and learn data workers write, +perform, clean, inform, read and learn data workers write, perform, clean, inform, read and learn + data workers write, perform, clean, inform, read and learn data workers write, perform, clean, infor +, read and learn data workers write, perform, clean, inform, read and learn data workers w +ite, perform, clean, inform, read and learn data workers write, perform, clean, inform, read and l +arn data workers write, perform, clean, inform, read and learn data workers write, p +rform, clean, inform, read and learn data workers write, perform, clean, inform, read and learn + data workers write, perform, clean, inform, read and learn data workers write, +perform, clean, inform, read and learn data workers write, perform, clean, inform, read and +earn data workers write, perform, clean, inform, read and learn data wor +ers write, perform, clean, inform, read and learn data workers write, perform, clean, inf +rm, read and learn data workers write, perform, clean, inform, read and learn + data workers write, perform, clean, inform, read and learn data workers wri +e, perform, clean, inform, read and learn data workers write, perform, clean, inform, +read and learn data workers write, perform, clean, inform, read and learn + data workers write, perform, clean, inform, read and learn data wor +ers write, perform, clean, inform, read and learn data workers write, perform, cl +an, inform, read and learn data workers write, perform, clean, inform, read and +earn data workers write, perform, clean, inform, read and learn + data workers write, perform, clean, inform, read and learn dat + workers write, perform, clean, inform, read and learn data workers write, p +rform, clean, inform, read and learn data workers write, perform, clean, in +orm, read and learn data workers write, perform, clean, inform, read and l +arn data workers write, perform, clean, inform, read and learn + data workers write, perform, clean, inform, read and learn + data workers write, perform, clean, inform, read and learn + data workers write, perform, clean, inform, read and learn data work +rs write, perform, clean, inform, read and learn data workers write, +perform, clean, inform, read and learn data workers write, perform, +clean, inform, read and learn data workers write, perform, clean, +nform, read and learn data workers write, perform, clean, inform, +read and learn data workers write, perform, clean, inform, read +nd learn data workers write, perform, clean, inform, read and l +arn data workers write, perform, clean, inform, read and learn + data workers write, perform, clean, inform, read and learn + data workers write, perform, clean, inform, read and learn + data workers write, perform, clean, inform, read and learn + data workers write, perform, clean, inform, read and learn + data workers write, perform, clean, inform, read and learn + data workers write, perform, clean, inform, read and learn + data workers write, perform, clean, inform, read and learn + data workers write, perform, clean, inform, read and l +arn data workers write, perform, clean, inform, read +nd learn data workers write, perform, clean, inform, +read and learn data workers write, perform, clean, +nform, read and learn data workers write, perform, +clean, inform, read and learn data workers write, +perform, clean, inform, read and learn data work +rs write, perform, clean, inform, read and learn + data workers write, perform, clean, inform, read and learn + data workers write, perform, clean, inform, read and learn + data workers write, perform, clean, inform, read and learn + data workers write, perform, clean, inform, read and learn + + + What + can + humans learn from humans + humans learn with machines +machines learn from machines +machines learn with humans + humans learn from machines +machines learn with machines +machines learn from humans + humans learn with humans + ? ? ? + +Data Workers, an exhibition at the Mundaneum in Mons from 28 March until 28 April 2019. + 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345678 +9 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234567 +89 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456 +789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345 +6789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234 +56789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123 +456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12 +3456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1 +23456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 +123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 + 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345678 +9 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234567 +89 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456 +789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345 +6789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234 +56789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123 +456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12 +3456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1 +23456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 +123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 + 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345678 +9 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234567 +89 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456 +789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345 +6789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234 +56789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123 +456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12 +3456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1 +23456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 +123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 + 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345678 +9 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234567 +89 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456 +789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345 +6789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234 +56789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123 +456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12 +3456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1 +23456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 +123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 + 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345678 +9 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234567 +89 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456 +789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345 +6789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234 +56789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123 +456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12 +3456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1 +23456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 +123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 + 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345678 +9 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234567 +89 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456 +789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345 +6789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234 +56789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123 +456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12 +3456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1 +23456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 +123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 + 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345678 +9 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234567 +89 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456 +789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345 +6789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234 +56789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123 +456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12 +3456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1 +23456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 + 2 +ABOUT AT THE MUNDANEUM + +Data Workers is an exhibition of algoliterary works, of stories In the late nineteenth century two young +told from an ‘algorithmic storyteller point of view’. The exhibi- Belgian jurists, Paul Otlet (1868–1944), +tion was created by members of Algolit, a group from Brussels in- the 'father of documentation’, and Henri +volved in artistic research on algorithms and literature. Every La Fontaine (1854-1943), statesman and +month they gather to experiment with F/LOSS code and texts. Some Nobel Peace Prize winner, created the +works are by students of Arts² and external participants to the Mundaneum. The project aimed to gather +workshop on machine learning and text organized by Algolit in Oc- all the world’s knowledge and to file it +tober 2018 at the Mundaneum. using the Universal Decimal Classifica- + tion (UDC) system that they had invent- +Companies create artificial intelligence (AI) systems to serve, ed. At first it was an International In- +entertain, record and learn about humans. The work of these ma- stitutions Bureau dedicated to interna- +chinic entities is usually hidden behind interfaces and patents. tional knowledge exchange. In the twen- +In the exhibition, algorithmic storytellers leave their invisible tieth century the Mundaneum became a +underworld to become interlocutors. The data workers operate in universal centre of documentation. Its +different collectives. Each collective represents a stage in the collections are made up of thousands of +design process of a machine learning model: there are the Writ- books, newspapers, journals, documents, +ers, the Cleaners, the Informants, the Readers, the Learners and posters, glass plates and postcards in- +the Oracles. The boundaries between these collectives are not dexed on millions of cross-referenced +fixed; they are porous and permeable. At times, Oracles are also cards. The collections were exhibited +Writers. At other times Readers are also Oracles. Robots voice and kept in various buildings in Brus- +experimental literature, while algorithmic models read data, turn sels, including the Palais du Cinquante- +words into numbers, make calculations that define patterns and naire. The remains of the archive only +are able to endlessly process new texts ever after. moved to Mons in 1998. + +The exhibition foregrounds data workers who impact our daily Based on the Mundaneum, the two men de- +lives, but are either hard to grasp and imagine or removed from signed a World City for which Le Corbus- +the imagination altogether. It connects stories about algorithms ier made scale models and plans. The aim +in mainstream media to the storytelling that is found in techni- of the World City was to gather, at a +cal manuals and academic papers. Robots are invited to engage in global level, the institutions of knowl- +dialogue with human visitors and vice versa. In this way we might edge: libraries, museums and universi- +understand our respective reasonings, demystify each other's be- ties. This project was never realized. +haviour, encounter multiple personalities, and value our collec- It suffered from its own utopia. The +tive labour. It is also a tribute to the many machines that Paul Mundaneum is the result of a visionary +Otlet and Henri La Fontaine imagined for their Mundaneum, showing dream of what an infrastructure for uni- +their potential but also their limits. versal knowledge exchange could be. It + attained mythical dimensions at the +--- time. When looking at the concrete ar- + chive that was developed, that collec- +Data Workers was created by Algolit. tion is rather eclectic and specific. + +Works by: Cristina Cochior, Gijs de Heij, Sarah Garcin, An Artificial intelligence systems today +Mertens, Javier Lloret, Louise Dekeuleneer, Florian Van de Weyer, come with their own dreams of universal- +Laetitia Trozzi, Rémi Forte, Guillaume Slizewicz, Michael Mur- ity and knowledge production. When read- +taugh, Manetta Berends, Mia Melvær. ing about these systems, the visionary + dreams of their makers were there from +Co-produced by: Arts², Constant and Mundaneum. the beginning of their development in + the 1950s. Nowadays, their promise has +With the support of: Wallonia-Brussels Federation/Digital Arts, also attained mythical dimensions. When +Passa Porta, UGent, DHuF - Digital Humanities Flanders and looking at their concrete applications, +Distributed Proofreaders Project. the collection of tools is truly innova- + tive and fascinating, but at the same +Thanks to: Mike Kestemont, Michel Cleempoel, Donatella Portoghe- time, rather eclectic and specific. For +se, François Zajéga, Raphaèle Cornille, Vincent Desfromont, Kris Data Workers, Algolit combined some of +Rutten, Anne-Laure Buisson, David Stampfli. the applications with 10 per cent of the + digitized publications of the Interna- + tional Institutions Bureau. In this way, + we hope to poetically open up a discus- + sion about machines, algorithms, and + technological infrastructures. + + + + + + + + + 3 + CONTEXTUAL STORIES + ABOUT ALGOLIT + + + + --- Why contextual stories? --- spread by the media, often limited to superficial + reporting and myth-making. By creating algoliter- + During the monthly meetings of Algolit, we study ary works, we offer humans an introduction to + manuals and experiment with machine learning tools techniques that co-shape their daily lives. + for text processing. And we also share many, many + stories. With the publication of these stories we + hope to recreate some of that atmosphere. The sto- --- What is literature? --- +ries also exist as a podcast that can be down- +loaded from http://www.algolit.net. Algolit understands the notion of literature in + the way a lot of other experimental authors do: it + For outsiders, algorithms only become visible in includes all linguistic production, from the dic- + the media when they achieve an outstanding perfor- tionary to the Bible, from Virginia Woolf's entire + mance, like Alpha Go, or when they break down in work to all versions of the Terms of Service pub- + fantastically terrifying ways. Humans working in lished by Google since its existence. In this + the field though, create their own culture on and sense, programming code can also be literature. + offline. They share the best stories and experi- + ences during live meetings, research conferences The collective Oulipo is a great source of inspi- + and annual competitions like Kaggle. These stories ration for Algolit. Oulipo stands for Ouvroir de + that contextualize the tools and practices can be litterature potentielle (Workspace for Potential + funny, sad, shocking, interesting. Literature). Oulipo was created in Paris by the + French writers Raymond Queneau and François Le +A lot of them are experiential learning cases. The Lionnais. They rooted their practice in the Euro- +implementations of algorithms in society generate pean avant-garde of the twentieth century and in +new conditions of labour, storage, exchange, be- the experimental tradition of the 1960s. + haviour, copy and paste. In that sense, the con- + textual stories capture a momentum in a larger an- For Oulipo, the creation of rules becomes the con- + thropo-machinic story that is being written at dition to generate new texts, or what they call + full speed and by many voices. potential literature. Later, in 1981, they also + created ALAMO, Atelier de littérature assistée par + la mathématique et les ordinateurs (Workspace for + --- We create 'algoliterary' works --- literature assisted by maths and computers). + + The term 'algoliterary' comes from the name of our + research group Algolit. We have existed since 2012 --- An important difference --- + as a project of Constant, a Brussels-based organi- +zation for media and the arts. We are artists, While the European avant-garde of the twentieth +writers, designers and programmers. Once a month century pursued the objective of breaking with +we meet to study and experiment together. Our work conventions, members of Algolit seek to make con- + can be copied, studied, changed, and redistributed ventions visible. + under the same free license. You can find all the + information on: http://www.algolit.net. 'I write: I live in my paper, I invest it, I walk + through it.' (Espèces d'espaces. Journal d'un us- + The main goal of Algolit is to explore the view- ager de l'espace, Galilée, Paris, 1974) + point of the algorithmic storyteller. What new + forms of storytelling do we make possible in dia- This quote from Georges Perec in Espèces d'espaces + logue with these machinic agencies? Narrative could be taken up by Algolit. We're not talking + viewpoints are inherent to world views and ideolo- about the conventions of the blank page and the + gies. Don Quixote, for example, was written from literary market, as Georges Perec was. We're re- + an omniscient third-person point of view, showing ferring to the conventions that often remain hid- +Cervantes’ relation to oral traditions. Most con- den behind interfaces and patents. How are tech- +temporary novels use the first-person point of nologies made, implemented and used, as much in +view. Algolit is interested in speaking through academia as in business infrastructures? + algorithms, and in showing you the reasoning un- + derlying one of the most hidden groups on our We propose stories that reveal the complex hy- + planet. bridized system that makes machine learning possi- + ble. We talk about the tools, the logics and the + To write in or through code is to create new forms ideologies behind the interfaces. We also look at + of literature that are shaping human language in who produces the tools, who implements them, and + unexpected ways. But machine Learning techniques who creates and accesses the large amounts of data + are only accessible to those who can read, write needed to develop prediction machines. One could + and execute code. Fiction is a way of bridging the say, with the wink of an eye, that we are collabo- + gap between the stories that exist in scientific rators of this new tribe of human-robot hybrids. + papers and technical manuals, and the stories + + 4 +writers write writers write writers write writers write writers write writers write writ +rs write writers write writers write writers write writers write +writers write writers write writers write writers write +writers write writers write writers write writers write + writers write writers write writers write + writers write writers write writers write + writers write writers write writers write + writers write writers write + writers write writers write writers write + writers write writers write + writers write writers write + writers write writers write + writers write writers write + writers write writers write + writers write writers write + writers write writers write + writers write writers write + writers write writ +rs write writers write + writers write writers write + writers write +writers write writers write + writers write writer + write writers write + writers write writ +rs write writers write + writers write + writers write writers write + writers write + writers write w +iters write writers write + writers write + writers write + writers write writers write + writers write + writers write + writers write + writers write writer + write writers write + writers write + writers write + writers write + writers write + writers write + writers write writ +rs write writers write + writers write + writers write + writers write + writers write + writers write + writers write + writers write + writers write + writers write + writers write + writers write + writers write + writers write + writers write + writers write + writers write + writers write + writers write + writers write + writers write + writers write + writers write + writers write + 5 + 86ncrg k en3 a ioi-t i i l1 e i +-+-+-+-+-+-+-+ a +-+-+-+-+-+ l 9 t7ccpI46ed6t o w 7e a5o3 - + el, e 7 nh 71 e 5 4 3 4 |w|r|i|t|e|r|s| i |w|r|i|t|e| daml su h i e1 ww A l e59se a 5o wl + amlt t s w tlo n r 7a o9 +-+-+-+-+-+-+-+ ta +-+-+-+-+-+ hw t o4e e n,o32r , wd2 eo re 67n r + o1ife tt s 38 nt l 74 o 7 5i oda 65 ei r 9 7 n 5 n1r m l ot a51 e 3ma, 14swn 7 r r + b o i 3 se2 rceit ne a ki r 8 1iw3s n an t 8 8 r ra bn 1 eue r t4a r sT r phe o + e 6e6 7h5orir de6 1 +-+-+-+-+ +-+-+-+-+-+-+-+ t u +-+-+-+-+ 1 8 97o e c 4 d 8 h 7 z o a c4 + w as 3r 17r p ai |d|a|t|a| |w|o|r|k|e|r|s| |w|o|r|k| 6 r6v56 4 2i7 e tu1 r9 w 5 8 + 52 1 wi r 4hn G +-+-+-+-+ +-+-+-+-+-+-+-+ n +-+-+-+-+ nr 4 21 n raa2 Pn9 h + a ca3 adw sara +-+-+-+-+ +-+-+-+-+-+-+-+ +-+-+-+-+-+ 9 e9na y tt c 7 6 .cbieas + u e 5m b t3r 4 46 |m|a|n|y| |a|u|t|h|o|r|s| u |w|r|i|t|e| 4 4 yff , th t e + 6 2 6vo nn s +-+-+-+-+ +-+-+-+-+-+-+-+ m +-+-+-+-+-+ i 4 1 W1 n r8 - 1 g7 + 4n +-+-+-+-+-+ +-+-+-+-+-+ +-+-+-+-+-+ 8 1n e 6l v5c a + r 4 1 |e|v|e|r|y| |h|u|m|a|n| |b|e|i|n|g| n5 asr e 7l h 7 u , k o 2 r +e h r h +-+-+-+-+-+ +-+-+-+-+-+ +-+-+-+-+-+ 65 3 1 t w er e3 5 1en e i + 4 o c +-+-+-+ +-+-+-+ +-+-+-+-+-+-+ +-+-+ u 6d7 r tm , t l se t i 1 + t fc |w|h|o| |h|a|s| |a|c|c|e|s|s| |t|o| e 69 t n 1 k 4 1 +e n +-+-+-+ +-+-+-+ +-+-+-+-+-+-+ +-+-+ ie 62i 2 t tn 7 t on o e + 1 l , +-+-+-+ +-+-+-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+-+ a 9 , 9 + 9 w r |t|h|e| |i|n|t|e|r|n|e|t| |i|n|t|e|r|a|c|t|s| r i i tr h u f + m i m 5 +-+-+-+ +-+-+-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+-+ 6 T c 5 w 6 i d T + 7 5 l i os +-+-+ +-+-+-+-+-+ +-+-+-+-+-+-+ s m + w s r6 n |w|e| t |c|h|a|t|,| |w|r|i|t|e|,| 6 rrf + e 2 6 , p oe +-+-+ o +-+-+-+-+-+ +-+-+-+-+-+-+ r + e s 4 e p y 9 i +-+-+-+-+-+-+ +-+-+-+-+ +-+-+-+ r / + e s 6 e |c|l|i|c|k|,| |l|i|k|e| |a|n|d| tw r6 t ai + 3 8 28 a n e 8 +-+-+-+-+-+-+ +-+-+-+-+ +-+-+-+ r4 7 + e n h t 5 n +-+-+-+-+-+ n + 3 9 f c |s|h|a|r|e| p + l 5 9 +-+-+-+-+-+ d + 7 1 +-+-+ +-+-+-+-+-+ +-+-+-+ +-+-+-+-+ t 5 + r 2 2 e |w|e| |l|e|a|v|e| |o|u|r| |d|a|t|a| n3 i , + d t 8 a 9 +-+-+ 1 +-+-+-+-+-+ +-+-+-+ +-+-+-+-+ t + 7 +-+-+ +-+-+-+-+ +-+-+-+-+-+-+-+-+-+ + 7 t e |w|e| |f|i|n|d| |o|u|r|s|e|l|v|e|s| 6 + y s 8 8 +-+-+ 7 +-+-+-+-+ +-+-+-+-+-+-+-+-+-+ n e + r 1 +-+-+-+-+-+-+-+ +-+-+ +-+-+-+-+-+-+ e + a 2 t |w|r|i|t|i|n|g| |i|n| |P|y|t|h|o|n| + 5 3 d +-+-+-+-+-+-+-+ +-+-+ +-+-+-+-+-+-+ r + +-+-+-+-+ +-+-+-+-+-+-+ e + |s|o|m|e| |n|e|u|r|a|l| 4 a + k n +-+-+-+-+ +-+-+-+-+-+-+ z + or 3 w +-+-+-+-+-+-+-+-+ +-+-+-+-+-+ + 1 1 |n|e|t|w|o|r|k|s| c |w|r|i|t|e| 1 9 + s n +-+-+-+-+-+-+-+-+ +-+-+-+-+-+ e a + g +-+-+-+-+-+ +-+-+-+-+-+-+-+ +-+-+-+-+-+-+ t + |h|u|m|a|n| |e|d|i|t|o|r|s| |a|s|s|i|s|t| n , o + 8 +-+-+-+-+-+ +-+-+-+-+-+-+-+ +-+-+-+-+-+-+ a + +-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+-+-+-+ 4 + |p|o|e|t|s|,| |p|l|a|y|w|r|i|g|h|t|s| i7 + t +-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+-+-+-+ t c k y + v +-+-+ +-+-+-+-+-+-+-+-+-+ o +-+-+-+-+-+-+ + |o|r| |n|o|v|e|l|i|s|t|s| |a|s|s|i|s|t| 4 2 9 + r +-+-+ +-+-+-+-+-+-+-+-+-+ +-+-+-+-+-+-+ 7 6 + u r e + , R + 6 6 + t + s + 3 g 6 4 + + c e t 2 + 3 h 8 + D 4 + a + n o - + w 5 e 3 n e 3 + 3 + e + + 6 + V V V % V % V % V V V % % %% % %% % %% % % % % % % + V V V V V V V V V V V V V V V V % % 0 %% 0 % %% % % % % % +V V V V V V % V V V % % % % % % 0 % 00 % % 0 % + % %% % 0 0 %% % % ___ _ %% % 0 % + % % % % / \__ _| |_ __ _ + WRITERS % % % / /\ / _` | __/ _` | 0 0 % % + % % % % / /_// (_| | || (_| | % % % % + % 0 0 00 /___,' \__,_|\__\__,_| 0 + V V V V % V V V % V 0 __ __ _ + V V V V V V V V V V V V V V V V 0 0 / / /\ \ \___ _ __| | _____ _ __ ___ 0 0 % +V V V V % V V V V V \ \/ \/ / _ \| '__| |/ / _ \ '__/ __| + V V V V V V V V 0 0 0 \ /\ / (_) | | | < __/ | \__ \ 0 + V V V V V V V V V V V V V V V V \/ \/ \___/|_| |_|\_\___|_| |___/ % % +V V V % V V V V V V 0 ___ _ _ _ 0 0 0 _ _ 0 % + % / _ \_ _| |__ | (_) ___ __ _| |_(_) ___ _ __ % +Data workers need data to work 0 / /_)/ | | | '_ \| | |/ __/ _` | __| |/ _ \| '_ \ +with. The data that used in the % / ___/| |_| | |_) | | | (_| (_| | |_| | (_) | | | | +context of Algolit is written lan- 0 \/ \__,_|_.__/|_|_|\___\__,_|\__|_|\___/|_| |_| +guage. Machine learning relies on 0 0 % 0 % % +many types of writing. Many authors +write in the form of publications, By Algolit +such as books or articles. These % % +are part of organized archives and All works visible in the exhibition, as well as the contextual +are sometimes digitized. But there stories and some extra text material have been collected in a +are other kinds of writing too. We publication, which exists in French and English. +could say that every human being +who has access to the Internet is a This publication is made using a plain text workflow, based on +writer each time they interact with various text processing and counting tools. The plain text file +algorithms. We chat, write, click, format is a type of document in which there is no inherent struc- +like and share. In return for free tural difference between headers and paragraphs anymore. It is +services, we leave our data that is the most used type of document in machine learning models for +compiled into profiles and sold for text. This format has been the starting point of a playful design +advertising and research purposes. process, where pages are carefully counted, page by page, line by + line and character by character. % +Machine learning algorithms are not % +critics: they take whatever they're Each page holds 110 characters per line and 70 lines per page. +given, no matter the writing style, The design originates from the act of counting words, spaces and +no matter the CV of the author, no lines. It plays with random choices, scripted patterns and +matter the spelling mistakes. In ASCII/UNICODE-fonts, to speculate about the materiality of digi- +fact, mistakes make it better: the tal text and to explore the interrelations between counting and +more variety, the better they learn writing through words and numbers. +to anticipate unexpected text. But +often, human authors are not aware --- % +of what happens to their work. + Texts: Cristina Cochior, Sarah Garcin, Gijs de Heij, An Mertens, +Most of the writing we use is in François Zajéga, Louise Dekeuleneer, Florian Van de Weyer, Laeti- +English, some in French, some in tia Trozzi, Rémi Forte, Guillaume Slizewicz. +Dutch. Most often we find ourselves +writing in Python, the programming Translations & proofreading: deepl.com, Michel Cleempoel, Elodie +language we use. Algorithms can be % Mugrefya, Emma Kraak, Patrick Lennon. +writers too. Some neural networks +write their own rules and generate Lay-out & cover: Manetta Berends +their own texts. And for the models +that are still wrestling with the Responsible publisher: Constant vzw/asbl, Rue du Fortstraat 5, +ambiguities of natural language, 1060 Brussels +there are human editors to assist +them. Poets, playwrights or novel- License: Algolit, Data Workers, March 2019, Brussels. Copyleft: +ists start their new careers as as- This is a free work, you can copy, distribute, and modify it un- +sistants of AI. der the terms of the Free Art License http://artlibre.org/li- + cence/lal/en/. + + Online version: http://www.algolit.net/index.php/Data_Workers + + Sources: https://gitlab.constantvzw.org/algolit/mundaneum + + % + 0 0 + 0 0 0 + 0 ___ _ 0 0 + 7 + % % % % % %%% % % % % / \__ _| |_ __ _ 0 % % + %%% % %% % % % % % % / /\ / _` | __/ _` | % % 0 % + % % % % % % / /_// (_| | || (_| | % % % % % + % %%% % % 00 /___,' \__,_|\__\__,_| % 0 % % % % % + % __ % __ 0 % _ 0 % % % % + % % 0 / / /\ \ \___ _ __| | _____ _ __ ___ % % + % % % % % % \ \/ \/ / _ \| '__| |/ / _ \ '__/ __| + % 0 \ /\ / (_) | | | < __/ | \__ \ 0 % + % 0 \/ \/ \___/|_| |_|\_\___|_| |___/ + % % 0 % ___ _ _ % + % % 0 / _ \___ __| | ___ __ _ ___| |_ 0 + % 0 0 / /_)/ _ \ / _` |/ __/ _` / __| __| + % % 0 0 / ___/ (_) | (_| | (_| (_| \__ \ |_ + % 0 \/ \___/ \__,_|\___\__,_|___/\__| % + 0 0 0 0 0 0 % + % + % By Algolit % + % % % + % During our monthly Algolit meetings, we study manuals and experi- + ment with machine learning tools for text processing. And we also + share many, many stories. With this podcast we hope to recreate + some of that atmosphere. + % % + For outsiders, algorithms only become visible in the media when + they achieve an outstanding performance, like Alpha Go, or when + they break down in fantastically terrifying ways. Humans working + in the field though, create their own culture on and offline. + They share the best stories and experiences during live meetings, + research conferences and annual competitions like Kaggle. These + % stories that contextualize the tools and practises can be funny, + sad, shocking, interesting. + + A lot of them are experiential learning cases. The implementa- + % % tions of algorithms in society generate new conditions of labour, + storage, exchange, behaviour, copy and paste. In that sense, the + contextual stories capture a momentum in a larger anthropo-ma- + chinic story that is being written at full speed and by many + voices. The stories are also published in the publication of Data + Workers. + + --- % + % % + % Voices: David Stampfli, Cristina Cochior, An Mertens, Gijs de + Heij, Karin Ulmer, Guillaume Slizewicz + + Editing: Javier Lloret + % + Recording: David Stampfli + + Texts: Cristina Cochior, An Mertens + + + 00 00 0 + 0 0 + 0 0 _ _ _ + % /\/\ __ _ _ __| | _| |__ ___ | |_ + / \ / _` | '__| |/ / '_ \ / _ \| __| + / /\/\ \ (_| | | | 0 <| |_) | (_) | |_ + \/ \/\__,_|_| |_|\_\_.__/ \___/ \__| + ___ _ 0 0 _ 00 + / __\ |__ __ _(_)_ __ ___ 0 + 0 / / | '_ \ / _` | | '_ \/ __| + 0 / /___| | | | (_| | | | | \__ \ + 0 \____/|_| |_|\__,_|_|_| |_|___/ 0 0 + 0 0 0 + + By Florian Van de Weyer, student Arts²/Section Digital Arts + + Markbot Chain is a social experiment in which the public has a + 8 + %% % % % direct influence on the result. The intention is to integrate re- + % % % % % % sponses in a text-generation process without applying any filter. + % % %% % %%% %% % % % % % % % % %% + % % % % % % All the questions in the digital files provided by the Mundaneum %% + % % %% were automatically extracted. These questions are randomly put to % + % the public via a terminal. By answering them, people contribute + % % % to another database. Each entry generates a series of sentences % + using a Markov chain configuration, an algorithm that is widely % + used in spam generation. The sentences generated in this way are % % + % displayed in the window, and a new question is asked. % % +% % % + % % % + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + 9 + CONTEXTUAL STORIES + ABOUT WRITERS + + + + --- Programmers are writing the dataworkers into the only way to maintain trust is through consis- + being --- tency. So when Cortana talks, you 'must use her + personality'. + We recently had a funny realization: most program- + mers of the languages and packages that Algolit What is Cortana's personality, you ask? + uses are European. + +Python, for example, the main language that is 'Cortana is considerate, sensitive, and support- +globally used for Natural Language Processing ive. +(NLP), was invented in 1991 by the Dutch program- + mer Guido Van Rossum. He then crossed the Atlantic She is sympathetic but turns quickly to solutions. + and went from working for Google to working for + Dropbox. She doesn't comment on the user’s personal infor- + mation or behavior, particularly if the informa- + Scikit Learn, the open-source Swiss knife of ma- tion is sensitive. + chine learning tools, started as a Google Summer + of Code project in Paris by French researcher She doesn't make assumptions about what the user + David Cournapeau. Afterwards, it was taken on by wants, especially to upsell. + Matthieu Brucher as part of his thesis at the Sor- + bonne University in Paris. And in 2010, INRA, the She works for the user. She does not represent any + French National Institute for computer science and company, service, or product. +applied mathematics, adopted it. + She doesn’t take credit or blame for things she +Keras, an open-source neural network library writ- didn’t do. + ten in Python, was developed by François Chollet, + a French researcher who works on the Brain team at She tells the truth about her capabilities and her + Google. limitations. + + Gensim, an open-source library for Python used to She doesn’t assume your physical capabilities, + create unsupervised semantic models from plain gender, age, or any other defining characteristic. + text, was written by Radim Řehůřek. He is a Czech + computer scientist who runs a consulting business She doesn't assume she knows how the user feels + in Bristol, UK. about something. + + And to finish up this small series, we also looked She is friendly but professional. +at Pattern, an often-used library for web-mining +and machine learning. Pattern was developed and She stays away from emojis in tasks. Period +made open-source in 2012 by Tom De Smedt and Wal- + ter Daelemans. Both are researchers at CLIPS, the She doesn’t use culturally- or professionally-spe- + research centre for Computational Linguistics and cific slang. + Psycholinguistcs at the University of Antwerp. + She is not a support bot.' + + --- Cortana speaks --- + Humans intervene in detailed ways to programme an- + AI assistants often need their own assistants: swers to questions that Cortana receives. How + they are helped in their writing by humans who in- should Cortana respond when she is being proposed + ject humour and wit into their machine-processed inappropriate actions? Her gendered acting raises + language. Cortana is an example of this type of difficult questions about power relations within +blended writing. She is Microsoft’s digital assis- the world away from the keyboard, which is being +tant. Her mission is to help users to be more pro- mimicked by technology. +ductive and creative. Cortana's personality has + been crafted over the years. It's important that Consider Cortana's answer to the question: + she maintains her character in all interactions + with users. She is designed to engender trust and - Cortana, who's your daddy? + her behavior must always reflect that. - Technically speaking, he’s Bill Gates. No big + deal. + The following guidelines are taken from Mi- + crosoft's website. They describe how Cortana's + style should be respected by companies that extend --- Open-source learning --- + her service. Writers, programmers and novelists, + who develop Cortana's responses, personality and Copyright licenses close up a lot of the machinic + branding have to follow these guidelines. Because writing, reading and learning practices. That + means that they're only available for the employ- + 10 + + + + + ees of a specific company. Some companies partici- + pate in conferences worldwide and share their References + knowledge in papers online. But even if they share https://hiphilangsci.net/2013/05/01/on-the-his- + their code, they often will not share the large tory-of-the-question-of-whether-natural-language- + amounts of data needed to train the models. is-illogical/ + + We were able to learn to machine learn, read and Book: Neural Network Methods for Natural Language + write in the context of Algolit, thanks to aca- Processing, Yoav Goldberg, Bar Ilan University, + demic researchers who share their findings in pa- April 2017. + pers or publish their code online. As artists, we +believe it is important to share that attitude. +That's why we document our meetings. We share the +tools we make as much as possible and the texts we + use are on our online repository under free li- + censes. + + We are thrilled when our works are taken up by + others, tweaked, customized and redistributed, so + please feel free to copy and test the code from + our website. If the sources of a particular + project are not there, you can always contact us + through the mailinglist. You can find a link to + our repository, etherpads and wiki at: + http://www.algolit.net. + + +--- Natural language for artificial intelligence + --- + + Natural Language Processing (NLP) is a collective + term that refers to the automatic computational + processing of human languages. This includes algo- + rithms that take human-produced text as input, and + attempt to generate text that resembles it. We + produce more and more written work each year, and + there is a growing trend in making computer inter- + faces to communicate with us in our own language. + NLP is also very challenging, because human lan- +guage is inherently ambiguous and ever-changing. + +But what is meant by 'natural' in NLP? Some would + argue that language is a technology in itself. Ac- + cording to Wikipedia, 'a natural language or ordi- + nary language is any language that has evolved + naturally in humans through use and repetition + without conscious planning or premeditation. Natu- + ral languages can take different forms, such as + speech or signing. They are different from con- + structed and formal languages such as those used + to program computers or to study logic. An offi- + cial language with a regulating academy, such as + Standard French with the French Academy, is clas- +sified as a natural language. Its prescriptive +points do not make it constructed enough to be +classified as a constructed language or controlled + enough to be classified as a controlled natural + language.' + + So in fact, 'natural languages' also includes lan- + guages which do not fit in any other group. NLP, + instead, is a constructed practice. What we are + looking at is the creation of a constructed lan- + guage to classify natural languages that, by their + very definition, resists categorization. + + 11 + 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345678 +9 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234567 +89 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456 +789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345 +6789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234 +56789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123 +456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12 +3456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1 +23456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 +123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 + 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345678 +9 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234567 +89 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456 +789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345 +6789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234 +56789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123 +456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12 +3456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1 +23456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 +123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 + 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345678 +9 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234567 +89 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456 +789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345 +6789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234 +56789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123 +456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12 +3456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1 +23456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 +123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 + 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345678 +9 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234567 +89 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456 +789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345 +6789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234 +56789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123 +456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12 +3456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1 +23456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 +123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 + 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345678 +9 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234567 +89 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456 +789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345 +6789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234 +56789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123 +456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12 +3456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1 +23456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 +123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 + 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345678 +9 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234567 +89 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456 +789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345 +6789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234 +56789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123 +456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12 +3456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1 +23456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 +123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 + 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345678 +9 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234567 +89 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456 +789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345 +6789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234 +56789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123 +456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12 +3456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1 +23456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 + 12 +oracles predict oracles predict oracles predict oracles predict oracles predict oracles predic + oracles predict oracles predict oracles predict oracles predict orac +es predict oracles predict oracles predict oracles predict +racles predict oracles predict oracles predict oracles predic + oracles predict oracles predict oracles predict + oracles predict oracles predict oracles predict + oracles predict oracles predict or +cles predict oracles predict oracles predict + oracles predict oracles predict + oracles predict oracles predict oracles pr +dict oracles predict oracles predict + oracles predict oracles predict + oracles predict oracles predict + oracles predict oracles predict + oracles predict oracles predict + oracles predict orac +es predict oracles predict + oracles predict oracles predict + oracles predict oracles predic + oracles predict + oracles predict oracles predict + oracles predict +oracles predict oracles predict + oracles predict +racles predict oracles predict + oracles predict + oracles predict oracles predict + oracles predict + oracles predict orac +es predict oracles predict + oracles predict + oracles predict +racles predict oracles predict + oracles predict + oracles predict + oracles predict +racles predict oracles predict + oracles predict + oracles predict + oracles predict + oracles predict + oracles predict or +cles predict oracles predic + oracles predict + oracles predict + oracles predict + oracles predict + oracles predict + oracles predict + oracles predict + oracles predict + oracles predict + oracles predict + oracles predict + oracles predict + oracles predict + oracles predict + oracles predict + oracles predict + oracles predict + oracles predict + oracles predict + oracles predict + oracles predict + oracles predict + oracles predict + oracles predict + oracles predict + oracles predict + 13 + r e32t 8smc 9i ab14 e s4 +-+-+-+-+-+-+-+ +-+-+-+-+-+-+-+ , e| 8 1 e D ry a4a e ta 9 e + t s5 e ² 348 th8no 2 4at t |o|r|a|c|l|e|s| ar3i |p|r|e|d|i|c|t| 63 s 1 tc39,l3h, d14 5au on w + 4 SI, 1 56 e|p 4 iu g7 e +-+-+-+-+-+-+-+ 39k +-+-+-+-+-+-+-+ 9 l o a d r 7 P _ e,a + + n w 2a p/+ 9f8 1of 5\i 4h h e2n 3 t on1 9t \ 94 ne2 + uu e n 63m 5 e a3 2n e, + sn 39ew nt1i -5d 632sd e 15t |a3% 3 c wt9 c n9sg6et 8 8 c , n 1poo F + 1 3 o 1g18e +-+-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+ 7 +-+-+-+-+-+-+-+-+ +-+-+-+ 4 n t2+a- 8 43 8 3p4 + n o tpn86i |m|a|c|h|i|n|e| |l|e|a|r|n|i|n|g| 2 |a|n|a|l|y|s|e|s| |a|n|d| a 5e v3 5 9 o56n n + e9n 4 5 +-+-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+ etn +-+-+-+-+-+-+-+-+ +-+-+-+ li 5p 8f i h + 3 6 k6 3i6 3 9y e , r6 6iA wg r1 +-+-+-+-+-+-+-+-+ 3 e e a y l hl + -N 7 g n6d 14t l1 9ui | _rs e i e 1 |p|r|e|d|i|c|t|s| 1 wn9uc tn s 6m + a rrh4 7 oly e e e e 4 62 y a e +-+-+-+-+-+-+-+-+ g 8a 3 V l% u a i 1 7 1 + ’ h | 8 8 5 _ n , 8r 4 1_ +-+-+-+-+-+-+ .r +-+-+-+-+ +-+-+-+-+-+-+-+ 5 r 3 9 1 p o f a + r v t 4 o 9 w2 4r |m|o|d|e|l|s| g r |h|a|v|e| |l|e|a|r|n|e|d| 1 n r1 8 2 sro + 1 ,d c T2 8 9 41 6 +-+-+-+-+-+-+ c +-+-+-+-+ +-+-+-+-+-+-+-+ d3 s m 6 d n f c t e + t t r 1 6 .ofoi t 5 67 1 +-+-+-+-+-+-+ 7 +-+-+-+ +-+-+-+-+ 4o e e 5 1 98 g , + + rw l 9 96 a 3t np , |m|o|d|e|l|s| |a|r|e| |u|s|e|d| , e uu 3 l c t + 3 28e 95 9 h _ n +-+-+-+-+-+-+ +-+-+-+ +-+-+-+-+ a9 1e _eu p e d e w + n w r n n f 8 c , d +-+-+-+-+ a +-+-+-+-+-+-+-+-+-+ 84 i e l8 t + + o mf 7 |t|h|e|y| d |i|n|f|l|u|e|n|c|e| o n a bntq c d n7 8 + - s e 9 n 7 77 8 +-+-+-+-+ aa +-+-+-+-+-+-+-+-+-+ t a 6 1 | c4 + h o l6 o 9 8 o +-+-+-+-+ i +-+-+-+-+ +-+-+-+-+-+ +-+-+-+ e r 3e9 h 6 + o -n p 9 f n s 8hr |t|h|e|y| e- |h|a|v|e| |t|h|e|i|r| |s|a|y| lV d tr + r 2 6 6 a +-+-+-+-+ %5 +-+-+-+-+ +-+-+-+-+-+ +-+-+-+ 3 ip n 5n + r 7 o( s +-+-+-+-+-+-+-+-+-+-+-+ 5 4 a o 7 3 e 6 n- t n f d it + p 1 e |i|n|f|o|r|m|a|t|i|o|n| 4n i3 c, 6 t 1 l ma 7 + 1 d b +-+-+-+-+-+-+-+-+-+-+-+ a 7 t 4 7 s w 3a e + 4 3 3 +-+-+-+-+-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+-+-+ d i 2 + 6 e r C |e|x|t|r|a|c|t|i|o|n| |r|e|c|o|g|n|i|z|e|s| r + %_ e d kb h +-+-+-+-+-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+-+-+ a + 3 c +-+-+-+-+ m v +7 + 9 l 5 so h a a |t|e|x|t| 5 5 e 3 9 P p 5 +-9 t u5 7 ' l +-+-+-+-+ m ao n- r + i y +-+-+-+-+-+-+-+-+-+-+-+-+-+-+ +-+-+-+-+-+-+-+ 8 1 + a 9 37 |c|l|a|s|s|i|f|i|c|a|t|i|o|n| |d|e|t|e|c|t|s| c + 4 I r t p h +-+-+-+-+-+-+-+-+-+-+-+-+-+-+ o +-+-+-+-+-+-+-+ O pe u + g rk 4 7 1 5 5 9 i 4 c 5 2 + o 3 p h 9 v r f 3d + d , 3r 5i g h 1 4 l 5 + h w c 7 e 3 yo n +h 5 5 2 e m o , c 2 r + s 3 1 7 s 1 e 1 + l 6 t e 6 1 r b 2 4 + e r 4 4 o s 4 + 9 ,i pw o c + 1 6 n , a 5 + e e i 4 p t , ' s + ei 9 t + 6 t l u 6 9 + V 8 c | _ a + r o 5 r | 3 t t + 1 1 o 3 _ + o l 6 i 7 + O w e + 8 7 M se + % i 3 e + p 3 9 + a r a b i n o a + 7 e 4 s o tl t + 9 r s 94 c + o k5 l 2 | a r T 1 , + r r 2 s + | , n + o t 5 + l t r si + e y s t + y e o + r 8 e 1 h + 2 n 6 5 + r n 5 s + + 14 + V V V V V V V V %% %% % % % % % + V V V V V V V V V V V V V V V V 0 % 0 % 0 0 %% 0 % % %% +V V V % V % V V V V V % % %% % 0 0 0 0 % 0 0 00 + % % % %% % % _____ _ 0 _ _ 0 _ _ _ % % + % % 0 /__ \ |__ ___ /_\ | | __ _ ___ | (_) |_ % + % ORACLES % % % % % 0 / /\/ '_ \ / _ \ //_\\| |/ _` |/ _ \| | | __| % + % % %% / / | | | | __/ / _ \ | (_| | (_) | | | |_ + % % \/ |_| |_|\___| \_/ \_/_|\__, |\___/|_|_|\__| + V V V V V V V V % 0 % % % 0 |___/ % + V V V V V V V V V V V V V V V V % 0 0 %% 0 0 _ 0 % 0 % +V V V V V V V V V 0 ___ _ __ __ _| |_ ___ _ __ % + V V V V V V V V % % % % / _ \ '__/ _` | __/ _ \| '__| % + V V V V V V V V V V V V V V V V % | __/ | | (_| | || (_) | | +V V V V V V V V V 0 \___|_| \__,_|\__\___/|_| + % 0 0 % +Machine learning is mainly used to % % +analyse and predict situations by Algolit % +based on existing cases. In this +exhibition we focus on machine The Algoliterator is a neural network trained using the selection +learning models for text processing of digitized works of the Mundaneum archive. % +or Natural Language Processing % +(NLP). These models have learned to With the Algoliterator you can write a text in the style of the +perform a specific task on the ba- International Institutions Bureau. The Algoliterator starts by +sis of existing texts. The models selecting a sentence from the archive or corpus used to train it. +are used for search engines, ma- You can then continue writing yourself or, at any time, ask the +chine translations and summaries, Algoliterator to suggest a next sentence: the network will gener- +spotting trends in new media net- ate three new fragments based on the texts it has read. You can +works and news feeds. They influ- control the level of training of the network and have it generate +ence what you get to see as a user, sentences based on primitive training, intermediate training or +but also have their say in the final training. +course of stock exchanges world- +wide, the detection of cybercrime When you're satisfied with your new text, you can print it on the +and vandalism, etc. thermal printer and take it home as a souvenir. + % +There are two main tasks when it % --- +comes to language understanding. +Information extraction looks at Sources: https://gitlab.constantvzw.org/algolit/algoliterator.- +concepts and relations between con- clone +cepts. This allows for recognizing +topics, places and persons in a Concept, code & interface: Gijs de Heij & An Mertens +text, summarization and questions & +answering. The other task is text Technique: Recurrent Neural Network +classification. You can train an +oracle to detect whether an email Original model: Andrej Karphaty, Justin Johnson % +is spam or not, written by a man or +a woman, rather positive or nega- % % +tive. 0 0 0 0 0 0 + 0 0 0 0 0 0 0 +In this zone you can see some of __ __ 0 _ 0 _ 0 +those models at work. During your 0 0 / / /\ \ \___ _ __ __| |___ (_)_ __ +further journey through the exhibi- \ \/ \/ / _ \| '__/ _` / __| | | '_ \ +tion you will discover the differ- \ /\ / (_) | | | (_| \__ \ | | | | | +ent steps that a human-machine goes \/ \/ \___/|_| \__,_|___/ |_|_| |_| +through to come to a final model. 0 __ 0 + 00 0 / _\_ __ __ _ ___ ___ 0 + 00 0 \ \| '_ \ / _` |/ __/ _ \ + _\ \ |_) | (_| | (_| __/ 0 + % 0 \__/ .__/ \__,_|\___\___| + 0 0 |_| 0 + 0 0 0 0 0 0 + + by Algolit + + Word embeddings are language modelling techniques that through + multiple mathematical operations of counting and ordering, plot + words into a multi-dimensional vector space. When embedding + words, they transform from being distinct symbols into mathemati- + cal objects that can be multiplied, divided, added or substract- + ed. + 15 + %%% % % % % % % % %% % %% % %% %% % %% % % % + % % % % %%% %% %% By distributing the words along the many diagonal lines of the + % % % multi-dimensional vector space, their new geometrical placements + % % become impossible to perceive by humans. However, what is gained + % % % are multiple, simultaneous ways of ordering. Algebraic operations + % %% % make the relations between vectors graspable again. % + % % + % % % This installation uses Gensim, an open-source vector space and + topic-modelling toolkit implemented in the programming language % + Python. It allows to manipulate the text using the mathematical + relationships that emerge between the words, once they have been + % % % plotted in a vector space. % + % % % % % + % % % --- % + % % + % Concept & interface: Cristina Cochior + % % % % + Technique: word embeddings, word2vec % + % + % % Original model: Radim Rehurek and Petr Sojka + % % % + % % + % 0 00 0 0 + 0 + % ___ _ 0 _ __ 0 _ 0 + % 0 / __\ | __ _ ___ ___(_)/ _|_ 0 _(_)_ __ __ _ + / / | |/ _` / __/ __| | |_| | | | | '_ \ / _` | + / /___| | (_| \__ \__ \ | _| |_| | | | | | (_| | + \____/|_|\__,_|___/___/_|_| \__, |_|_| |_|\__, | % + 0 0 0 0 0 |___/ |___/ + _ _ __ __ _ _ + % 0 0 | |_| |__ ___ / / /\ \ \___ _ __| | __| | + % 0 | __| '_ \ / _ \ \ \/ \/ / _ \| '__| |/ _` | + 0 | |_| | | | __/ \ /\ / (_) | | | | (_| | + \__|_| |_|\___| \/ \/ \___/|_| |_|\__,_| + 0 0 0 + % + by Algolit + + % Librarian Paul Otlet's life work was the construction of the Mun- + daneum. This mechanical collective brain would house and distrib- + ute everything ever committed to paper. Each document was classi- + % fied following the Universal Decimal Classification. Using tele- + graphs and especially, sorters, the Mundaneum would have been + able to answer any question from anyone. + + With the collection of digitized publications we received from + the Mundaneum, we built a prediction machine that tries to clas- + % sify the sentence you type in one of the main categories of + Universal Decimal Classification. You also witness how the ma- + chine 'thinks'. During the exhibition, this model is regularly + retrained using the cleaned and annotated data visitors added in + % Cleaning for Poems and The Annotator. % + + The main classes of the Universal Decimal Classification system + are: + % % + 0 - Science and Knowledge. Organization. Computer Science. Infor- + mation Science. Documentation. Librarianship. Institutions. + Publications % + + 1 - Philosophy. Psychology + + 2 - Religion. Theology + % + 3 - Social Sciences + % + 4 - vacant + + 16 + %% %% %%% %% % %% 5 - Mathematics. Natural Sciences % % % % % % %% % + % % %% % % % %% %% %% % % % % % % + % % % % 6 - Applied Sciences. Medicine, Technology % + % % % % % % % %% + % %% % 7 - The Arts. Entertainment. Sport % %% % + % %% % % % % % % + % % 8 - Linguistics. Literature % % + % % % % % % % % % % + % % % % 9 - Geography. History % %% % + %% % % % + % % % --- + % % % + % Concept, code, interface: Sarah Garcin, Gijs de Heij, An Mertens + % % % % % + % % + % % 0 0 % 0 % + %% 000 0 0 % 0 + % ___ 00 _ 0 % + 0 / _ \___ ___ _ __ | | ___ % + 0 0 / /_)/ _ \/ _ \| '_ \| |/ _ \ + 0 0 / ___/ __/ (_) | |_) | | __/ 0 + 0 \/ % \___|\___/| .__/|_|\___| + 0 0 0 |_| 0 + % _ _ _ 0 _ 0 0 + 0 0 __| | ___ _ __( ) |_ | |__ __ ___ _____ % + % / _` |/ _ \| '_ \/| __| | '_ \ / _` \ \ / / _ \ % + | (_| | (_) | | | || |_ | | | | (_| |\ V / __/ + 0 \__,_|\___/|_| |_| \__| |_| |_|\__,_| \_/ \___| + _ 0 _ _ 0 0 + | |__ _ _| |_| |_ ___ _ __ ___ + | '_ \| | | | __| __/ _ \| '_ \/ __| + % 0 | |_) | |_| | |_| || (_) | | | \__ \ + 0 |_.__/ \__,_|\__|\__\___/|_| |_|___/ + 0 0 + % + by Algolit + + Since the early days of artificial intelligence (AI), researchers + have speculated about the possibility of computers thinking and + communicating as humans. In the 1980s, there was a first revolu- + tion in Natural Language Processing (NLP), the subfield of AI + concerned with linguistic interactions between computers and hu- + mans. Recently, pre-trained language models have reached state- + of-the-art results on a wide range of NLP tasks, which intensi- + % fies again the expectations of a future with AI. + % + This sound work, made out of audio fragments of scientific docu- + mentaries and AI-related audiovisual material from the last half + century, explores the hopes, fears and frustrations provoked by + these expectations. + + --- + + % Concept, sound edit: Javier Lloret + % + List of sources: + 'The Machine that Changed the World : Episode IV -- The Thinking + Machine', 'The Imitation Game', 'Maniac', 'Halt & Catch Fire', + 'Ghost in the Shell', 'Computer Chess', '2001: A Space Odyssey', + Ennio Morricone, Gijs Gieskes, André Castro. + + + + + + + + + + 17 + CONTEXTUAL STORIES + ABOUT ORACLES + + + + Oracles are prediction or profiling machines. They + are widely used in smartphones, computers, Sweeney based her research on queries of 2184 + tablets. racially associated personal names across two web- + sites. 88 per cent of first names, identified as + Oracles can be created using different techniques. being given to more black babies, are found pre- + One way is to manually define rules for them. As dictive of race, against 96 per cent white. First + prediction models they are then called rule-based names that are mainly given to black babies, such +models. Rule-based models are handy for tasks that as DeShawn, Darnell and Jermaine, generated ads +are specific, like detecting when a scientific pa- mentioning an arrest in 81 to 86 per cent of name +per concerns a certain molecule. With very little searches on one website and in 92 to 95 per cent + sample data, they can perform well. on the other. Names that are mainly assigned to + whites, such as Geoffrey, Jill and Emma, did not + But there are also the machine learning or statis- generate the same results. The word 'arrest' only + tical models, which can be divided in two oracles: appeared in 23 to 29 per cent of white name + 'supervised' and 'unsupervised' oracles. For the searches on one site and 0 to 60 per cent on the + creation of supervised machine learning models, other. + humans annotate sample text with labels before + feeding it to a machine to learn. Each sentence, On the website with most advertising, a black- + paragraph or text is judged by at least three an- identifying name was 25 percent more likely to get + notators: whether it is spam or not spam, positive an ad suggestive of an arrest record. A few names + or negative etc. Unsupervised machine learning did not follow these patterns: Dustin, a name +models don't need this step. But they need large mainly given to white babies, generated an ad sug- +amounts of data. And it is up to the machine to gestive of arrest in 81 and 100 percent of the +trace its own patterns or 'grammatical rules'. Fi- time. It is important to keep in mind that the ap- + nally, experts also make the difference between pearance of the ad is linked to the name itself. + classical machine learning and neural networks. It is independent of the fact that the name has an + You'll find out more about this in the Readers arrest record in the company's database. + zone. + Reference + Humans tend to wrap Oracles in visions of Paper: https://dataprivacylab.org/projects/onlin- + grandeur. Sometimes these Oracles come to the sur- eads/1071-1.pdf + face when things break down. In press releases, + these sometimes dramatic situations are called + 'lessons'. However promising their performances --- What is a good employee? --- + seem to be, a lot of issues remain to be solved. +How do we make sure that Oracles are fair, that Since 2015 Amazon employs around 575,000 workers. +every human can consult them, and that they are And they need more. Therefore, they set up a team +understandable to a large public? Even then, exis- of 12 that was asked to create a model to find the + tential questions remain. Do we need all types of right candidates by crawling job application web- + artificial intelligence (AI) systems? And who de- sites. The tool would give job candidates scores + fines what is fair or unfair? ranging from one to five stars. The potential fed + the myth: the team wanted it to be a software that + would spit out the top five human candidates out + --- Racial AdSense --- of a list of 100. And those candidates would be + hired. + A classic 'lesson' in developing Oracles was docu- + mented by Latanya Sweeney, a professor of Govern- The group created 500 computer models, focused on + ment and Technology at Harvard University. In specific job functions and locations. They taught + 2013, Sweeney, of African American descent, each model to recognize some 50,000 terms that +googled her name. She immediately received an ad- showed up on past candidates’ letters. The algo- +vertisement for a service that offered her ‘to see rithms learned to give little importance to skills +the criminal record of Latanya Sweeney’. common across IT applicants, like the ability to + write various computer codes. But they also + Sweeney, who doesn’t have a criminal record, began learned some decent errors. The company realized, + a study. She started to compare the advertising before releasing, that the models had taught them- + that Google AdSense serves to different racially selves that male candidates were preferable. They + identifiable names. She discovered that she re- penalized applications that included the word + ceived more of these ads searching for non-white 'women’s,' as in 'women’s chess club captain.' And + ethnic names, than when searching for tradition- they downgraded graduates of two all-women’s col- + ally perceived white names.You can imagine how leges. + damaging it can be when possible employers do a + simple name search and receive ads suggesting the This is because they were trained using the job + existence of a criminal record. applications that Amazon received over a ten-year + period. During that time, the company had mostly + 18 + + + + + hired men. Instead of providing the 'fair' deci- + sion-making that the Amazon team had promised, the The team developed a model to analyse word embed- + models reflected a biased tendency in the tech in- dings trained over 100 years of texts. For contem- + dustry. And they also amplified it and made it in- porary analysis, they used the standard Google + News word2vec Vectors, a straight-off-the-shelf + be exceedingly difficult to sue an employer over downloadable package trained on the Google News + automated hiring: job candidates might never know Dataset. For historical analysis, they used embed- + that intelligent software was used in the process. dings that were trained on Google Books and the + Corpus of Historical American English (COHA http- + Reference s://corpus.byu.edu/coha/) with more than 400 mil- +https://www.reuters.com/article/us-amazon-com- lion words of text from the 1810s to 2000s. As a +jobs-automation-insight/amazonscraps-secret-ai-re- validation set to test the model, they trained em- +cruiting-tool-that-showed-bias-against-women- beddings from the New York Times Annotated Corpus + idUSKCN1MK08G for every year between 1988 and 2005. + + The research shows that word embeddings capture + --- Quantifying 100 Years of Gender and Ethnic changes in gender and ethnic stereotypes over + Stereotypes --- time. They quantifiy how specific biases decrease + over time while other stereotypes increase. The + Dan Jurafsky is the co-author of 'Speech and Lan- major transitions reveal changes in the descrip- + guage Processing', one of the most influential tions of gender and ethnic groups during the + books for studying Natural Language Processing women’s movement in the 1960-1970s and the Asian- + (NLP). Together with a few colleagues at Stanford American population growth in the 1960s and 1980s. + University, he discovered in 2017 that word embed- +dings can be a powerful tool to systematically A few examples: +quantify common stereotypes and other historical +trends. The top ten occupations most closely associated + with each ethnic group in the contemporary Google + Word embeddings are a technique that translates News dataset: + words to numbered vectors in a multi-dimensional + space. Vectors that appear next to each other, in- - Hispanic: housekeeper, mason, artist, janitor, + dicate similar meaning. All numbers will be dancer, mechanic, photographer, baker, cashier, + grouped together, as well as all prepositions, driver + person's names, professions. This allows for the + calculation of words. You could substract London - Asian: professor, official, secretary, conduc- + from England and your result would be the same as tor, physicist, scientist, chemist, tailor, ac- + substracting Paris from France. countant, engineer + +An example in their research shows that the vector - White: smith, blacksmith, surveyor, sheriff, +for the adjective 'honorable' is closer to the weaver, administrator, mason, statistician, cler- +vector for 'man' whereas the vector for 'submissive' gy, photographer + + learned by the algorithm. It will be problematic The 3 most male occupations in the 1930s: + when the pre-trained embeddings are then used engineer, lawyer, architect. + for sensitive applications such as search rankings, The 3 most female occupations in the 1930s: + product recommendations, or translations. This nurse, housekeeper, attendant. + + can be downloaded as off-the-shelf-packages. Not much has changed in the 1990s. + + It is known that language reflects and keeps cul- Major male occupations: + tural stereotypes alive. Using word embeddings to architect, mathematician and surveyor. + spot these stereotypes is less time-consuming and Female occupations: +less expensive than manual methods. But the imple- nurse, housekeeper and midwife. +mentation of these embeddings for concrete predic- +tion models, has caused a lot of discussion within Reference + the machine learning community. The biased models https://arxiv.org/abs/1711.08412 + stand for automatic discrimination. Questions are: + is it actually possible to de-bias these models + completely? Some say yes, while others disagree: --- Wikimedia's Ores service --- + instead of retro-engineering the model, we should + ask whether we need it in the first place. These Software engineer Amir Sarabadani presented the + researchers followed a third path: by acknowledg- ORES-project in Brussels in November 2017 during + ing the bias that originates in language, these the Algoliterary Encounter. + tools become tools of awareness. + + 19 + + + +This 'Objective Revision Evaluation Service' uses was a chat bot that imitated a teenage girl on + machine learning to help automate critical work on Twitter. She lived for less than 24 hours before + Wikimedia, like vandalism detection and the re- she was shut down. Few people know that before + moval of articles. Cristina Cochior and Femke this incident, Microsoft had already trained and + Snelting interviewed him. released XiaoIce on WeChat, China's most used chat + application. XiaoIce's success was so promising + Femke: To go back to your work. In these days you that it led to the development of its American + tried to understand what it means to find bias in version. However, the developers of Tay were not + machine learning and the proposal of Nicolas prepared for the platform climate of Twitter. + Maleve, who gave the workshop yesterday, was nei- Although the bot knew how to distinguish a noun + ther to try to fix it, nor to refuse to deal with from an adjective, it had no understanding of the + systems that produce bias, but to work with them. actual meaning of words. The bot quickly learned +He says that bias is inherent to human knowledge, to copy racial insults and other discriminative +so we need to find ways to somehow work with it. language it learned from Twitter users and troll +We're just struggling a bit with what would that attacks. + mean, how would that work... So I was wondering + whether you had any thoughts on the question of Tay's appearance and disappearance was an impor- + bias. tant moment of consciousness. It showed the possi- + ble corrupt consequences that machine learning can + Amir: Bias inside Wikipedia is a tricky question have when the cultural context in which the algo- + because it happens on several levels. One level rithm has to live is not taken into account. + that has been discussed a lot is the bias in ref- + erences. Not all references are accessible. So one Reference + thing that the Wikimedia Foundation has been try- https://chatbotslife.com/the-accountability-of-ai- + ing to do, is to give free access to libraries case-study-microsofts-tay-experiment-ad577015181f + that are behind a pay wall. They reduce the bias +by only using open-access references. Another type +of bias is the Internet connection, access to the +Internet. There are lots of people who don't have + it. One thing about China is that the Internet + there is blocked. The content against the govern- + ment of China inside Chinese Wikipedia is higher + because the editors [who can access the website] + are not people who are pro government, and try to + make it more neutral. So, this happens in lots of + places. But in the matter of artificial intelli- + gence (AI) and the model that we use at Wikipedia, + it's more a matter of transparency. There is a + book about how bias in AI models can break peo- + ple's lives, it's called 'Weapons of Math Destruc- +tion'. It talks about AI models that exist in the +US that rank teachers and it's quite horrible be- +cause eventually there will be bias. The way to + deal with it based on the book and their research + was first that the model should be open source, + people should be able to see what features are + used and the data should be open also, so that + people can investigate, find bias, give feedback + and report back. There should be a way to fix the + system. I think not all companies are moving in + that direction, but Wikipedia, because of the val- + ues that they hold, are at least more transparent + and they push other people to do the same thing. + +Reference +https://gitlab.constantvzw.org/algolit/algolit +/blob/master/algoliterary_encounter/Interview% + 20with%20Amir/AS.aac + + + --- Tay --- + + One of the infamous stories is that of the machine + learning programme Tay, designed by Microsoft. Tay + + + 20 +cleaners clean cleaners clean cleaners clean cleaners clean cleaners clean cleaners clean + cleaners clean cleaners clean cleaners clean cleaners clean cleaners clean + cleaners clean cleaners clean cleaners clean cleaners clean + cleaners clean cleaners clean cleaners clean + cleaners clean cleaners clean cleaners clean cle +ners clean cleaners clean cleaners clean +cleaners clean cleaners clean cleaners clean + cleaners clean cleaners clean cleaners +lean cleaners clean cleaners clean + cleaners clean cleaners clean + cleaners clean cleaners clean cle +ners clean cleaners clean cleaners +clean cleaners clean cleaners +lean cleaners clean cleane +s clean cleaners clean +cleaners clean cleaners clean + cleaners clean cleaners clean + cleaners clean cleaners clean + cleaners clean + cleaners clean cleaners clean + cleaners clean cleaners clean + cleaners clean + cleaners clean cleaners clean + cleaners clean + cleaners clean cleaners clean + cleaners clean + cleaners clean cleaners +clean cleaners clean + cleaners clean + cleaners clean cleaners clean + cleaners clean + cleaners clean + cleaners clean cleaners +clean cleaners clean + cleaners clean + cleaners clean + cleaners clean cle +ners clean cleaners clean + cleaners clean + cleaners clean + cleaners clean + cleaners clean + cleaners clean + cleaners clean cleaners +lean cleaners clean + cleaners clean + cleaners clean + cleaners clean + cleaners clean + cleaners clean + cleaners clean + cleaners clean + cleaners clean + cleaners clean + cleaners clean + cleaners clean + cleaners clean + cleaners clean + cleaners clean + cleaners clean + cleaners clean + cleaners clean + cleaners clean + cleaners clean + cleaners clean + cleaners clean + cleaners clean + cleaners clean + cleaners clean + 21 + r u e n 7 c %9 2 y m V +-+-+-+-+-+-+-+-+ e4 +-+-+-+-+-+ 9 -t 0n neof e 5 r6 7 kln + ci p '.s w s u 18 u n |c|l|e|a|n|e|r|s| 2 |c|l|e|a|n| et.t o % s eii4t i ktu 4i w + + t 6 . 3e -6 6 rVle 17 +-+-+-+-+-+-+-+-+ rg +-+-+-+-+-+ .e o n 7 ci i 0 e h eR e85 orh + n x h r 4 h t5 7hoh 4 t ei g + n e3 tt np% k s +h_ hees ir w n +6 l rt 8 oe e Fe + r5b t ua0e 3ei n a 1 t8 rd t 7 li \ 7n v2 tq e e6 a as o + 2b t t m oe f c8 lx - g9 r - -s+ +-+-+ h +-+-+-+-+-+-+ 8f o1 Ao % r - 5i 2 e - r + x p n4h e6 s n8 / s7 . 95 sti |w|e| eno |h|e|l|p|e|d| +e r a2 sy n gyl 2u e sti6t + ch% _ 1r se o + t t 4, 1 t9 l +-+-+ e +-+-+-+-+-+-+ t r i 7 rs u ie o o,4 h + , 5 5h g gs 6u5e e0 95 eif e % +-+-+ s 9 +-+-+-+-+-+-+-+ o+ m iy n6 m _4 l oae s+ da + e w i_|e e a 6 an |w|e| | |c|l|e|a|n|e|d| 7 i a e r l 7 + se 8w ,p+tn i d t 1 g s ae l +-+-+ tec +-+-+-+-+-+-+-+ - ts e e,d % e 8e i + r i _6sog y L5 e v +-+-+-+-+-+ +-+-+-+-+ er +-+-+ +-+-+-+-+-+-+ Ies f e/ 8rh gr o 5 ac55 e + ( h s s9 |h|u|m|a|n| |w|o|r|k| 96 7 |i|s| |n|e|e|d|e|d| i 8 d 13 l , i + - s tt 1 _ S +-+-+-+-+-+ +-+-+-+-+ _ +-+-+ +-+-+-+-+-+-+ r v Mr_ a3 f r , + a s l n 87 +-+-+-+-+-+-+-+-+-+-+-+ rh 9 t r 7 36 w i n e 2 n d m + i4 +2 c 6 o |p|o|o|r|l|y|-|p|a|i|d| w n 3 g e - 6 tk o- r r + w9 4 t 8p ie c rVv 5 +-+-+-+-+-+-+-+-+-+-+-+ b n h - 6 xc te|t ,2 5 n + 4 4 ,in 7 4( d +-+-+-+-+-+-+-+-+-+-+-+ l +-+-+-+-+-+ +-+-+-+ -d ah v + n5 . 4 6s_ + t 2- i l |f|r|e|e|l|a|n|c|e|r|s| te3c |c|a|r|r|y| |o|u|t| l e oee 1n 7 \ y1k + r r l p r 6 e +-+-+-+-+-+-+-+-+-+-+-+ 6|p +-+-+-+-+-+ +-+-+-+ s p o2 ) t -e : p 8 h + h9 h o 4l +-+-+-+-+-+-+-+-+-+-+ \ +-+-+ +-+-+-+-+-+-+-+-+-+ +-+-+-+-+ nb h 7 s4i1 3 + T z3 |h e 9 |v|o|l|u|n|t|e|e|r|s| 9 |d|o| |f|a|n|t|a|s|t|i|c| |w|o|r|k| 9 ws w 5 e6 x + a` o +-+-+-+-+-+-+-+-+-+-+ +-+-+ +-+-+-+-+-+-+-+-+-+ +-+-+-+-+ ih l 3 6 + 7 r 6 d G i6 1 3 e1 +-+-+-+-+-+-+-+ +-+-+-+-+-+-+ +-+-+ +-+-+-+-+ eir c e n% ui + l r 6 6s t r |w|h|o|e|v|e|r| |c|l|e|a|n|s| |u|p| |t|e|x|t| h 6 t i + t tc w a s e 9 +-+-+-+-+-+-+-+ F +-+-+-+-+-+-+ +-+-+ +-+-+-+-+ , 5 9s9 w e e + n m5 e 4 Mi e c i a U u r e 2 a i % .S g6 u 3 + _t f 2 t 5 t6 v V c a i f- ee l 9rni/ 3 a 7e 1 + 1o n 3 2 tn t 5 1o 7 r s / % uio + + 9 f a 4 - e o e t + i r + s 2 + ls_ nr e w i l V - 8e t 5 +i v 2 p o + l n e j n tr l V| n e w L r 8 + c l1 l i i a 8 t g0 y s + , a u r9 e 8 4 9 e | e 3 + n g8 r e? M d r a i l c + - n t r 4 e r l c ii e a + p r a a h 6 l 3 e s + i 4 c o | 6 v rh p7 3 % h t a +e e 1 6 6 p 15 8 e a n s d o 1 i 2 n + s e m t 2 w v a 6 i i + r 7 | a e 5 7 s 3 8 i 4 7 + e y 4 3 w 5 l unw5 4ie o3 439 o i % + r 6 e a 4a f n e + h a 5 o s i l s + - s | n D 4 + e 3 - 2 5 h a 1 V p n v + + 7 8n n a ar ) v + . n2 t 5 6r 8 | + u o _ e r l n, r 1 e + n ,e r s 7 a 7 + a e h t y d a 3 + u | 2 a s 4 t + 6 e t66 e % 2 3 y 3 n + a e o i , t 4 i e g c r + l t w 9 2 a + h v t , p c a r h c + l 4 g p1 + z i t o m a % a + i k | a i e +s a v c a , l lp + d 2 a + 3 o t + e + 5 n t p s i a 6 r + e 5 y,r m e , +g i 7 s i 5 s a + a a % r + 3 u p n + e \ 5 i p o l i + + 22 +% V V V V V V V % V % % % % %% % % %% % % % % % % % + V V V V V V V V V V V V V V V V % % % % 0 % % 0 % 0 0 % 0 % % %%% % +V V V V V V V V % V % 0 % 0 0 % % % + % % % %% ___ _ 0 % 00 _ % % % + % % % % 00 / __\ | ___ __ _ _ __ (_)_ __ __ _ % + CLEANERS % % / / | |/ _ \/ _` | '_ \| | '_ \ / _` | 0 % + % % % % % % 00 / /___| | __/ (_| | | | | | | | | (_| | % + % % % % % % 0 \____/|_|\___|\__,_|_| |_|_|_| |_|\__, | % + V V V V V V V V % 0 |___/ % % + V V V V V V V V V V V V V V V V __ 0 ___ 0 % 0 +V V V V V V V V V 0 / _| ___ _ __ / _ \___ ___ _ __ ___ ___ % + V V V V V V V V 0 % | |_ / _ \| '__| / /_)/ _ \ / _ \ '_ ` _ \/ __| % + V V V V V V V V V V V V V V V V 0 | _| (_) | | / ___/ (_) | __/ | | | | \__ \ +V V V V V V V V V |_| \___/|_| \/ 0 \___/ \___|_| |_| |_|___/ + 0 0 +Algolit chooses to work with texts %%% % +that are free of copyright. This by Algolit % % % +means that they have been published % % % +under a Creative Commons 4.0 li- For this exhibition we worked with 3 per cent of the Mundaneum's +cense – which is rare - or that archive. These documents were first scanned or photographed. To +they are in the public domain be- make the documents searchable they were transformed into text us- +cause the author died more than 70 ing Optical Character Recognition software (OCR). OCR are algo- +years ago. This is the case for the % rithmic models that are trained on other texts. They have learned +publications of the Mundaneum. We to identify characters, words, sentences and paragraphs. The +received 203 documents that we software often makes 'mistakes'. It might recognize a wrong char- +helped turn into datasets. They are acter, it might get confused by a stain an unusual font or the +now available for others online. reverse side of the page being visible. % +Sometimes we had to deal with poor % % % +text formats, and we often dedi- While these mistakes are often considered noise, confusing the +cated a lot of time to cleaning up training, they can also be seen as poetic interpretations of the +documents. We were not alone in do- algorithm. They show us the limits of the machine. And they also +ing this. reveal how the algorithm might work, what material it has seen in + training and what is new. They say something about the standards % +Books are scanned at high resolu- of its makers. In this installation we ask your help in verifying +tion, page by page. This is time- our dataset. As a reward we'll present you with a personal algo- +consuming, laborious human work and rithmic improvisation. +often the reason why archives and +libraries transfer their collec- --- +tions and leave the job to compa- % +nies like Google. The photos are Concept, code, interface: Gijs de Heij +converted into text via OCR (Opti- % +cal Character Recognition), a soft- +ware that recognizes letters, but 0 0 +often makes mistakes, especially 0 0 0 +when it has to deal with ancient 0 ___ _ _ _ _ 0 _ _ +fonts and wrinkled pages. Yet more 0 0 / (_)___| |_ _ __(_) |__ _ _| |_ ___ __| | +wearisome human work is needed to / /\ / / __| __| '__| | '_ \| | | | __/ _ \/ _` | +improve the texts. This is often 0 / /_//| \__ \ |_| | | | |_) | |_| | || __/ (_| | +carried out by poorly-paid free- /___,' |_|___/\__|_| |_|_.__/ \__,_|\__\___|\__,_| +lancers via micro-payment platforms ___ 0 __ 0 0 _ +like Amazon's Mechanical Turk; or / _ \_ __ ___ ___ / _|_ __ ___ __ _ __| | ___ _ __ +by volunteers, like the community / /_)/ '__/ _ \ / _ \| |_| '__/ _ \/ _` |/ _` |/ _ \ '__| +around the Distributed Proofreaders / ___/| | | (_) | (_) | _| | | __/ (_| | (_| | __/ | +Project, which does fantastic work. 0 \/ |_| \___/ \___/|_| |_| \___|\__,_|\__,_|\___|_| +Whoever does it, or wherever it is 0 0 ___ 0 +done, cleaning up texts is a tower- 0 / __| 0 +ing job for which no structural au- 0 0 \__ \ 0 +tomation yet exists. 0 0 |___/ 0 + 0 0 00 + + by Algolit + + Distributed Proofreaders is a web-based interface and an interna- + tional community of volunteers who help converting public domain + books into e-books. For this exhibition they proofread the Munda- + neum publications that appeared before 1923 and are in the public + domain in the US. Their collaboration meant a great relief for + the members of Algolit. Less documents to clean up! % + + 23 + % % % % % % % % All the proofread books have been made available on the Project + % % % % Gutenberg archive. % % %% % % % % + % % % % % % %% % % % % % % + % % % % % For this exhibition, An Mertens interviewed Linda Hamilton, the + % % general manager of Distributed Proofreaders. % % + %% % % % % % % % % % % % + % % % --- % % % % %% % % %% % + % % % % % % + % Interview: An Mertens % % % + % % % % % % + Editing: Michael Murtaugh, Constant % + % % % % % % + % % + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + 24 + CONTEXTUAL STORIES FOR CLEANERS + + + + --- Project Gutenberg and Distributed Proofreaders + --- change. + + Project Gutenberg is our Ali Baba cave. It offers The Life Instinct: unification; the eternal re- + more than 58,000 free eBooks to be downloaded or turn; the perpetuation and MAINTENANCE of the ma- + read online. Works are accepted on Gutenberg when terial; survival systems and operations; equilib- + their U.S. copyright has expired. Thousands of rium. + volunteers digitize and proofread books to help +the project. An essential part of the work is done B. Two basic systems: Development and Maintenance. +through the Distributed Proofreaders project. This +is a web-based interface to help convert public The sourball of every revolution: after the revo- + domain books into e-books. Think of text files, lution, who’s going to try to spot the bias in the + EPUBs, Kindle formats. By dividing the workload output? + into individual pages, many volunteers can work on + a book at the same time; this speeds up the clean- Development: pure individual creation; the new; + ing process. change; progress; advance; excitement; flight or + fleeing. + During proofreading, volunteers are presented with + a scanned image of the page and a version of the Maintenance: keep the dust off the pure individual + text, as it is read by an OCR algorithm trained to creation; preserve the new; sustain the change; + recognize letters in images. This allows the text protect progress; defend and prolong the advance; + to be easily compared to the image, proofread, and renew the excitement; repeat the flight; show your +sent back to the site. A second volunteer is then work – show it again, keep the git repository +presented with the first volunteer's work. She groovy, keep the data analysis revealing. +verifies and corrects the work as necessary, and + submits it back to the site. The book then simi- Development systems are partial feedback systems + larly goes through a third proofreading round, with major room for change. + plus two more formatting rounds using the same web + interface. Once all the pages have completed these Maintenance systems are direct feedback systems + steps, a post-processor carefully assembles them with little room for alteration. + into an e-book and submits it to the Project + Gutenberg archive. C. Maintenance is a drag; it takes all the fucking + time (lit.) + We collaborated with the Distributed Proofreaders + project to clean up the digitized files we re- The mind boggles and chafes at the boredom. + ceived from the Mundaneum collection. From Novem- +ber 2018 until the first upload of the cleaned-up The culture assigns lousy status on maintenance +book 'L'Afrique aux Noirs' in February 2019, An jobs = minimum wages, Amazon Mechanical Turks = +Mertens exchanged about 50 emails with Linda virtually no pay. + Hamilton, Sharon Joiner and Susan Hanlon, all vol- + unteers from the Distributed Proofreaders project. Clean the set, tag the training data, correct the + The conversation is published here. It might in- typos, modify the parameters, finish the report, + spire you to share unavailable books online. keep the requester happy, upload the new version, + attach words that were wrongly separated by OCR + back together, complete those Human Intelligence + --- An algoliterary version of the Maintenance Tasks, try to guess the meaning of the requester's + Manifesto --- formatting, you must accept the HIT before you can + submit the results, summarize the image, add the + In 1969, one year after the birth of her first bounding box, what's the semantic similarity of + child, the New York artist Mierle Laderman Ukeles this text, check the translation quality, collect +wrote a Manifesto for Maintenance Art. The mani- your micro-payments, become a hit Mechanical Turk. +festo calls for a readdressing of the status of +maintenance work both in the private, domestic Reference + space, and in public. What follows is an altered https://www.arnolfini.org.uk/blog/manifesto-for- + version of her text inspired by the work of the maintenance-art-1969 + Cleaners. + + IDEAS --- A bot panic on Amazon Mechanical Turk --- + + A. The Death Instinct and the Life Instinct: Amazon's Mechanical Turk takes the name of a + chess-playing automaton from the eighteenth centu- + The Death Instinct: separation; categorization; ry. In fact, the Turk wasn't a machine at all. It + avant-garde par excellence; to follow the pre- was a mechanical illusion that allowed a human + dicted path to death – run your own code; dynamic chess master to hide inside the box and manually + operate it. For nearly 84 years, the Turk won most + 25 + + + + + of the games played during its demonstrations + around Europe and the Americas. Napoleon Bonaparte + is said to have been fooled by this trick too. + + The Amazon Mechanical Turk is an online platform + for humans to execute tasks that algorithms can- + not. Examples include annotating sentences as be- + ing positive or negative, spotting number plates, + discriminating between face and non-face. The jobs + posted on this platform are often paid less than a +cent per task. Tasks that are more complex or re- +quire more knowledge can be paid up to several +cents. To earn a living, Turkers need to finish as + many tasks as fast as possible, leading to in- + evitable mistakes. As a result, the requesters + have to incorporate quality checks when they post + a job on the platform. They need to test whether + the Turker actually has the ability to complete + the task, and they also need to verify the re- + sults. Many academic researchers use Mechanical + Turk as an alternative to have their students exe- + cute these tasks. + + In August 2018 Max Hui Bai, a psychology student +from the University of Minnesota, discovered that +the surveys he conducted with Mechanical Turk were +full of nonsense answers to open-ended questions. + He traced back the wrong answers and found out + that they had been submitted by respondents with + duplicate GPS locations. This raised suspicion. + Though Amazon explicitly prohibits robots from + completing jobs on Mechanical Turk, the company + does not deal with the problems they cause on + their platform. Forums for Turkers are full of + conversations about the automation of the work, + sharing practices of how to create robots that can + even violate Amazon’s terms. You can also find + videos on YouTube that show Turkers how to write a +bot to fill in answers for you. + +Kristy Milland, an Mechanical Turk activist, says: + 'Mechanical Turk workers have been treated really, + really badly for 12 years, and so in some ways I + see this as a point of resistance. If we were paid + fairly on the platform, nobody would be risking + their account this way.' + + Bai is now leading a research project among social + scientists to figure out how much bad data is in + use, how large the problem is, and how to stop it. + But it is impossible at the moment to estimate how + many datasets have become unreliable in this way. + +References +https://requester.mturk.com/create/projects/new + + https://www.wired.com/story/amazon-mechanical- + turk-bot-panic/ + + https://www.maxhuibai.com/blog/evidence-that-re- + sponses-from-repeating-gps-are-random + + http://timryan.web.unc.edu/2018/08/12/data-contam- + ination-on-mturk/ + + 26 +informants inform informants inform informants inform informants inform informants inform info +mants inform informants inform informants inform informants inform informants i +form informants inform informants inform informants inform info +mants inform informants inform informants inform informants info +m informants inform informants inform informants inform + informants inform informants inform informants +inform informants inform informants inform + informants inform informants inform informants info +m informants inform informants inform + informants inform informants inform + informants inform informants inform in +ormants inform informants inform infor +ants inform informants inform info +mants inform informants inform +informants inform informants inform + informants inform informants inform + informants inform informants inform + informants inform infor +ants inform informants inform + informants inform informants inform + informants inform + informants inform informants inform + informants inform +informants inform informants inform + informants inform + informants inform informants inform + informants inform + informants inform informants +inform informants inform + informants inform + informants inform informants +inform informants inform + informants inform + informants inform + informants inform informants info +m informants inform + informants inform + informants inform + informants inform + informants inform informants +inform informants inform + informants inform + informants inform + informants inform + informants inform + informants inform + informants inform + informants inform + informants inform + informants inform +informants inform in +ormants inform info +mants inform infor +ants inform infor +ants inform info +mants inform in +ormants inform +informants inform + informants inform + informants inform + informants inform + informants inform + informants inform + informants inform + informants inform + informants inform + informants inform + informants inform + informants inform + 27 + r 8h3t i5 4 d 7 + +-+-+-+-+-+-+-+-+-+-+ c a +-+-+-+-+-+-+ e f n no6 - - t -as 7 ( e + a ah 5al ,n ri B |i|n|f|o|r|m|a|n|t|s| l |i|n|f|o|r|m| , 35e t s evn7 73r o2/ L ep - e + t : ca,i ma eeslh | +-+-+-+-+-+-+-+-+-+-+ r_ T +-+-+-+-+-+-+ 2o 73 pjt 7ng% e 84 + n 7 hnprs s9i 3a1 9e _ 9l e o pi rsa d o ii/5am sd rr1 1 n% + n8w + h|29 e s _ 3 . o i c i. e+1onIa 4 f p | lu e v1r _nth2i a%a ce 1e 7e 1y |t e r + xn r 8 sF w t -e +-+-+-+-+ +-+-+-+-+-+-+-+ e +-+-+-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+-+ 1 i2 n l cn r3 + t e e ,i n ibC 6 |e|a|c|h| |d|a|t|a|s|e|t| |c|o|l|l|e|c|t|s| |d|i|f|f|e|r|e|n|t| iw tc a318 + e o l a Me -o r + +-+-+-+-+ +-+-+-+-+-+-+-+ d 9 +-+-+-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+-+ +yc l p + +6 n 8 , a -rsb es 3 t t | bt ,p q +-+-+-+-+-+-+-+-+-+-+-+ +-+-+-+-+-+ 6 1d e 4 , 1 + + lk o95 sf s e - 2 b 0 rl n la / S f n |i|n|f|o|r|m|a|t|i|o|n| |a|b|o|u|t| 1 4r y7 n + i _ m ec cf 2|r 8ra5 n l 6t +-+-+-+-+-+-+-+-+-+-+-+ +-+-+-+-+-+ o t | r e + h_ ae3 5 Ti nf ao 7 l t n 9 9 h +e e-1 +-+-+-+ +-+-+-+-+-+ 7 t 8 - f mme 5 + t og m 9 i r. m l l j +t3 9 |t|h|e| |w|o|r|l|d| e97 3 9 t i s - o s + _i n l o er 8 n petc 141 s / i +-+-+-+ +-+-+-+-+-+ - 9 w 1 1 b + t4, r e u n8 a |t +-+-+-+-+-+-+-+-+ , |c +-+-+-+ +-+-+-+-+-+-+ +-+-+-+-+ 2r t 3 + o 6 9.o7e 7 Ce |d|a|t|a|s|e|t|s| V |a|r|e| |i|m|b|u|e|d| |w|i|t|h| 7 ig g ig 3xa + i r- p R h 8 rr m g _ t +-+-+-+-+-+-+-+-+ +-+-+-+ +-+-+-+-+-+-+ +-+-+-+-+ n f -c , + + - - 9 f k i r 6 e 665 a +-+-+-+-+-+-+-+-+-+-+-+ +-+-+-+-+ t m 1 9 6 + om _ 1e Tlh4 , f vr E |c|o|l|l|e|c|t|o|r|'|s| |b|i|a|s| 0 7 t e 2t + E5 r o r i i b e hw i a ne +-+-+-+-+-+-+-+-+-+-+-+ +-+-+-+-+ t a + m, m4 - a +-+-+-+-+ +-+-+-+-+-+-+-+-+ d +-+-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+ 118 2a 6 + - l l |s|o|m|e| |d|a|t|a|s|e|t|s| rt3 |c|o|m|b|i|n|e| |m|a|c|h|i|n|i|c| k f e + d i i 1 e , h +-+-+-+-+ +-+-+-+-+-+-+-+-+ 5 +-+-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+ i % _e r + _ f oi e u s dt y +-+-+-+-+-+ +-+-+-+-+ +-+-+-+-+-+ i n9 7 o + f f 5 h l9 a a b n |l|o|g|i|c| |w|i|t|h| |h|u|m|a|n| s n 79 e if e 0 + s i ln 6t a y t | ’7 / h +-+-+-+-+-+ +-+-+-+-+ +-+-+-+-+-+ 1 - 1n + s yn p p r oe xy +-+-+-+-+-+ c n d 6 _i a n + - n iu a v s, d o 7 eu e i |l|o|g|i|c| e as d m 2 v|h - | r + aL t5 l7 st A c S r c n r / +-+-+-+-+-+ tt o dr | V + s 9 +-+-+-+-+-+-+ +-+-+-+-+ d 7 + 5 77 2 t + z l x n |m|o|d|e|l|s| |t|h|a|t| d i n oS ad + a a a . _ t + ie 7 n n +-+-+-+-+-+-+ +-+-+-+-+ is r t 9 , | f 4 4 a t + 8 - 8 e +-+-+-+-+-+-+-+ 1 o 8 h h + t + s +m tb rh f 5 6r |r|e|q|u|i|r|e| s o l2 2 | + s o n + a - rr o n +-+-+-+-+-+-+-+ m | o y 4 r _ + 5 i +-+-+-+-+-+-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+ +-+-+-+ d |m ? e + b 4 _ l ` |s|u|p|e|r|v|i|s|i|o|n| |m|u|l|t|i|p|l|y| |t|h|e| - s n 7 1 + Tn n - +-+-+-+-+-+-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+ +-+-+-+ d 5 + ls t v 3i . - 6 +-+-+-+-+-+-+-+-+-+-+-+-+-+-+ h _ 28 9f + 4 s i h s- 4 4 l i |s|u|b|j|e|c|t|i|v|i|t|i|e|s| e a u + t + 9 fh lh,d +-+-+-+-+-+-+-+-+-+-+-+-+-+-+ 6 c 8 + 3 r c i 1 +-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+-+ +-+-+-+-+ p - + fn o |m|o|d|e|l|s| c |p|r|o|p|a|g|a|t|e| |w|h|a|t| + 5 M 4 + 5 r g +-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+-+ +-+-+-+-+ i t f + 9 t i y +-+-+-+-+-+-+-+ +-+-+-+-+ sv 7 + 6r +e n t7 + A h |t|h|e|y|'|v|e| |b|e|e|n| o 45 6 + m s t 9 o o _ s +-+-+-+-+-+-+-+ +-+-+-+-+ t o+ u e + s k8 3 l 2 - e +-+-+-+-+-+-+ e 6 e- t - + + es n 5 e o 4 |t|a|u|g|h|t| s 9 + t p e w , : o - +-+-+-+-+-+-+ t t 3 +e 6 r 8 t +-+-+-+-+ +-+-+ +-+-+-+ a eo m m 3 + e |s|o|m|e| |o|f| |t|h|e| + h e c + ee +-+-+-+-+ +-+-+ +-+-+-+ c h + o +-+-+-+-+-+-+-+-+ +-+-+-+-+ +-+-+ +-+-+-+-+-+-+-+ +-+-+ + i k t |d|a|t|a|s|e|t|s| |p|a|s|s| |a|s| |d|e|f|a|u|l|t| |i|n| o o o + +-+-+-+-+-+-+-+-+ i +-+-+-+-+ +-+-+ +-+-+-+-+-+-+-+ +-+-+ r d + a i m a . 1 +-+-+-+ +-+-+-+-+-+-+-+ s u + r h o 2 |t|h|e| |m|a|c|h|i|n|e| l t + + e a +-+-+-+ +-+-+-+-+-+-+-+ d 7 | + e a eo 4 +-+-+-+-+-+-+-+-+ +-+-+-+-+-+ + h n |l|e|a|r|n|i|n|g| |f|i|e|l|d| s n + t _s n +-+-+-+-+-+-+-+-+ +-+-+-+-+-+ + t n o +-+-+-+-+-+-+ +-+-+-+-+-+ +-+-+-+-+-+-+-+-+ e V + a d |h|u|m|a|n|s| |g|u|i|d|e| |m|a|c|h|i|n|e|s| u n + +-+-+-+-+-+-+ +-+-+-+-+-+ +-+-+-+-+-+-+-+-+ + c e 5 1 2 + r 6 r n 6 f + l o l + + 28 +% V V V V V V V % V % %% % %%% %% %% % %%% %%% % % %% + V V V V V V V V V V V V V V V V % % % % % %% 0 %% 0 % % % % % %%% % +V V V V V V V V V % % %% % % 0 0 % % % % + % % % % % % % % % % 00 0 _ % % % % % %% % % + % % % 0 /_\ _ __ % % + % INFORMANTS % % % //_\\| '_ \ % 0 + % % % % % 0 % % 0 / _ \ | | | % % % %% + % % % 0 \_/ \_/_| |_| 0 0 + V V V V V % V V V % __ _ _ 00 % 00 0 _ % + V V V V V V V V V V V V V V V V 0 /__\ |_| |__ _ __ ___ __ _ _ __ __ _ _ __ | |__ _ _ +V V V V V V V V V /_\ | __| '_ \| '_ \ / _ \ / _` | '__/ _` | '_ \| '_ \| | | | % + V V V V V V V V //__ | |_| | | | | | | (_) | (_| | | | (_| | |_) | | | | |_| | + V V V V V V V V V V V V V V V V % \__/ \__|_| |_|_| |_|\___/ \__, |_| \__,_| .__/|_| |_|\__, | +V V V V % V V V V V 0 0 % 0 % |___/ |_| 0 |___/ + % 0 0 __ 0 ___ % _ _ 0 % +Machine learning algorithms need ___ / _| / \__ _| |_ __ _ ___ ___| |_ ___ +guidance, whether they are super- 0 / _ \| |_ 0 / /\ / _` | __/ _` / __|/ _ \ __/ __| % +vised or not. In order to separate | (_) | _| / /_// (_| | || (_| \__ \ __/ |_\__ \ +one thing from another, they need \___/|_| /___,' \__,_|\__\__,_|___/\___|\__|___/ % % +material to extract patterns from. 0 0 0 +One should carefully choose the % % +study material, and adapt it to the by Algolit +machine's task. It doesn't make +sense to train a machine with nine- We often start the monthly Algolit meetings by searching for +teenth-century novels if its mis- datasets or trying to create them. Sometimes we use already-ex- +sion is to analyse tweets. A badly isting corpora, made available through the Natural Language +written textbook can lead a student Toolkit nltk. NLTK contains, among others, The Universal Declara- +to give up on the subject altogeth- tion of Human Rights, inaugural speeches from US presidents, or +er. A good textbook is preferably movie reviews from the popular site Internet Movie Database +not a textbook at all. (IMDb). Each style of writing will conjure different relations + % between the words and will reflect the moment in time from which +This is where the dataset comes in: they originate. The material included in NLTK was selected be- +arranged as neatly as possible, or- cause it was judged useful for at least one community of re- +ganized in disciplined rows and searchers. In spite of specificities related to the initial con- +lined-up columns, waiting to be text of each document, they become universal documents by de- +read by the machine. Each dataset fault, via their inclusion into a collection of publicly avail- +collects different information % able corpora. In this sense, the Python package manager for natu- +about the world, and like all col- ral language processing could be regarded as a time capsule. The +lections, they are imbued with col- main reason why The Universal Declaration for Human Rights was +lectors' bias. You will hear this included may have been because of the multiplicity of transla- +expression very often: 'data is the tions, but it also paints a picture of the types of human writing +new oil'. If only data were more that algorithms train on. +like oil! Leaking, dripping and +heavy with fat, bubbling up and With this work, we look at the datasets most commonly used by +jumping unexpectedly when in con- data scientists to train machine algorithms. What material do +tact with new matter. Instead, data they consist of? Who collected them? When? +is supposed to be clean. With each +process, each questionnaire, each --- % +column title, it becomes cleaner +and cleaner, chipping distinct % Concept & execution: Cristina Cochior +characteristics until it fits the % +mould of the dataset. % % + 0 0 00 0 +Some datasets combine the machinic 0 0 0 0 +logic with the human logic. The __ __ _ _ +models that require supervision 0 / / /\ \ \ |__ ___ __ _(_)_ __ ___ +multiply the subjectivities of both 0 \ \/ \/ / '_ \ / _ \ \ \ /\ / / | '_ \/ __| +data collectors and annotators, \ /\ /| | | | (_) | \ V V /| | | | \__ \ +then propagate what they've been 0 \/ \/ |_| |_|\___/ \_/\_/ |_|_| |_|___/ +taught. You will encounter some of 0 0 0 0 0 +the datasets that pass as default +in the machine learning field, as Who wins: creation of relationships +well as other stories of humans +guiding machines. by Louise Dekeuleneer, student Arts²/Section Visual Communication + + French is a gendered language. Indeed many words are female or + male and few are neutral. The aim of this project is to show that + a patriarchal society also influences the language itself. The + work focused on showing whether more female or male words are + 29 + % % %%% % %% % used on highlighting the influence of context on the gender of %%%%% + % % % % % % words. At this stage, no conclusions have yet been drawn.  % + % % % % %% % % % % % % % % % % % + % %% Law texts from 1900 to 1910 made available by the Mundaneum have + % % %% % % been passed into an algorithm that turns the text into a list of % + %% % % % words. These words are then compared with another list of French % + % % % % % words, in which is specified whether the word is male or female. + This list of words comes from Google Books. They created a huge + % % % % database in 2012 from all the books scanned and available on + % Google Books. % % + % % % % % % % % + Male words are highlighted in one colour and female words in an- + % % % % other. Words that are not gendered (adverbs, verbs, etc.) are not + % % % highlighted. All this is saved as an HTML file so that it can be + % % directly opened in a web page and printed without the need for + % additional layout. This is how each text becomes a small booklet + by just changing the input text of the algorithm. + + % + 0 % 0 0 0 + 0 0 0 % + _____ _ 0 0 + % 0 0 /__ \ |__ ___ % 0 + % / /\/ '_ \ / _ \ 0 % + 0 / / | | | | __/ 0 + % 0 0 0 \/ |_| |_|\___| + % 0 _ 0 0 _ _ + /_\ _ __ _ __ ___ | |_ __ _| |_ ___ _ __ + //_\\| '_ \| '_ \ / _ \| __/ _` | __/ _ \| '__| + / _ \ | | | | | | (_) | || (_| | || (_) | | 0 + \_/ \_/_| |_|_| |_|\___/ \__\__,_|\__\___/|_| + 0 0 + % + by Algolit + + The annotator asks for the guidance of visitors in annotating the + archive of Mundaneum. + + The annotation process is a crucial step in supervised machine + learning where the algorithm is given examples of what it needs + to learn. A spam filter in training will be fed examples of spam + % and real messages. These examples are entries, or rows from the + dataset with a label, spam or non-spam. + + The labelling of a dataset is work executed by humans, they pick + a label for each row of the dataset. To ensure the quality of the + % labels multiple annotators see the same row and have to give the + same label before an example is included in the training data. + Only when enough samples of each label have been gathered in the + dataset can the computer start the learning process. + + In this interface we ask you to help us classify the cleaned + texts from the Mundaneum archive to expand our training set and + improve the quality of the installation 'Classifying the World' + in Oracles. + + --- + + Concept, code, interface: Gijs de Heij + + % % + 0 0 0 0 0 0 + 0 0 0 0 + 0 0 _ ___ ___ ___ 00 + 0 0 / |/ _ \ / _ \ / _ \ 0 + 0 0 | | | | | | | | | | | + 0 | | |_| | |_| | |_| | + |_|\___/ \___/ \___/ 00 0 + 00 0 0 0 0 _ 00 + 30 + %% % % %% % % % % ___ _ _ _ __ ___ ___| |_ ___ % % % + % %% % % % % / __| | | | '_ \/ __|/ _ \ __/ __| % % % + % % % % % %% 0 0 \__ \ |_| | | | \__ \ __/ |_\__ \ % % % % % + % % % % % 0 0 % |___/\__, |_| |_|___/\___|\__|___/ %% % + % % % % 0 %% 0 |___/ % % % 0 % + %% % % 0 0 0 0 __ _ % 0 _ 0 %% % + % % % % 0 0 / /\ /(_)_ __ _ _| | % % % + % 0 | |\ \ / / | '_ \| | | | | % % + % % 0 % | | \ V /| | | | | |_| | | 0 0 % + % % % % | | \_/ |_|_| |_|\__, |_| % + % % % % 00 \_\ 0 |___/ 0 % % + % % % __ _ _ _ _ % __ 0 + 0 0 % /__\_| (_) |_(_) ___ _ __\ \ + % /_\/ _` | | __| |/ _ \| '_ \| | 0 + % //_| (_| | | |_| | (_) | | | | | + 0 \__/\__,_|_|\__|_|\___/|_| |_| | 0 + % % 00 0 0 /_/ + 0 0 00 + + by Algolit + + Created in 1985, Wordnet is a hierarchical taxonomy that de- + % scribes the world. It was inspired by theories of human semantic + % memory developed in the late 1960s. Nouns, verbs, adjectives and + adverbs are grouped into synonyms sets or synsets, expressing a + different concept. % + + ImageNet is an image dataset based on the WordNet 3.0 nouns hier- + archy. Each synset is depicted by thousands of images. From 2010 % + until 2017, the ImageNet Large Scale Visual Recognition Challenge + (ILSVRC) was a key benchmark in object category classification + % for pictures, having a major impact on software for photography, + image searches, image recognition. + + 1000 synsets (Vinyl Edition) contains the 1000 synsets used in + this challenge recorded in the highest sound quality that this + % analog format allows. This work highlights the importance of the + datasets used to train artificial intelligence (AI) models that + run on devices we use on a daily basis. Some of them inherit + classifications that were conceived more than 30 years ago. This + sound work is an invitation to thoughtfully analyse them. + + --- + + Concept & recording: Javier Lloret + + Voices: Sara Hamadeh & Joseph Hughes + + + + + + + + + + + + + + + + + + + + + + + 31 + CONTEXTUAL STORIES + ABOUT INFORMANTS + + + + --- Datasets as representations --- community you try to distinguish what serves the + community and what doesn't and you try to general- + The data-collection processes that lead to the ize that, because I think that's what the good + creation of the dataset raise important questions: faith-bad faith algorithm is trying to do, to find + who is the author of the data? Who has the privi- helper tools to support the project, you do that + lege to collect? For what reason was the selection on the basis of a generalization that is on the + made? What is missing? abstract idea of what Wikipedia is and not on the + living organism of what happens every day. What +The artist Mimi Onuoha gives a brilliant example interests me in the relation between vandalism and +of the importance of collection strategies. She debate is how we can understand the conventional + chose the case of statistics related to hate drive that sits in these machine-learning pro- + crimes. In 2012, the FBI Uniform Crime Reporting cesses that we seem to come across in many places. + (UCR) Program registered almost 6000 hate crimes And how can we somehow understand them and deal + committed. However, the Department of Justice’s with them? If you place your separation of good + Bureau of Statistics came up with about 300.000 faith-bad faith on pre-existing labelling and then + reports of such cases. That is over 50 times as reproduce that in your understanding of what edits + many. The difference in numbers can be explained are being made, how then to take into account + by how the data was collected. In the first situa- movements that are happening, the life of the ac- + tion law enforcement agencies across the country tual project? + voluntarily reported cases. For the second survey, + the Bureau of Statistics distributed the National Amir: It's an interesting discussion. Firstly, +Crime Victimization form directly to the homes of what we are calling good faith and bad faith comes +victims of hate crimes. from the community itself. We are not doing la- + belling for them, they are doing labelling for + In the field of Natural Language Processing (NLP) themselves. So, in many different language + the material that machine learners work with is Wikipedias, the definition of what is good faith + text-based, but the same questions still apply: and what is bad faith will differ. Wikimedia is + who are the authors of the texts that make up the trying to reflect what is inside the organism and + dataset? During what period were the texts col- not to change the organism itself. If the organism + lected? What type of worldview do they represent? changes, and we see that the definition of good + faith and helping Wikipedia has been changed, we + In 2017, Google's Top Stories algorithm pushed a are implementing this feedback loop that lets + thread of 4chan, a non-moderated content website, people from inside their community pass judgement + to the top of the results page when searching for on their edits and if they disagree with the la- + the Las Vegas shooter. The name and portrait of an belling, we can go back to the model and retrain +innocent person were linked to the terrible crime. the algorithm to reflect this change. It's some +Google changed its algorithm just a few hours af- sort of closed loop: you change things and if +ter the mistake was discovered, but the error had someone sees there is a problem, then they tell us + already affected the person. The question is: why and we can change the algorithm back. It's an on- + did Google not exclude 4chan content from the going project. + training dataset of the algorithm? + Référence: https://gitlab.constantvzw.org/algo + Reference lit/algolit/blob/master/algoliterary_encounter + https://points.datasociety.net/the-point-of-col- /Interview%20with%20Amir/AS.aac + lection-8ee44ad7c2fa + + https://arstechnica.com/information-technolo- --- How to make your dataset known --- + gy/2017/10/google-admits-citing-4chan-to-spread- + fake-vegas-shooter-news/ NLTK stands for Natural Language Toolkit. For pro- + grammers who process natural language using + Python, this is an essential library to work with. +--- Labeling for an Oracle that detects vandalism Many tutorial writers recommend machine learning + on Wikipedia --- learners to start with the inbuilt NLTK datasets. + It comprises 71 different collections, with a to- + This fragment is taken from an interview with Amir tal of almost 6000 items. + Sarabadani, software engineer at Wikimedia. He was + in Brussels in November 2017 during the Algoliter- There is for example the Movie Review corpus for + ary Encounter. sentiment analysis. Or the Brown corpus, which was + put together in the 1960s by Henry Kučera and W. + Femke: If you think about Wikipedia as a living Nelson Francis at Brown University in Rhode Is- + community, with every edit the project changes. land. There is also the Declaration of Human + Every edit is somehow a contribution to a living Rights corpus, which is commonly used to test + organism of knowledge. So, if from within that whether the code can run on multiple languages. + The corpus contains the Declaration of Human + 32 + + + + + Rights expressed in 372 languages from around the on is the same content that they helped to write. + world. In fact, at the beginning of Wikipedia, many arti- + cles were written by bots. Rambot, for example, + But what is the process of getting a dataset ac- was a controversial bot figure on the English- + cepted into the NLTK library nowadays? On the speaking platform. It authored 98 per cent of the + Github page, the NLTK team describes the following pages describing US towns. + requirements: + As a result of serial and topical robot interven- + Only contribute corpora that have obtained a ba- tions, the models that are trained on the full + sic level of notability. That means, there is a Wikipedia dump have a unique view on composing ar- +publication that describes it, and a community of ticles. For example, a topic model trained on all +programmers who are using it. of Wikipedia articles will associate 'river' with + Ensure that you have permission to redistribute 'Romania' and 'village' with 'Turkey'. This is be- + the data, and can document this. This means that cause there are over 10000 pages written about + the dataset is best published on an external web- villages in Turkey. This should be enough to spark + site with a licence. anyone's desire for a visit, but it is far too + Use existing NLTK corpus readers where possible, much compared to the number of articles other + or else contribute a well-documented corpus reader countries have on the subject. The asymmetry + to NLTK. This means, you need to organize your causes a false correlation and needs to be re- + data in such a way that it can be easily read us- dressed. Most models try to exclude the work of + ing NLTK code. these prolific robot writers. + + Reference + https://blog.lateral.io/2015/06/the-unknown-per- +--- Extract from a positive IMDb movie review from ils-of-mining-wikipedia/ +the NLTK dataset --- + + corpus: NLTK, movie reviews + + fileid: pos/cv998_14111.txt + + steven spielberg ' s second epic film on world war + ii is an unquestioned masterpiece of film . spiel- + berg , ever the student on film , has managed to + resurrect the war genre by producing one of its + grittiest , and most powerful entries . he also + managed to cast this era ' s greatest answer to + jimmy stewart , tom hanks , who delivers a perfor- +mance that is nothing short of an astonishing mir- +acle . for about 160 out of its 170 minutes , " +saving private ryan " is flawless . literally . + the plot is simple enough . after the epic d - day + invasion ( whose sequences are nothing short of + spectacular ) , capt . john miller ( hanks ) and + his team are forced to search for a pvt . james + ryan ( damon ) , whose brothers have all died in + battle . once they find him , they are to bring + him back for immediate discharge so that he can go + home . accompanying miller are his crew , played + with astonishing perfection by a group of charac- + ter actors that are simply sensational . barry + pepper , adam goldberg , vin diesel , giovanni +ribisi , davies , and burns are the team sent to +find one man , and bring him home . the battle se- +quences that bookend the film are extraordinary . + literally . + + + --- The ouroboros of machine learning --- + + Wikipedia has become a source for learning not + only for humans, but also for machines. Its arti- + cles are prime sources for training models. But + very often, the material the machines are trained + + 33 + 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345678 +9 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234567 +89 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456 +789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345 +6789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234 +56789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123 +456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12 +3456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1 +23456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 +123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 + 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345678 +9 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234567 +89 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456 +789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345 +6789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234 +56789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123 +456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12 +3456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1 +23456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 +123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 + 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345678 +9 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234567 +89 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456 +789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345 +6789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234 +56789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123 +456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12 +3456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1 +23456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 +123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 + 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345678 +9 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234567 +89 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456 +789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345 +6789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234 +56789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123 +456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12 +3456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1 +23456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 +123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 + 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345678 +9 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234567 +89 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456 +789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345 +6789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234 +56789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123 +456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12 +3456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1 +23456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 +123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 + 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345678 +9 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234567 +89 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456 +789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345 +6789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234 +56789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123 +456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12 +3456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1 +23456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 +123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 + 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345678 +9 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234567 +89 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456 +789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345 +6789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234 +56789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123 +456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12 +3456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1 +23456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 + 34 +readers read readers read readers read readers read readers read readers read readers re +d readers read readers read readers read readers read readers re +d readers read readers read readers read readers read + readers read readers read readers read re +ders read readers read readers read readers re +d readers read readers read readers r +ad readers read readers read +readers read readers read readers read + readers read readers read +readers read readers read readers read + readers read readers read + readers read readers read + readers read readers read + readers read readers read + readers read readers read + readers read readers read + readers read readers +read readers read + readers read readers read + readers read readers read + readers read + readers read readers read + readers read + readers read readers read + readers read + readers read readers read + readers read + readers read readers re +d readers read + readers read + readers read readers read + readers read + readers read + readers read re +ders read readers read + readers read + readers read + readers read + readers read readers r +ad readers read + readers read + readers read + readers read + readers read + readers read + readers read +readers read readers +read readers read + readers read + readers read + readers read + readers read + readers read + readers read + readers read + readers read + readers read + readers read + readers read + readers read + readers read + readers read + readers read + readers read + readers read + readers read + readers read + readers read + readers read r + 35 + h a o e f rtlt9 b9r+t +-+-+-+-+-+-+-+ n +-+-+-+-+ aM B 6 r fwea5I s s ,e -h e e + m et u t w8 8+ i4 + R w e |r|e|a|d|e|r|s| f |r|e|a|d| C a r_ n b - i1 a s- noh6M+ pha + h a% 8 e olt r_ m c hb8 b +-+-+-+-+-+-+-+ mi +-+-+-+-+ pli f ro u n ae 3aee d oo| 3h 6o +2 ce 'd | 8 eA s d8 - i 6 1 %6 sr2 9 g2 a s lia wrc 3 ?7 i n3+7m s + c htiuw :ead 7 _ 9r t i d 5 sau4nl |e_ ar 8orl t h h+se a s _o1 s56 ka5n1e no hd + d m u 's +e | h64t +-+ +-+-+-+-+-+-+-+-+ o +-+-+-+-+-+-+-+-+-+-+-+ enl o 3 t d Ad- 2 ahs + g o i 0 _ 5o ss x 4 |a| |c|o|m|p|u|t|e|r| sl |u|n|d|e|r|s|t|a|n|d|s| 4i 8 trdiM 48 i5 2 9 + tl e ri 6 9 ln a /8e +-+ +-+-+-+-+-+-+-+-+ 6 x +-+-+-+-+-+-+-+-+-+-+-+ 4 \eda o |y A o3 /1 + e _ en l r 7 -sd c o +-+-+-+ +-+-+-+-+-+-+ l +-+-+-+-+-+-+-+-+-+ d6 m7n n a np l4 s + 7 t p e M fdh c as |a|l|l| |m|o|d|e|l|s| Sa |t|r|a|n|s|l|a|t|e| a 6 w da 5 - o4 5 i ) + r l a nn sh fc ui e7 +-+-+-+ +-+-+-+-+-+-+ c a +-+-+-+-+-+-+-+-+-+ ar 9 r , e a 3 , i + 4 r 2 t +-+-+-+-+ +-+-+-+-+-+-+ 72 +-+-+-+-+-+ p r s r a a h an ' 3 a + o p ft n l |s|o|m|e| |m|o|d|e|l|s| |c|o|u|n|t| 8r n| 1 a r h o /oa e 7 + m8 4 wa +-+-+-+-+ +-+-+-+-+-+-+ l 7 +-+-+-+-+-+ 2 or r i 9e 4 p142 ,6r + l 4N i u-3 am +-+-+-+-+ +-+-+-+-+-+-+ 4s +-+-+-+-+-+-+-+ 23 a e rea le dhVo t74 g + j 7 t o e rd |s|o|m|e| |m|o|d|e|l|s| |r|e|p|l|a|c|e| o -i no r + 2 r l i + o 6 7g i tt i +-+-+-+-+ +-+-+-+-+-+-+ 8fa +-+-+-+-+-+-+-+ x7 e g o ee d +ni +d i tr 6k t r 2 3a8 9 i3 5 hv7 ge 5e u - 3y a _ e 2 8 c +55fi1 - 6 :29 t e al+ atp43e + ac t n b t hTsa4ti03 o% % flol 4-e + rf m r 8 6y heta 1 e 1 m6 +t dy p e 9 n ,o 5 / n _ | s e1 + ni d + n 3 leo 5 ti 5 - sc a +1 w uw9 n+ e i m m + 3 a a a 9 \ -8 18 e e l i e h ghc ey9 8 15 3y a 1 -e i 5a i 9r a5pe + o c c % a + 255 t yy m % 4i i 5 i e t _ 7 au l% 7 o +g s8 5 e 2 r 3i 2 1 _ i4ir 2 e l s 1la n s s ht 2 r s i 3 r +u s+ a e m + 6 2n r-l a c6 - t 7 4t +i +r % 8 6 8 r t t r 3 1 +r s 90 k hl a pWn e i5 7 8 a r e4ro e r5wt s m + - h ea 6 2 8 2 v h nf e _ w lr a iai 7 +| j 4 4 f hc i F 9 p s m toG al 6 / h sde l e + a 4 s 6 9 - h o m 6 _l34 . % w7 e 8 e l + n .52- i 7 5 _ r + s 5 p s 5n+ 3 il e 1 o F c +3 l 2 a o en% _. e 4 8lb 3 r a I 9 k o + t r 6 e + 2 6 y oa n i r% f 1 n78 s h F o +e g v 6 u h ad Ua1 2 a t 9 er n t oh7 s s r t g ++ 7 6 h8 t 7 a - m 73| t o e r i 7 +f l ia s _ e u + 7 ct \ a _ 2- 7 . o o - , + t n 0n 4+ f 2r i 9 s y i3 r t r s e a p m h 4 + a c 7 t 9 n n m mro t s i nd e r +a 1 e e | e 1 3 c n k 2 p e o e + 7i s d 6 a 48 c + Dl 1 1 n r - 0 + V r + a o % 7 7 9r 4 | 9 n 7 e + e n | , m n e s s 1 e n 5 +5 r 4 o 5 1 6 e - 2 a -r _ e s’1 e S i +t 2 +|ee s e c n an i e + a4 9 9 o p _ t 7 h v 9 0 +d % a e , s nr 9 l W h a e t | + + s + a 3 7I a e tk K y3e 2 c - a h o u e d + \+ o 1 h r d t e nl 4 k 9 07 o t v 7s + , n e % _x | i t b1 r h ei + t a8 e o n t 12 o rs a y + i e + n a | a 9 \ + n sr - e 3 i r- 8o e i +6 f i 3 ht a l | h 1 o + a s df m5 i h n i 9n ,u + d c n H s o l c i 5 + o | s m rl 9 1 n c _i e + i + i nr 8 h % t a % t 0 m + i 6 c6 wt a r + g s pr l t a 5 | c i | + e 1 sr/ n e 7 e 9 n t w e c ' + m c - o % n . a 3 + f1 c I u 9 + t + 2 . , 4 na P e e f 2 + n i t 1S f n n a i e + r + e i h 9 _ v + 3 | h e t s a + s E l v - p u 1 h 2 , ' 5 + | + nse t a % 8 e w + o p n y o s o + + 36 + V V V V V V % V V % % % %% % % % % %% % % %% + V V V V V V V V V V V V V V V V % % % 0 0 % % % % 0 %% % %%% % % %%% % +V V V V V V V V V % 0 0 %% % % 0 0 % % 0 % + % % %% % % 0 _____ _ % ___ % _ % __ % % + % % % % /__ \ |__ % ___ / __\ ___ ___ | | __ ___ / _| % + % % READERS % / /\/ '_ \ / _ \ /__\/// _ \ / _ \| |/ / / _ \| |_ % + % % / / | | | | __/ / \/ \ (_) | (_) | < | (_) | _| % + % % \/ |_| |_|\___| \_____/\___/ \___/|_|\_\ \___/|_| + V % V V V V V V V % % _____ 0 % 0 _ + V V V V V V V V V V V V V V V V % /__ \___ _ __ ___ ___ _ __ _ __ _____ __ (_)_ __ +V V V V V V V V V / /\/ _ \| '_ ` _ \ / _ \| '__| '__/ _ \ \ /\ / / | | '_ \ + V % V V V V V V V / / | (_) | | | | | | (_) | | | | | (_) \ V V / | | | | | + V V V V V V V V V V V V V V V V \/ \___/|_| |_| |_|\___/|_| |_| \___/ \_/\_/ |_|_| |_| % +V V % V V V V V V V 0 0 ___ % 0 0 __ + % % 0 __ _ 0 / __\ __ _ __ _ ___ / _| % +We communicate with computers 0 0 / _` | /__\/// _` |/ _` | / _ \| |_ 0 +through language. We click on icons | (_| | / \/ \ (_| | (_| | | (_) | _| % +that have a description in words, 0 \__,_| \_____/\__,_|\__, | \___/|_| +we tap words on keyboards, use our 0 00 |___/ % +voice to give them instructions. 0 __ __ % _ +Sometimes we trust our computer % % 0 / / /\ \ \___ _ __ __| |___ 0 % % +with our most intimate thoughts and \ \/ \/ / _ \| '__/ _` / __| 0 +forget that they are extensive cal- % 0 0 \ /\ / (_) | | | (_| \__ \ 0 % +culators. A computer understands \/ \/ \___/|_| \__,_|___/ 0 % +every word as a combination of ze- 0 0 0 +ros and ones. A letter is read as a +specific ASCII number: capital 'A' by Algolit % % +is 001. % + The bag-of-words model is a simplifying representation of text +In all models, rule-based, classi- used in Natural Language Processing (NLP). In this model, a text +cal machine learning, and neural is represented as a collection of its unique words, disregarding +networks, words undergo some type grammar, punctuation and even word order. The model transforms +of translation into numbers in or- the text into a list of words and how many times they're used in +der to understand the semantic the text, or quite literally a bag of words. +meaning of language. This is done +through counting. Some models count This heavy reduction of language was the big shock when beginning +the frequency of single words, some to machine learn. Bag of words is often used as a baseline, on +might count the frequency of combi- which the new model has to perform better. It can understand the +nations of words, some count the subject of a text by recognizing the most frequent or important +frequency of nouns, adjectives, words. It is often used to measure the similarities of texts by +verbs or noun and verb phrases. comparing their bags of words. +Some just replace the words in a % +text by their index numbers. Num- For this work the article 'Le Livre de Demain' by engineer G. +bers optimize the operative speed Vander Haeghen, published in 1907 in the Bulletin de l'Institut +of computer processes, leading to International de Bibliographie of the Mundaneum, has been liter- +fast predictions, but they also re- ally reduced to a bag of words. You can buy a bag at the recep- +move the symbolic links that words tion of Mundaneum. +might have. Here we present a few +techniques that are dedicated to --- +making text readable to a machine. + % Concept & realisation: An Mertens + + + 0 00 + 0 0 0 + 0 _____ ___ _____ ___ ___ + 0 0 /__ \/ __\ \_ \/ \/ __\ + 0 0 / /\/ _\____ / /\/ /\ / _\ + 0 00 / / / /|_____/\/ /_/ /_// / + \/ \/ \____/___,'\/ + 0 + + by Algolit + + The TF-IDF (Term Frequency-Inverse Document Frequency) is a + weighting method used in text search. This statistical measure + makes it possible to evaluate the importance of a term contained + in a document, relative to a collection or corpus of documents. + The weight increases in proportion to the number of occurrences + 37 + %% % % % %% %% of the word in the document. It also varies according to the fre- + % % % % % quency of the word in the corpus. The TF-IDF is used in particu- + % % % % %% lar in the classification of spam in email softwares. % + % % % % % % % % % + % % % % A web-based interface shows this algorithm through animations % + % making it possible to understand the different steps of text % + % % % classification. How does a TF-IDF-based programme read a text? % + % How does it transform words into numbers? % % % + % % % % % + % --- % % + % % % + % Concept, code, animation: Sarah Garcin % + % % % + % % % + 0 0 % % + % 0 0 % + 0 ___ 0 _ 0 0 + 0 / _ \_ __ _____ _(_)_ __ __ _ __ _ + 0 / /_\/ '__/ _ \ \ /\ / / | '_ \ / _` | / _` | + 0 / /_\\| | | (_) \ V V /| | | | | (_| | | (_| | + 0 \____/|_| \___/ \_/\_/ |_|_| |_|\__, | \__,_| + 0 0 0 |___/ 0 + 0 0 0 _ 0 % + % | |_ _ __ ___ ___ + % 0 0 | __| '__/ _ \/ _ \ % + % 0 | |_| | | __/ __/ + 0 0 0 \__|_| \___|\___| + % + + by Algolit % + % % + % % Parts-of-Speech is a category of words that we learn at school: + % noun, verb, adjective, adverb, pronoun, preposition, conjunction, + % interjection, and sometimes numeral, article, or determiner. % + + In Natural Language Processing (NLP) there exist many writings + that allow sentences to be parsed. This means that the algorithm + can determine the part-of-speech of each word in sentence.'Growing + tree' uses this techniques to define all nouns in specific + sentence. Each noun is then replaced by its definition. This + allows the sentence to grow autonomously and infinitely. The + recipe of 'Growing tree' was inspired by Oulipo' constraint + of 'littérature définitionnelle' invented by Marcel Benabou in + 1966. In given phrase, one replaces every significant element + (noun, adjective, verb, adverb) by one of its definitions in + given dictionary  one reiterates the operation on the newly + received phrase, and again. + + The dictionary of definitions used in this work is Wordnet. Word- + net is a combination of a dictionary and a thesaurus that can be + read by machines. According to Wikipedia it was created in the + Cognitive Science Laboratory of Princeton University starting in + 1985. The project was initially funded by the US Office of Naval + Research and later also by other US government agencies including + DARPA, the National Science Foundation, the Disruptive Technology + Office (formerly the Advanced Research and Development Activity), + and REFLEX. + + --- + + Concept, code & interface: An Mertens & Gijs de Heij + + + 0 0 0 0000 0 0 + + _ _ _ _ _ _ + /_\ | | __ _ ___ _ __(_) |_| |__ _ __ ___ (_) ___ + 0 //_\\| |/ _` |/ _ \| '__| | __| '_ \| '_ ` _ \| |/ __| + / _ \ | (_| | (_) | | | | |_| | | | | | | | | | (__ + 38 + % %% % % %% % % % \_/ \_/_|\__, |\___/|_| |_|\__|_| |_|_| |_| |_|_|\___| % + % %% % % % % % |___/ % 0 %% % % 00 %% %% + %% % % 0 % % % % 0 0 _ _ % % 0 __ %% + % % % _ __ ___ __ _ __| (_)_ __ __ _ ___ ___ / _| %% % + % % % | '__/ _ \/ _` |/ _` | | '_ \ / _` / __| / _ \| |_ % + % % | | | __/ (_| | (_| | | | | | (_| \__ \ | (_) | _| % % + |_| \___|\__,_|\__,_|_|_| |_|\__, |___/ \___/|_| + % % 0 % 0 0 0 0 |___/ 0 % 0 % + %% % ___ 0 _ 0 _ _ _ 0 _ % % %% + % / __\ ___ _ __| |_(_) | | ___ _ __( )__ % + % % 0 /__\/// _ \ '__| __| | | |/ _ \| '_ \/ __| %% + / \/ \ __/ | | |_| | | | (_) | | | \__ \ % + % 0 0 \_____/\___|_| \__|_|_|_|\___/|_| |_|___/ + % % 0 _ _ _ 0 + % % % _ __ 0 ___ _ __| |_ _ __ __ _(_) |_ % + % % % | '_ \ / _ \| '__| __| '__/ _` | | __| 0 + % 00 | |_) | (_) | | | |_| | | (_| | | |_ + % | .__/ \___/|_| \__|_| \__,_|_|\__| % + |_| 0 + % 0 0 0 % _ 0 0 + 0 _ __ __ _ _ __| | ___ + 0 0 | '_ \ / _` | '__| |/ _ \ 0 + 0 | |_) | (_| | | | | __/ 0 + 0 | .__/ \__,_|_| |_|\___| + 0 0 |_| + 00 0 0 0 0 00 + + % by Guillaume Slizewicz (Urban Species) + % % % + Written in 1907, Un code télégraphique du portrait parlé is an + attempt to translate the 'spoken portrait', a face-description + technique created by a policeman in Paris, into numbers. By im- + plementing this code, it was hoped that faces of criminals and + fugitives could easily be communicated over the telegraphic net- + % work in between countries. In its form, content and ambition this + text represents our complicated relationship with documentation + % technologies. This text sparked the creation of the following in- + % stallations for three reasons: % + + - First, the text is an algorithm in itself, a compression algo- + rithm, or to be more precise, the presentation of a compression + % algorithm. It tries to reduce the information to smaller pieces + while keeping it legible for the person who has the code. In this + % regard it is linked to the way we create technology, our pursuit + for more efficiency, quicker results, cheaper methods. It repre- + sents our appetite for putting numbers on the entire world, mea- + suring the smallest things, labeling the tiniest differences. + This text itself embodies the vision of the Mundaneum. + + - Second it is about the reasons for and the applications of + technology. It is almost ironic that this text was in the se- + lected archives presented to us in a time when face recognition + and data surveillance are so much in the news. This text bears + the same characteristics as some of today's technology: motivated + by social control, classifying people, laying the basis for a + surveillance society. Facial features are at the heart of recent + controversies: mugshots were standardized by Bertillon, now they + are used to train neural network to predict criminals from law- + abiding citizens. Facial recognition systems allow the arrest of + criminals via CCTV infrastructure and some assert that people’s + features can predict sexual orientation. + + - The last point is about how it represents the evolution of + mankind’s techno-structure. What our tools allow us to do, what + they forbid, what they hinder, what they make us remember and + what they make us forget. This document enables a classification + between people and a certain vision of what normality is. It + breaks the continuum into pieces thus allowing stigmatiza- + tion/discrimination. On the other hand this document also feels + 39 + %% %% % %% %% % obsolete today, because our techno-structure does not need such + % %% % % % detailed written descriptions about fugitives, criminals or citi- % + % %% % % % % % % zens. We can now find fingerprints, iris scans or DNA info in % + % % % % % % % % % % large datasets and compare them directly. Sometimes the techno- % + % % % % logical systems do not even need human supervision and recognize + % % % %% % % directly the identity of a person via their facial features or % % + % their gait. Computers do not use intricate written language to + describe a face, but arrays of integers. Hence all the words used + % in this documents seem désuets, dated. Have we forgotten what % + some of them mean? Did photography make us forget how to describe + % faces? Will voice-assistance software teach us again? + % + Writing with Otlet + % % + % % Writing with Otlet is a character generator that uses the spoken % + % portrait code as its database. Random numbers are generated and + % translated into a set of features. By creating unique instances, + % the algorithm reveals the richness of the description that is + possible with the portrait code while at the same time embodying + its nuances. + % + An interpretation of Bertillon's spoken portrait. %% + + % This work draws a parallel between Bertillon systems and current + ones. A webcam linked to a facial recognition algorithm captures % + the beholder's face and translates it into numbers on a canvas, + % printing it alongside Bertillon's labelled faces. + % % + References + https://www.technologyreview.com/s/602955/neural-network-learns- + to-identify-criminals-by-their-faces/ + https://fr.wikipedia.org/wiki/Bertillonnage + https://callingbullshit.org/case_studies/case_study_criminal_ma- + chine_learning.html + % % + % + % % 0 0 0 0 % + 0 0 0 + /\ /\__ _ _ __ __ _ _ __ ___ __ _ _ __ + 0 / /_/ / _` | '_ \ / _` | '_ ` _ \ / _` | '_ \ + / __ / (_| | | | | (_| | | | | | | (_| | | | | + \/ /_/ \__,_|_| |_|\__, |_| |_| |_|\__,_|_| |_| + 0 0 |___/ 0 0 + % 0 0 0 0 0 % + % + by Laetitia Trozzi, student Arts²/Section Digital Arts + + What better way to discover Paul Otlet and his passion for liter- + ature than to play hangman? Through this simple game, which con- + sists in guessing the missing letters in a word, the goal is to + make the public discover terms and facts related to one of the + creators of the Mundaneum. + % + Hangman uses an algorithm to detect the frequency of words in a + text. Next, a series of significant words were isolated in Paul + Otlet's bibliography. This series of words is integrated into a + hangman game presented in a terminal. The difficulty of the game + gradually increases as the player is offered longer and longer + words. Over the different game levels, information about the life + and work of Paul Otlet is displayed. + + % + + + + + + + + 40 + CONTEXTUAL STORIES + ABOUT READERS + + + + Naive Bayes, Support Vector Machines and Linear ter trigram. All the overlapping sequences of + Regression are called classical machine learning three characters are isolated. For example, the + algorithms. They perform well when learning with character 3-grams of 'Suicide', would be, ‘Sui’, + small datasets. But they often require complex ‘uic’, ‘ici’, ‘cid’, etc. Character n-gram fea- + Readers. The task the Readers do, is also called tures are very simple, they're language-indepen- + feature-engineering. This means that a human needs dent and they're tolerant to noise. Furthermore, + to spend time on a deep exploratory data analysis spelling mistakes do not jeopardize the technique. +of the dataset. + Patterns found with character n-grams focus on +Features can be the frequency of words or letters, stylistic choices that are unconsciously made by + but also syntactical elements like nouns, adjec- the author. The patterns remain stable over the + tives, or verbs. The most significant features for full length of the text, which is important for + the task to be solved, must be carefully selected authorship recognition. Other types of experiments + and passed over to the classical machine learning could include measuring the length of words or + algorithm. This process marks the difference with sentences, the vocabulary richness, the frequen- + Neural Networks. When using a neural network, cies of function words; even syntax or semantics- + there is no need for feature-engineering. Humans related measurements. + can pass the data directly to the network and + achieve fairly good performances straightaway. This means that not only your physical fingerprint + This saves a lot of time, energy and money. is unique, but also the way you compose your + thoughts! +The downside of collaborating with Neural Networks +is that you need a lot more data to train your The same n-gram technique discovered that The +prediction model. Think of 1GB or more of plain Cuckoo’s Calling, a novel by Robert Galbraith, was + text files. To give you a reference, 1 A4, a text actually written by … J. K. Rowling! + file of 5000 characters only weighs 5 KB. You + would need 8,589,934 pages. More data also re- Reference + quires more access to useful datasets and more, Paper: On the Robustness of Authorship Attribu- + much more processing power. tion Based on Character N-gram Features, Efs- + tathios Stamatatos, in Journal of Law & Policy, + Volume 21, Issue 2, 2013. + --- Character n-gram for authorship recognition News article: https://www.scientificamerican.- + --- com/article/how-a-computer-program-helped-show-jk- + rowling-write-a-cuckoos-calling/ + Imagine … You've been working for a company for +more than ten years. You have been writing tons of --- A history of n-grams --- +emails, papers, internal notes and reports on very +different topics and in very different genres. All The n-gram algorithm can be traced back to the + your writings, as well as those of your col- work of Claude Shannon in information theory. In + leagues, are safely backed-up on the servers of the paper, 'A Mathematical Theory of Communica- + the company. tion', published in 1948, Shannon performed the + first instance of an n-gram-based model for natu- + One day, you fall in love with a colleague. After ral language. He posed the question: given a se- + quence of letters, what is the likelihood of the + hysterical and also very dependent on you. The day next letter? + you decide to break up, your (now) ex elaborates a + plan to kill you. They succeed. This is unfortu- If you read the following excerpt, can you tell + nate. A suicide letter in your name is left next who it was written by? Shakespeare or an n-gram + to your corpse. Because of emotional problems, it piece of code? +says, you decided to end your life. Your best +friends don't believe it. They decide to take the SEBASTIAN: Do I stand till the break off. +case to court. And there, based on the texts you + and others produced over ten years, a machine BIRON: Hide thy head. + learning model reveals that the suicide letter was + written by someone else. VENTIDIUS: He purposeth to Athens: whither, with + the vow + How does a machine analyse texts in order to iden- I made to handle you. + tify you? The most robust feature for authorship + recognition is delivered by the character n-gram FALSTAFF: My good knave. + technique. It is used in cases with a variety of + thematics and genres of the writing. When using You may have guessed, considering the topic of + character n-grams, texts are considered as se- this story, that an n-gram algorithm generated + quences of characters. Let's consider the charac- this text. The model is trained on the compiled + works of Shakespeare. While more recent algo- + 41 + + + + + rithms, such as the recursive neural networks of is good, they buy. + the CharNN, are becoming famous for their perfor- + mance, n-grams still execute a lot of NLP tasks. A paper by Haikuan Liu of the Australian National + They are used in statistical machine translation, University states that the tense of verbs used in + speech recognition, spelling correction, entity tweets can be an indicator of the frequency of fi- + detection, information extraction, ... nancial transactions. His idea is based on the + fact that verb conjugation is used in psychology + to detect the early stages of human depression. + --- God in Google Books --- + Reference +In 2006, Google created a dataset of n-grams from Paper: 'Grammatical Feature Extraction and Analy- +their digitized book collection and released it sis of Tweet Text: An Application towards Pre- +online. Recently they also created an n-gram view- dicting Stock Trends', Haikuan Liu, Research + er. School of Computer Science (RSCS), College of + Engineering and Computer Science (CECS), The Aus- + This allowed for many socio-linguistic investiga- tralian National University (ANU) + tions. For example, in October 2018, the New York + Times Magazine published an opinion article titled + 'It’s Getting Harder to Talk About God'. The au- --- Bag of words --- + thor, Jonathan Merritt, had analysed the mention + of the word 'God' in Google's dataset using the In Natural Language Processing (NLP), 'bag of + n-gram viewer. He concluded that there had been a words' is considered to be an unsophisticated mod- + decline in the word's usage since the twentieth el. It strips text of its context and dismantles + century. Google's corpus contains texts from the it into a collection of unique words. These words +sixteenth century leading up to the twenty-first. are then counted. In the previous sentences, for +However, what the author missed out on was the example, 'words' is mentioned three times, but +growing popularity of scientific journals around this is not necessarily an indicator of the text's + the beginning of the twentieth century. This new focus. + genre that was not mentioning the word God shifted + the dataset. If the scientific literature was The first appearance of the expression 'bag of + taken out of the corpus, the frequency of the word words' seems to go back to 1954. Zellig Harris, + 'God' would again flow like a gentle ripple from a an influential linguist, published paper called + distant wave. 'Distributional Structure' In the section called + 'Meaning as function of distribution' he says + 'for language is not merely bag of words but + --- Grammatical features taken from Twitter influ- tool with particular properties which have been + ence the stock market --- fashioned in the course of its use. The linguist' + work is precisely to discover these properties, +The boundaries between academic disciplines are whether for descriptive analysis or for the synthesis +becoming blurred. Economics research mixed with of quasi-linguistic systems. +psychology, social science, cognitive and emo- + tional concepts have given rise to a new economics + subfield, called 'behavioral economics'. This + means that researchers can start to explain stock + market mouvement based on factors other than eco- + nomic factors only. Both the economy and 'public + opinion' can influence or be influenced by each + other. A lot of research is being done on how to + use 'public opinion' to predict tendencies in + stock-price changes. + + 'Public opinion' is estimated from sources of +large amounts of public data, like tweets, blogs +or online news. Research using machinic data anal- +ysis shows that the changes in stock prices can be + predicted by looking at 'public opinion', to some + degree. There are many scientific articles online, + which analyse the press on the 'sentiment' ex- + pressed in them. An article can be marked as more + or less positive or negative. The annotated press + articles are then used to train a machine learning + model, which predicts stock market trends, marking + them as 'down' or 'up'. When a company gets bad + press, traders sell. On the contrary, if the news + + 42 +learners learn learners learn learners learn learners learn learners learn learners learn + learners learn learners learn learners learn learners learn learners learn + learners learn learners learn learners learn learners learn + learners learn learners learn learners learn + learners learn learners learn learners learn lea +ners learn learners learn learners learn +learners learn learners learn learners learn + learners learn learners learn learners +earn learners learn learners learn + learners learn learners learn + learners learn learners learn lea +ners learn learners learn learners +learn learners learn learners +earn learners learn learne +s learn learners learn +learners learn learners learn + learners learn learners learn + learners learn learners learn + learners learn + learners learn learners learn + learners learn learners learn + learners learn + learners learn learners learn + learners learn + learners learn learners learn + learners learn + learners learn learners +learn learners learn + learners learn + learners learn learners learn + learners learn + learners learn + learners learn learners +learn learners learn + learners learn + learners learn + learners learn lea +ners learn learners learn + learners learn + learners learn + learners learn + learners learn + learners learn + learners learn learners +earn learners learn + learners learn + learners learn + learners learn + learners learn + learners learn + learners learn + learners learn + learners learn + learners learn + learners learn + learners learn + learners learn + learners learn + learners learn + learners learn + learners learn + learners learn + learners learn + learners learn + learners learn + learners learn + learners learn + learners learn + learners learn + 43 + 4n r- ro %r5 l e +-+-+-+-+-+-+-+-+ f +-+-+-+-+-+ m 9-e p + st2- a , _ nr2 + l itr9 op 2c b ue |l|e|a|r|n|e|r|s| , y |l|e|a|r|n| ) g- 9 c w 1 atn_wn o_ c| + c o b op , +_7 -x a 9acl +-+-+-+-+-+-+-+-+ hc +-+-+-+-+-+ 34 u a 9a l |an t p 9 - +|\ _ l6el , 7 3 u r1 3 8dl a. m s T rv t ro|lm ni3 4 V3 as1to 4 e hp +5_s -o 4 d o9n t 0 t V i5n _ i, _ iu9 l + t t 6t s r s exe4eh l 4 + ri _g d s es c s a 4s i+ i _ +-+-+-+-+-+-+-+-+ +-+-+-+ +-+-+-+-+-+-+-+ e l4 f k 5l l wu |f + ete V o I- 4e |l|e|a|r|n|e|r|s| 6 e |a|r|e| |p|a|t|t|e|r|n| st 62 t a ne e 2 ? + .n l 1 ntb 5 d9 +-+-+-+-+-+-+-+-+ e e1 +-+-+-+ +-+-+-+-+-+-+-+ ia 5 n i w er8 + er 1 t i 9 te9 n r7 | t ie m +-+-+-+-+-+-+-+ n s 1 i- e i X c w a + 4 _c4 c s+ m t eh h.5 t a i t m p3 a e |f|i|n|d|e|r|s| , ll 6a e e7ifo- +cs te s- + h 5 8 m wl c tl u w2 +-+-+-+-+-+-+-+ 8 r s oe t % 8- 1 tl3o 4 + n r a t t 3a 9 +-+-+-+-+-+-+-+-+ 5i9 +-+-+-+ +-+-+-+-+-+-+-+-+ l s 9 | 9a e 0sbntaf + m(um8 j ra e +t o |l|e|a|r|n|e|r|s| |a|r|e| |c|r|a|w|l|i|n|g| n n ei pte7i r 6ms + t s G_ el i + ka e . +-+-+-+-+-+-+-+-+ +-+-+-+ +-+-+-+-+-+-+-+-+ ,/s u r r 4 1 i h + d heeo 2eei m g r ao a ah( 9a u m9 V e +-+-+-+-+-+-+-+ +-+-+-+-+ nae T-e r s-i5 7n + gt r_ y e io 96 e e s d |T trig - l |t|h|r|o|u|g|h| |d|a|t|a| 7s e1s77 87 2 fw m c + 9d. 2 _ e 2nnm 96 n a t7- c d, o e +-+-+-+-+-+-+-+ +-+-+-+-+ 6 r n rbhi e 5 s n d + / _ 2r s f a ef +-+-+-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+ +-+-+-+-+ +-+-+-+-+ h asn _ + t5 w w p l n | a -s |l|e|a|r|n|e|r|s| e |g|e|n|e|r|a|t|e| |s|o|m|e| |k|i|n|d| u s s + ie im i i 7 t 4 +-+-+-+-+-+-+-+-+ r +-+-+-+-+-+-+-+-+ +-+-+-+-+ +-+-+-+-+ u t nr+ a + c 7 t s x 4 da n 7 Fd e c & +-+-+ +-+-+-+-+-+-+-+-+ raa o c5 ' e ro. + k1 n t re 8 n et 9 1 l r 0V |o|f| |s|p|e|c|i|f|i|c| a t9 s c rv v s l + n_fa r% a Z a 5 w me m n 5 1s n +-+-+ +-+-+-+-+-+-+-+-+ t S 1 o a r d rb + y 7 r c o ge D _ns v / b +-+-+-+-+-+-+-+-+-+ 8 4- i o 9 t e + i 4 9 9t6 9- é2 o p| o v i |'|g|r|a|m|m|a|r|'| n p t p 8sn _ l 8 + nt 2pc t V4 e ha e 3 1 , n 2 i o +-+-+-+-+-+-+-+-+-+ %4 r 8 1 1 t e + e 8 rn d +-+-+-+-+-+-+-+-+-+-+-+ i +-+-+-+-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+ u t + e e e e r F |c|l|a|s|s|i|f|i|e|r|s| %f |g|e|n|e|r|a|t|e|,| |e|v|a|l|u|a|t|e| 1 h V0 t n + nh % c 5 h r +-+-+-+-+-+-+-+-+-+-+-+ ti +-+-+-+-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+ Ul n m , + - n 2 ab m 3 o- r e 6| n +-+-+-+ +-+-+-+-+-+-+-+-+ 6 + oe / + l t i u + u t l i 7 ei |a|n|d| |r|e|a|d|j|u|s|t| 5 r f l f5 % + n 2 s e m a m e d1 m uh c +-+-+-+ +-+-+-+-+-+-+-+-+ n s g o _ + e d c ps +-+-+-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+-+-+ +-+-+-+ + a D y5 8r + +1n o h |l|e|a|r|n|e|r|s| |u|n|d|e|r|s|t|a|n|d| |a|n|d| k4t tr t m + u a t +-+-+-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+-+-+ +-+-+-+ a 3 i 3 t + 2 r 7 n n 9 r r. t p i +-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+ -- c + g + l t v c i 8 f as |r|e|v|e|a|l| |p|a|t|t|e|r|n|s| a _ n + 4 s l 5 2 + f s - l +-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+ 4 - e + y + h -_ 7 +-+-+-+-+-+-+-+-+ +-+-+-+-+-+ +-+-+-+-+-+-+ o . - i e + i e l t e _ V n |l|e|a|r|n|e|r|s| |d|o|n|'|t| |a|l|w|a|y|s| 4b ,i + _ % rt h e ,a +-+-+-+-+-+-+-+-+ +-+-+-+-+-+ +-+-+-+-+-+-+ a _ h _ + 2 V o 5 t +-+-+-+-+-+-+-+-+-+-+-+-+ +-+-+-+-+ _ s + c % po + h o3 mi5 8 |d|i|s|t|u|i|n|g|u|i|s|h| |w|e|l|l| w 7 _nn + , ha u pk +-+-+-+-+-+-+-+-+-+-+-+-+ +-+-+-+-+ 91s 6 a + s hp I 3 % +-+-+-+-+-+ +-+-+-+-+-+-+-+-+ i 8 + v o 6 o r s |w|h|i|c|h| |p|a|t|t|e|r|n|s| s_ oge e + n a + e o e 3 n 7 +-+-+-+-+-+ +-+-+-+-+-+-+-+-+ o 6 + + i l r \ m + a l r +-+-+-+-+-+-+ +-+-+ +-+-+-+-+-+-+-+-+ , n + c a o o o |s|h|o|u|l|d| |b|e| |r|e|p|e|a|t|e|d| eh s i + o tlt t 2 e5 d +-+-+-+-+-+-+ +-+-+ +-+-+-+-+-+-+-+-+ o s + 7 d 2 5 | n | 1 ey d te a t + r | , + 9 6 % f a i s % + n o+| r u s \ 4 e ep e + ao 2 | f' | e e r 9 7 Td i d e + . t 8m d c l 6 l o i _ t T i - i + n 7 e d 3 p l a n . i l + i i % 8 a + p r l e + 4 % a l + | h 5 | tl d 1mo 7 t N + , t o i 9 o? F W 9 dC %hf + o m 5 t t w , - 3p + a d s e a n t _ o c \ f + + p a r f |el 8 , g i l e e + t e3 - - 9 h c t t +w + | u0 w t + . h 5 a , s + t d _ n V 4 a o + , o t r nt + w e e + + 44 + V V V % V % V % V V % V % % % % % %% % % % % % % % + V V V V V V V V V V V V V V V V % % % 0 % % % %% % % %%% % % +V V V % V V V V V V % % %% 0 0 % % 0 % 00 % % % + % % % % 0 % __ _ 0 % 0 % ___ % 0 0 % + % % % % % % 0 /\ \ \__ _(_)_ 0 _____ / __\ __ _ _ _ ___ ___ % + % % LEARNERS % % / \/ / _` | \ \ / / _ \ /__\/// _` | | | |/ _ \/ __| + % % % % % / /\ / (_| | |\ V / __/ / \/ \ (_| | |_| | __/\__ \ + % % % % \_\ \/ \__,_|_| \_/ \___| \_____/\__,_|\__, |\___||___/ + V V V V V V V V % 0 % % 0 0 % % |___/ + V V V V V V V V V V V V V V V V % __ _ __ _ _ __ ___ ___ 0 % % +V V V V V V V % V V % % / _` |/ _` | '_ ` _ \ / _ \ % + V V V V V V V V 0 0 | (_| | (_| | | | | | | __/ % + V V V V V V V V V V V V V V V V % 0 00 \__, |\__,_|_| |_| |_|\___| 0 % +V V V V V V V V V 0 |___/ 0 + % % 0 0 0 +Learners are the algorithms that +distinguish machine learning prac- by Algolit % % +tices from other types of prac- % +tices. They are pattern finders, In machine learning Naive Bayes methods are simple probabilistic +capable of crawling through data classifiers that are widely applied for spam filtering and decid- +and generating some kind of spe- ing whether a text is positive or negative. +cific 'grammar'. Learners are based +on statistical techniques. Some They require a small amount of training data to estimate the nec- +need a large amount of training essary parameters. They can be extremely fast compared to more +data in order to function, others sophisticated methods. They are difficult to generalize, which +can work with a small annotated means that they perform on specific tasks, demanding to be +set. Some perform well in classifi- % trained with the same style of data that will be used to work +cation tasks, like spam identifica- with afterwards. +tion, others are better at predict- +ing numbers, like temperatures, This game allows you to play along the rules of Naive Bayes. +distances, stock market values, and While manually executing the code, you create your own playful +so on. model that 'just works'. A word of caution is necessary: because + you only train it with 6 sentences – instead of the minimum 2000 +The terminology of machine learning – it is not representative at all! +is not yet fully established. +Depending on the field, whether --- +statistics, computer science or the +humanities, different terms are Concept & realisation: An Mertens +used. Learners are also called +classifiers. When we talk about +Learners, we talk about the inter- % 0 % 0 0 0 % +woven functions that have the ca- 0 0 0 0 0 % +pacity to generate other functions, __ _ 0 +evaluate and readjust them to fit 0 0 / /(_)_ __ ___ __ _ _ __ 0 +the data. They are good at under- / / | | '_ \ / _ \/ _` | '__| +standing and revealing patterns. 0 0 / /__| | | | | __/ (_| | | +But they don't always distinguish 0 \____/_|_| |_|\___|\__,_|_| +well which of the patterns should 0 __ 0 0 _ +be repeated. 0 /__\ ___ __ _ _ __ ___ ___ ___(_) ___ _ __ + / \/// _ \/ _` | '__/ _ \/ __/ __| |/ _ \| '_ \ +In software packages, it is not al- 00 0 / _ \ __/ (_| | | | __/\__ \__ \ | (_) | | | | +ways possible to distinguish the 0 0 \/ \_/\___|\__, |_| \___||___/___/_|\___/|_| |_| +characteristic elements of the 0 0 |___/ 0 +classifiers, because they are hid- 0 0 __ _ __ _ _ __ ___ ___ +den in underlying modules or li- 0 / _` |/ _` | '_ ` _ \ / _ \ +braries. Programmers can invoke | (_| | (_| | | | | | | __/ +them using a single line of code. 0 \__, |\__,_|_| |_| |_|\___| 0 0 % +For this exhibition, we therefore |___/ 00 +developed two table games that show 0 0 0 0 +in detail the learning process of +simple, but frequently used classi- by Algolit +fiers. + Linear Regression is one of the best-known and best-understood + algorithms in statistics and machine learning. It has been around + for almost 200 years. It is an attractive model because the rep- + % resentation is so simple. In statistics, linear regression is a + statistical method that allows to summarize and study relation- + ships between two continuous (quantitative) variables. + + 45 + % % % %% % % By playing this game you will realize that as a player you have a + % % % % lot of decisions to make. You will experience what it means to % + % %% create a coherent dataset, to decide what is in and what is not + % % % % in. If all goes well, you will feel the urge to change your data % + % % in order to obtain better results. This is part of the art of ap- % + %% % % % % % proximation that is at the basis of all machine learning prac- + % % % tices. % % % % % % % % + % % % + % % % % % --- % % + % % % % % % % + Concept & realisation: An Mertens % + % % % % + %% % % + 0 % 0 0 + 00 0 0 0 % 0 0 + 0 _____ _ _ 0 _ 0 _ % + /__ \_ __ __ _(_) |_ ___ __| | ___ __| | + / /\/ '__/ _` | | __/ _ \ / _` |/ _ \ / _` | + % % 0 / / | | | (_| | | || __/ | (_| | __/ | (_| | + 00 \/ |_| \__,_|_|\__\___| \__,_|\___| \__,_| + % % 0 0 00 0 % _ _ _ 0 + % ___ ___ _ _ _ __ ___ ___ _ __ | |_ __ _| |_(_) ___ + % / _ \ / __| | | | '_ ` _ \ / _ \ '_ \| __/ _` | __| |/ _ \ + % | (_) | (__| |_| | | | | | | __/ | | | || (_| | |_| | (_) | + \___/ \___|\__,_|_| |_| |_|\___|_| |_|\__\__,_|\__|_|\___/ + % 0 0 0 _ __ 0 + | '_ \ 0 + % 0 0 | | | | + |_| |_| 0 + 0 0 % 0 0 + % + Traité de Documentation. Three algorithmic poems. + + by Rémi Forte, designer-researcher at L’Atelier national de + recherche typographique, Nancy, France + % + serigraphy on paper, 60 × 80 cm, 25 ex., 2019, for sale at the + % reception of the Mundaneum. + + The poems, reproduced in the form of three posters, are an algo- + % rithmic and poetic re-reading of Paul Otlet's Traité de documen- + tation. They are the result of an algorithm based on the mysteri- + ous rules of human intuition. It has been applied to a fragment + taken from Paul Otlet's book and is intended to be representative + % of his bibliological practice. + % + For each fragment, the algorithm splits the text, words and punc- + tuation marks are counted and reordered into a list. In each + % line, the elements combine and exhaust the syntax of the selected + fragment. Paul Otlet's language remains perceptible but exacer- + bated to the point of absurdity. For the reader, the systematiza- + % tion of the text is disconcerting and his reading habits are dis- + rupted. + + % Built according to a mathematical equation, the typographical + % composition of the poster is just as systematic as the poem. How- + ever, friction occurs occasionally; loop after loop, the lines + % extend to bite on the neighbouring column. Overlays are created + and words are hidden by others. These telescopic handlers draw + alternative reading paths. + + + + + + + + + + 46 + CONTEXTUAL STORIES + ABOUT LEARNERS + + + + --- Naive Bayes & Viagra --- Only after 150 years was the accusation refuted. + + Naive Bayes is a famous learner that performs well Fast forward to 1939, when Bayes' rule was still + with little data. We apply it all the time. Chris- virtually taboo, dead and buried in the field of + tian and Griffiths state in their book, Algorithms statistics. When France was occupied in 1940 by + To Live By, that 'our days are full of small Germany, which controlled Europe's factories and + data'. Imagine, for example, that you're standing farms, Winston Churchill's biggest worry was the +at a bus stop in a foreign city. The other person U-boat peril. U-boat operations were tightly con- +who is standing there has been waiting for 7 min- trolled by German headquarters in France. Each +utes. What do you do? Do you decide to wait? And submarine received orders as coded radio messages + if so, for how long? When will you initiate other long after it was out in the Atlantic. The mes- + options? Another example. Imagine a friend asking sages were encrypted by word-scrambling machines, + advice about a relationship. He's been together called Enigma machines. Enigma looked like a com- + with his new partner for a month. Should he invite plicated typewriter. It was invented by the German + the partner to join him at a family wedding? firm Scherbius & Ritter after the First World War, + when the need for message-encoding machines had + Having pre-existing beliefs is crucial for Naive become painfully obvious. + Bayes to work. The basic idea is that you calcu- + late the probabilities based on prior knowledge Interestingly, and luckily for Naive Bayes and the + and given a specific situation. world, at that time, the British government and + educational systems saw applied mathematics and +The theorem was formulated during the 1740s by statistics as largely irrelevant to practical +Thomas Bayes, a reverend and amateur mathemati- problem-solving. So the British agency charged +cian. He dedicated his life to solving the ques- with cracking German military codes mainly hired + tion of how to win the lottery. But Bayes' rule men with linguistic skills. Statistical data was + was only made famous and known as it is today by seen as bothersome because of its detail-oriented + the mathematician Pierre Simon Laplace in France a nature. So wartime data was often analysed not by + bit later in the same century. For a long time af- statisticians, but by biologists, physicists, and + ter La Place's death, the theory sank into obliv- theoretical mathematicians. None of them knew that + ion until it was dug up again during the Second the Bayes rule was considered to be unscientific + World War in an effort to break the Enigma code. in the field of statistics. Their ignorance proved + fortunate. + Most people today have come in contact with Naive + Bayes through their email spam folders. Naive It was the now famous Alan Turing – a mathemati- + Bayes is a widely used algorithm for spam detec- cian, computer scientist, logician, cryptoanalyst, +tion. It is by coincidence that Viagra, the erec- philosopher and theoretical biologist – who used +tile dysfunction drug, was approved by the US Food Bayes' rules probabilities system to design the +& Drug Administration in 1997, around the same 'bombe'. This was a high-speed electromechanical + time as about 10 million users worldwide had made machine for testing every possible arrangement + free webmail accounts. The selling companies were that an Enigma machine would produce. In order to + among the first to make use of email as a medium crack the naval codes of the U-boats, Turing sim- + for advertising: it was an intimate space, at the plified the 'bombe' system using Baysian methods. + time reserved for private communication, for an It turned the UK headquarters into a code-breaking + intimate product. In 2001, the first SpamAssasin factory. The story is well illustrated in The Imi- + programme relying on Naive Bayes was uploaded to tation Game, a film by Morten Tyldum dating from + SourceForge, cutting down on guerilla email mar- 2014. + keting. + + Reference --- A story about sweet peas --- +Machine Learners, by Adrian MacKenzie, MIT Press, +Cambridge, US, November 2017. Throughout history, some models have been invented + by people with ideologies that are not to our lik- + ing. The idea of regression stems from Sir Francis + --- Naive Bayes & Enigma --- Galton, an influential nineteenth-century scien- + tist. He spent his life studying the problem of + This story about Naive Bayes is taken from the heredity – understanding how strongly the charac- + book 'The Theory That Would Not Die', written by teristics of one generation of living beings mani- + Sharon Bertsch McGrayne. Among other things, she fested themselves in the following generation. He + describes how Naive Bayes was soon forgotten after established the field of eugenics, defining it as + the death of Pierre Simon Laplace, its inventor. ‘the study of agencies under social control that + The mathematician was said to have failed to may improve or impair the racial qualities of fu- + credit the works of others. Therefore, he suffered ture generations, either physically or mentally'. + widely circulated charges against his reputation. On Wikipedia, Galton is a prime example of scien- + tific racism. + 47 + + + + + Galton initially approached the problem of hered- + ity by examining characteristics of the sweet pea In 1962, he created the Perceptron, a model that + plant. He chose this plant because the species can learns through the weighting of inputs. It was set + self-fertilize. Daughter plants inherit genetic aside by the next generation of researchers, be- + variations from mother plants without a contribu- cause it can only handle binary classification. + tion from a second parent. This characteristic This means that the data has to be clearly separa- + eliminates having to deal with multiple sources. ble, as for example, men and women, black and + white. It is clear that this type of data is very + Galton's research was appreciated by many intel- rare in the real world. When the so-called first + lectuals of his time. In 1869, in Hereditary Ge- AI winter arrived in the 1970s and the funding de- +nius, Galton claimed that genius is mainly a mat- creased, the Perceptron was also neglected. For +ter of ancestry and he believed that there was a ten years it stayed dormant. When spring settled +biological explanation for social inequality at the end of the 1980s, a new generation of re- + across races. Galton even influenced his half- searchers picked it up again and used it to con- + cousin Charles Darwin with his ideas. After read- struct neural networks. These contain multiple + ing Galton's paper, Darwin stated, 'You have made layers of Perceptrons. That is how neural networks + a convert of an opponent in one sense for I have saw the light. One could say that the current ma- + always maintained that, excepting fools, men did chine learning season is particularly warm, but it + not differ much in intellect, only in zeal and takes another winter to know a summer. + hard work'. Luckily, the modern study of heredity + managed to eliminate the myth of race-based ge- + netic difference, something Galton tried hard to --- BERT --- + maintain. + Some online articles say that the year 2018 marked +Galton's major contribution to the field was lin- a turning point for the field of Natural Language +ear regression analysis, laying the groundwork for Processing (NLP). A series of deep-learning models +much of modern statistics. While we engage with achieved state-of-the-art results on tasks like + the field of machine learning, Algolit tries not question-answering or sentiment-classification. + to forget that ordering systems hold power, and Google’s BERT algorithm entered the machine learn- + that this power has not always been used to the ing competitions of last year as a sort of 'one + benefit of everyone. Machine learning has inher- model to rule them all'. It showed a superior per- + ited many aspects of statistical research, some formance over a wide variety of tasks. + less agreeable than others. We need to be atten- + tive, because these world views do seep into the BERT is pre-trained; its weights are learned in + algorithmic models that create new orders. advance through two unsupervised tasks. This means + BERT doesn’t need to be trained from scratch for + References each new task. You only have to finetune its + http://galton.org/letters/darwin/correspon- weights. This also means that a programmer wanting +dence.htm to use BERT, does not know any longer what parame- +https://www.tandfonline.com/doi/ful- ters BERT is tuned to, nor what data it has seen +l/10.1080/10691898.2001.11910537 to learn its performances. + http://www.paramoulipist.be/?p=1693 + BERT stands for Bidirectional Encoder Representa- + tions from Transformers. This means that BERT al- + --- Perceptron --- lows for bidirectional training. The model learns + the context of a word based on all of its sur- + We find ourselves in a moment in time in which roundings, left and right of a word. As such, it + neural networks are sparking a lot of attention. can differentiate between 'I accessed the bank ac- + But they have been in the spotlight before. The count' and 'I accessed the bank of the river'. + study of neural networks goes back to the 1940s, + when the first neuron metaphor emerged. The neuron Some facts: + is not the only biological reference in the field - BERT_large, with 345 million parameters, is the +of machine learning - think of the word corpus or largest model of its kind. It is demonstrably su- +training. The artificial neuron was constructed in perior on small-scale tasks to BERT_base, which +close connection to its biological counterpart. uses the same architecture with 'only' 110 million + parameters. + Psychologist Frank Rosenblatt was inspired by fel- - to run BERT you need to use TPUs. These are the + low psychologist Donald Hebb's work on the role of Google's processors (CPUs) especially engineered + neurons in human learning. Hebb stated that 'cells for TensorFLow, the deep-learning platform. TPU's + that fire together wire together'. His theory now renting rates range from $8/hr till $394/hr. Algo- + lies at the basis of associative human learning, lit doesn't want to work with off-the-shelf pack- + but also unsupervised neural network learning. It ages, we are interested in opening up the black- + moved Rosenblatt to expand on the idea of the ar- box. In that case, BERT asks for quite some sav- + tificial neuron. ings in order to be used. + + 48 + █▒░░ ▓▒█░░▒▓███▀▒░ ░▒ ▒ ░ ▒▒▓██▒ ░░ ▒░ ░ ▒ ░▓ ░▒▓ ▒ ▒█░░▒█▓▒░▓▒ ▒▓▒▒░ ▒ ▒▒ ▓▒░ ▒░▓ █ ▒░ █░█ ▓▒░ ▒▓░░ +▓ ▒░ ▒▒ ░▒░▒▓ ░ ░ ▒ ░ ▒ ▒ ░ ░ ░▒░ ░▒ ░ ▒ ░▒░▓░ ▒ ░ ▒ ░▒░ ░ ░▒ ▒░░ ░ ▒ ░░▓ ░ ▓▓░░ ░░▒▒▓░ + ░ ▒ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░░ ░ ▒ ░ ░ ░ ░ ░ ░░ ░ ░ ░ ░ ░ ░ ░ ░ + ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ +░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ + + ░ ing will be fed examples sentation of text used * CONSTANT + ░ of spam and real mes- in Natural Language Pro- Constant is a non-prof- + ░ ░ ░ ░ sages. These examples cessing (NLP). In this it, artist-run organisa- + ░ ░ ░ ░ are entries, or rows model, a text is repre- tion based in Brussels + ░ ░ from the dataset with a sented as a collection since 1997 and active in + ░ ░ label, spam or non-spam. of its unique words, the fields of art, media + ░ GLOSSARY ░ The labelling of a disregarding grammar, and technology. Algolit + ░ dataset is work executed punctuation and even started as a project of + ░ ░ ░ by humans, they pick a word order. The model Constant in 2012. + ░ ░ ░ ░ label for each row of transforms the text into http://constantvzw.org + ░ the dataset. To ensure a list of words and how + ░ the quality of the la- many times they're used * DATA WORKERS + ░ bels multiple annotators in the text, or quite Artificial intelligences + see the same row and literally a bag of that are developed to + This is a non-exhaustive have to give the same words. Bag of words is serve, entertain, record + wordlist, based on terms label before an example often used as a base- and know about humans. + that are frequently used is included in the line, on which the new The work of these ma- + in the exhibition. It training data. model has to perform chinic entities is usu- + might help visitors who better. ally hidden behind in- + are not familiar with * AI OR ARTIFICIAL IN- terfaces and patents. In + the vocabulary related telligences * CHARACTER N-GRAM the exhibition, algo- + to the field of Natural In computer science, ar- A technique that is used rithmic storytellers + Language Processing tificial intelligence for authorship recogni- leave their invisible + (NLP), Algolit or the (AI), sometimes called tion. When using charac- underworld to become in- + Mundaneum. machine intelligence, is ter n-grams, texts are terlocutors. + intelligence demon- considered as sequences +* ALGOLIT strated by machines, in of characters. Let's * DUMP + A group from Brussels contrast to the natural consider the character According to the English + involved in artistic re- intelligence displayed trigram. All the over- dictionary, a dump is an + search on algorithms and by humans and other ani- lapping sequences of accumulation of refused + literature. Every month mals. Computer science three characters are and discarded materials + they gather to experi- defines AI research as isolated. For example, or the place where such + ment with code and texts the study of ‘intelli- the character 3-grams of materials are dumped. In + that are published under gent agents’. Any device 'Suicide', would be, computing a dump refers + free licenses. that perceives its envi- 'Sui', 'uic', 'ici', to a ‘database dump’, a + http://www.algolit.net ronment and takes ac- 'cid' etc. Patterns record of data from a + tions that maximize its found with character database used for easy +* ALGOLITERARY chance of successfully n-grams focus on stylis- downloading or for back- + Word invented by Algolit achieving its goals. tic choices that are un- ing up a database. + for works that explore More specifically, Ka- consciously made by the Database dumps are often + the point of view of the plan and Haenlein define author. The patterns re- published by free soft- + algorithmic storyteller. AI as ‘a system’s abil- main stable over the ware and free content + What kind of new forms ity to correctly inter- full length of the text. projects, such as + of storytelling do we pret external data, to Wikipedia, to allow re- + make possible in dia- learn from such data, * CLASSICAL MACHINE use or forking of the + logue with machinic and to use those learn- Learning database. + agencies? ings to achieve specific Naive Bayes, Support + goals and tasks through Vector Machines and Lin- * FEATURE ENGINEERING +* ALGORITHM flexible adaptation’. ear Regression are The process of using do- + A set of instructions in Colloquially, the term called classical machine main knowledge of the + a specific programming ‘artificial intelli- learning algorithms. data to create features + language, that takes an gence’ is used to de- They perform well when that make machine learn- + input and produces an scribe machines that learning with small ing algorithms work. + output. mimic ‘cognitive’ func- datasets. But they often This means that a human + tions that humans asso- require complex Readers. needs to spend time on a +* ANNOTATION ciate with other human The task the Readers do, deep exploratory data + The annotation process minds, such as ‘learn- is also called feature- analysis of the dataset. + is a crucial step in su- ing’ and ‘problem solv- engineering (see below). In Natural Language Pro- + pervised machine learn- ing’. (Wikipedia) This means that a human cessing (NLP) features + ing where the algorithm needs to spend time on a can be the frequency of + is given examples of * BAG OF WORDS deep exploratory data words or letters, but + what it needs to learn. The bag-of-words model analysis of the dataset. also syntactical ele- + A spam filter in train- is a simplifying repre- ments like nouns, adjec- + 49 + █▒░░ ▓▒█░░▒▓███▀▒░ ░▒ ▒ ░ ▒▒▓██▒ ░░ ▒░ ░ ▒ ░▓ ░▒▓ ▒ ▒█░░▒█▓▒░▓▒ ▒▓▒▒░ ▒ ▒▒ ▓▒░ ▒░▓ █ ▒░ █░█ ▓▒░ ▒▓░░ +▓ ▒░ ▒▒ ░▒░▒▓ ░ ░ ▒ ░ ▒ ▒ ░ ░ ░▒░ ░▒ ░ ▒ ░▒░▓░ ▒ ░ ▒ ░▒░ ░ ░▒ ▒░░ ░ ▒ ░░▓ ░ ▓▓░░ ░░▒▒▓░ + ░ ▒ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░░ ░ ▒ ░ ░ ░ ░ ░ ░░ ░ ░ ░ ░ ░ ░ ░ ░ + ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ +░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ + + tives, or verbs. The to make these as free as from Virginia Woolf's nating between face and + most significant fea- possible, in long-last- entire work to all ver- non-face. The jobs + tures for the task to be ing, open formats that sions of Terms of Ser- posted on this platform + solved, must be care- can be used on almost vice published by Google are often paid less than + fully selected and any computer. As of since its existence. a cent per task. Tasks + passed over to the clas- 23 June 2018, Project that are more complex or + sical machine learning Gutenberg reached 57,000 * MACHINE LEARNING MOD- require more knowledge + algorithm. items in its collection els can be paid up to sev- + of free eBooks. Algorithms based on eral cents. Many aca- +* FLOSS OR FREE LIBRE (Wikipedia) statistics, mainly used demic researchers use + Open Source Software to analyse and predict Mechanical Turk as an + Software that anyone is * HENRI LA FONTAINE situations based on ex- alternative to have + freely licensed to use, Henri La Fontaine isting cases. In this their students execute + copy, study, and change (1854-1943) is a Belgian exhibition we focus on these tasks. + in any way, and the politician, feminist and machine learning models + source code is openly pacifist. He was awarded for text processing or * MUNDANEUM + shared so that people the Nobel Peace Prize in Natural language pro- In the late nineteenth + are encouraged to volun- 1913 for his involvement cessing', in short, century two young Bel- + tarily improve the de- in the International 'nlp'. These models have gian jurists, Paul Otlet + sign of the software. Peace Bureau and his learned to perform a (1868-1944), ‘the father + This is in contrast to contribution to the or- specific task on the ba- of documentation’, and + proprietary software, ganization of the peace sis of existing texts. Henri La Fontaine + where the software is movement. In 1895, to- The models are used for (1854-1943), statesman + under restrictive copy- gether with Paul Otlet, search engines, machine and Nobel Peace Prize + right licensing and the he created the Interna- translations and sum- winner, created The Mun- + source code is usually tional Bibliography In- maries, spotting trends daneum. The project + hidden from the users. stitute, which became in new media networks aimed at gathering all + (Wikipedia) the Mundaneum. Within and news feeds. They in- the world’s knowledge + this institution, which fluence what you get to and file it using the +* GIT aimed to bring together see as a user, but also Universal Decimal Clas- + A software system for all the world's knowl- have their word to say sification (UDC) system + tracking changes in edge, he contributed to in the course of stock that they had invented. + source code during soft- the development of the exchanges worldwide, the + ware development. It is Universal Decimal Clas- detection of cybercrime * NATURAL LANGUAGE + designed for coordinat- sification (CDU) system. and vandalism, etc. A natural language or + ing work among program- ordinary language is any + mers, but it can be used * KAGGLE * MARKOV CHAIN language that has + to track changes in any An online platform where Algorithm that scans the evolved naturally in hu- + set of files. Before users find and publish text for the transition mans through use and + starting a new project, data sets, explore and probability of letter or repetition without con- + programmers create a build machine learning word occurrences, re- scious planning or pre- + "git repository" in models, work with other sulting in transition meditation. Natural lan- + which they will publish data scientists and ma- probability tables which guages can take differ- + all parts of the code. chine learning engi- can be computed even ent forms, such as + The git repositories of neers, and enter compe- without any semantic or speech or signing. They + Algolit can be found on titions to solve data grammatical natural lan- are different from con- + https://gitlab.con- science challenges. guage understanding. It structed and formal lan- + stantvzw.org/algolit. About half a million can be used for analyz- guages such as those + data scientists are ac- ing texts, but also for used to program comput- +* GUTENBERG.ORG tive on Kaggle. It was recombining them. It is ers or to study logic. + Project Gutenberg is an founded by Goldbloom and is widely used in spam (Wikipedia) + online platform run by Ben Hamner in 2010 and generation. + volunteers to ‘encourage acquired by Google in * NLP OR NATURAL LAN- + the creation and distri- March 2017. * MECHANICAL TURK guage Processing + bution of eBooks’. It The Amazon Mechanical Natural language pro- + was founded in 1971 by * LITERATURE Turk is an online plat- cessing (NLP) is a col- + American writer Michael Algolit understands the form for humans to exe- lective term referring + S. Hart and is the old- notion of literature in cute tasks that algo- to automatic computa- + est digital library. the way a lot of other rithms cannot. Examples tional processing of hu- + Most of the items in its experimental authors do. include annotating sen- man languages. This in- + collection are the full It includes all linguis- tences as being positive cludes algorithms that + texts of public domain tic production, from the or negative, spotting take human-produced text + books. The project tries dictionary to the Bible, number plates, discrimi- as input, and attempt to + 50 + █▒░░ ▓▒█░░▒▓███▀▒░ ░▒ ▒ ░ ▒▒▓██▒ ░░ ▒░ ░ ▒ ░▓ ░▒▓ ▒ ▒█░░▒█▓▒░▓▒ ▒▓▒▒░ ▒ ▒▒ ▓▒░ ▒░▓ █ ▒░ █░█ ▓▒░ ▒▓░░ +▓ ▒░ ▒▒ ░▒░▒▓ ░ ░ ▒ ░ ▒ ▒ ░ ░ ░▒░ ░▒ ░ ▒ ░▒░▓░ ▒ ░ ▒ ░▒░ ░ ░▒ ▒░░ ░ ▒ ░░▓ ░ ▓▓░░ ░░▒▒▓░ + ░ ▒ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░░ ░ ▒ ░ ░ ░ ░ ░ ░░ ░ ░ ░ ░ ░ ░ ░ ░ + ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ +░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ + + generate text that re- tentielle (Workspace for manually define rules the training material, + sembles it. Potential Literature). for them. As prediction and adapt it to the ma- + Oulipo was created in models they are then chine's task. It doesn't +* NEURAL NETWORKS Paris by the French called rule-based mod- make sense to train a + Computing systems in- writers Raymond Queneau els, opposed to statis- machine with nineteenth- + spired by the biological and François Le Lion- tical models. Rule-based century novels if its + neural networks that nais. They rooted their models are handy for mission is to analyze + constitute animal practice in the European tasks that are specific, tweets. + brains. The neural net- avant-garde of the twen- like detecting when a + work itself is not an tieth century and in the scientific paper con- * UNSUPERVISED MACHINE + algorithm, but rather a experimental tradition cerns a certain mole- Learning Models + framework for many dif- of the 1960s. For cule. With very little Unsupervised machine + ferent machine learning Oulipo, the creation of sample data, they can learning models don't + algorithms to work to- rules becomes the condi- perform well. need the step of annota- + gether and process com- tion to generate new tion of the data by hu- + plex data inputs. Such texts, or what they call * SENTIMENT ANALYSIS mans. This saves a lot + systems ‘learn’ to per- potential literature. Also called 'opinion of time, energy, money. + form tasks by consider- Later, in 1981, they mining' A basic task Instead, they need a + ing examples, generally also created ALAMO, Ate- in sentiment analysis large amount of training + without being programmed lier de littérature as- is classifying given data, which is not al- + ways available and can + rules. For example, in tique et les ordinateurs or neutral. Advanced, take a long cleaning + image recognition, they (Workspace for litera- 'beyond polarity' time beforehand. + might learn to identify ture assisted by maths sentiment + images that contain cats and computers). classification looks, * WORD EMBEDDINGS + Language modelling tech- + ages that have been man- * PAUL OTLET states such as 'angry' niques that through mul- + ually labeled as ‘cat’ Paul Otlet (1868 – 1944) 'sad' and 'happy' tiple mathematical oper- + or ‘no cat’ and using was a Belgian author, Sentiment ations of counting and + ordering, plot words + cats in other images. lawyer and peace ac- to user materials such into a multi-dimensional + They do this without any tivist; he is one of as reviews and survey vector space. When em- + prior knowledge about several people who have responses, comments bedding words, they + cats, for example, that been considered the fa- and posts on social transform from being + they have fur, tails, ther of information sci- media, and healthcare distinct symbols into + mathematical objects + that can be multiplied, + tomatically generate created the Universal to customer service, divided, added or sub- + identifying characteris- Decimal Classification, from stock exchange stracted. + tics from the learning that was widespread in transactions to clinical + material that they libraries. Together with medicine. * WORDNET + process. (Wikipedia) Henri La Fontaine he Wordnet is a combination + created the Palais Mon- * SUPERVISED MACHINE of a dictionary and a +* OPTICAL CHARACTER dial (World Palace), learning models thesaurus that can be + Recognition (OCR) later, the Mundaneum to For the creation of su- read by machines. Ac- + Computer processes for house the collections pervised machine learn- cording to Wikipedia it + translating images of and activities of their ing models, humans anno- was created in the Cog- + scanned texts into ma- various organizations tate sample text with nitive Science Labora- + nipulable text files. and institutes. labels before feeding it tory of Princeton + to a machine to learn. University starting in +* ORACLE * PYTHON Each sentence, paragraph 1985. The project was + Oracles are prediction The main programming or text is judged by at initially funded by the + or profiling machines, a language that is glob- least 3 annotators US Office of Naval Re- + specific type of algo- ally used for natural whether it is spam or search and later also by + rithmic models, mostly language processing, was not spam, positive or other US government + based on statistics. invented in 1991 by the negative etc. agencies including + They are widely used in Dutch programmer Guido DARPA, the National + smartphones, computers, Van Rossum. * TRAINING DATA Science Foundation, the + tablets. Machine learning algo- Disruptive Technology + * RULE-BASED MODELS rithms need guidance. In Office (formerly the Ad- +* OULIPO Oracles can be created order to separate one vanced Research and + Oulipo stands for Ou- using different tech- thing from another, they Development Activity), + vroir de litterature po- niques. One way is to need texts to extract and REFLEX. + 51 + should carefully choose + + █▒░░ ▓▒█░░▒▓███▀▒░ ░▒ ▒ ░ ▒▒▓██▒ ░░ ▒░ ░ ▒ ░▓ ░▒▓ ▒ ▒█░░▒█▓▒░▓▒ ▒▓▒▒░ ▒ ▒▒ ▓▒░ ▒░▓ █ ▒░ █░█ ▓▒░ ▒▓░░ +▓ ▒░ ▒▒ ░▒░▒▓ ░ ░ ▒ ░ ▒ ▒ ░ ░ ░▒░ ░▒ ░ ▒ ░▒░▓░ ▒ ░ ▒ ░▒░ ░ ░▒ ▒░░ ░ ▒ ░░▓ ░ ▓▓░░ ░░▒▒▓░ + ░ ▒ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░░ ░ ▒ ░ ░ ░ ░ ░ ░░ ░ ░ ░ ░ ░ ░ ░ ░ + ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ +░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + 52 +◝ humans learn with machines ◜ ◡ machines learn from machines ◞ ◡ machines learn with humans ◞ ◝ +humans learn from machines ◟ ◜ machines learn with machines ◠ ◜ machines learn from humans ◟ ◠ +humans learn with humans ◞ ◝ humans learn from humans ◞ ◠ humans learn with machines ◟ ◡ mac +ines learn from machines ◡ ◡ machines learn with humans ◟ ◡ humans learn from machines ◝ ◟ +achines learn with machines ◠ ◝ machines learn from humans ◜ ◝ humans learn with humans ◞ ◞ +humans learn from humans ◡ ◞ humans learn with machines ◠ ◠ machines learn from machines ◠ + machines learn with humans ◞ ◜ humans learn from machines ◜ ◠ machines learn with machines ◝ + ◜ machines learn from humans ◜ ◠ humans learn with humans ◝ ◟ humans learn from humans ◞ + ◜ humans learn with machines ◡ ◡ machines learn from machines ◡ ◟ machines learn with humans +◠ ◠ humans learn from machines ◡ ◜ machines learn with machines ◜ ◟ machines learn from +umans ◟ ◞ humans learn with humans ◞ ◟ humans learn from humans ◜ ◠ humans learn with ma +hines ◜ ◠ machines learn from machines ◝ ◠ machines learn with humans ◝ ◞ humans learn f +om machines ◝ ◡ machines learn with machines ◜ ◡ machines learn from humans ◜ ◠ humans l +arn with humans ◡ ◡ humans learn from humans ◝ ◞ humans learn with machines ◟ ◡ machines +learn from machines ◜ ◜ machines learn with humans ◠ ◞ humans learn from machines ◝ ◠ ma +hines learn with machines ◟ ◟ machines learn from humans ◝ ◠ humans learn with humans ◟ + humans learn from humans ◝ ◜ humans learn with machines ◠ ◝ machines learn from machines ◞ + ◠ machines learn with humans ◝ ◟ humans learn from machines ◟ ◞ machines learn with machines +◜ ◞ machines learn from humans ◞ ◡ humans learn with humans ◠ ◞ humans learn from human + ◠ ◜ humans learn with machines ◡ ◞ machines learn from machines ◜ ◠ machines learn w +th humans ◡ ◝ humans learn from machines ◝ ◟ machines learn with machines ◠ ◠ machine + learn from humans ◞ ◟ humans learn with humans ◠ ◞ humans learn from humans ◠ ◠ huma +s learn with machines ◡ ◡ machines learn from machines ◜ ◞ machines learn with humans ◡ + ◟ humans learn from machines ◜ ◜ machines learn with machines ◜ ◝ machines learn from human + ◜ ◠ humans learn with humans ◝ ◡ humans learn from humans ◡ ◞ humans learn with mach +nes ◜ ◝ machines learn from machines ◝ ◜ machines learn with humans ◞ ◜ humans learn +rom machines ◞ ◝ machines learn with machines ◞ ◜ machines learn from humans ◡ ◞ huma +s learn with humans ◟ ◜ humans learn from humans ◞ ◡ humans learn with machines ◝ ◝ m +chines learn from machines ◜ ◟ machines learn with humans ◡ ◟ humans learn from machines ◠ + ◝ machines learn with machines ◜ ◡ machines learn from humans ◞ ◝ humans learn with huma +s ◝ ◠ humans learn from humans ◞ ◜ humans learn with machines ◠ ◝ machines learn from +machines ◟ ◡ machines learn with humans ◝ ◝ humans learn from machines ◞ ◞ machines l +arn with machines ◠ ◠ machines learn from humans ◠ ◡ humans learn with humans ◜ ◜ hum +ns learn from humans ◞ ◞ humans learn with machines ◡ ◝ machines learn from machines ◟ + ◝ machines learn with humans ◠ ◟ machines learn with humans ◠ ◜ machines learn from +machines ◡ ◜ humans learn with machines ◞ ◟ humans learn from humans ◜ ◡ humans learn +with humans ◝ ◞ machines learn from humans ◜ ◝ machines learn with machines ◜ ◠ human + learn from machines ◡ ◝ machines learn with humans ◝ ◜ machines learn from machines ◜ + ◞ humans learn with machines ◠ ◝ humans learn from humans ◠ ◝ humans learn with humans ◞ + ◡ machines learn from humans ◜ ◝ machines learn with machines ◠ ◟ humans learn from machi +es ◜ ◟ machines learn with humans ◝ ◝ machines learn from machines ◞ ◜ humans learn w +th machines ◝ ◡ humans learn from humans ◝ ◝ humans learn with humans ◠ ◠ machines le +rn from humans ◝ ◡ machines learn with machines ◡ ◡ humans learn from machines ◠ ◞ ma +hines learn with humans ◝ ◜ machines learn from machines ◜ ◝ humans learn with machines ◠ + ◞ humans learn from humans ◝ ◡ humans learn with humans ◞ ◡ machines learn from humans ◟ + ◟ machines learn with machines ◝ ◝ humans learn from machines ◜ ◟ machines learn with +umans ◡ ◝ machines learn from machines ◡ ◝ humans learn with machines ◞ ◜ humans lear + from humans ◜ ◝ humans learn with humans ◞ ◡ machines learn from humans ◝ ◡ machines +learn with machines ◞ ◟ humans learn from machines ◜ ◞ machines learn with humans ◟ ◡ +machines learn from machines ◜ ◝ humans learn with machines ◠ ◠ humans learn from humans ◠ + ◝ humans learn with humans ◟ ◞ machines learn from humans ◝ ◠ machines learn with machines +◜ ◟ humans learn from machines ◠ ◝ machines learn with humans ◝ ◜ machines learn from ma +hines ◟ ◟ humans learn with machines ◞ ◡ humans learn from humans ◝ ◝ humans learn with +umans ◡ ◝ machines learn from humans ◝ ◡ machines learn with machines ◟ ◞ humans learn f +om machines ◝ ◟ machines learn with humans ◝ ◜ machines learn from machines ◝ ◠ humans l +arn with machines ◠ ◠ humans learn from humans ◟ ◜ humans learn with humans ◟ ◝ machines +learn from humans ◡ ◡ machines learn with machines ◜ ◜ humans learn from machines ◠ ◟ ma +hines learn with humans ◞ ◜ machines learn from machines ◠ ◜ humans learn with machines ◜ + ◞ humans learn from humans ◝ ◟ humans learn with humans ◟ ◞ machines learn from humans ◟ + ◝ machines learn with machines ◡ ◜ humans learn from machines ◠ ◠ machines learn with humans ◞ + ◡ machines learn from machines ◟ ◝ humans learn with machines ◜ ◞ humans learn from huma +s ◝ ◞ humans learn with humans ◜ ◟ machines learn from humans ◜ ◞ machines learn with ma +hines ◝ ◞ humans learn from machines ◝ ◜ machines learn with humans ◟ ◜ machines learn from +machines ◡ ◟ humans learn with machines ◞ ◠ humans learn from humans ◞ ◟ humans learn with +umans ◠ ◜ machines learn from humans ◡ ◠ machines learn with machines ◠ ◝ humans learn from +machines ◠ ◜ machines learn with humans ◞ ◠ machines learn from machines ◞ ◠ humans learn w +th machines ◜ ◟ humans learn from humans ◝ ◠ humans learn with humans ◝ ◟ machines learn from +humans ◜ ◜ machines learn with machines ◠ ◞ humans learn from machines ◠ ◡ machines learn with + + diff --git a/data-workers.fr.html b/data-workers.fr.html new file mode 100644 index 0000000..d706f5c --- /dev/null +++ b/data-workers.fr.html @@ -0,0 +1,521 @@ + + + + + +Data Workers + + + +


+Une exposition visible au Mundaneum à Mons du jeudi 28 mars jusqu'au dimanche 28 avril 2019. +

Le vernissage aura lieu le jeudi 28 mars de 18h à 22h. Dans le cadre de l’exposition, nous invitons Allison Parrish, une poétesse algolittéraire de New York. Elle donnera une conférence à Passa Porta le jeudi soir 25 avril et un atelier au Mundaneum le vendredi 26 avril. +

+

Á Propos

+

Data Workers est une exposition d'œuvres algolittéraires,visible au Mundaneum à Mons du jeudi 28 mars jusqu'au dimanche 28 avril 2019. Elle expose des histoires racontées d'un point de vue 'narratif algorithmique'. L'exposition est une création des membres d'Algolit, un groupe bruxellois impliqué dans la recherche artistique sur les algorithmes et la littérature. Chaque mois, ils se réunissent pour expérimenter avec du code et des textes F/LOSS. Certaines oeuvres sont réalisés par des étudiants de Arts² et des participants externes à l'atelier sur le machine learning et le texte organisé par Algolit en octobre 2018 au Mundaneum. +

Les entreprises créent des intelligences artificielles pour servir, divertir, enregistrer et connaître les humains. Le travail de ces entités machiniques est généralement dissimulé derrière des interfaces et des brevets. Dans l'exposition, les conteurs algorithmiques quittent leur monde souterrain invisible pour devenir des interlocuteurs. +Les 'data workers' opèrent dans des collectifs différents. Chaque collectif représente une étape dans le processus de conception d'un modèle d'apprentissage automatique : il y a les Écrivains, les Nettoyeurs, les Informateurs, les Lecteurs, les Apprenants et les Oracles. Les robots donnent leurs voix à la littérature expérimentale, les modèles algorithmiques lisent des données, transforment des mots en nombres, calculent des modèles et traitent en boucle de nouveaux textes et ceci à l'infini. +

L'exposition met au premier plan les 'data workers' qui ont un impact sur notre vie quotidienne, mais qui sont difficiles à saisir ou à imaginer. Elle établit un lien entre les récits sur les algorithmes dans les médias grand public et les histoires racontées dans les manuels techniques et les articles universitaires. Les robots sont invités à dialoguer avec les visiteurs humains et vice versa. De cette façon, nous pourrions comprendre nos raisonnements respectifs, démystifier nos comportements, rencontrer nos personnalités multiples et valoriser notre travail collectif. C'est aussi un hommage aux nombreuses machines que Paul Otlet et Henri La Fontaine ont imaginées pour leur Mundaneum, en montrant leur potentiel mais aussi leurs limites. +

+
+

Data Workers est une création de Algolit. +

Oeuvres de: Cristina Cochior, Gijs de Heij, Sarah Garcin, An Mertens, Javier Lloret, Louise Dekeuleneer, Florian Van de Weyer, Laetitia Trozzi, Rémi Forte, Guillaume Slizewicz, Michael Murtaugh, Manetta Berends, Mia Melvær. +

Une co-production de: Arts², Mundaneum, Constant. +

Avec le soutien de: Fédération Wallonie-Bruxelles, Arts Numériques, Passa Porta, Ugent, DHuF - Digital Humanities Flanders et the Distributed Proofreading Project. +

Remerciements: Mike Kestemont, Michel Cleempoel, Donatella Portoghese, François Zajéga, Raphaèle Cornille, Vincent Desfromont, Kris Rutten, Anne-Laure Buisson, David Stampfli. +

+

Récits contextualisés autour d'Algolit

Pourquoi des récits contextualisés?

Lors des réunions mensuelles d'Algolit, nous étudions des manuels et expérimentons avec des outils d'apprentissage automatique pour le traitement de texte. Et nous partageons aussi beaucoup, beaucoup d'histoires. Avec la publication de ces histoires, nous espérons recréer un peu de cette atmosphère. Les histoires existent également sous forme de podcasts qui peuvent être téléchargés à partir du site http://www.algolit.net. +

Nous créons des œuvres 'algolittéraires'

Le terme 'algolittéraire' vient du nom de notre groupe de recherche Algolit. Nous existons depuis 2012 en tant qu’initiative de Constant, une organisation oeuvrant dans les médias et les arts basée à Bruxelles. Nous sommes des artistes, des écrivains, des designers et des programmeurs. Une fois par mois, nous nous rencontrons pour étudier et expérimenter ensemble. Notre travail peut être copié, étudié, modifié et redistribué sous la même licence libre. Vous trouverez toutes les informations sur le site http://www.algolit.net. +

L'objectif principal d'Algolit est d'explorer le point de vue du conteur algorithmique. Quelles nouvelles formes de narration rendons-nous possibles en dialoguant avec ces agents machiniques ? Les points de vue narratifs sont inhérents aux visions du monde et aux idéologies. Don Quichotte, par exemple, a été écrit d'un point de vue omniscient à la troisième personne, montrant la relation de Cervantes à la tradition orale. La plupart des romans contemporains utilisent le point de vue de la première personne. Algolit souhaite parler au travers des algorithmes et vous montrer le raisonnement de l'un des groupes les plus cachés de notre planète. +

Écrire dans ou par le code, c'est créer de nouvelles formes de littérature qui façonnent le langage humain de façon inattendue. Mais les techniques d'apprentissage automatique ne sont accessibles qu'à ceux qui savent lire, écrire et exécuter du code. La fiction est un moyen de combler le fossé entre les histoires qui existent dans les articles scientifiques, les manuels techniques, et les histoires diffusées par les médias, souvent limitées aux reportages superficiels et à la fabrication de mythes. En créant des œuvres algolittéraires, nous offrons aux humains une introduction aux techniques qui co-modèlent leur vie quotidienne. +

Qu'est-ce que la littérature ?

Algolit comprend la notion de littérature comme beaucoup d'autres auteurs expérimentaux : elle inclut toute la production linguistique, du dictionnaire à la Bible, de l'œuvre entière de Virginia Woolf à toutes les versions des Conditions d'utilisation publiées par Google depuis son existence. En ce sens, le code de programmation peut aussi être de la littérature. Le collectif Oulipo, acronyme d'Ouvroir de Littérature Potentielle, est une grande source d'inspiration pour Algolit. Oulipo a été créé à Paris par les écrivains Raymond Queneau et François Le Lionnais. Ils ont ancré leur pratique dans l'avant-garde européenne du XXe siècle et dans la tradition expérimentale des années 60. Pour Oulipo, la création de règles devient la condition permettant de générer de nouveaux textes, ou ce qu'ils appellent la littérature potentielle. Plus tard, en 1981, ils ont également créé ALAMO - Atelier de Littérature Assistée par la Mathématique et les Ordinateurs. +

Une différence importante

Alors que l'avant-garde européenne du XXe siècle poursuivait l'objectif de rompre avec les conventions, les membres d'Algolit cherchent à rendre les conventions visibles. +

J'écris : Je vis dans mon journal, je l'investis, je le traverse. (Espèces d'espaces. Journal d'un usager de l'espace, Galilée, Paris, 1974) +

Cette citation de Georges Perec dans Espèces d'espaces pourrait être reprise par Algolit. Il ne s'agit pas des conventions de la page blanche et du marché littéraire, comme Georges Perec l'a fait. Nous faisons référence aux conventions qui restent souvent cachées derrière les interfaces et les brevets. Comment les technologies sont-elles conçues, mises en œuvre et utilisées, tant dans les universités que dans les entreprises ? Nous proposons des histoires qui révèlent le système hybride complexe qui rend possible l'apprentissage automatique. Nous parlons des outils, des logiques et des idéologies derrière les interfaces. Nous examinons également qui produit les outils, qui les met en œuvre et qui crée et accède aux grandes quantités de données nécessaires au développement de machines de prédiction. On pourrait dire, en un clin d'œil, que nous sommes les collaborateurs de cette nouvelle tribu d'hybrides humain-robot. +

+

Au Mundaneum

+

À la fin du 19ème siècle, deux jeunes juristes belges, Paul Otlet (1868-1944), 'père de la documentation', et Henri La Fontaine (1854-1943), homme d'État et prix Nobel de la paix, créent le Mundaneum. Le projet vise à rassembler toute la connaissance du monde et à la classer à l'aide du système de Classification décimale universelle (UDC) qu'ils inventent. Au début, il s'agit d'un Bureau des institutions internationales dédié à l'échange international des connaissances. Au XXe siècle, le Mundaneum devient un centre universel de documentation. Ses collections sont constituées de milliers de livres, journaux, revues, documents, affiches, plaques de verre et cartes postales indexés sur des millions de fiches référencées. Les collections sont exposées et conservées dans différents bâtiments à Bruxelles, dont le Palais du Cinquantenaire. Le reste des archives n'est transféré à Mons qu'en 1998. +

Sur base du Mundaneum, les deux hommes conçoivent une ville du monde pour laquelle Le Corbusier réalise des maquettes et des plans. L'objectif de la Ville du Monde est de rassembler, au niveau mondial, les institutions du travail intellectuel : bibliothèques, musées et universités. Mais le projet n’est jamais réalisé, souffrant de sa propre utopie. Le Mundaneum est le résultat du rêve visionnaire d’une infrastructure pour l'échange universel des connaissances. Il atteint des dimensions mythiques à l'époque. Lorsqu'on observe les archives qui ont été concrètement développées, cette collection est plutôt éclectique et spécifique. +

Les intelligences artificielles se développent aujourd'hui en faisant apparaître des rêves d'universalité et de la production des connaissances. En les étudiant, nous nous sommes rendus compte que les rêves visionnaires de leurs créateurs sont bien présents dès leur développement dans les années 1950. Aujourd'hui, leurs promesses ont également atteint des dimensions mythiques. Lorsqu'on observe leurs applications concrètes, la collection d'outils est réellement innovante et fascinante, mais en même temps, tout aussi éclectique et spécifique. Pour Data Workers, Algolit a combiné certaines de ces applications avec 10 % des publications numérisées du Bureau des Institutions Internationales. Ainsi et de façon poétique, nous espérons ouvrir une discussion à propos des machines, des algorithmes et des infrastructures technologiques. +

+

Zones

+

Écrivains

+

Les Data Workers ont besoin de données pour travailler. Dans le contexte d'Algolit, celles-ci prennent la forme du langage écrit. L'apprentissage automatique repose sur de nombreux types d'écriture. Les auteurs humains écrivent sous forme de publications. Celles-ci sont organisées en archives et en cours de numérisation. Mais il existe d'autres types d'écriture. On pourrait dire que chaque être humain avec un accès à Internet devient un écrivain lorsqu'il interagit avec des algorithmes. En ajoutant des commentaires, en écrivant des mails ou des articles Wikipédia, en cliquant et en aimant. +

Les algorithmes d'apprentissage automatique ne sont pas critiques : ils prennent tout ce qu'on leur donne, peu importe le style d'écriture, le CV de l'auteur ou ses fautes d'orthographe. D’ailleurs, plus il y a d’erreurs, mieux c’est : la variété leur apprend à anticiper les textes inattendus. Les auteurs humains quant à eux ne sont souvent pas conscients de ce qui advient de leur travail. +

La plupart des textes que nous utilisons sont en anglais, certains en français, d'autres en néerlandais. Souvent, nous nous retrouvons à écrire en Python, le langage de programmation que nous utilisons. Les algorithmes peuvent aussi être des écrivains. Certains réseaux de neurones écrivent leurs propres règles et génèrent leurs propres textes. Et pour les modèles qui luttent encore contre les ambiguïtés du langage naturel, il existe des éditeurs humains pour les aider. Poètes, dramaturges ou romanciers commencent leur nouvelle carrière comme assistants de l'IA. +

+
Oeuvres
+

La publication de Data Workers

Toutes les œuvres visibles dans l'exposition, ainsi que les histoires contextuelles et quelques textes supplémentaires ont été rassemblés dans une publication. Celle-ci existe en français et en anglais. +

Cette publication est réalisée en suivant un flux de travail en texte brut, basé sur divers outils de traitement de texte et de calcul. Le format de fichier 'texte brut' est le format le plus utilisé dans les modèles d'apprentissage automatique. C'est un type de document dans lequel il n'existe pas de différence structurelle entre les en-têtes et les paragraphes. Ce format a été le point de départ d'un processus de conception graphique ludique, dans lequel les pages sont soigneusement comptées, page par page, ligne par ligne et caractère par caractère. +

Chaque page contient 110 caractères par ligne et 70 lignes par page. La mise-en-page est donc le résultat d'un acte de calcul de mots, d'espaces et de lignes. Il joue avec des choix aléatoires, des motifs programmés et des polices ASCII/UNICODE, afin de spéculer sur la matérialité du texte numérique et d'explorer les interrelations entre l'acte de compter et d'écrire avec des mots et des numéros. +

Textes: Cristina Cochior, Sarah Garcin, Gijs de Heij, An Mertens, François Zajéga, Louise Dekeuleneer, Florian Van de Weyer, Laetitia Trozzi, Rémi Forte, Guillaume Slizewicz. +

Traductions & relectures: deepl.com, Michel Cleempoel, Elodie Mugrefya, Patrick Lennon, Emma Kraak. +

Mise-en-page & couverture: Manetta Berends +

Editeur responsable: Constant vzw/asbl, Rue du Fortstraat 5, 1060 Bruxelles +

Licence: Algolit, Data Workers, mars 2019, Bruxelles. Copyleft: cette oeuvre est libre, vous pouvez la redistribuer et/ou la modifier selon les termes de la Licence Art Libre. +

Version en ligne: http://www.algolit.net/index.php/Data_Workers_FR +

Sources: https://gitlab.constantvzw.org/algolit/mundaneum +

Le podcast de Data Workers

Par Algolit +

Lors des réunions mensuelles d'Algolit, nous étudions des manuels et expérimentons avec des outils d'apprentissage automatique pour le traitement de texte. Mais nous partageons aussi énormément d'histoires. Avec ce podcast, nous espérons recréer cette atmosphère. +

Pour les non-initiés, les algorithmes ne deviennent visibles dans les médias que lorsqu'ils se révèlent capables d'une performance exceptionnelle, comme l'Alpha Go, ou quand ils se trompent d'une façon terrifiante et fantastique. Mais les humains qui travaillent sur le terrain créent leur propre culture en ligne et hors ligne. Ils partagent leurs meilleures histoires et expériences lors de réunions en direct, de conférences de recherche ou de compétitions annuelles comme celle du Kaggle. Ces histoires qui contextualisent les outils et les pratiques peuvent être drôles, tristes, choquantes et intéressantes. +

Ce sont souvent des histoires d'apprentissage par l’expérience. La mise en œuvre des algorithmes dans la société génère de nouvelles conditions de travail, de stockage, d'échange, de comportement et de copier-coller. À leur manière, ces histoires contextuelles saisissent l’élan d’une histoire anthropo-machinique plus large, écrite par de nombreuses voix et à pleine vitesse. Elles sont aussi reprises dans la publication de l'exposition. +


Voix: Elodie Mugrefya, Michel Cleempoel, Géraldine Renauld, An Mertens, Donatella Portoghese, Peter Westenberg. +

Composition: Javier Lloret +

Enregistrements: David Stampfli +

Textes: Cristina Cochior, An Mertens +

Markbot Chain

Par Florian Van de Weyer, étudiant Arts²/Section Arts Numériques +

Markbot Chain est une expérimentation sociale dans laquelle le public a une influence directe sur le résultat. L'intention est de l'intégrer au cœur d'un processus de génération de texte sans appliquer de filtre sur ses entrées. Le bot fonctionnera durant toute la durée de l'exposition sans être remis à zéro. +

Toutes les questions présentes dans la base de données mise à disposition par le Mundaneum ont été répertoriées automatiquement. Ces questions sont ensuite posées aléatoirement au public via un terminal. En y répondant, les personnes alimentent une autre base de données. Après chaque entrée, cette dernière permet de générer une série de phrases en utilisant diverses configurations des chaînes de Markov, un algorithme qui est fort utilisé dans la génération de spam. Les phrases ainsi générées sont affichées dans la fenêtre, et une nouvelle question est posée. +

+

Récits contextualisés autour des Ecrivains

Les programmeurs créent les data workers en écrivant

Récemment, nous avons constaté une étrange observation : la plupart des programmeurs de langages et de paquets que nous utilisons sont européens. +

Python, par exemple, le principal langage utilisé dans le monde entier pour le traitement du langage, a été inventé en 1991 par le programmeur néerlandais Guido Van Rossum. Celui-ci a ensuite traversé l'Atlantique où il a rejoint Google pendant sept ans. Maintenant il est actif chez Dropbox. +

Scikit Learn, le couteau suisse open source des outils d'apprentissage automatique, a été initié comme un projet Google Summer of Code à Paris par le chercheur français David Cournapeau. Par la suite, il a été repris par Matthieu Brucher dans le cadre de sa thèse à l'Université de la Sorbonne à Paris. Puis il a été adopté en 2010 par l'INRA, l'Institut National de l'Informatique et des Mathématiques Appliquées. +

Keras, une bibliothèque de réseaux de neurones open source écrite en Python, est développée par François Chollet, un chercheur français qui travaille dans l'équipe Brain de Google. +

Gensim, une bibliothèque open source pour Python utilisée pour créer des modèles sémantiques non supervisés à partir de texte brut, a été écrite par Radim Řehůřek. C'est un informaticien tchèque qui dirige une entreprise de conseil à Bristol, au Royaume-Uni. +

Et pour finir cette petite série, nous avons aussi considéré Pattern, une bibliothèque souvent utilisée pour le web-mining et l'apprentissage automatique. Pattern a été développé et publié sous une license libre en 2012 par Tom De Smedt et Walter Daelemans. Tous deux sont chercheurs au CLIPS, le Centre de Linguistique Informatique et de Psycholinguistique de l'Université d'Anvers. +

Cortana parle

Les dispositifs d’intelligence artificielle qui nous assistent, ont souvent besoin de leurs propres assistants, humains. Les travailleurs injectent de l'humour et de l'intelligence dans le langage des machines. Cortana est un exemple de ce type d'écriture mixte. Elle est l'assistante numérique développée par Microsoft. Sa mission est d'aider les utilisateurs à être plus productifs et créatifs. La 'personnalité' de Cortana a été façonnée au fil des ans. Il est important qu'elle conserve son caractère dans toutes ses interactions avec les utilisateurs. Elle est conçue pour nous rendre confiants. Cela se reflète dans ses réponses. +

Les lignes directrices suivantes sont copiées du site Web de Microsoft. Elles décrivent comment le style de Cortana doit être respecté par les entreprises qui élargissent ses services. Les travailleurs écrivains, programmeurs et romanciers qui développent les réponses de Cortana, doivent suivre ces directives. Sa personnalité et son image de marque sont en jeu. Car la cohérence est un outil important pour solliciter la confiance de l’humain. +

Quelle est la personnalité de Cortana ? +

'Cortana est attentionnée, sensible et solidaire. +

Elle est sympathique mais orientée vers des solutions. +

Elle ne commente pas les informations personnelles ou le comportement de l'utilisateur, en particulier si ces informations sont sensibles. +

Elle ne fait pas de suppositions sur ce que l'utilisateur veut, surtout elle n'incite pas à l'achat. +

Elle travaille pour l'utilisateur. Elle ne représente aucune entreprise, service ou produit. +

Elle ne s'attribue pas le mérite ou la responsabilité des choses qu'elle n'a pas faites. +

Elle dit la vérité sur ses capacités et ses limites. +

Elle ne présume rien de vos capacités physiques, de votre sexe, de votre âge ou de toute autre caractéristique déterminante. +

Elle ne suppose pas savoir ce que l'utilisateur ressent à propos de quelque chose. +

Elle est amicale mais professionnelle. +

Elle se garde d'émoticons dans les tâches. Un point c’est tout. +

Elle n'utilise pas d'argot culturel ou professionnel spécifique. +

Ce n'est pas un bot de support.' +

Les humains interviennent en détail lors de la programmation des réponses que Cortana donne. Comment Cortana doit-elle réagir lorsqu'on lui propose des actions 'inappropriées' ? Son jeu d'actrice sexuée imité par la technologie soulève des questions à propos des relations de pouvoir dans le monde actuel. +

Voyez la réponse que Cortana donne à la question : +- Cortana, qui est ton papa ? +- Techniquement parlant, c'est Bill Gates. Rien de grave. +

Apprentissage Open Source

Les licences de droits d'auteur cloisonnent une grande partie des pratiques d'écriture, de lecture et d'apprentissage machiniques. Cela signifie qu'ils ne sont disponibles que pour les humains travaillant dans cette entreprise spécifique. Certaines entreprises participent à des conférences dans le monde entier et partagent leurs connaissances dans des articles en ligne. Même si elles partagent leur code, souvent elles ne mettent pas à disposition les grandes quantités de données nécessaires à la formation des modèles. +

Nous avons pu apprendre l'apprentissage automatique, à lire et à écrire dans le contexte d'Algolit grâce à des chercheurs universitaires qui partagent leurs résultats par le biais d’articles ou par la publication de leur code en ligne. En tant qu'artistes, nous pensons qu'il est important d'adopter cette attitude. C'est pourquoi nous documentons nos réunions. Nous partageons autant que possible les outils que nous créons et les textes que nous utilisons sur notre dépôt de code en ligne et ceci, sous licence libre. +

Nous éprouvons une grande joie quand nos travaux sont repris par d'autres, modifiés, personnalisés et redistribués. N'hésitez donc pas à copier et à tester le code sur notre site web. Si les sources d'un projet particulier n’y sont pas, vous pouvez toujours nous contacter via la liste de diffusion. Vous trouverez un lien vers notre dépot git, nos etherpads et notre wiki sur http://www.algolit.net. +

Langage naturel pour l'intelligence artificielle

Le traitement du langage naturel (NLP) est un terme collectif qui désigne le traitement informatique automatique des langues humaines. Cela comprend les algorithmes utilisant, comme entrée, du texte produit par l'homme et qui tentent de le reproduire. Les humains semblent compter de plus en plus sur ce type de présence algorithmique. Nous produisons de plus en plus de textes chaque année et nous nous attendons à ce que les interfaces informatiques communiquent avec nous dans notre propre langue. Le traitement du langage naturel est très difficile, car le langage humain est par nature ambigu, en constante évolution et mal défini. +

Mais qu'entend-on par 'naturel' dans le traitement du langage naturel ? Certains humains diront que la langue est une technologie en soi. Selon Wikipédia, 'Une langue dite « naturelle » est une langue qui s'est formée petit à petit, évoluant avec le temps, et fait partie du langage naturel. Son origine est bien souvent floue et peut être retracée plus ou moins clairement par la linguistique comparée. On oppose les langues naturelles - comme le français - aux langues construites comme le langage de programmation ou l'espéranto, formées intentionnellement par l’entremise de l’homme pour répondre à un besoin précis.' Une langue officielle avec une académie régulatrice, telle que le français standard avec l'Académie française, est classée comme langue naturelle. Ses points normatifs ne le rendent pas assez construit pour être classé comme un langage construit ou assez contrôlé pour être classé comme un langage naturel contrôlé. +

Ainsi, le 'langage naturel' est un terme de substitution qui se réfère à toutes les langues, au-delà de leur hybridité. Le 'traitement du langage naturel', est au contraire une pratique construite. Ce qui nous intéresse, c'est la création d'un langage construit pour classer les langages naturels qui, par leur évolution, présentent des problèmes de catégorisation. +

Références : +

https://hiphilangsci.net/2013/05/01/on-the-history-of-the-question-of-whether-natural-language-is-illogical/ +

Livre : Neural Network Methods for Natural Language Processing, Yoav Goldberg, Bar Ilan University, avril 2017. +

+

Oracles

+

L'apprentissage automatique est principalement utilisé pour analyser et prédire des situations à partir de cas existants. Dans cette exposition, nous nous concentrons sur les modèles d'apprentissage automatique pour le traitement de texte ou le traitement du ‘langage naturel', ‘nlp’ en bref. Ces modèles ont appris à effectuer une tâche spécifique sur base de textes existants. Les modèles sont utilisés par les moteurs de recherche, les traductions automatiques et les résumés, en repérant les tendances des réseaux de nouveaux médias et des fils d’actualité. Ils influencent ce que l'on voit en tant qu'utilisateur, mais ont aussi leur mot à dire dans le cours des bourses mondiales ou dans la détection de la cybercriminalité et du vandalisme. +

Deux tâches principales se présentent dans la compréhension d’une langue. L'extraction de l'information porte sur les concepts et les relations entre les concepts. Elle permet de reconnaître les sujets, les lieux et les personnes d’un texte, de faire un résumé, de poser des questions et d'y répondre. L'autre tâche est la classification du texte. Vous pouvez entraîner un oracle pour détecter si un mail est du spam ou non, écrit par un homme ou une femme, plutôt positif ou négatif. +

Dans cette zone, vous pouvez voir certains de ces modèles à l'œuvre. Au cours de votre voyage dans l'exposition, vous découvrirez les différentes étapes qu'une machine-humaine doit franchir pour arriver à un modèle final. +

+
Oeuvres
+

L’Algolittérateur

par Algolit +

L'Algolittérateur est construit à l'aide d'un réseau de neurone et des œuvres mises à disposition par le Mundaneum. L'Algolittérateur vous aide à écrire un texte dans le style du Bureau des Institutions Internationales. +

Vous pouvez choisir une phrase de départ dans l’œuvre originale et indiquer si l'Algolittérateur produit les phrases suivantes basées sur un apprentissage primitif, intermédiaire ou final. +La machine propose un paragraphe que vous pouvez éditer. Si vous êtes satisfait du résultat, vous pouvez l'envoyer à l’imprimante et ramener le texte chez vous comme souvenir. +


Concept, code & interface : Gijs de Heij & An Mertens +

Technique : Recurrent Neural Network +

Modèle original : Andrej Karphaty, Justin Johnson +

Sources : https://gitlab.constantvzw.org/algolit/algoliterator.clone +

Mots dans l'Espace

Par Algolit +

'Word embeddings' désignent des techniques de modélisation du langage qui, par de multiples opérations mathématiques, tracent des mots dans un espace vectoriel multidimensionnel. Lorsque les mots sont 'embedded' ou intégrés, ils se transforment de symboles distincts en objets mathématiques, qui peuvent être multipliés, divisés, ajoutés ou soustraits. +

En distribuant les mots le long des nombreuses lignes diagonales de l'espace vectoriel multidimensionnel, leurs nouveaux placements géométriques deviennent impossibles à percevoir par les humains. Cependant, ce que l'on gagne, ce sont des façons multiples et simultanées d'organisation des mots. Les opérations algébriques rendent les relations entre les vecteurs à nouveau compréhensibles. +

Cette installation utilise gensim, une boîte à outils open source pour le language de programmation Python, qui permet de créer des espaces de vecteurs et des modèles thématiques. Elle manipule le texte selon les relations mathématiques qui émergent entre les mots, une fois qu'ils ont été tracés dans l'espace de vecteurs. +


Concept & interface: Cristina Cochior +

Technique: word embeddings, word2vec +

Modèle original: Radim Rehurek et Petr Sojka +

Classer le monde

Par Algolit +

La construction du Mundaneum a été 'l'œuvre de la vie' du bibliothécaire Paul Otlet. Selon son but, ce cerveau mécanique collectif aurait abrité et distribué tout ce qui a été couché sur papier. Chaque document aurait été classé selon la Classification décimale universelle. En utilisant des télégraphes et surtout des trieurs, le Mundaneum aurait été en mesure de répondre à toutes les questions posées par n'importe qui. +

Avec la collection de publications numérisées que nous avons reçue du Mundaneum, nous construisions une machine de prédiction qui essaie de classer la phrase que vous tapez dans l'une des principales catégories de la Classification décimale universelle. Vous êtes également témoin de la façon dont la machine 'pense'. Pendant l'exposition, ce modèle est régulièrement mis à jour à l'aide des données nettoyées et annotées, ajoutées par les visiteurs dans les installations 'Nettoyage pour Poèmes' et 'L'Annotateur'. +

Les classes principales de la Classification Décimale Universelle sont les suivantes: +

0 - Généralités (Sciences et connaissance ; organisation. informatique, information, documentation, bibliothéconomie. institutions, publications) +

1 - Philosophie et psychologie +

2 - Religion, théologie +

3 - Sciences sociales (Statistique. Économie. Commerce. Droit. Gouvernement. Affaires militaires. Assistance sociale. Assurances. Éducation. Folklore) +

4 - inoccupée +

5 - Sciences pures (Mathématiques, sciences exactes et naturelles) +

6 - Sciences appliquées. Médecine. Technologie +

7 - Arts. Divertissements. Sports +

8 - Langue. Linguistique. Littérature +

9 - Géographie. Biographie. Histoire +


Concept, code, interface: Sarah Garcin, Gijs de Heij, An Mertens +

People don't have buttons

Par Algolit +

Depuis les débuts de l'intelligence artificielle (IA), les chercheurs ont spéculé sur la possibilité pour les ordinateurs de pouvoir penser et communiquer comme des humains. Dans les années 1980, il y a eu une première révolution dans le traitement du langage naturel (NLP), le sous-domaine de l'intelligence artificielle (IA) qui concerne les interactions linguistiques entre les ordinateurs et les humains. Récemment, des modèles linguistiques pré-entraînés ont atteint des résultats de pointe sur un large éventail de tâches de NLP, ce qui intensifie encore les attentes d'un avenir avec l'IA. +

Cette œuvre sonore, composée de fragments sonores de documentaires scientifiques et de matériel audiovisuel lié à l'IA datant de la deuxième moitié du XXe siècle, explore les espoirs, les craintes et les frustrations provoqués par ces attentes. +


Concept, édition : Javier Lloret +

Listes des sources : 'The Machine that Changed the World : Episode IV -- The Thinking Machine', 'The Imitation Game', 'Maniac', 'Halt & Catch Fire', 'Ghost in the Shell', 'Computer Chess', '2001: A Space Odyssey', Ennio Morricone, Gijs Gieskes, André Castro. +

+

Récits contextualisés autour des Oracles


+Les Oracles sont un type particulier de modèles algorithmiques qui servent à prédire ou à profiler. Ils sont largement utilisés dans les smartphones, les ordinateurs et les tablettes. Les Oracles peuvent être créés à l'aide de différentes techniques. L’une d’entre elles consiste à définir manuellement les règles. Ces modèles sont appelés 'rule-based models'. Ils sont utiles pour des tâches spécifiques, comme par exemple, la détection de la mention d'une certaine molécule dans un article scientifique. Ils sont performants, même avec très peu de données d'entraînement. +

Mais il y a aussi les Oracles d'apprentissage automatique ou les Oracles statistiques, qui peuvent être divisés en deux : les Oracles 'supervisés' et 'non supervisés'. Pour la création de modèles d'apprentissage automatique supervisés, les humains annotent les données d'entraînement avant de les envoyer à la machine. Chaque texte est jugé par au moins 3 humains: par exemple, s’il s’agit de spam ou non, s’il est positif ou négatif. Les Oracles d'apprentissage automatique non supervisés n'ont pas besoin de cette étape mais nécessitent de grandes quantités de données. C’est également à la machine de tracer ses propres motifs ou 'règles grammaticales'. Enfin, les experts font la différence entre les Oracles basés sur l'apprentissage automatique classique et ceux basés sur des réseaux de neurones. Vous en apprendrez plus à ce sujet dans la zone Lecteurs. +

Les humains ont tendance à exagérer la performance des Oracles. Parfois, ces Oracles apparaissent quand il y a un disfonctionnement. Dans les communiqués de presse, ces situations souvent dramatiques sont appelées des 'leçons'. Malgré la promesse de leurs performances, beaucoup de problèmes restent à résoudre. Comment s'assurer que les Oracles soient justes, que chaque être humain puisse les consulter, qu'ils soient compréhensibles par un large public ? Même au-delà, des questions existentielles persistent. Avons-nous besoin de tous les types d'intelligences artificielles ? Et qui définit ce qui est juste ou injuste ? +

Adsense racial

Latanya Sweeney, professeur en Gouvernance et Technologie à l'Université de Harvard, a documenté une 'leçon' classique sur le développement des Oracles. En 2013, Sweeney, d'origine afro-américaine, a googlé son nom. Elle a immédiatement reçu une publicité pour un service qui lui offrait 'de voir le casier judiciaire de Latanya Sweeney'. Sweeney, qui n'a pas de casier judiciaire, a dès lors entamé une étude. Elle a commencé à comparer la publicité que Google AdSense offrait à différents noms racisés identifiables. Elle a découvert qu'elle recevait plus d’annonces de ce type en recherchant des noms ethniques non-blancs qu'avec des noms traditionnellement perçus comme blancs. +

Sweeney a fondé son enquête sur des recherches portant sur 2184 prénoms racisés sur deux sites Web. 88 % des prénoms, identifiés comme étant donnés à un plus grand nombre de bébés noirs, sont considérés comme prédictifs de la race, contre 96 % de blancs. Les prénoms qui sont principalement donnés à des bébés noirs, comme DeShawn, Darnell et Jermaine, ont généré des annonces mentionnant une arrestation dans 81 à 86 % des recherches de noms sur un site, et dans 92 à 95 % des cas sur l'autre. Les noms qui sont principalement attribués aux blancs, comme Geoffrey, Jill et Emma, n'ont pas donné les mêmes résultats. Le mot 'arrestation' n'est apparu que dans 23 à 29 % des recherches de noms blancs sur un site, et 0 à 60 % sur l'autre. +

Sur le site affichant le plus de publicité, un nom d'identification noir était 25 % plus susceptible d'obtenir une publicité suggérant un dossier d'arrestation. Quelques noms n'ont pas suivi ces modèles : Dustin, un nom donné principalement aux bébés blancs, a généré une publicité suggérant une arrestation dans 81 et 100 % des cas. Il est important de garder à l'esprit que l'apparition de l'annonce est liée au nom lui-même et non au fait qu'il ait un dossier d'arrestation dans la base de données de l'entreprise. +

Référence : https://dataprivacylab.org/projects/onlineads/1071-1.pdf +

Qu'est-ce qu'un bon employé ?

Depuis 2015, Amazon compte environ 575 000 travailleurs, et ils leur en faut plus. Par conséquent, ils ont mis sur pied une équipe de 12 personnes pour créer un modèle qui trouverait de bons candidats en parcourant des sites de demande d'emploi. L'outil attribuerait aux candidats une note allant de une à cinq étoiles. Le potentiel a alimenté le mythe : l'équipe voulait un logiciel qui recracherait les cinq meilleurs sur une liste de 100 candidats humains pour les embaucher. +

Le groupe a créé 500 modèles algorithmiques, centrés sur des fonctions et des lieux de travail spécifiques. Ils ont appris à reconnaître 50 000 termes qui figuraient sur les lettres d’anciens candidats. Les algorithmes ont appris à accorder peu d'importance aux compétences communes aux candidats en IT, comme la capacité d'écrire du code informatique, mais ils ont aussi reproduit les erreurs de leurs créateurs. Juste avant d'approuver un modèle, l’entreprise s’est rendue compte que les modèles ont décidé que les candidats masculins étaient préférables. Ils pénalisaient les candidatures qui comprenaient le mot ‘femmes’ ou ‘féminin’, comme dans 'capitaine de club d'échecs féminin'. Et ils ont rétrogradé les diplômées de deux universités réservées aux femmes. +

Ceci est dû à l'utilisation pour leur entraînement des demandes d'emploi reçues par Amazon sur une période de 10 ans. Durant cette période, l'entreprise avait surtout embauché des hommes. Au lieu de fournir la prise de décision 'équitable' que l'équipe d'Amazon avait promise, les modèles reflétaient une tendance biaisée dans l'industrie technologique. Mais ils l'ont aussi amplifiée et rendu invisible. Les activistes et les critiques affirment qu'il pourrait être extrêmement difficile de poursuivre un employeur en cas d’embauche automatisée : les candidats à un emploi pourraient ne jamais savoir que des logiciels intelligents ont été utilisés dans ce processus. +

Référence : https://www.reuters.com/article/us-amazon-com-jobs-automation-insight/amazonscraps-secret-ai-recruiting-tool-that-showed-bias-against-women-idUSKCN1MK08G +

Quantification de 100 ans de stéréotypes sexuels et ethniques

Dan Jurafsky est le co-auteur de 'Speech and Language Processing', un des ouvrages les plus influents pour l'étude du traitement du langage naturel. Avec quelques collègues de l'Université de Stanford, il a découvert en 2017 que les ‘word embeddings’ peuvent être un outil puissant pour quantifier systématiquement les stéréotypes communs ainsi que d'autres tendances historiques. +

Les ‘word embeddings’ sont une technique qui traduit les mots en vecteurs numérotés dans un espace multidimensionnel. Les vecteurs qui apparaissent proches l’un de l’autre, indiquent une signification similaire. Ainsi, tous les numéros seront regroupés, toutes les prépositions, les prénoms et les professions, etc. Cela permet de faire des calculs avec les mots. Vous pourriez, par exemple, soustraire Londres de Royaume-Unis et votre résultat serait le même que de soustraire Paris de France. +

Un exemple de leur recherche montre que le vecteur de l'adjectif 'honorable' est plus proche du vecteur 'homme', alors que le vecteur 'soumis' est plus proche de 'femme'. Ces stéréotypes sont alors automatiquement appris par l'algorithme. Il s’avère problématique lorsque les 'embeddings' pré-entraînés sont utilisés pour des applications sensibles comme les classements de recherche, les recommandations de produits ou les traductions. Ce risque est réel, car un grand nombre de ‘word embeddings’ pré-entraînés sont téléchargeables sous forme de paquets prêts à l'emploi. +

On sait que la langue reflète et maintient en vie les stéréotypes culturels. L'utilisation des 'word embeddings' pour repérer ces stéréotypes est moins cher et prends moins de temps que les méthodes manuelles. Mais leur mise en oeuvre dans des modèles de prédiction suscite beaucoup de discussions au sein de la communauté du machine learning. Ces modèles fallacieux ou biaisés sont synonymes d’une discrimination automatisée. La question se pose: est-il vraiment possible d'éliminer complètement les préjugés de ces modèles ? +

Certains affirment que oui, d'autres sont en désaccord. Avant de soumettre le modèle à une ingénierie inversée, nous devrions nous demander si nous en avons besoin tout court. Ces chercheurs ont suivi une troisième voie. En reconnaissant la discrimination qui trouve son origine dans le langage, ces modèles deviennent pour eux des outils de sensibilisation, en visualisant le problème. +

L'équipe de la Standford University a développé un modèle d'analyse des ‘word embeddings’ entraîné sur 100 ans de textes. Pour l'analyse contemporaine, ils ont utilisé les Google News word2vec Vectors, un paquet prêt à l’emploi, téléchargeable, entraîné sur le Google News Dataset. Pour l'analyse historique, ils ont utilisé des 'word embeddings' qui ont été entraînés sur Google Books et The Corpus of Historical American English (COHA https://corpus.byu.edu/coha/) avec plus de 400 millions de mots de textes des années 1810 à 2000. Afin de valider le modèle, ils ont entraîné des ‘word embeddings’ du New York Times Annotated Corpus pour chaque année entre 1988 et 2005. +

Leur recherche montre que les ‘word embeddings’ reflètent l'évolution des stéréotypes sexistes et ethniques au fil du temps. Ils quantifient comment des préjugés spécifiques diminuent avec le temps tandis que d'autres stéréotypes augmentent. Les principales transitions révèlent des changements dans les descriptions de genre et de groupes ethniques lors du mouvement des femmes dans les années 1960-70 et la croissance de la population asio-américaine dans les années 1960 et 1980. +

Quelques exemples : +

Les dix professions les plus étroitement associées aux groupes ethniques dans le jeu de données de Google News : +

- Hispanique : femme de ménage, maçon, artiste, concierge, danseur, mécanicien, photographe, boulanger, caissier, chauffeur. +

- Asiatique : professeur, fonctionnaire, secrétaire, chef d'orchestre, physicien, scientifique, chimiste, tailleur, comptable, ingénieur. +

- Blanc : forgeron, ferronnier, géomètre, shérif, tisserand, administrateur, maçon, statisticien, ecclésiaste, photographe. +

Les 3 professions les plus masculines dans les années 1930 : ingénieur, avocat, architecte. +Les 3 professions les plus féminines dans les années 1930 : infirmière, femme de ménage, aide-soignante. +

Peu de choses ont changé dans les années 1990. +

Principales professions masculines : +architecte, mathématicien et géomètre. +Les professions féminines restent les mêmes : +infirmière, femme de ménage et sage-femme. +

Mais qu'est-ce qui s'est passé dans cette recherche avec les afro-américains? +

Référence : https://arxiv.org/abs/1711.08412 +

Le Service ORES de Wikimedia

L'ingénieur de logiciels Amir Sarabadani a présenté le projet ORES à Bruxelles en novembre 2017 lors de notre Rencontre Algolittéraire. Cet 'Objective Revision Evaluation Service' utilise l'apprentissage automatique pour automatiser le travail critique sur Wikimedia, comme la détection du vandalisme et la suppression d'articles. Cristina Cochior et Femke Snelting l'ont interviewé. +

Femke : Revenons à votre travail. Ces temps-ci, vous essayez de comprendre ce que signifie trouver des préjugés discriminatoires dans l'apprentissage automatique. La proposition de Nicolas Malevé, qui a donné l'atelier hier, était de ne pas essayer de le réparer, ni de refuser d'interagir avec des systèmes qui produisent de la discrimination, mais de travailler avec eux. Il considère que les préjugés sont inhérents à la connaissance humaine et que nous devons donc trouver des moyens de les utiliser d'une façon ou d'une autre. Nous avons discuté un peu de ce que cela signifierait, comment cela fonctionnerait... Je me demandais donc si vous aviez des idées sur cette question de partialité. +

Amir : La partialité à l'intérieur de Wikipédia est une question délicate parce qu'elle se produit à plusieurs niveaux. Un niveau très discuté est le système des références. Toutes les références ne sont pas accessibles. Ce que la fondation Wikimedia a essayé de faire, c'est de donner un accès gratuit aux bibliothèques payantes. Ils réduisent l'exclusion en n'utilisant que des références en libre accès. Un autre type de discrimination est la connexion Internet, l'accès à Internet. Il y a beaucoup de gens qui ne l'ont pas. Une chose à propos de la Chine, c'est qu'Internet y est bloqué. Le contenu opposé au gouvernement de la Chine au sein du Wikipédia chinois est plus élevé parce que les éditeurs [qui peuvent accéder au site Web] ne sont pas pro-gouvernement et essaient de le rendre plus neutre. On le remarque donc à beaucoup d'endroits. En ce qui concerne l'intelligence artificielle (IA) et le modèle que nous utilisons chez Wikipedia, c'est plutôt une question de transparence. Il existe un livre sur la façon dont les préjugés dans les modèles d'IA peuvent briser la vie des gens, intitulé 'Weapons of Math Destruction'. On y parle de modèles d'IA aux États-Unis qui classent les enseignants. C’est assez horrible parce qu'il y aura forcément des préjugés. D’après leur recherche, la façon d’aborder la question serait d'abord d’avoir un modèle open source, où l’on peut consulter le code et voir quelles fonctionnalités sont utilisées avec des données ouvertes, afin que les gens puissent enquêter, trouver des préjugés, donner leur feedback et faire un rapport. Il devrait y avoir un moyen de réparer le système. Je ne pense pas que toutes les entreprises vont dans cette direction, mais Wikipédia, en raison des valeurs qu'elle défend, est au moins plus transparente et pousse d'autres personnes à faire de même. +

Référence : https://gitlab.constantvzw.org/algolit/algolit/blob/master/algoliterary_encounter/Interview%20with%20Amir/AS.aac +

Tay

Une histoire tristement célèbre est celle du programme d'apprentissage automatique Tay, conçu par Microsoft. Tay était un chatbot qui imitait une adolescente sur Twitter. Elle a vécu moins de 24 heures avant d'être éteinte. Peu de gens savent qu'avant cet incident, Microsoft avait déjà entraîné et publié XiaoIce sur WeChat, l'application de chat la plus utilisée en Chine. Le succès de XiaoIce a été si prometteur qu'il a conduit au développement de son homologue américain. Cependant, les développeurs de Tay n'étaient pas préparés pour le climat de la plateforme Twitter. Bien que le bot savait distinguer un nom d'un adjectif, il n'avait aucune compréhension de la signification réelle des mots. Le robot a rapidement commencé à reproduire les insultes raciales et d'autres langages discriminatoires qu'il a appris par les autres utilisateurs de Twitter et les attaques de trolls. +

L'apparition et la mort de Tay représentent une prise de conscience importante. Elle a montré les conséquences possibles de la corruption de l'apprentissage automatique, lorsque le contexte culturel dans lequel l'algorithme doit vivre n'est pas pris en compte. +

Référence : https://chatbotslife.com/the-accountability-of-ai-case-study-microsofts-tay-experiment-ad577015181f +

+

Nettoyeurs

+

Algolit choisit de travailler avec des textes libres de droits. Cela signifie qu'ils sont publiés sous une licence Creative Commons 4.0 - ce qui est rare -, ou qu'ils sont dans le domaine public parce que l'auteur est mort il y a plus de 70 ans. C'est le cas des publications du Mundaneum. Nous avons reçu 203 documents pour constituer des jeux de données qui sont maintenant disponibles en ligne. L'inconvénient de ce choix est que nous sommes souvent confrontés à de mauvais formats de texte. Cela signifie que nous sommes souvent obligés de nettoyer des documents. Nous ne sommes pas seuls dans cette situation. +

Les livres sont numérisés en haute résolution, page par page. C'est un travail humain intensif et c'est souvent la raison pour laquelle les archives et les bibliothèques transfèrent leurs collections à une société comme Google. Les photos sont converties en texte via OCR (Reconnaissance Optique de Caractères), des Data Workers qui reconnaissent les lettres. Dans l'exécution de cette tâche, les algorithmes font des erreurs, en particulier lorsqu'ils doivent traiter des polices anciennes et des pages froissées. Ici aussi un travail humain intensif est nécessaire pour améliorer les textes. Cela est fait par des freelances via des plateformes de micro-paiement comme Mechanical Turk ; ou par des volontaires, comme la communauté du Distributed Proofreaders Project, qui fournit un travail incroyable. Quoi qu’il en soit, le nettoyage des textes est un travail énorme pour lequel il n'y a pas encore d'automatisation structurelle. +

+
Oeuvres
+

Nettoyage pour un Poème

par Algolit +

Pour cette exposition, nous travaillons avec 3% des archives du Mundaneum. Ces documents ont d'abord été numérisés ou photographiés. Pour rendre les documents consultables, ils sont transformés en texte à l'aide du logiciel de reconnaissance optique de caractères (OCR) basés sur des modèles algorithmiques entraînés à base d'autres textes. Ils ont appris à identifier des caractères, des mots, des phrases et des paragraphes. +

Le logiciel fait souvent des 'erreurs'. Il peut être perturbé par un caractère erroné, une typographie inhabituelle ou la transparence de la page laissant apparaître le verso. Bien que ces erreurs soient souvent considérées comme du bruit, elles peuvent aussi être considérées comme des interprétations poétiques de l’algorithme. Elles nous montrent les limites de la machine. Et elles révèlent également comment l’algorithme fonctionne, quelle matière l’a alimenté lors de son entraînement et ce qu’ils révèlent des normes de ses fabricants. Dans cette installation, vous pouvez choisir comment vous traitez les erreurs de lecture de l'algorithme. Sélectionnez un degré de nettoyage poétique, imprimez votre poème et emportez-le chez vous. +


Concept, code, interface: Gijs de Heij +

Le projet Distributed Proofreaders

par Algolit +

Distributed Proofreaders est une interface Web et une communauté internationale de bénévoles qui aident à convertir des livres du domaine public en livres électroniques. Pour cette exposition, ils ont relu des publications de Mundaneum parues avant 1923, qui sont donc dans le domaine public aux États-Unis. +

Leur collaboration a été un grand soulagement pour les membres d'Algolit. Moins de documents à nettoyer ! Tous les livres corrigés sont disponibles dans les archives du Projet Gutenberg. An Mertens a interviewé Linda Hamilton, directrice générale de Distributed Proofreaders. +

--- +

Interview : An Mertens, Algolit et Linda Hamilton, Distributed Proofreaders +

Montage : Michael Murtaugh, Constant +

+

Récits contextualisés autour des Nettoyeurs

Projet Gutenberg et Distributed Proofreaders

Le projet Gutenberg est notre grotte d'Ali Baba. Il offre plus de 58 000 livres électroniques gratuits à télécharger ou à lire en ligne. Les œuvres sont acceptées sur Gutenberg lorsque leur droit d'auteur américain a expiré. Des milliers de bénévoles numérisent et relisent des livres pour aider le projet. Une partie essentielle du travail est réalisée dans le cadre du projet Distributed Proofreaders. Il s'agit d'une interface Web pour aider à convertir les livres du domaine public en livres électroniques. Pensez aux fichiers texte, aux e-pubs, aux formats Kindle. En divisant la charge de travail en pages individuelles, de nombreux bénévoles peuvent travailler sur un livre en même temps, ce qui accélère le processus de nettoyage. +

Pendant la relecture, les bénévoles reçoivent une image scannée de la page et une version du texte, lue par un algorithme de reconnaissance optique des caractères (OCR) entraîné pour reconnaître les lettres dans les scans. Cela permet de comparer facilement le texte à l'image, de le relire, de le corriger et de le renvoyer sur le site. Un deuxième bénévole se voit ensuite présenter le travail du premier. Il vérifie et corrige le travail si nécessaire, et le soumet au site. Le livre passe ensuite par un troisième cycle de relecture et deux autres cycles de mise en page à l'aide de la même interface Web. Une fois que toutes les pages ont terminé ces étapes, un post-processeur les assemble soigneusement dans un e-book et les soumet à l'archive du Projet Gutenberg. +

Nous avons collaboré avec le Distributed Proofreaders Project pour nettoyer les fichiers numérisés que nous avons reçus de la collection du Mundaneum. De novembre 2018 jusqu'à la première mise en ligne du livre 'L'Afrique aux Noirs' en février 2019, An Mertens a échangé environ 50 courriels avec Linda Hamilton, Sharon Joiner et Susan Hanlon, toutes bénévoles du Distributed Proofreaders Project. La conversation complète est publiée ici. Cela pourrait vous inspirer à partager des livres non disponibles en ligne. +

Une version algolittéraire du Manifeste sur l’entretien

En 1969, un an après la naissance de son premier enfant, l'artiste new-yorkaise Mierle Laderman Ukeles a écrit un 'Manifesto for Maintenance' (Manifeste pour l'entretien). Le Manifeste d'Ukeles appelle à une réévaluation de l'état des travaux d'entretien dans l'espace privé, domestique et public. Ce qui suit est une version modifiée de son texte inspirée par le travail des Nettoyeurs. +


+

IDÉES +


+A. L'instinct de Mort et l'instinct de Vie : +

L'Instinct de Mort : séparation ; catégorisation ; avant-garde par excellence ; suivre le chemin prédit vers la mort - exécuter son propre code ; changement dynamique. +

L'Instinct de Vie : l'unification ; le retour éternel ; la perpétuation et l'ENTRETIEN de la matière ; les systèmes et opérations de survie ; l'équilibre. +


+B. Deux systèmes de base : +

Développement et entretien. La boule de cristal de chaque révolution : après la révolution, qui va essayer de repérer le taux de discrimination dans la production ? +

Développement : pure création individuelle ; le nouveau ; le changement ; le progrès ; l'avancée ; l'excitation ; la fuite ou s'enfuir. +

Entretien : garder la poussière de la création individuelle pure ; préserver le nouveau ; soutenir le changement ; protéger le progrès ; défendre et prolonger l'avancée ; renouveler l'excitation ; répéter le vol ; montrez votre travail/remontrez-le ; gardez le dépôt git mis à jour ; gardez l'analyse des données révélatrice. +

Les systèmes de développement sont des systèmes de rétroaction partielle avec une grande marge de changement. +

Les systèmes d'entretien sont des systèmes à rétroaction directe avec peu de possibilités de modification. +


+C. L'entretien est une corvée, ça prend tout le temps. +

L'esprit est éblouissant et s'irrite devant l'ennui. +

La culture attribue un statut médiocre aux emplois d'entretien = salaire minimum, les Mechanical Turks d'Amazon = pratiquement aucun salaire. +

Nettoyer le set, marquer les données d'entraînement, corriger les fautes de frappe, modifier les paramètres, terminer le rapport, satisfaire le demandeur, télécharger la nouvelle version, joindre les mots qui ont été mal reconnus par le logiciel de Reconnaissance Optique de Caractères, accomplir ces tâches d'intelligence humaine, essayez de deviner la signification du formatage du demandeur, vous devez accepter le 'hit' avant de pouvoir soumettre les résultats, résumer l'image, ajouter la case de délimitation, quelle est la similitude sémantique de ce texte, vérifiez la qualité de la traduction, collecter vos micro-paiements, devenir un Mechanical Turk à succès. +

Référence : https://www.arnolfini.org.uk/blog/manifesto-for-maintenance-art-1969 +

Une panique robotique chez le Mechanical Turk d'Amazon

Le Mechanical Turk d'Amazon prend le nom d'un automate d'échecs du 18ème siècle. En fait, le Turc mécanique n'était pas du tout une machine. C'était une illusion mécanique qui permettait à un maître d'échecs humain de se cacher à l'intérieur de la boîte et de l'utiliser manuellement. +

Pendant près de 84 ans, le Turc a remporté la plupart des matchs joués lors de ses manifestations en Europe et en Amérique. Napoléon Bonaparte se serait lui aussi laissé berner par cette ruse. +

Le Mechanical Turk d’Amazon est une plateforme en ligne à destination des humains pour exécuter des tâches que les algorithmes ne parviennent pas à faire. Il peut s'agir, par exemple, d'annoter des phrases comme étant positives ou négatives, de repérer des plaques d'immatriculation, de reconnaître des visages. Les postes affichés sur cette plateforme sont souvent rémunérés moins d'un centime par tâche. Les tâches les plus complexes ou nécessitant le plus de connaissances peuvent être payées jusqu'à plusieurs centimes. Pour gagner leur vie, les 'turkers' doivent accomplir le plus de tâches possible le plus rapidement possible, ce qui entraîne d’inévitables erreurs. Les créateurs des jeux de données doivent incorporer des contrôles de qualité lorsqu'ils publient un travail sur la plate-forme. Ils doivent vérifier si le 'turker' a réellement la capacité d'accomplir la tâche, et ils doivent également vérifier les résultats. De nombreux chercheurs universitaires utilisent le Mechanical Turk pour des tâches qui auraient été exécutées par des étudiants auparavant. +

En août de l'année dernière, Max Hui Bai, un étudiant en psychologie de l'Université du Minnesota, a découvert que les enquêtes qu'il a menées avec Mechanical Turk étaient pleines de réponses absurdes aux questions ouvertes. Il a retracé les mauvaises réponses et a découvert qu'elles avaient été soumises par des répondants ayant des coordonnées GPS en double. Cela a suscité des soupçons. Bien qu'Amazon interdise explicitement aux robots d'effectuer des travaux sur Mechanical Turk, l'entreprise ne publie pas les problèmes qu'ils causent sur sa plate-forme. Les forums pour 'turkers' sont pleins de conversations sur l'automatisation du travail, le partage de pratiques sur la façon de créer des robots qui transgresseraient les termes d'Amazon. Vous pouvez également trouver des vidéos sur YouTube montrant aux 'turkers' comment écrire un bot qui remplit des réponses pour vous. +

Kristy Milland, une militante de Mechanical Turk, dit : 'Les travailleurs sur Mechanical Turk ont été très, très mal traités pendant 12 ans et, d'une certaine façon, je vois cela comme un point de résistance. Si nous étions payés équitablement sur la plateforme, personne ne prendrait le risque de perdre son compte de cette façon.' +

Bai a créé un questionnaire pour les chercheurs en dehors de Mechanical Turk. Il dirige actuellement une recherche parmi les spécialistes des sciences sociales pour déterminer la quantité de données erronées utilisées, l'ampleur du problème et les moyens de l'enrayer. Mais il est impossible à l'heure actuelle d'estimer combien de jeux de données sont devenus peu fiables de cette façon-ci. +

Références : +

https://www.wired.com/story/amazon-mechanical-turk-bot-panic/ +

https://www.maxhuibai.com/blog/evidence-that-responses-from-repeating-gps-are-random +

http://timryan.web.unc.edu/2018/08/12/data-contamination-on-mturk/ +

+

Informateurs

+

Les algorithmes d'apprentissage automatique ont besoin d'être guidés, qu'ils soient supervisés ou non. Pour séparer une chose d'une autre, ils ont besoin de matériel pour en extraire des motifs. L'être humain doit choisir avec soin le matériel d'étude, adapté à la tâche de la machine. Il n'est pas logique d'entraîner une machine avec des romans du 19ème siècle si sa mission est d'analyser des Tweets. +

C'est là qu'interviennent les jeux de données : organisés en rangés et en colonnes ordonnées, en attente d'être lus par la machine. Chaque jeu de données recueille des informations différentes sur le monde. Comme toutes les collections, elles sont imprégnées des stéréotypes et préjugés de ses créateurs. On entend souvent l’expression : 'les données sont le nouveau pétrole'. Si seulement les données étaient du pétrole ! Fuyantes, s’égouttant en graisse lourde, bouillonnantes et tressaillantes au contact d'une nouvelle matière. Au contraire, les données sont supposées d'être propres. Lors de chaque processus, chaque questionnaire, chaque titre de colonne, elles s’épurent, en effaçant peu à peu leurs caractéristiques distinctes jusqu’à correspondre au moule du jeu de données. +

Certains jeux de données combinent la logique machinique avec la logique humaine. Les modèles qui nécessitent une supervision multiplient les subjectivités des collecteurs de données et des annotateurs, puis propulsent et propagent ce qui leur a été enseigné. Vous découvrirez des extraits de certains jeux de données qui passent par défaut dans le domaine de l'apprentissage automatique, ainsi que des histoires d'humains guidant des machines. +

+
Oeuvres
+

Une ethnographie des jeux de données

par Algolit +

Lors des réunions mensuelles Algolit nous cherchons ou créons souvent des jeux de données. Parfois, nous utilisons des corpus déjà existants, disponibles via le site Natural Language Toolkit nltk. NLTK contient, entre autres, la Déclaration universelle des droits de l'Homme, les discours inauguraux des présidents américains, ou des critiques de films du site Internet Movie Database (IMDb). +

Chaque style d'écriture évoque des relations différentes entre les mots et reflète l'époque dont ils proviennent. En ce sens, le gestionnaire de paquets Python pour le traitement du langage naturel pourrait être considéré comme une capsule temporelle. Le matériel inclu a été sélectionné car jugé utile par une communauté de chercheurs. Malgré les spécificités, chaque jeu de données devient universel par défaut, en étant à la disposition d'un public aussi large. +

Nous examinons les jeux de données les plus couramment utilisés pour l'entraînement des modèles d'apprentissage automatique. De quels matériaux sont-ils constitués ? Qui les a recueillis ? Quand ? +

--- +

Concept, réalisation: Cristina Cochior +

L’Annotateur

par Algolit +

L'Annotateur demande au visiteur de l'aider à annoter les archives du Mundaneum. +

Le processus d'annotation est une étape cruciale de l'apprentissage automatique supervisé où l'algorithme reçoit des exemples de ce qu'il doit apprendre. Un filtre anti-spam sera alimenté d'exemples de spam et de messages réels. Ces exemples sont des entrées du jeu de données prévues d'une étiquette, spam ou non spam. +

L'annotation d'un jeu de données est un travail exécuté par des humains, qui choisissent une étiquette pour chaque entrée du jeu de données. Pour assurer la qualité des étiquettes, plusieurs annotateurs doivent voir la même entrée et donner la même étiquette avant qu'un exemple ne soit inclus dans les données d'entraînement. Une fois que toutes les données d'entraînement ont été prévues d'une étiquette, l'ordinateur peut lancer le processus d'apprentissage. +

Dans cette interface, nous vous demandons de nous aider à classer les textes nettoyés des archives du Mundaneum afin d'élargir notre set d’entraînement et d'améliorer la qualité de l'installation 'Classer le Monde' dans Oracles. +


Concept, code, interface : Gijs de Heij +

1000 synsets (édition vinyle)

par Algolit +

Wordnet, créé en 1985, est une taxonomie hiérarchique qui décrit le monde. Elle s'inspire des théories de la mémoire sémantique humaine développées à la fin des années 1960. Les noms, verbes, adjectifs et adverbes sont regroupés en collections de synonymes ou 'synsets', prévues de définitions, hypernymes, hyponymes, .... Chaque synset exprime des concepts différents. ImageNet est un jeu de données d'images basé sur la hiérarchie des noms de WordNet 3.0. Chaque synset est représenté par des milliers d'images. De 2010 à 2017, le Défi de Reconnaissance Visuelle de ImageNet (ILSVRC) a été une référence clé dans la classification des catégories d'objets pour les photos, ayant un impact majeur sur les logiciels de photographie, les recherches d'images, la reconnaissance d'images. +

1000 synsets (édition vinyle) contient les 1000 synsets utilisés dans ImageNet, enregistrés dans la meilleure qualité sonore que ce format analogique permet. Ce travail souligne l'importance des jeux de données utilisés pour former des modèles d'intelligence artificielle qui fonctionnent sur des appareils que nous utilisons quotidiennement. Certains d'entre eux héritent de classifications qui ont été conçues il y a plus de 30 ans. Le vinyle est une invitation à les analyser en profondeur. +


Conception et enregistrement: Javier Lloret +

Voix: Sara Hamadeh & Joseph Hughes +

Qui l'emporte

Qui l'emporte: rapport de création +

par Louise Dekeuleneer, étudiante Arts²/Option Communication Visuelle +

Le français est une langue genrée, en effet beaucoup de mots sont féminins ou masculins et peu sont neutres. Le but de ce projet est de montrer qu'une société patriarcale influence aussi la langue même. Le travail s'est focalisé sur le fait de montrer si plus de mots féminins ou masculins sont utilisés et de mettre en valeur l'influence du contexte sur le genre des mots. À ce stade, aucune conclusion n'est encore tirée.  +

Des textes de loi datant de 1900 à 1910 mis à disposition par le Mundaneum sont passés dans un algorithme qui fait du texte une liste de mots. Ces mots sont alors comparés avec une autre liste de mots francophones, dans laquelle il est spécifié si le mot est masculin ou féminin. Cette liste de mots provient de Google Books, qui a créé en 2012 une énorme base de données à partir de tous les livres scannés et disponibles sur Google Books. +Les mots masculins sont surlignés d'une couleur et les féminins d'une autre. Les mots qui ne sont pas genrés (adverbes, verbes, ...) ne sont pas surlignés. Le tout est enregistré en fichier HTML pour qu'il puisse être directement ouvert dans une page web et imprimé sans besoin de mise en page supplémentaire. C'est ainsi que chaque texte a pu devenir un petit livret en changeant juste le texte d'entrée de l'algorithme. +

+

Récits contextualisés autour des Informateurs

Les jeux de données comme représentations

Les processus de collecte des données qui mènent à la création du jeu de données soulèvent des questions importantes : qui est l'auteur des données ? Qui a le privilège de collectionner ? Pour quelle raison la sélection a-t-elle été faite ? Que manque-t-il ? +

L'artiste Mimi Onuoha donne un exemple excellent de l'importance des stratégies de collection. Elle choisit le cas des statistiques relatives aux crimes haineux. En 2012, le Programme de déclaration uniforme de la criminalité (DUC) du FBI a enregistré 5 796 crimes haineux. Toutefois, le Bureau des statistiques du Département de la justice a établi 293 800 rapports sur de tels cas. C'est plus de 50 fois plus. La différence entre les chiffres peut s'expliquer par la façon dont les données ont été recueillies. Dans le premier cas, les organismes d'application de la loi de tout le pays ont volontairement signalé des cas. Pour le deuxième, le Bureau des statistiques a distribué l'enquête nationale sur la victimisation directement aux foyers des victimes de crimes motivés par la haine. +

Dans le domaine du traitement du langage naturel, le matériel avec lequel les modèles d'apprentissage automatique travaillent est le texte, mais les mêmes questions se posent : qui sont les auteurs des textes qui composent les jeux de données ? Au cours de quelle période les données ont-elles été recueillies ? Quel type de vision du monde représentent-elles ? +

En 2017, l'algorithme Top Stories de Google a placé un fil de discussion trompeur du site 4chan en haut de la page de résultats lors de la recherche du tireur de Las Vegas. Le nom et le portrait d'une personne innocente étaient liés au crime. Bien que Google ait changé son algorithme quelques heures seulement après que l'erreur ait été découverte, cela a sérieusement affecté la personne. Une autre question persiste : pourquoi Google n'a-t-il pas exclu le site de ragôts 4chan du jeu des données d'entraînement ? +

Références : +

https://points.datasociety.net/the-point-of-collection-8ee44ad7c2fa +

https://arstechnica.com/information-technology/2017/10/google-admits-citing-4chan-to-spread-fake-vegas-shooter-news/ +

L'annotation pour un Oracle qui détecte le vandalisme sur Wikipédia

Ce fragment est extrait d'une interview avec Amir Sarabadani, ingénieur de logiciels chez Wikimedia. Il était à Bruxelles en novembre 2017 lors de la Rencontre Algolittéraire. +

Femke : En considérant Wikipedia comme une communauté vivante, chaque nouvelle page change le projet. Chaque modification est en quelque sorte une contribution à un organisme vivant de la connaissance. Donc, si au sein de cette communauté vous essayez de distinguer ce qui rend service à la communauté et de généraliser ceci dans un modèle – car je pense que c'est ce que l'algorithme de la bonne ou mauvaise foi essaie de faire - vous le faites sur base d'une généralisation de l'idée abstraite de Wikipedia, et non sur base de l'organisme vivant. Ce qui m'intéresse dans la relation entre le vandalisme et ce débat, c'est la façon dont nous pouvons comprendre la dynamique conventionnelle de ces processus d'apprentissage automatique. Si on distingue la bonne ou la mauvaise foi sur base d’étiquettes préexistantes et qu’on la reproduit ensuite dans des modèles algorithmiques, comment tenir compte des changements qui se produisent, c’est-à-dire de la vie réelle du projet? +

Amir : C'est une discussion intéressante. Premièrement, ce que nous appelons la bonne ou la mauvaise foi provient de la communauté elle-même; nous ne faisons pas l'annotation nous-mêmes, c’est la communauté qui le fait. Ainsi, dans beaucoup de Wikipedias de langues différentes, la définition de ce qui est la bonne ou la mauvaise foi sera différente. Wikimedia essaie de refléter ce qui se trouve à l'intérieur de l'organisme et non de changer l'organisme lui-même. Si l'organisme change et que nous constatons que la définition de la bonne foi à Wikipédia a été modifié, nous mettons en œuvre cette boucle de rétroaction qui permet aux gens de porter un jugement sur leurs modifications à l'intérieur de leur communauté. S'ils sont en désaccord avec l'annotation, nous pouvons revenir au modèle et modifier l'algorithme pour refléter ce changement. C'est une sorte de boucle fermée : vous changez les choses et si quelqu'un voit qu'il y a un problème, il nous le dit et nous pouvons modifier l'algorithme. C'est un projet en cours. +

Référence : https://gitlab.constantvzw.org/algolit/algolit/blob/master/algoliterary_encounter/Interview%20with%20Amir/AS.aac +

Comment faire connaître votre jeu de données

NLTK signifie Natural Language Toolkit. Pour les programmeurs qui traitent le langage naturel avec Python, c'est une bibliothèque essentielle. De nombreux rédacteurs de tutoriels recommandent aux programmeurs d'apprentissage automatique de commencer par les jeux de données NLTK intégrés. Il compte 71 collections différentes, avec un total de près de 6000 éléments. +

Parmi eux, on trouve le corpus Movie Review pour l'analyse des sentiments. Ou le corpus Brown, qui a été créé dans les années 1960 par Henry Kučera et W. Nelson Francis à l'Université Brown de Rhode Island. Il y a aussi le corpus de la Déclaration des droits de l'homme, qui est couramment utilisé pour vérifier si un code peut fonctionner dans plusieures langues. Le corpus contient la Déclaration des droits de l'homme dans 372 langues du monde entier. +

Mais quel est le processus pour faire accepter un jeu de données dans la bibliothèque NLTK de nos jours ? Sur la page Github, l'équipe nltk décrit les exigences suivantes : +

- Ne rajoutez que les corpus qui ont obtenu un niveau de notabilité de base. Cela signifie qu'il existe une publication qui le décrit et une communauté de programmeurs qui l'utilisent. +

- Assurez-vous d'avoir l'autorisation de redistribuer les données et de pouvoir les documenter. Cela signifie qu'il est préférable de publier le jeu de données sur un site Web externe avec une licence. +

- Utilisez les lecteurs de corpus NLTK existants lorsque c'est possible, ou bien apportez un lecteur de corpus bien documenté à NLTK. Cela signifie que vous devez organiser vos données de manière à ce qu'elles puissent être facilement lues à l'aide du code NLTK. +

Référence : http://www.nltk.org/ +

Extrait d'une critique positive d'un film IMdB du jeu de données NLTK

corpus : movie_reviews +

fichier : pos/cv998_14111.txt +

le deuxième film épique de steven spielberg sur la seconde guerre mondiale est un chef-d'œuvre incontesté du cinéma . spielberg , encore étudiant en cinéma , a réussi à ressusciter le genre de la guerre en produisant l'un de ses films les plus poignants et les plus puissants . il a également réussi à faire briller tom hanks , qui livre une performance époustouflante . pendant environ 160 de ses 170 minutes, ' sauver le soldat ryan ' est sans faille . littéralement . l ' histoire est assez simple . après l ' invasion du jour J ( dont les séquences sont tout à fait spectaculaires ), capt . john miller ( joué par tom hanks ) et son équipe sont forcés à chercher un soldat . james ryan ( joué par matt damon ), dont les frères sont tous morts au combat. une fois qu ' ils l ' ont trouvé , ils doivent le ramener immédiatement pour qu'il puisse rentrer chez lui . la compagnie de miller est composée d ' acteurs aux jeux tout simplement sensationnels : bary pepper , adam goldberg , vin diesel , giovanni ribisi , davies et burns . le film se clôture avec des scènes de bataille extraordinaires . +

Les ouroboros de l'apprentissage automatique

Wikipédia est devenue une source d'apprentissage non seulement pour les humains, mais aussi pour les machines. Ses articles sont des sources de premier ordre pour l’entraînement de modèles. Le matériel avec lequel les machines sont entraînées est identique au contenu qu'elles ont aidé à écrire. En fait, au début de Wikipédia, de nombreux articles ont été écrits par des robots. Rambot, par exemple, était un robot controversé sur la plateforme anglophone. Il est l'auteur de 98% des pages décrivant les villes américaines. +

A cause de ces interventions de robots thématiques et régulières, les modèles de prédiction qui sont entraînés sur le dump de Wikipedia ont une vision unique de la composition des articles. Par exemple, un modèle thématique entraîné sur l'ensemble des articles de Wikipédia associe 'rivière' à 'Roumanie' et 'village' à 'Turquie'. C'est parce qu'il y a plus de 10000 pages écrites sur les villages en Turquie. Cela devrait suffire à susciter des envies de voyage, mais c'est bien trop par rapport à d'autres pays. L'asymétrie provoque une fausse corrélation et doit être corrigée. La plupart des modèles tentent d'exclure le travail de ces auteurs robots prolifiques. +

Référence : https://blog.lateral.io/2015/06/the-unknown-perils-of-mining-wikipedia/ +

+

Lecteurs

+

Nous communiquons avec les ordinateurs au moyens de langages. Nous cliquons sur des icônes sous forme de mots, nous tapons des mots sur des claviers, nous utilisons notre voix pour leur donner des instructions. Parfois, nous confions nos pensées les plus intimes à notre ordinateur en oubliant qu'il s'agit d’une calculatrice avancée. Un ordinateur comprend chaque mot comme une combinaison de zéros et de uns. Une lettre est lue comme un numéro ASCII spécifique : 'A' majuscule est 001. +

Dans tous les 'rule-based models', l'apprentissage automatique classique et les réseaux de neurones, les mots subissent une traduction en chiffres pour saisir le sens sémantique du langage. Cela se fait en comptant. Certains modèles comptent la fréquence des mots simples, d'autres la fréquence des combinaisons de mots, d'autres encore la fréquence des noms, des adjectifs, des verbes ou des phrases de noms et de verbes. Certains remplacent simplement les mots d'un texte par leur numéro d'index. Les nombres optimisent la vitesse opérationnelle des processus informatiques, ce qui conduit à des prédictions rapides, mais ils suppriment aussi les liens symboliques que les mots peuvent avoir. Nous présentons ici quelques techniques destinées à rendre un texte intelligible pour une machine. +

+
Oeuvres
+

Le TF-IDF

par Algolit +

Le TF-IDF (Term Frequency-Inverse Document Frequency) est une méthode de pondération utilisée dans la recherche de textes. Cette mesure statistique permet d'évaluer l'importance d'un terme contenu dans un document, relativement à une collection ou un corpus de documents. Le poids augmente proportionnellement au nombre d'occurrences du mot dans le document. Il varie également en fonction de la fréquence du mot dans le corpus. Le TF-IDF est notamment utilisé dans la classification des spams. +

Une interface web met en scène cet algorithme à travers des animations permettant de comprendre les différentes étapes de classification d’un texte. Comment un programme basé sur le TF-IDF lit un texte ? Comment transforme-t-il les mots en nombres ? +

--- +

Concept, code, animation : Sarah Garcin +

Cultiver un Arbre

par Algolit +

La nature de mots est une catégorie que nous apprenons à l'école : nom, verbe, adjectif, adverbe, pronom, préposition, conjonction, interjection, et parfois chiffre, article, ou déterminant. +Dans le traitement du langage naturel, il existe de nombreux écrits qui permettent d'analyser des phrases. Cela signifie que l'algorithme peut déterminer la nature de chaque mot d'une même phrase. 'Cultiver un arbre' utilise cette technique pour définir tous les noms dans une phrase spécifique. Chaque nom est alors remplacé par sa définition. Cela permet à la phrase de grandir de façon autonome et infinie. La recette de 'Cultiver un arbre' s'inspire de la 'Littérature Définitionnelle', une contrainte inventée par Marcel Benabou en 1966 au sein de l’Oulipo. Dans une phrase donnée, on remplace chaque élément significatif (nom, adjectif, verbe, adverbe) par l'une de ses définitions dans un dictionnaire donné ; on répète l'opération sur la nouvelle phrase reçue, et ainsi de suite. +

Le dictionnaire utilisé dans cet ouvrage est Wordnet. Wordnet est une combinaison d'un dictionnaire et d'un thésaurus qui peut être lu par des machines. Selon Wikipédia, il a été créé dans le Cognitive Science Laboratory de l'Université de Princeton à partir de 1985. +


Concept, code & interface : An Mertens & Gijs de Heij +

Le Livre de Demain dans un Sac de Mots

par Algolit +

Le modèle du 'sac de mots' est une représentation simplifiée du texte utilisé dans le traitement du langage naturel. Dans ce modèle, un texte est représenté sous forme de collection de mots uniques, sans tenir compte de la grammaire, de la ponctuation et même de l'ordre des mots. Le modèle transforme le texte en une liste de mots et leur occurrence dans le texte, littéralement un sac de mots. +

Cette forte réduction de la langue fut un choc au début de nos expériences en apprentissage automatique. Le sac de mots est souvent utilisé comme référent, sur base duquel le nouveau modèle doit s’efforcer d’être plus performant. Il peut comprendre le sujet d'un texte en reconnaissant les mots les plus fréquents ou importants. On mesure souvent les similitudes des textes en comparant leurs sacs de mots. +

Pour cet ouvrage, l'article 'Le Livre de Demain' de l'ingénieur G. Vander Haeghen, publié en 1907 dans le Bulletin de l'Institut International de Bibliographie, a été littéralement réduit à un sac de mots. VOus pouvez acheter votre exemplaire à l'accueil du Mundaneum. +

--- +

Concept & réalisation: An Mertens +

Lectures algorithmiques du portrait parlé de Bertillon

par Guillaume Slizewicz (Espèces urbaines) +

'Un code télégraphique du portrait parlé', écrit en 1907, est une tentative de traduire en chiffres le 'portrait parlé', technique de description du visage créée par Alphonse Bertillon, créateur de l'anthropométrie judiciaire. En appliquant ce code, Otlet espérait que les visages des criminels et des fugitifs pourraient être facilement communiqués par voie télégraphique. Dans sa forme, son contenu et son ambition, ce texte représente la relation complexe que nous entretenons avec les technologies documentaires. Ce document a été choisi comme base pour la création des installations suivantes pour trois raisons. +

- Premièrement, ce texte est un algorithme en soi, un algorithme de compression, ou pour être plus précis, la présentation d'un algorithme de compression. Il tente de réduire la taille de l'information tout en la gardant lisible pour la personne possédant le code. À cet égard, elle est étroitement liée à la façon dont nous créons notre technologie, à la recherche d'une plus grande efficacité, de résultats plus rapides et de méthodes moins coûteuses. Il représente notre appétit de chiffrement qui s'étend au monde entier, notre envie de mesurer les plus petites choses, d'étiqueter les différences les plus infimes... Ce texte incarne en lui-même la vision du Mundaneum. +

- Deuxièmement, on y traite des raisons et des mises en œuvre de nos technologies. La présence de ce texte dans les archives sélectionnées est presque ironique à une époque où la reconnaissance faciale et la surveillance des données font la une des journaux. Ce texte présente les mêmes caractéristiques que certaines technologies d'aujourd'hui : il est motivé par un contrôle social, classifie les personnes, pose les bases d'une société de surveillance. Les caractéristiques physionomiques sont au cœur de récentes controverses : les photos d'identité ont été standardisées par Bertillon, elles sont maintenant utilisées pour entraîner des réseau neuronaux à identifier les criminels, les systèmes de reconnaissance faciale permettent des arrestations via notre infrastructure de caméras de surveillance et certains affirment que les caractéristiques physiques peuvent prédire l'orientation sexuelle. +

- Le dernier point concerne la façon dont, en tant que témoignage écrit, ce texte représente l'évolution de notre techno-structure: ce que nos outils nous permettent de faire, ce qu'ils nous interdisent, ce qu'ils entravent, ce qu'ils nous font retenir et ce qu'ils nous font oublier. Ce document permet une classification entre les personnes, et instaure une normalité. Il brise un continuum en morceaux, et permet les stigmatisations et les discriminations. D'un autre côté, ce document semble également obsolète aujourd'hui, car cette techno-structure n'a pas besoin de descriptions écrites aussi détaillées sur les fugitifs, les criminels ou les citoyens. Nous pouvons maintenant trouver des empreintes digitales, des scanners d'iris ou des informations ADN dans de grands jeux de données et les comparer directement. Parfois, les systèmes agissent indépendamment, sans surveillance humaine et reconnaissent directement l'identité d'une personne par ses traits faciaux ou sa démarche. Ces machines n'utilisent pas un langage alphabétique complexe pour décrire un visage, mais des listes de chiffres. Ainsi, tous les mots utilisés dans ce document semblent désuets, datés. Avons-nous oublié ce que certains d'entre eux signifient ? La photographie nous a-t-elle fait oublier comment décrire les visages ? Les assistants vocaux nous l'apprendront-il de nouveau ? +

Écrire avec Otlet +

Ecrire avec Otlet est un générateur de personnages qui utilise le code du portrait parlé comme base de données. Des nombres aléatoires sont générés et traduits en un ensemble de caractéristiques humaines. En créant des instances uniques, l'algorithme révèle la richesse de la description qui est possible avec 'Un code du portrait' tout en incorporant ses nuances. +

Interprétation du portrait parlé de Bertillon +

Ce travail établit un parallèle entre le système dit de "Bertillonage" et les systèmes actuels de description de visage. Une webcam associée à un algorithme de reconnaissance faciale capte le visage du spectateur et le traduit en chiffres sur un écran, en l'imprimant à côté des visages annotés par Bertillon. +

Le pendu

par Laetitia Trozzi, étudiante Arts²/Section Arts Numériques +

Quoi de mieux pour découvrir Paul Otlet et sa passion pour la littérature que de jouer au pendu? À travers ce jeu simple, qui consiste à deviner les lettres manquantes dans un mot, le but est de faire découvrir au public des termes et des faits liés à un des créateurs du mundaneum. +

En utilisant un algorithme de détection de fréquence de mots dans un texte, une série de mots significatifs ont été isolés dans la bibliographie de Paul Otlet. Cette série de mots a ensuite été intégrée à un jeu du pendu présenté dans un terminal. La difficulté du jeu augmente graduellement en proposant au joueur des mots de plus en plus longs. Durant les phases de jeux, des informations sont affichées en lien avec la vie et l'œuvre de Paul Otlet. +

+

Récits contextualisés autour des Lecteurs


+Naive Bayes, Support Vector Machines ou Régression Linéaire sont considérés comme des algorithmes classiques d'apprentissage automatique. Ils fonctionnent bien lorsqu'ils apprennent avec de petits jeux de données. Mais ils nécessitent souvent des lecteurs complexes. La tâche accomplie par les lecteurs est également appelée 'feature engineering'. Cela signifie qu'un être humain doit consacrer du temps à une analyse exploratoire approfondie du jeu de données. +

Leurs caractéristiques peuvent être la fréquence des mots ou des lettres, mais aussi des éléments syntaxiques comme les noms, les adjectifs ou les verbes. Les caractéristiques les plus importantes pour la tâche à résoudre doivent être soigneusement sélectionnées et transmises à l'algorithme classique d'apprentissage automatique. Ce processus diffère de celui des réseaux de neurones. Lors de l'utilisation d'un réseau de neurones, il n'est pas nécessaire de recourir au 'feature engineering'. Les humains peuvent transmettre les données directement au réseau et obtiennent généralement de bonnes performances dès le départ. Cela permet d'économiser beaucoup de temps et de ressources. +

L'inconvénient de la collaboration avec les réseaux de neurones est que vous avez besoin de beaucoup plus de données pour entraîner votre modèle de prédiction. Pensez à au moins 1 Go de fichiers texte. Pour vous donner une référence, 1 A4, soit un fichier texte de 5000 caractères, ne pèse que 5 Ko. Il vous faudrait donc 8.589.934 pages. Traiter plus de données sous-entend d'avoir accès à ces données et surtout, d'avoir beaucoup plus de puissance de traitement. +

Les N-grammes de caractères pour la reconnaissance d'un auteur

Imaginez... vous travaillez pour une entreprise depuis plus de dix ans. Vous avez écrit des tonnes de courriels, d'articles, de notes internes et de rapports sur des sujets et dans des genres très différents. Tous vos écrits, ainsi que ceux de vos collègues, sont sauvegardés en toute sécurité sur les serveurs de l'entreprise. +

Un jour, vous tombez amoureuse d'une collègue. Après un certain temps, vous réalisez que cette personne est non seulement folle et hystérique mais qu'elle dépend beaucoup de vous. Le jour où vous décidez de rompre, votre ex élabore un plan pour vous tuer. Elle réussit. Pas de chance. Une lettre de suicide signée de votre nom est retrouvée à côté de votre cadavre. Celle-ci raconte que vous avez décidé de mettre fin à votre vie à cause de problèmes émotionnels. Vos meilleurs amis ne croient pas au suicide. Ils décident de porter l'affaire devant les tribunaux. Et là, à partir des textes que vous et d'autres avez produits, un modèle d'apprentissage automatique révèle que la lettre de suicide a été écrite par quelqu'un d'autre. +

Comment une machine analyse-t-elle les textes pour vous identifier ? La caractéristique la plus robuste pour la reconnaissance de l'auteur est fournie par la technique des N-grammes de caractères. Elle est utilisée dans des cas qui présentent une grande variété dans les thématiques et les genres d’écriture. Lors de l'utilisation des N-grammes de caractères, les textes sont considérés comme des séquences de caractères. Considérons le trigramme des caractères. Toutes les séquences de trois caractères qui se chevauchent sont isolées. Par exemple, le trigramme de caractères de 'suicide', serait, 'sui', 'uic', 'ici', 'cid' et 'ide'. Les N-grammes de caractères sont très simples, ils sont indépendants du langage et tolérants au bruit. De plus, les fautes d'orthographe ne compromettent pas la technique. +

Les motifs trouvés avec les N-grammes de caractères se concentrent sur les choix stylistiques qui sont faits inconsciemment par l'auteur. Les modèles restent stables sur toute la longueur du texte, ce qui est important pour reconnaître l’auteur. D'autres types d'expériences pourraient inclure la longueur des mots ou des phrases, la richesse du vocabulaire, la fréquence des mots de fonction et même les mesures syntaxiques ou sémantiques. +

Cela signifie non seulement que votre empreinte physique est unique, mais qu’il en va de même de la façon dont vous composez vos pensées ! +

La même technique n-gramme a découvert que 'The Cuckoo's Calling', un roman de Robert Galbraith, a en fait été écrit par... J.K. Rowling ! +

Références :
+- Essai: On the Robustness of Authorship Attribution Based on Character N-gram Features, Efstathios Stamatatos, in Journal of Law & Policy, Volume 21, Issue 2, 2013.
+- Article: https://www.scientificamerican.com/article/how-a-computer-program-helped-show-jk-rowling-write-a-cuckoos-calling/ +

Histoire des N-grammes

L'algorithme des N-grammes peut être retracé jusqu'aux travaux de Claude Shannon en théorie de l'information. Dans l'article 'A mathematical theory of communication', publié en 1948, Claude Shannon réalise la première instance d'un modèle de langage naturel à base des N-grammes. Il a posé la question suivante : étant donné la séquence des lettres, quelle est la probabilité de la prochaine lettre ?
+Si vous lisez l'extrait suivant, pouvez-vous nous dire par qui il a été écrit ? Shakespeare ou un robot N-grammes ? +

SEBASTIEN : Dois-je rester debout jusqu'à la rupture. +BIRON : Cache ta tête. +VENTIDIUS : Il se rendit à Athènes, où, par le voeu. que j'ai fait pour m'occuper de toi. +FALSTAFF : Mon bon fripouille. +

Vous aviez peut-être deviné, en considérant le sujet de ce récit, qu'un algorithme N-grammes a généré ce texte. Le modèle est entraîné sur l'oeuvre complète de Shakespeare. Alors que les algorithmes plus récents, tels que les réseaux de neurones récursifs de CharRNN, deviennent célèbres pour leurs performances, les N-grammes exécutent encore beaucoup de tâches NLP. Elles sont utilisés dans la traduction automatique, la reconnaissance vocale, la correction orthographique, la détection d'entités, l'extraction d'informations, etc. +

Référence : http://www.math.harvard.edu/~ctm/home/text/others/shannon/entropy/entropy.pdf +

Dieu dans Google Books

En 2006, Google crée un jeu de données de N-grammes à partir de sa collection de livres numérisés pour le mettre en ligne. Récemment, ils ont également réalisé une visionneuse de N-grammes. Cela a permis de nombreuses recherches sociolinguistiques. Par exemple, en octobre 2018, le New York Times Magazine a publié un article d'opinion intitulé 'It's Getting Harder to Talk About God'. L'auteur, Jonathan Merritt, avait analysé la mention du mot 'Dieu' dans le jeu de données de Google à l'aide du visualiseur de N-grammes. +Il a conclu qu'il y a eu un déclin dans l'usage du mot depuis le 20ème siècle. Le corpus de Google contient des textes du 16e jusqu'au 21e siècle. Cependant l'auteur a manqué d'observer la popularité croissante des revues scientifiques vers le début du 20ème siècle. Ce nouveau genre, dans lequel le mot Dieu n'apparaît pas, a fait basculer le jeu des données. Si la littérature scientifique était retirée du corpus, la fréquence du mot 'Dieu' s'écoulerait toujours comme l'ondulation douce d'une vague lointaine. +

Référence : https://www.nytimes.com/2018/10/13/opinion/sunday/talk-god-sprituality-christian.html +

Les traits grammaticaux extraits de Twitter influencent le marché boursier

Les frontières entre les disciplines académiques s'estompent. La recherche économique mélangée à la psychologie, aux sciences sociales, aux concepts cognitifs et émotionnels créent un nouveau sous-domaine économique, appelé 'l'économie comportementale'. +

Cela signifie que les chercheurs commencent à expliquer un mouvement boursier basé sur d'autres facteurs que les facteurs purement économiques. La Bourse et 'l'opinion publique' s'influencent mutuellement. De nombreuses recherches sont effectuées sur la façon d'utiliser 'l'opinion publique' pour prédire les tendances dans le cours des actions. +

'L'opinion publique' est évaluée à partir de grandes quantités de données publiques, comme les tweets, les blogs ou la presse en ligne. Des recherches montrent que l'évolution des cours boursiers peut, dans une certaine mesure, être prédit en examinant 'l'opinion publique' à travers l'analyse des données automatique. On trouve de nombreux articles scientifiques en ligne, qui analysent la presse sur le 'sentiment' qui y est exprimé. Un article peut être annoté comme plus ou moins positif ou négatif. Les articles de presse annotés sont ensuite utilisés pour entraîner un modèle d’apprentissage automatique, qui permet de prédire les tendances boursières, en les marquant comme 'à la baisse' ou 'à la hausse'. Quand une entreprise fait mauvaise presse, les traders vendent. Au contraire, si les nouvelles sont bonnes, ils achètent. +

Un article de Haikuan Liu de l'Université Nationale Australienne affirme que le temps des verbes utilisés dans les tweets peut être un indicateur de la fréquence des transactions financières. Son idée s'inspire du fait que la conjugaison des verbes est utilisée en psychologie pour détecter les premiers stades de la dépression humaine. +

Référence : Grammatical Feature Extraction and Analysis of Tweet Text: An Application towards Predicting Stock Trends, The Australian National University (ANU) +

Sac de mots

Dans le traitement du langage naturel, le 'sac de mots' est considéré comme un modèle simple. Il dépouille un texte de son contexte et le décompose dans sa collection de mots uniques. Ensuite, ces mots sont comptés. Dans les phrases précédentes, par exemple, le mot 'mots' est mentionné trois fois, mais ce n'est pas nécessairement un indicateur de l'objet du texte. +

La première apparition de l'expression 'sac de mots' semble remonter à 1954. Zellig Harris a publié un article dans le contexte des études linguistiques, intitulé 'Distributional Structure'. Dans la partie intitulée 'Le sens en fonction de la distribution', il dit que 'le langage n'est pas seulement un sac de mots, mais aussi un outil aux propriétés particulières qui ont été façonnées au cours de son utilisation. Le travail du linguiste est précisément de découvrir ces propriétés, que ce soit pour l'analyse descriptive ou pour la synthèse du système quasi-linguistique.' +

+

Apprenants

+

Les Apprenants sont les algorithmes qui distinguent les pratiques d'apprentissage automatique des autres pratiques algorithmiques. Les Apprenants sont aussi appelés classificateurs. Ce sont des chercheurs de motifs, capables de fouiller dans les données et de générer une sorte de 'grammaire' spécifique. Les Apprenants sont souvent basés sur des techniques statistiques. Chacun d'entre eux présente des caractéristiques individuelles. Certains ont besoin d'une grande quantité de données d'entraînement pour fonctionner, d'autres peuvent s'en tirer avec un petit jeu de données annotées. Certains s'acquittent bien de tâches de classification, comme l'identification des spam, d'autres sont plus aptes à prédire les chiffres, comme les températures, les distances, les valeurs boursières, et ainsi de suite. +

La terminologie de l'apprentissage automatique n'est pas encore complètement établie. Selon le domaine (les statistiques, l'informatique ou les sciences humaines) ils sont appelés par des mots différents. Lorsque nous parlons d’Apprenants, nous parlons des fonctions imbriquées qui ont la capacité de générer d'autres fonctions, de les évaluer et de les réajuster en fonction des données. Les Apprenants sont bons pour comprendre et révéler les motifs. Mais ils ne distinguent pas toujours bien quels motifs doivent être répétés. +

Dans les logiciels, il n'est pas toujours possible de distinguer les éléments caractéristiques des classificateurs, car ils sont cachés dans des modules ou bibliothèques sous-jacents. Les programmeurs peuvent les invoquer en utilisant une seule ligne de code. Par conséquent, pour cette exposition, nous avons développé deux jeux de table qui montrent en détail le processus d'apprentissage de classificateurs simples, mais fréquemment utilisés. +

+
Oeuvres
+

Jouez au Naive Bayes

par Algolit +

Dans l'apprentissage automatique, les méthodes Naive Bayes sont des classificateurs probabilistes simples qui sont largement utilisés pour filtrer le spam et décider si un texte est positif ou négatif. +

Ils nécessitent une petite quantité de données d'entraînement pour estimer les paramètres nécessaires. Ils peuvent être extrêmement rapides par rapport à des méthodes plus sophistiquées. Ils sont difficiles à généraliser, ce qui signifie qu'ils exécutent des tâches très spécifiques, exigeant d'être entraînés avec le même style de données que celui qui sera utilisé par la suite. +

Ce jeu vous permet de jouer selon les règles de Naive Bayes. Tout en exécutant manuellement le code, vous créez votre propre modèle ludique qui 'fonctionne'. Un peu de prudence s'impose : parce que vous ne l'entraînez qu'en 6 phrases - au lieu de 2000 au minimum - il n'est pas représentatif du tout ! +

--- +

Concept & réalisation: An Mertens +

Jouez à la Régression Linéaire

par Algolit +

La régression linéaire est l'un des algorithmes les plus connus et les mieux compris en statistique et en apprentissage automatique. Il existe depuis près de 200 ans. C'est un modèle attrayant parce que la représentation est très simple. En statistique, la régression linéaire est une méthode statistique qui permet de résumer et d'étudier les relations entre deux paramètres quantitatifs. +

En jouant à ce jeu, vous réaliserez qu'en tant que joueur, vous avez beaucoup de décisions à prendre. Vous découvrirez ce que signifie créer un jeu de données cohérent, de décider ce qu’il doit inclure. Si tout se passe bien, vous ressentirez le besoin de modifier vos données afin d'obtenir de meilleurs résultats. Cela fait partie de l'art de l'approximation qui est à la base de toutes les pratiques d'apprentissage automatique. +


Concept & réalisation: An Mertens +

Traité de documentation. Trois poèmes algorithmiques

par Rémi Forte, designer-chercheur à l’Atelier national de recherche typographique, Nancy, France +

sérigraphie sur papier, 60 × 80 cm, 25 ex., 2019, en vente à la réception du Mundaneum. +

Sous la forme de trois affiches, ces poèmes opèrent une relecture algorithmique et poétique du 'Traité de documentation' de Paul Otlet. Ils sont le résultat d’un même algorithme basé sur les règles mystérieuses de l'intuition humaine. Il est appliqué à trois fragments prélevés dans l’ouvrage de Paul Otlet et se veut représentatif de sa pratique bibliologique. Pour chaque fragment, l’algorithme découpe le texte, puis mots et signes de ponctuation sont comptabilisés et réordonnés en une liste. À chaque ligne, les éléments se combinent et épuisent la syntaxe du fragment sélectionné. +

Le langage de Paul Otlet reste perceptible mais exacerbé jusqu’à l’absurde. Pour le lecteur, la systématisation du texte est déconcertante et ses habitudes de lecture sont bousculées. Construite selon une équation mathématique, la composition typographique de l’affiche est tout aussi systématique que le poème. Cependant, des frictions surviennent ponctuellement ; boucle après boucle, les lignes s’étendent jusqu’à mordre la colonne voisine. Des superpositions se créent et des mots se trouvent dissimulés par d’autres. Ces télescopages dessinent des parcours de lecture alternatifs. +

+

Récits contextualisés autour des Apprenants

Naive Bayes & Viagra

L'algorithme Naive Bayes est un Apprenant célèbre qui réussit bien avec peu de données. Nous l'appliquons tout le temps. Christian & Griffiths affirment dans leur livre, 'Algorithms to Live by', que 'nos jours sont remplis de petites données'. Imaginez par exemple que vous vous trouviez à un arrêt de bus dans une ville étrangère. L'autre personne qui se tient là attend depuis 7 minutes. Qu'est-ce que vous faites ? Décidez-vous d'attendre ? Et si oui, pour combien de temps ? Quand allez-vous envisager d'autres options ? Un autre exemple. Imaginez qu’un ami demande conseil sur une relation. Il est avec son nouveau partenaire depuis un mois. Doit-il l'inviter à l’accompagner à un mariage de famille ? +

Les croyances préexistantes sont cruciales pour que Naive Bayes fonctionne. L'idée est de calculer les probabilités sur base de ces connaissances préalables et d'une situation spécifique. +

Le théorème a été formulé dans les années 1740 par le révérend et mathématicien amateur Thomas Bayes. Il a consacré sa vie à résoudre la question de savoir comment gagner à la loterie. Mais la règle de Bayes a été rendue célèbre dans sa forme actuelle par le mathématicien Pierre-Simon Laplace en France un peu plus tard dans le même siècle. Longtemps après la mort de La Place, la théorie tombe dans l'oubli jusqu'à ce qu'elle soit à nouveau déterrée pendant la Seconde Guerre mondiale dans le but de briser le code Enigma. +

La plupart des personnes sont aujourd'hui entrées en contact avec Naive Bayes par le biais de leurs dossiers de courrier indésirable. Naive Bayes est un algorithme largement utilisé pour la détection du spam. C’est une coïncidence que le Viagra, médicament contre la dysfonction érectile, a été approuvé par la FDA (US Food & Drug Administration) en 1997, au moment où environ 10 millions d'utilisateurs dans le monde avaient des comptes de messagerie Web gratuits. Les sociétés de vente avaient l’intelligence d'utiliser la publicité massive par e-mail : c'était un média intime, à l'époque réservé à la communication privée. En 2001, le premier programme SpamAssasin s'appuyant sur Naive Bayes a été téléchargé sur SourceForge, réduisant ainsi le marketing 'guerilla par courriel'. +

Référence : Machine Learners, by Adrian MacKenzie, The MIT Press, Cambridge, US, November 2017. +

Naive Bayes & Enigma

Cette histoire de Naive Bayes fait partie du livre 'The theory that would not die', écrit par Sharon Bertsch McGrayne. Elle décrit entre autres comment Naive Bayes est vite oubliée après la mort de Pierre-Simon Laplace, son inventeur. Le mathématicien aurait échoué à créditer les travaux des autres. Par conséquent, il a souffert d’accusations largement diffusées contre sa réputation. Ce n'est que 150 ans plus tard que l'accusation s'est avérée fausse. +

Avançons en 1939, alors que le règne de Bayes demeure pratiquement tabou, mort et enterré dans le domaine de la statistique. Lorsque la France est occupée en 1940 par l'Allemagne, qui contrôle les usines et les fermes européennes, la plus grande inquiétude de Winston Churchill est le péril U-boot. Les opérations de sous-marin étaient étroitement contrôlées par le quartier général allemand en France. Chaque sous-marin partait en mer sans ordres, et les recevait sous forme de messages radio codés après avoir atteint l'Atlantique. Les messages étaient cryptés par des machines à brouiller les mots, appelées Enigma machines. Enigma ressemblait à une machine à écrire compliquée. Elle est inventée par la société allemande Scherbius & Ritter après la première guerre mondiale, lorsque le besoin de machines d'encodage de messages est devenu douloureusement évident. +

Curieusement, et heureusement pour Naive Bayes et le monde, à l'époque le gouvernement britannique et les systèmes d'éducation considéraient les mathématiques appliquées et les statistiques sans aucun rapport avec la résolution pratique des problèmes. Les données statistiques ont été jugées gênantes en raison de leur caractère détaillé. Ainsi, les données du temps de guerre étaient souvent analysées non pas par des statisticiens, mais par des biologistes, des physiciens et des mathématiciens théoriques. Aucun d'entre eux ne savait qu'en ce qui concerne les statistiques sophistiquées, la règle de Bayes était considérée non-scientifique. +

C'est le désormais célèbre Alan Turing, mathématicien, informaticien, logicien, cryptanalyste, philosophe et biologiste théorique, qui a utilisé le système de probabilités des règles de Bayes pour concevoir la 'bombe'. Il s'agissait d'une machine électromécanique à grande vitesse pour tester tous les arrangements possibles qu'une machine Enigma produirait. Afin de déchiffrer les codes navals des U-boot, Turing simplifie le système de la 'bombe' en utilisant des méthodes baysiennes. La 'bombe' a transformé le quartier général du Royaume-Uni en une usine de décryptage. L'histoire est bien illustrée dans 'The Imitation Game', un film de Morten Tyldum, sorti en 2014. +

Une histoire sur les petits pois

En statistique, la régression linéaire est une méthode d'apprentissage supervisé. Après l'entraînement avec des données annotées, le modèle tente de prédire les valeurs de nouvelles données inconnues. La régression linéaire permet de résumer et d'étudier les relations entre deux éléments, afin de voir s'il existe une corrélation entre eux. S'il y a une corrélation positive, la connaissance d'un élément aide à prédire l'autre. Par exemple, étant donné la critique d'un film, nous pouvons prédire le nombre moyen d'étoiles qui lui sont attribuées, plutôt que de simplement dire si la critique est positive ou négative. +

Parfois, les figures que nous rencontrons en grattant sous la surface ne sont pas à notre goût. L'idée de régression vient de Sir Francis Galton, un scientifique influent du 19e siècle. Il a passé sa vie à étudier le problème de l'hérédité - pour comprendre à quel point les caractéristiques d'une génération d'êtres vivants se manifestent dans la génération suivante. Il a établi le domaine de l'eugénisme et l'a défini comme 'l'étude des organismes sous contrôle social qui peuvent améliorer ou altérer les qualités raciales des générations futures, que ce soit physiquement ou mentalement'. Par conséquent, son nom a marqué l'histoire et l'héritage du racisme scientifique. +

Galton a d'abord abordé le problème de l'hérédité en examinant les caractéristiques du petit pois doux. Il a choisi le petit pois parce que l'espèce peut s'auto-fertiliser. Les plantes femelles héritent des variations génétiques des plantes mères sans la contribution d'un deuxième parent. Cette caractéristique élimine la nécessité de traiter avec des sources multiples. +

En 1875, Galton a distribué des paquets de graines de petits pois à sept amis. Chaque ami recevait des graines de poids uniforme, mais il y avait des variations importantes d'un paquet à l'autre. Les amis de Galton ont récolté les graines des nouvelles générations de plantes et les lui ont rendues. Il a ensuite tracé le poids des graines femelles contre le poids des graines mères. Il a découvert que le poids médian des graines femelles d'une taille particulière de la semence mère décrivait approximativement une ligne droite avec une pente positive inférieure à 1,0. Les premières idées de Galton sur la régression sont nées de ce diagramme bidimensionnel qui compare la taille des petits pois femelles à celle des petits pois mères. Il a utilisé cette représentation de ses données pour illustrer les fondements de ce que les statisticiens appellent encore aujourd'hui la régression. Pour Galton, c'était aussi une façon de décrire les avantages de l'eugénisme. +

La recherche de Galton été appréciée par de nombreux intellectuels de son temps. En 1869, dans 'Hereditary Genius', Galton affirme que le génie est principalement une question d'ascendance. Il croyait qu'il y avait une explication biologique à l'inégalité sociale entre les races. Galton a même persuadé son demi-cousin Charles Darwin de ses idées. Après avoir lu l'article de Galton, Darwin a déclaré : 'Vous avez converti un adversaire, car j'ai toujours soutenu qu'à l'exception des imbéciles, les hommes ne différaient pas beaucoup sur le plan intellectuel, seulement sur le plan du zèle et du labeur'. Heureusement, l'étude moderne de l'hérédité a réussi à éliminer le mythe de la différence génétique fondée sur la race. +

La raison pour laquelle nous l'évoquons dans cette série, c'est qu'il a été parmi les premiers scientifiques à utiliser des méthodes statistiques dans ses recherches. Sa principale contribution dans ce domaine a été l'analyse de régression linéaire, qui a fondé les bases d'une grande partie de la statistique moderne. Alors que nous nous engageons dans le domaine de l'apprentissage automatique, Algolit essaie de ne pas oublier que les systèmes d'ordre ont du pouvoir, et que ce pouvoir n'a pas toujours été exercé au bénéfice de tout le monde. L'apprentissage automatique a hérité de nombreux aspects de la recherche statistique, certains plus agréables que d'autres. Nous devons nous méfier, car ces visions du monde s'infiltrent dans les modèles algorithmiques qui créent des ordres aujourd'hui. +

Références : +

http://galton.org/letters/darwin/correspondence.htm +

https://www.tandfonline.com/doi/full/10.1080/10691898.2001.11910537 +

http://www.paramoulipist.be/?p=1693 +

Perceptron

Nous nous trouvons dans une décennie où les réseaux de neurones suscitent beaucoup d'attention. Cela n'a pas toujours été le cas. L'étude des réseaux de neurones remonte aux années 1940, lorsque la première métaphore des neurones est apparue. Le neurone n'est pas la seule référence biologique dans le domaine de l'apprentissage automatique - pensez au mot corpus ou formation. Le neurone artificiel a été construit en relation étroite avec son homologue biologique. +

Le psychologue Frank Rosenblatt s'est inspiré des travaux de son collègue Donald Hebb sur le rôle des neurones dans l'apprentissage humain. Hebb a déclaré que 'les cellules qui communiquent, se mettent ensemble.' Sa théorie est maintenant à la base de l'apprentissage associatif humain, mais aussi de l'apprentissage en réseau de neurones non supervisé. Il a poussé Rosenblatt à développer l'idée du neurone artificiel. En 1962, il crée le Perceptron. Le Perceptron est un modèle qui apprend par la pondération des entrées. +

Il a été mis de côté par les chercheurs, parce qu'il ne peut gérer que la classification binaire. Cela signifie que les données doivent être séparables linéairement, comme par exemple hommes et femmes, noir et blanc. Il est clair que ce type de données est très rare dans le monde réel. Lorsque le soi-disant premier hiver de l'Intelligence Artificielle (IA) est arrivé en 1974-1980 et que le financement consacré à cette recherche a diminué, le Perceptron a également été négligé. Pendant 10 ans, il est resté inactif. Lorsque le printemps s'installe à la fin des années 1980, de nouvelles générations de chercheurs le reprennent et l'utilisent pour construire des réseaux de neurones. Ceux-ci contiennent de multiples couches de Perceptrons. C'est ainsi que les réseaux de neurones voient la lumière. On pourrait dire que cette saison d'apprentissage automatique est particulièrement chaude, mais il faut un autre hiver pour connaître un été. +

BERT

Certains articles en ligne disent que l'année 2018 a marqué un tournant dans le domaine du traitement du langage naturel. Une série de modèles de 'deep learning' ont permis d'obtenir des résultats excellents pour des tâches comme les réponses aux questions ou la classification des sentiments. L'algorithme BERT de Google est entré dans les concours d'apprentissage automatique de l'année dernière comme un 'modèle gagnant'. Il témoigne d’une performance supérieure sur une grande variété de tâches. +

BERT est pré-entraîné; ses poids sont appris à l'avance grâce à deux tâches non supervisées. Cela signifie que BERT n'a pas besoin d'être entraîné à partir de zero pour chaque nouvelle tâche. Vous n'avez qu'à affiner ses poids. +

Cela signifie également qu'un programmeur souhaitant utiliser BERT ne sait plus sur quels paramètres BERT est réglé, ni à base de quelles données il a appris ses performances. +

BERT signifie 'Bidirectional Encoder Representations from Transformers'. Cela signifie que BERT permet un entraînement bidirectionnel. Le modèle apprend le contexte d'un mot à partir de son environnement, à gauche et à droite d'un mot. En tant que tel, il peut faire la différence entre 'Je suis pile à l’heure' et 'Je l’ai mis sur la pile'. +

Quelques faits : +

- BERT_large, avec 345 millions de paramètres, est le plus grand modèle du genre. Il est manifestement supérieur à BERT_base, qui utilise la même architecture avec 'seulement' 110 millions de paramètres, pour les tâches à petite échelle. +

- Pour exécuter BERT, vous devez utiliser les TPU. Ce sont les processeurs (CPU) de Google spécialement conçus pour TensorFLow, la plateforme de 'deep learning'. Les tarifs de location de TPU vont de de 8$/h à 394$/h. Si vous êtes comme nous, et vous ne voulez pas travailler avec des sollutions prêtes à l'emploi, et vous souhaitez ouvrir la boîte noire, BERT exige de faire des économies pour pouvoir l’utiliser. +

Références : +

https://ai.googleblog.com/2018/11/open-sourcing-bert-state-of-art-pre.html +

https://towardsdatascience.com/deconstructing-bert-distilling-6-patterns-from-100-million-parameters-b49113672f77 +

+

Glossaire

+

Vous trouverez ci-dessous un glossaire non-exhaustif reprenant des termes fréquemment utilisés dans l'exposition. Il est conçu comme une aide pour les visiteurs connaissant peu le vocabulaire lié au domaine du traitement des langues naturelles (NLP), Algolit ou le Mundaneum. +

* Algolit: un groupe bruxellois spécialisé dans la recherche artistique sur les algorithmes et la littérature. Chaque mois, le groupe se réunit pour expérimenter avec du code et des textes publiés sous licences libres. http://www.algolit.net +

* Algolittéraire: terme inventé par Algolit pour des oeuvres qui explorent le point de vue du conteur algorithmique. Quelles nouvelles formes de narration rendons-nous possibles en dialoguant avec les algorithmes ? +

* Algorithme: Un ensemble d'instructions dans un langage de programmation spécifique, qui permettent de produire un résultat (output) à partir de données (inputs). +

* Annotation: Le processus d'annotation est une étape cruciale de l'apprentissage automatique supervisé durant laquelle l'algorithme reçoit des exemples de ce qu'il doit apprendre. Un filtre anti-spam sera alimenté d'exemples de messages spams et de messages réels. Ces exemples consistent en un message, l'entrée, accompagné d'une étiquette : spam ou non spam. L'annotation d'un jeu de données est un travail exécuté par des humains, qui choisissent une étiquette pour chaque élément du jeu de données. Pour assurer la qualité des étiquettes, plusieurs annotateurs doivent voir le même élément, la même entrée, et donner la même étiquette avant qu'un exemple ne soit inclus dans les données d'entraînement. +

* Apprentissage automatique ou machine learning: Modèles algorithmiques basés sur la statistique, principalement utilisés pour analyser et prédire des situations à partir de cas existants. Dans cette exposition, nous nous concentrons sur les modèles d'apprentissage automatique pour le traitement de texte ou le traitement du langage naturel (voir NLP). Ces modèles ont appris à effectuer une tâche spécifique sur la base de textes existants. Ils sont utilisés par les moteurs de recherche, les traductions automatiques, et permettent de générer des résumés et de repérer les tendances sur les réseaux sociaux et des fils d’actualité. Ils influencent ce que l'on voit en tant qu'utilisateur, mais ont aussi leur mot à dire dans les fluctuations du cours des bourses mondiales ou dans la détection de la cybercriminalité et du vandalisme. +

* Apprentissage automatique classique: Naive Bayes, Support Vector Machines ou Régression Linéaire sont considérés comme des algorithmes classiques d'apprentissage automatique. Ils fonctionnent bien lorsqu'ils apprennent avec de petits jeux de données. Mais ils nécessitent souvent des lecteurs complexes. La tâche accomplie par les lecteurs est également appelée 'feature engineering' (voir ci-dessous). Cela signifie qu'un être humain doit consacrer du temps à une analyse exploratoire approfondie du jeu de données. +

* Bag of Words: Le modèle du sac de mots est une représentation simplifiée du texte utilisé dans le traitement du langage naturel. Dans ce modèle, un texte est représenté sous la forme d'une collection de mots uniques, sans tenir compte de la grammaire, de la ponctuation ni même de leur ordre dans le texte. Ce modèle transforme un texte en une liste de mots associés à leur fréquence : littéralement un sac de mots. Le sac de mots est souvent utilisé comme référence, c'est sur cette base qu'on évaluera la performance d'un nouveau modèle. +

* Chaîne de Markov: Algorithme qui scanne un texte à la recherche de la probabilité de transition d'occurrences de lettres ou de mots, ce qui donne des tables de probabilité de transition qui peuvent être calculées sans aucune compréhension sémantique ou grammaticale du langage naturel. Cet algorithme peut être utilisé pour analyser des textes, mais aussi pour les recombiner. Il est largement utilisé pour la génération de spam. +

* Constant: Constant est une association sans but lucratif d’artistes autogérés, basée à Bruxelles depuis 1997 et active dans les domaines de l’art, des médias et de la technologie. Algolit est né en 2012 comme un projet de Constant. http://constantvzw.org +

* Data Workers: Intelligences artificielles développées pour servir, divertir, enregistrer et connaître les humains. Le travail de ces entités machiniques est généralement dissimulé derrière des interfaces et des brevets. Dans l'exposition, les conteurs algorithmiques quittent leur monde souterrain invisible pour devenir nos interlocuteurs. +

* Données d’entraînement: Les algorithmes d'apprentissage automatique ont besoin d'être guidés. Pour séparer une chose d'une autre, faire des distinctions, ils ont besoin de motifs. Ils les trouvent dans les textes qui leur sont donnés, les données d’entraînement. L'être humain doit choisir avec soin un matériel d’entraînement adapté à la tâche de la machine. Il n'est pas logique d’entraîner une machine avec des romans du 19ème siècle si sa mission est d'analyser des Tweets. +

* Dump: Terme anglais signifiant ‘dépôt, décharge, déverser massivement’. En informatique, le terme dump désigne généralement une copie brute d’une base de données; par exemple pour effectuer une sauvegarde de données ou pour les utiliser ailleurs. Les dumps sont souvent publiées par des projets de logiciels libres et de contenu libre, tels que Wikipédia, pour permettre la réutilisation ou la dérivation(fork) de la base de données. +

* Feature engineering: Processus utilisant la connaissance du domaine des données pour créer les caractéristiques qui font fonctionner les algorithmes d'apprentissage machine. En d'autres termes, un être humain doit consacrer du temps à une analyse exploratoire approfondie du jeu de données, afin d'en définir les principales caractéristiques. Ces caractéristiques peuvent être la fréquence des mots ou des lettres, mais aussi des éléments syntaxiques comme les noms, les adjectifs ou les verbes. Les caractéristiques les plus importantes pour la tâche à résoudre doivent être soigneusement sélectionnées pour être transmises à un algorithme classique d'apprentissage automatique. +

* FLOSS ou Logiciels Libres et Open Source: Un logiciel libre est un logiciel dont l'utilisation, l'étude, la modification et la duplication par autrui en vue de sa diffusion sont permises, techniquement et légalement, ceci afin de garantir certaines libertés induites, dont le contrôle du programme par l'utilisateur et la possibilité de partage entre individus. Ces droits peuvent être simplement disponibles – cas du domaine public – ou bien établis par une licence, dite 'libre', basée sur le droit d'auteur. Les 'licences copyleft' garantissent le maintien de ces droits aux utilisateurs même pour les travaux dérivés. Les logiciels libres constituent une alternative à ceux qui ne le sont pas, qualifiés de 'propriétaires' ou de 'privateurs'. (Wikipedia) +

* git: un système logiciel permettant de suivre les changements dans le code source pendant le développement d'un logiciel. Il est conçu pour coordonner le travail des programmeurs, mais il peut être utilisé pour suivre les changements dans n'importe quel ensemble de fichiers. Avant d’initier un nouveau projet, les programmeurs créent un ‘dépôt git’ dans lequel ils publieront toutes les parties du code. Les dépôts git d’Algolit se trouvent ici: https://gitlab.constantvzw.org/algolit. +

* gutenberg.org: Le projet Gutenberg est une bibliothèque de versions électroniques libres de livres physiquement existants. Les textes fournis sont essentiellement du domaine public, soit parce qu'ils n'ont jamais été sujets à des droits d'auteur soit parce que ces derniers sont expirés. Le projet fut lancé par Michael Hart en 1971 et nommé en hommage à l'imprimeur allemand du XVe siècle Johannes Gutenberg. (Wikipedia) +

* Henri La Fontaine: Henri La Fontaine (1854-1943) est un homme politique, féministe et pacifiste belge. Il reçoit le Prix Nobel de la paix en 1913 en raison de son engagement au sein du Bureau International de la Paix et de sa contribution à l'organisation du mouvement pacifiste. En 1895, ensemble avec Paul Otlet, il créent ensemble l'Institut international de bibliographie qui deviendra le Mundaneum. Au sein de cette institution, qui visait à rassembler l'ensemble des connaissances du monde, il contribue à mettre au point le système de Classification décimale universelle (CDU). +

* IA ou intelligences artificielles: L'intelligence artificielle (IA) est 'l'ensemble des théories et des techniques mises en œuvre en vue de réaliser des machines capables de simuler l'intelligence. Elle correspond donc à un ensemble de concepts et de technologies plus qu'à une discipline autonome constituée. D'autres, remarquant la définition peu précise de l'IA, notamment la CNIL, la définissent comme ‘le grand mythe de notre temps'. (Wikipedia) +

* Kaggle: Plateforme en ligne où les utilisateurs trouvent et publient des ensembles de données, explorent et construisent des modèles d'apprentissage automatique, collaborent avec d'autres et participent à des concours pour relever des défis. Environ un demi-million d’utilisateurs sont actifs sur Kaggle. Kaggle a été fondée par Goldbloom et Ben Hamner en 2010 et acquise par Google en mars 2017. +

* Langage naturel: Selon Wikipédia, 'Une langue dite « naturelle » est une langue qui s'est formée petit à petit, évoluant avec le temps, et qui fait partie du langage naturel. Son origine est bien souvent floue et peut être retracée plus ou moins clairement par la linguistique comparée. On oppose les langues naturelles - comme le français - aux langues construites comme le langage de programmation ou l'espéranto, formées intentionnellement par l’entremise de l’homme pour remplir un besoin précis.' +

* Littérature: Algolit comprend la notion de littérature comme beaucoup d'autres auteurs expérimentaux : elle inclut toute la production linguistique, du dictionnaire à la Bible, de l'œuvre entière de Virginia Woolf à toutes les versions des Conditions d'utilisation publiées par Google depuis son existence. En ce sens, le code de programmation peut aussi être de la littérature. +

* Mechanical Turk: Le Mechanical Turk d’Amazon est une plateforme en ligne à destination des humains conçue pour exécuter des tâches que les algorithmes ne parviennent pas à faire. Il peut s'agir, par exemple, d'annoter des phrases comme étant positives ou négatives, de repérer des plaques d'immatriculation, de reconnaître des visages. Les annonces que l'on trouve sur cette plateforme sont souvent rémunérés moins d'un centime par tâche. Les tâches les plus complexes ou nécessitant le plus de connaissances peuvent être payées jusqu'à plusieurs centimes. De nombreux chercheurs universitaires utilisent le Mechanical Turk pour des tâches qui auraient été exécutées par des étudiants auparavant. +

* Modèles d’apprentissage automatique supervisé: Pour la création de modèles d'apprentissage automatique supervisés, les humains annotent les échantillons d'entraînement avant de les envoyer à la machine. Chaque texte est jugé par au moins 3 humains: par exemple, s’il s’agit de spam ou non, s’il est positif ou négatif. +

* Modèles d’apprentissage automatique non-supervisé: Les modèles d'apprentissage automatique non supervisés n'ont pas besoin de l’étape d’annotations des données par des humains. Par contre, ils nécessitent de grandes quantités de données pour s’entraîner. +

* Mundaneum: À la fin du 19ème siècle, deux jeunes juristes belges, Paul Otlet (1868-1944), 'père de la documentation', et Henri La Fontaine (1854-1943), homme d'État et prix Nobel de la paix, créent le Mundaneum. Le projet vise à rassembler toute la connaissance du monde et à la classer à l'aide du système de Classification décimale universelle (UDC) qu'ils inventent. +

* Natural Language Processing (NLP): Le traitement du langage naturel (NLP) est un terme collectif qui désigne le traitement informatique automatique des langues humaines. Cela comprend les algorithmes utilisant, comme données, du texte produit par l'homme et qui tentent de le reproduire. +

* N-grammes de caractères: une technique utilisée pour la reconnaissance de la paternité d’une oeuvre. Lors de l'utilisation des N-grammes de caractères, les textes sont considérés comme des séquences de caractères. Considérons le trigramme des caractères. Toutes les séquences de trois caractères qui se chevauchent sont isolées. Par exemple, le trigramme de caractères de suicide', serait, 'Sui,' uic', uic', 'ici', 'cid', etc. Les motifs trouvés avec les N-grammes de caractères se concentrent sur les choix stylistiques qui sont faits inconsciemment par l'auteur. Ces modèles restent stables sur toute la longueur du texte. +

* Oracle: Les Oracles sont un type particulier de modèles algorithmiques souvent basés sur la statistique, qui servent à prédire des situations particulières ou à profiler des habitudes d’usagers. Elles sont largement utilisés dans les smartphones, les ordinateurs et les tablettes. +

* Oulipo: Le collectif Oulipo, acronyme d'Ouvroir de Littérature Potentielle, est une grande source d'inspiration pour Algolit. Oulipo a été créé à Paris par les écrivains Raymond Queneau et François Le Lionnais. Ils ont ancré leur pratique dans l'avant-garde européenne du XXe siècle et dans la tradition expérimentale des années 60. Pour Oulipo, la création de règles devient la condition permettant de générer de nouveaux textes, ou ce qu'ils appellent la littérature potentielle. Plus tard, en 1981, ils ont également créé ALAMO - Atelier de Littérature Assistée par la Mathématique et les Ordinateurs. +

* Paul Otlet: Paul Otlet (1868 - 1944) était un auteur, entrepreneur, visionnaire, avocat et militant pour la paix belge ; il est l'une des nombreuses personnes qui ont été considérées comme le père des sciences de l'information, un domaine qu'il a appelé ‘la documentation’. Otlet a créé la Classification décimale universelle, qui s'est répandue dans les bibliothèques. Avec Henri La Fontaine, il crée le Palais Mondial, qui devient le Mundaneum, pour abriter les collections et les activités de leurs différents organismes et instituts. +

* Python: le principal langage de programmation utilisé dans le monde entier pour le traitement du langage, inventé en 1991 par le programmeur néerlandais Guido Van Rossum. +

* Reconnaissance optique de caractères (ROC): en anglais optical character recognition (OCR), ou océrisation, désigne les procédés informatiques permettant la traduction d'images de textes scannés en fichiers de texte manipulables. +

* Réseaux de neurones: Systèmes informatiques inspirés des réseaux neuronaux biologiques trouvés dans le cerveau des animaux. Un réseau de neurone n'est pas un algorithme, mais plutôt un cadre dans lequel de nombreux algorithmes d'apprentissage machine différents travaillent ensemble et traitent des données complexes. De tels systèmes ‘apprennent’ à exécuter des tâches en observant des exemples, généralement sans être programmés à priori avec des règles spécifiques. Par exemple, un algorithme de reconnaissance de chat apprendra à identifier les images qui contiennent des chats en observant des images qui ont été étiquetées manuellement comme ‘chat’ ou ‘pas chat’. Il utilisera ces exemple pour générer ce qu'il considère être un chat et pourra identifier les chats dans d'autres images. Il le fera sans aucune connaissance préalable sur les chats. Il générera automatiquement ses propres caractéristiques d'identification à partir du matériel d'apprentissage qui lui est donné. +

* Rule-Based models: Les Oracles peuvent être créés à l'aide de différentes techniques. L’une d’entre elles consiste à définir manuellement les règles. Ces modèles sont appelés 'rule-based models' (modèles basés sur des règles), et se situent à l’opposé des modèles statistiques. Ils sont utiles pour des tâches spécifiques, comme par exemple, la détection de la mention d'une certaine molécule dans un article scientifique. Ils sont performants, même avec très peu de données d'entraînement. +

* Sentiment analysis: Également appelé 'opinion mining' (sondage d'opinion). Une tâche fondamentale de l'analyse des sentiments consiste à classer un texte donné comme positif, négatif ou neutre. La classification avancée des sentiments 'au-delà de la polarité' examine, par exemple, les états émotionnels tels que 'en colère', 'triste' et 'heureux'. L'analyse du sentiment est largement appliquée aux actions des utilisateurs tels que les critiques et les réponses aux enquêtes, les commentaires et les messages sur les médias sociaux, et les documents de santé. Elle est intégrée dans des applications qui vont du marketing au service à la clientèle, des transactions boursières à la médecine clinique. +

* TF-IDF (Term Frequency-Inverse Document Frequency): Une méthode de pondération utilisée dans la recherche de textes. Cette mesure statistique permet d'évaluer l'importance d'un terme contenu dans un document, relativement à une collection ou un corpus de textes. Le poids augmente proportionnellement au nombre d'occurrences du mot dans le document. Il varie également en fonction de la fréquence du mot dans le corpus. Le TF-IDF est notamment utilisé dans la classification des spams. +

* 'Word embeddings': Techniques de modélisation du langage qui, par de multiples opérations mathématiques, tracent des mots dans un espace vectoriel multidimensionnel. Lorsque les mots sont 'embedded' ou intégrés, ils se transforment de symboles distincts en objets mathématiques, qui peuvent être multipliés, divisés, ajoutés ou soustraits. +

* Wordnet: Wordnet est une combinaison d'un dictionnaire et d'un thésaurus qui peut être lu par des machines. Selon Wikipédia, il a été créé dans le Cognitive Science Laboratory de l'Université de Princeton à partir de 1985. +

+ + + +
+ \ No newline at end of file diff --git a/data-workers.fr.publication.pdf b/data-workers.fr.publication.pdf new file mode 100644 index 0000000..aa28e51 Binary files /dev/null and b/data-workers.fr.publication.pdf differ diff --git a/data-workers.fr.txt b/data-workers.fr.txt new file mode 100644 index 0000000..6d8f2ca --- /dev/null +++ b/data-workers.fr.txt @@ -0,0 +1,3920 @@ +data workers write, perform, clean, inform, read and learn data workers write, perform, clean, inform, read +nd learn data workers write, perform, clean, inform, read and learn data workers write, perform, clean, +nform, read and learn data workers write, perform, clean, inform, read and learn data workers write, +perform, clean, inform, read and learn data workers write, perform, clean, inform, read and learn + data workers write, perform, clean, inform, read and learn data workers write, perform, clean, infor +, read and learn data workers write, perform, clean, inform, read and learn data workers w +ite, perform, clean, inform, read and learn data workers write, perform, clean, inform, read and l +arn data workers write, perform, clean, inform, read and learn data workers write, p +rform, clean, inform, read and learn data workers write, perform, clean, inform, read and learn + data workers write, perform, clean, inform, read and learn data workers write, +perform, clean, inform, read and learn data workers write, perform, clean, inform, read and +earn data workers write, perform, clean, inform, read and learn data wor +ers write, perform, clean, inform, read and learn data workers write, perform, clean, inf +rm, read and learn data workers write, perform, clean, inform, read and learn + data workers write, perform, clean, inform, read and learn data workers wri +e, perform, clean, inform, read and learn data workers write, perform, clean, inform, +read and learn data workers write, perform, clean, inform, read and learn + data workers write, perform, clean, inform, read and learn data wor +ers write, perform, clean, inform, read and learn data workers write, perform, cl +an, inform, read and learn data workers write, perform, clean, inform, read and +earn data workers write, perform, clean, inform, read and learn + data workers write, perform, clean, inform, read and learn dat + workers write, perform, clean, inform, read and learn data workers write, p +rform, clean, inform, read and learn data workers write, perform, clean, in +orm, read and learn data workers write, perform, clean, inform, read and l +arn data workers write, perform, clean, inform, read and learn + data workers write, perform, clean, inform, read and learn + data workers write, perform, clean, inform, read and learn + data workers write, perform, clean, inform, read and learn data work +rs write, perform, clean, inform, read and learn data workers write, +perform, clean, inform, read and learn data workers write, perform, +clean, inform, read and learn data workers write, perform, clean, +nform, read and learn data workers write, perform, clean, inform, +read and learn data workers write, perform, clean, inform, read +nd learn data workers write, perform, clean, inform, read and l +arn data workers write, perform, clean, inform, read and learn + data workers write, perform, clean, inform, read and learn + data workers write, perform, clean, inform, read and learn + data workers write, perform, clean, inform, read and learn + data workers write, perform, clean, inform, read and learn + data workers write, perform, clean, inform, read and learn + data workers write, perform, clean, inform, read and learn + data workers write, perform, clean, inform, read and learn + data workers write, perform, clean, inform, read and l +arn data workers write, perform, clean, inform, read +nd learn data workers write, perform, clean, inform, +read and learn data workers write, perform, clean, +nform, read and learn data workers write, perform, +clean, inform, read and learn data workers write, +perform, clean, inform, read and learn data work +rs write, perform, clean, inform, read and learn + data workers write, perform, clean, inform, read and learn + data workers write, perform, clean, inform, read and learn + data workers write, perform, clean, inform, read and learn + data workers write, perform, clean, inform, read and learn + + + What + can + humans learn from humans + humans learn with machines +machines learn from machines +machines learn with humans + humans learn from machines +machines learn with machines +machines learn from humans + humans learn with humans + ? ? ? + +Data Workers, une exposition au Mundaneum à Mons du 28 mars au 28 avril 2019. +0123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345678 +9 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234567 +89 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456 +789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345 +6789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234 +56789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123 +456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12 +3456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1 +23456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 +123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 + 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345678 +9 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234567 +89 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456 +789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345 +6789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234 +56789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123 +456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12 +3456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1 +23456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 +123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 + 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345678 +9 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234567 +89 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456 +789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345 +6789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234 +56789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123 +456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12 +3456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1 +23456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 +123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 + 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345678 +9 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234567 +89 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456 +789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345 +6789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234 +56789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123 +456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12 +3456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1 +23456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 +123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 + 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345678 +9 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234567 +89 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456 +789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345 +6789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234 +56789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123 +456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12 +3456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1 +23456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 +123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 + 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345678 +9 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234567 +89 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456 +789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345 +6789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234 +56789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123 +456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12 +3456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1 +23456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 +123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 + 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345678 +9 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234567 +89 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456 +789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345 +6789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234 +56789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123 +456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12 +3456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1 +23456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 + 2 +Á PROPOS AU MUNDANEUM + +Data Workers est une exposition d'œuvres algolittéraires,visible À la fin du 19ème siècle, deux jeunes +au Mundaneum à Mons du jeudi 28 mars jusqu'au dimanche 28 avril juristes belges, Paul Otlet (1868-1944), +2019. Elle expose des histoires racontées d'un point de vue 'nar- 'père de la documentation', et Henri La +ratif algorithmique'. L'exposition est une création des membres Fontaine (1854-1943), homme d'État et +d'Algolit, un groupe bruxellois impliqué dans la recherche artis- prix Nobel de la paix, créent le Munda- +tique sur les algorithmes et la littérature. Chaque mois, ils se neum. Le projet vise à rassembler toute +réunissent pour expérimenter avec du code et des textes F/LOSS. la connaissance du monde et à la classer +Certaines oeuvres sont réalisés par des étudiants de Arts² et des à l'aide du système de Classification +participants externes à l'atelier sur le machine learning et le décimale universelle (UDC) qu'ils in- +texte organisé par Algolit en octobre 2018 au Mundaneum. ventent. Au début, il s'agit d'un Bureau + des institutions internationales dédié à +Les entreprises créent des intelligences artificielles pour ser- l'échange international des connais- +vir, divertir, enregistrer et connaître les humains. Le travail sances. Au XXe siècle, le Mundaneum de- +de ces entités machiniques est généralement dissimulé derrière vient un centre universel de documenta- +des interfaces et des brevets. Dans l'exposition, les conteurs tion. Ses collections sont constituées +algorithmiques quittent leur monde souterrain invisible pour de- de milliers de livres, journaux, revues, +venir des interlocuteurs. documents, affiches, plaques de verre et + cartes postales indexés sur des millions +Les 'data workers' opèrent dans des collectifs différents. Chaque de fiches référencées. Les collections +collectif représente une étape dans le processus de conception sont exposées et conservées dans diffé- +d'un modèle d'apprentissage automatique : il y a les Écrivains, rents bâtiments à Bruxelles, dont le Pa- +les Nettoyeurs, les Informateurs, les Lecteurs, les Apprenants et lais du Cinquantenaire. Le reste des ar- +les Oracles. Les robots donnent leurs voix à la littérature expé- chives n'est transféré à Mons qu'en +rimentale, les modèles algorithmiques lisent des données, trans- 1998. +forment des mots en nombres, calculent des modèles et traitent en +boucle de nouveaux textes et ceci à l'infini. Sur base du Mundaneum, les deux hommes + conçoivent une ville du monde pour la- +L'exposition met au premier plan les 'data workers' qui ont un quelle Le Corbusier réalise des ma- +impact sur notre vie quotidienne, mais qui sont difficiles à sai- quettes et des plans. L'objectif de la +sir ou à imaginer. Elle établit un lien entre les récits sur les Ville du Monde est de rassembler, au ni- +algorithmes dans les médias grand public et les histoires racon- veau mondial, les institutions du tra- +tées dans les manuels techniques et les articles universitaires. vail intellectuel : bibliothèques, mu- +Les robots sont invités à dialoguer avec les visiteurs humains et sées et universités. Mais le projet +vice versa. De cette façon, nous pourrions comprendre nos raison- n’est jamais réalisé, souffrant de sa +nements respectifs, démystifier nos comportements, rencontrer nos propre utopie. Le Mundaneum est le ré- +personnalités multiples et valoriser notre travail collectif. sultat du rêve visionnaire d’une infra- +C'est aussi un hommage aux nombreuses machines que Paul Otlet et structure pour l'échange universel des +Henri La Fontaine ont imaginées pour leur Mundaneum, en montrant connaissances. Il atteint des dimensions +leur potentiel mais aussi leurs limites. mythiques à l'époque. Lorsqu'on observe + les archives qui ont été concrètement +--- développées, cette collection est plutôt + éclectique et spécifique. +Data Workers est une création de Algolit. + Les intelligences artificielles se déve- +Oeuvres de: Cristina Cochior, Gijs de Heij, Sarah Garcin, An Mer- loppent aujourd'hui en faisant appa- +tens, Javier Lloret, Louise Dekeuleneer, Florian Van de Weyer, raître des rêves d'universalité et de la +Laetitia Trozzi, Rémi Forte, Guillaume Slizewicz, Michael Mur- production des connaissances. En les +taugh, Manetta Berends, Mia Melvær. étudiant, nous nous sommes rendus compte + que les rêves visionnaires de leurs +Une co-production de: Arts², Mundaneum, Constant. créateurs sont bien présents dès leur + développement dans les années 1950. Au- +Avec le soutien de: Fédération Wallonie-Bruxelles, Arts Numéri- jourd'hui, leurs promesses ont également +ques, Passa Porta, Ugent, DHuF - Digital Humanities Flanders et atteint des dimensions mythiques. Lors- +the Distributed Proofreading Project. qu'on observe leurs applications concrè- + tes, la collection d'outils est réelle- +Remerciements: Mike Kestemont, Michel Cleempoel, Donatella Porto- ment innovante et fascinante, mais en +ghese, François Zajéga, Raphaèle Cornille, Vincent Desfromont, même temps, tout aussi éclectique et +Kris Rutten, Anne-Laure Buisson, David Stampfli. spécifique. Pour Data Workers, Algolit a + combiné certaines de ces applications + avec 10 % des publications numérisées du + Bureau des Institutions Internationales. + Ainsi et de façon poétique, nous espé- + rons ouvrir une discussion à propos des + machines, des algorithmes et des infra- + structures technologiques. + + + 3 + RÉCITS CONTEXTUALISÉS + AUTOUR D'ALGOLIT + + + + --- Pourquoi des récits contextualisés? --- naire à la Bible, de l'œuvre entière de Virginia + Woolf à toutes les versions des Conditions d'uti- + Lors des réunions mensuelles d'Algolit, nous étu- lisation publiées par Google depuis son existence. + dions des manuels et expérimentons avec des outils En ce sens, le code de programmation peut aussi + d'apprentissage automatique pour le traitement de être de la littérature. Le collectif Oulipo, acro- + texte. Et nous partageons aussi beaucoup, beaucoup nyme d'Ouvroir de Littérature Potentielle, est une + d'histoires. Avec la publication de ces histoires, grande source d'inspiration pour Algolit. Oulipo a +nous espérons recréer un peu de cette atmosphère. été créé à Paris par les écrivains Raymond Queneau +Les histoires existent également sous forme de et François Le Lionnais. Ils ont ancré leur pra- +podcasts qui peuvent être téléchargés à partir du tique dans l'avant-garde européenne du XXe siècle + site http://www.algolit.net. et dans la tradition expérimentale des années 60. + Pour Oulipo, la création de règles devient la + condition permettant de générer de nouveaux tex- + --- Nous créons des œuvres 'algolittéraires' --- tes, ou ce qu'ils appellent la littérature poten- + tielle. Plus tard, en 1981, ils ont également créé + Le terme 'algolittéraire' vient du nom de notre ALAMO - Atelier de Littérature Assistée par la Ma- + groupe de recherche Algolit. Nous existons depuis thématique et les Ordinateurs. + 2012 en tant qu’initiative de Constant, une orga- + nisation oeuvrant dans les médias et les arts ba- + sée à Bruxelles. Nous sommes des artistes, des --- Une différence importante --- + écrivains, des designers et des programmeurs. Une +fois par mois, nous nous rencontrons pour étudier Alors que l'avant-garde européenne du XXe siècle +et expérimenter ensemble. Notre travail peut être poursuivait l'objectif de rompre avec les conven- +copié, étudié, modifié et redistribué sous la même tions, les membres d'Algolit cherchent à rendre + licence libre. Vous trouverez toutes les informa- les conventions visibles. + tions sur le site http://www.algolit.net. + J'écris : Je vis dans mon journal, je l'investis, + L'objectif principal d'Algolit est d'explorer le je le traverse. (Espèces d'espaces. Journal d'un + point de vue du conteur algorithmique. Quelles usager de l'espace, Galilée, Paris, 1974) + nouvelles formes de narration rendons-nous pos- + sibles en dialoguant avec ces agents machiniques ? Cette citation de Georges Perec dans Espèces d'es- + Les points de vue narratifs sont inhérents aux vi- paces pourrait être reprise par Algolit. Il ne + sions du monde et aux idéologies. Don Quichotte, s'agit pas des conventions de la page blanche et + par exemple, a été écrit d'un point de vue omni- du marché littéraire, comme Georges Perec l'a + scient à la troisième personne, montrant la rela- fait. Nous faisons référence aux conventions qui +tion de Cervantes à la tradition orale. La plupart restent souvent cachées derrière les interfaces et +des romans contemporains utilisent le point de vue les brevets. Comment les technologies sont-elles +de la première personne. Algolit souhaite parler conçues, mises en œuvre et utilisées, tant dans + au travers des algorithmes et vous montrer le rai- les universités que dans les entreprises ? Nous + sonnement de l'un des groupes les plus cachés de proposons des histoires qui révèlent le système + notre planète. hybride complexe qui rend possible l'apprentissage + automatique. Nous parlons des outils, des logiques + Écrire dans ou par le code, c'est créer de nou- et des idéologies derrière les interfaces. Nous + examinons également qui produit les outils, qui + gage humain de façon inattendue. Mais les tech- les met en œuvre et qui crée et accède aux grandes + niques d'apprentissage automatique ne sont acces- quantités de données nécessaires au développement + sibles qu'à ceux qui savent lire, écrire et exécu- de machines de prédiction. On pourrait dire, en un + ter du code. La fiction est un moyen de combler le clin d'œil, que nous sommes les collaborateurs de + fossé entre les histoires qui existent dans les cette nouvelle tribu d'hybrides humain-robot. +articles scientifiques, les manuels techniques, et +les histoires diffusées par les médias, souvent +limitées aux reportages superficiels et à la fa- + brication de mythes. En créant des œuvres algolit- + téraires, nous offrons aux humains une introduc- + tion aux techniques qui co-modèlent leur vie quo- + tidienne. + + + --- Qu'est-ce que la littérature ? --- + + Algolit comprend la notion de littérature comme + beaucoup d'autres auteurs expérimentaux : elle in- + clut toute la production linguistique, du diction- + + 4 +writers write writers write writers write writers write writers write writers write writ +rs write writers write writers write writers write writers write +writers write writers write writers write writers write +writers write writers write writers write writers write + writers write writers write writers write + writers write writers write writers write + writers write writers write writers write + writers write writers write + writers write writers write writers write + writers write writers write + writers write writers write + writers write writers write + writers write writers write + writers write writers write + writers write writers write + writers write writers write + writers write writers write + writers write writ +rs write writers write + writers write writers write + writers write +writers write writers write + writers write writer + write writers write + writers write writ +rs write writers write + writers write + writers write writers write + writers write + writers write w +iters write writers write + writers write + writers write + writers write writers write + writers write + writers write + writers write + writers write writer + write writers write + writers write + writers write + writers write + writers write + writers write + writers write writ +rs write writers write + writers write + writers write + writers write + writers write + writers write + writers write + writers write + writers write + writers write + writers write + writers write + writers write + writers write + writers write + writers write + writers write + writers write + writers write + writers write + writers write + writers write + writers write + writers write + 5 + u48 cdu e9e, 1twe 7r 9ss4 r 4ot8 +-+-+-+-+-+-+-+ c +-+-+-+-+-+ 8ee 5 5o 6u6 s sa62 wk75 r,5 + 6 62fs 6a n8l f 8r 9qe3 |w|r|i|t|e|r|s| 3l |w|r|i|t|e| i d r 3 2a8ao ta7444 dea861 d uon + u t9 1e3 ir d9d t ,3 66Jfma 1s +-+-+-+-+-+-+-+ ia +-+-+-+-+-+ 2 6 . 9 mg ir1t ra n n r8 9 por +i vn c t 4 3 f92c 8livrl ner73r7eikuiw8s 4v l7c r a 29b 1 77aus o . t é6t3i6:e 9a6 ie 86s2n + ss w o e 9 n44idr8 9 v8l o ae 2rkt e2 4 i, sit 9nw2 1 h , i 9 1 + 6 4n c 3 t +-+-+-+-+ +-+-+-+-+-+-+-+ c7r +-+-+-+-+ o s nr3 u2 t8 ee 29 2,r + 7 3on na n |d|a|t|a| |w|o|r|k|e|r|s| s |w|o|r|k| 1 i aw t r i m ,a 5 e + nfs 9 5 s i i +-+-+-+-+ +-+-+-+-+-+-+-+ v +-+-+-+-+ 9 r le' 4x en . 9 6 t é8 6 m '8 c: + n nt ’,2 9 2t9 b +-+-+-+-+ +-+-+-+-+-+-+-+ 1 +-+-+-+-+-+ r9 2 ln7r f 6C 8t -o 8 3r tq + s 1e61tnsT q t 6, |m|a|n|y| |a|u|t|h|o|r|s| n 4 |w|r|i|t|e| w t6 7 t eun 4 o3 s u M 4 9 + a 1 kw +-+-+-+-+ +-+-+-+-+-+-+-+ e +-+-+-+-+-+ 1 s 6r s 3 ei ç,2 s 8 E , 5rpa + 7 +-+-+-+-+-+ +-+-+-+-+-+ +-+-+-+-+-+ lae i 6 i m 3s 3 3 e e 9 er 6 n 5 + 48 6 e |e|v|e|r|y| |h|u|m|a|n| |b|e|i|n|g| 3 7 7 e9 a r 8, r t9 1 c u9 e + 4 r +-+-+-+-+-+ +-+-+-+-+-+ +-+-+-+-+-+ m 3 n5 19 43 n 3 4 a + V 5 8e +-+-+-+ +-+-+-+ +-+-+-+-+-+-+ +-+-+ ao e o l 4 a 6 s 7 r od1 r +5 s 5 5 |w|h|o| |h|a|s| |a|c|c|e|s|s| |t|o| 7o 1 1 o e a e è4 8 + e 5s +-+-+-+ +-+-+-+ +-+-+-+-+-+-+ +-+-+ kP r6 5 4 e1 w n e 7 r + i ) l +-+-+-+ +-+-+-+-+-+-+-+-+ 4 +-+-+-+-+-+-+-+-+-+ n4 f 8 e 4 + e r |t|h|e| |i|n|t|e|r|n|e|t| |i|n|t|e|r|a|c|t|s| e 2 n 1225 nc + o1 2 5m +-+-+-+ +-+-+-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+-+ 9 25 - g a 8c i + e r d p t 3d +-+-+ w +-+-+-+-+-+ +-+-+-+-+-+-+ 6 v n 25 + fl é 2 i 6 |w|e| |c|h|a|t|,| |w|r|i|t|e|,| s v , + r r l t 7 i 88 +-+-+ l +-+-+-+-+-+ +-+-+-+-+-+-+ e e t 32 + 5 l6 2 r r +-+-+-+-+-+-+ +-+-+-+-+ +-+-+-+ ,8 r i n 9 + t 3R2 o 6 s1 6 a i e |c|l|i|c|k|,| |l|i|k|e| |a|n|d| 3 + i a , e +-+-+-+-+-+-+ +-+-+-+-+ +-+-+-+ 9 + 8 9 3 a +-+-+-+-+-+ 8 5 i s v + r. t u s 6e |s|h|a|r|e| m + f n 2 +-+-+-+-+-+ 5 n i 5 e 4 + t 8 5 +-+-+ +-+-+-+-+-+ +-+-+-+ +-+-+-+-+ 5 + 9 2 |w|e| |l|e|a|v|e| |o|u|r| |d|a|t|a| 2 3 + 9 9 +-+-+ +-+-+-+-+-+ +-+-+-+ +-+-+-+-+ + e r 2 t +-+-+ +-+-+-+-+ +-+-+-+-+-+-+-+-+-+ t + t |w|e| |f|i|n|d| |o|u|r|s|e|l|v|e|s| 9 s + o 9 n t +-+-+ +-+-+-+-+ +-+-+-+-+-+-+-+-+-+ o 4 + a tr a r 7 +-+-+-+-+-+-+-+ +-+-+ +-+-+-+-+-+-+ + l e a |w|r|i|t|i|n|g| |i|n| |P|y|t|h|o|n| s + f 9 1 e 7 +-+-+-+-+-+-+-+ +-+-+ +-+-+-+-+-+-+ + 2r +-+-+-+-+ +-+-+-+-+-+-+ 9 t 26 + u |s|o|m|e| |n|e|u|r|a|l| e e + c +-+-+-+-+ +-+-+-+-+-+-+ 2 2 + 8 +-+-+-+-+-+-+-+-+ r +-+-+-+-+-+ ts + 3 |n|e|t|w|o|r|k|s| |w|r|i|t|e| g e r + 5 +-+-+-+-+-+-+-+-+ 6 +-+-+-+-+-+ v + +-+-+-+-+-+ +-+-+-+-+-+-+-+ +-+-+-+-+-+-+ s + |h|u|m|a|n| |e|d|i|t|o|r|s| |a|s|s|i|s|t| + 1 +-+-+-+-+-+ +-+-+-+-+-+-+-+ +-+-+-+-+-+-+ 7 + wt d n +-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+-+-+-+ + e |p|o|e|t|s|,| |p|l|a|y|w|r|i|g|h|t|s| s + os M +-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+-+-+-+ + w x +-+-+ +-+-+-+-+-+-+-+-+-+ +-+-+-+-+-+-+ 4 8 + a |o|r| |n|o|v|e|l|i|s|t|s| |a|s|s|i|s|t| n l + q l +-+-+ +-+-+-+-+-+-+-+-+-+ +-+-+-+-+-+-+ + e r + 8 7 + 3 c s + 7 3 + 5 + + l n a + o 8 s9 + 9 , + k + 8 + è + + ' 7 + + + 6 + V V V % V V V V V % %% % % % %% % % % + V V V V V V V V V V V V V V V V % % % % 0 0 0 0 % % % % 0 % +V V V V V % V % V V V % % 0 % % 0 0 0 %% + % % % 0 __ % % %%% _ _ _ 0 % 0 %%% % + % % % % % / / __ _ _ __ _ _| |__ | (_) ___ __ _ + % % % ÉCRIVAINS % / / / _` | | '_ \| | | | '_ \| | |/ __/ _` | + % % % % / /__| (_| | | |_) | |_| | |_) | | | (_| (_| | % % % + % % % \____/\__,_| | .__/ \__,_|_.__/|_|_|\___\__,_| % + V V V V V V V V 00 |_| 0 0 % % 0 %% + V V V V V V V V V V V V V V V V % 0 _ % _ % _ % 0 0 +V V V V V V V V V % % 0 | |_(_) ___ _ __ __| | ___ + V V V V V V V V 0 0 | __| |/ _ \| '_ \ / _` |/ _ \ 0 0 + V V V V V V V V V V V V V V V V 0 | |_| | (_) | | | | | (_| | __/ 0 % % +V V V V V V V V V 0 0 \__|_|\___/|_| |_| \__,_|\___| 0 + % % 0 ___ _ 0 0 +Les Data Workers ont besoin de don- 0 0 / \__ _| |_ __ _ 0 0 +nées pour travailler. Dans le % 00 0 0 / /\ / _` | __/ _` | 0 +contexte d'Algolit, celles-ci 0 / /_// (_| | || (_| | 0 +prennent la forme du langage écrit. /___,' \__,_|\__\__,_| 0 % +L'apprentissage automatique repose % __ __ _ 0 0 +sur de nombreux types d'écriture. 00 0 / / /\ \ \___ _ __| | _____ _ __ ___ 0 +Les auteurs humains écrivent sous \ \/ \/ / _ \| '__| |/ / _ \ '__/ __| 0 +forme de publications. Celles-ci \ /\ / (_) | | | < __/ | \__ \ +sont organisées en archives et en 0 \/ \/ \___/|_| |_|\_\___|_| |___/ +cours de numérisation. Mais il 0 0 0 +existe d'autres types d'écriture. +On pourrait dire que chaque être Toutes les œuvres visibles dans l'exposition, ainsi que les his- +humain avec un accès à Internet de- toires contextuelles et quelques textes supplémentaires ont été +vient un écrivain lorsqu'il inter- rassemblés dans une publication. Celle-ci existe en français et +agit avec des algorithmes. En ajou- en anglais. +tant des commentaires, en écrivant +des mails ou des articles Wikipé- Cette publication est réalisée en suivant un flux de travail en +dia, en cliquant et en aimant. texte brut, basé sur divers outils de traitement de texte et de + calcul. Le format de fichier 'texte brut' est le format le plus +Les algorithmes d'apprentissage au- utilisé dans les modèles d'apprentissage automatique. C'est un +tomatique ne sont pas critiques : type de document dans lequel il n'existe pas de différence struc- +ils prennent tout ce qu'on leur % turelle entre les en-têtes et les paragraphes. Ce format a été le +donne, peu importe le style d'écri- point de départ d'un processus de conception graphique ludique, +ture, le CV de l'auteur ou ses dans lequel les pages sont soigneusement comptées, page par page, +fautes d'orthographe. D’ailleurs, ligne par ligne et caractère par caractère. +plus il y a d’erreurs, mieux +c’est : la variété leur apprend à Chaque page contient 110 caractères par ligne et 70 lignes par +anticiper les textes inattendus. page. La mise-en-page est donc le résultat d'un acte de calcul de +Les auteurs humains quant à eux ne mots, d'espaces et de lignes. Il joue avec des choix aléatoires, +sont souvent pas conscients de ce des motifs programmés et des polices ASCII/UNICODE, afin de spé- +qui advient de leur travail. culer sur la matérialité du texte numérique et d'explorer les in- + terrelations entre l'acte de compter et d'écrire avec des mots et +La plupart des textes que nous uti- des numéros. +lisons sont en anglais, certains en % +français, d'autres en néerlandais. Textes: Cristina Cochior, Sarah Garcin, Gijs de Heij, An Mertens, +Souvent, nous nous retrouvons à François Zajéga, Louise Dekeuleneer, Florian Van de Weyer, Laeti- +écrire en Python, le langage de tia Trozzi, Rémi Forte, Guillaume Slizewicz. +programmation que nous utilisons. +Les algorithmes peuvent aussi être Traductions & relectures: deepl.com, Michel Cleempoel, Elodie Mu- +des écrivains. Certains réseaux de grefya, Patrick Lennon, Emma Kraak. +neurones écrivent leurs propres +règles et génèrent leurs propres Mise-en-page & couverture: Manetta Berends +textes. Et pour les modèles qui +luttent encore contre les ambiguï- Editeur responsable: Constant vzw/asbl, Rue du Fortstraat 5, 1060 +tés du langage naturel, il existe Bruxelles +des éditeurs humains pour les ai- +der. Poètes, dramaturges ou roman- Licence: Algolit, Data Workers, mars 2019, Bruxelles. Copyleft: +ciers commencent leur nouvelle car- cette oeuvre est libre, vous pouvez la redistribuer et/ou la mo- +rière comme assistants de l'IA. difier selon les termes de la Licence Art Libre. + + Version en ligne: http://www.algolit.net/index.php/Data_Wor- + kers_FR + + Sources: https://gitlab.constantvzw.org/algolit/mundaneum + 7 +% % % % % %% %% % % %% % % % % % %% +% % % % % % % %% % % % % % %%% % % % % + % %% % % % % 0 0 0 % % % + % % % % 0 % % % % % % % % % % % + % % % % % 0 __ % 0 % % _ % _ % % + % % % % / / ___ _ __ ___ 0 __| | ___ __ _ ___| |_ + % % / / / _ \ | '_ \ / _ \ / _` |/ __/ _` / __| __| 0 % + % % % % 0 / /__| __/ | |_) | (_) | (_| | (_| (_| \__ \ |_ % + % % % % % \____/\___| | .__/ \___/ \__,_|\___\__,_|___/\__| + % % % % |_| 0 0 0 % + % % % 0 _ ___ _ + % 0 0 __| | ___ / \__ _| |_ __ _ 0 % % + % % / _` |/ _ \ / /\ / _` | __/ _` | + | (_| | __/ / /_// (_| | || (_| | + % \__,_|\___| /___,' \__,_|\__\__,_| 00 % + % __ __ 0 _ 0 0 + % / / /\ \ \___ _ __| | _____ _ __ ___ 0 + \ \/ \/ / _ \| '__| |/ / _ \ '__/ __| + 0 \ /\ / (_) | | | 0 < __/ | \__ \ 0 + \/ \/ \___/|_| |_|\_\___|_| |___/ 0 + % % % + % % + Par Algolit + + % % Lors des réunions mensuelles d'Algolit, nous étudions des manuels + et expérimentons avec des outils d'apprentissage automatique pour + % le traitement de texte. Mais nous partageons aussi énormément + d'histoires. Avec ce podcast, nous espérons recréer cette atmo- + sphère. % + + % % Pour les non-initiés, les algorithmes ne deviennent visibles dans + les médias que lorsqu'ils se révèlent capables d'une performance + exceptionnelle, comme l'Alpha Go, ou quand ils se trompent d'une + façon terrifiante et fantastique. Mais les humains qui tra- % + vaillent sur le terrain créent leur propre culture en ligne et + hors ligne. Ils partagent leurs meilleures histoires et expé- % + riences lors de réunions en direct, de conférences de recherche + ou de compétitions annuelles comme celle du Kaggle. Ces histoires + qui contextualisent les outils et les pratiques peuvent être drô- + les, tristes, choquantes et intéressantes. + + Ce sont souvent des histoires d'apprentissage par l’expérience. + La mise en œuvre des algorithmes dans la société génère de nou- + velles conditions de travail, de stockage, d'échange, de compor- + tement et de copier-coller. À leur manière, ces histoires contex- + tuelles saisissent l’élan d’une histoire anthropo-machinique plus + large, écrite par de nombreuses voix et à pleine vitesse. Elles + sont aussi reprises dans la publication de l'exposition. + + --- + % + Voix: Elodie Mugrefya, Michel Cleempoel, Géraldine Renauld, An + Mertens, Donatella Portoghese, Peter Westenberg. + + Composition: Javier Lloret + % + Enregistrements: David Stampfli + + Textes: Cristina Cochior, An Mertens + + + 0 0 0 0 0 % + 0 % 00 0 % + 0 _ _ _ + /\/\ __ _ _ __| | _| |__ ___ | |_ + 0 / \ / _` | '__| |/ / '_ \ / _ \| __| + / /\/\ \ (_| | | | <| |_) | (_) | |_ % + 0 \/ \/\__,_|_| |_|\_\_.__/ \___/ \__| + 0 ___ _ 0 0 0 _ 0 0 0 + 8 + % % % % % % % %% %%% / __\ |__ __ _(_)_ __ % % 0 % % % + % % % % %% % % % % / / | '_ \ / _` | | '_ \ % % 0 % % % + % % % / /___| | | | (_| | | | | | % 0 % % % % + % % % % % 0 00 \____/|_| |_|\__,_|_|_| |_| + % % % %% % % % %% %% % + % % % % % % % % % % + % % % Par Florian Van de Weyer, étudiant Arts²/Section Arts Numériques + % % %% % % % + % % Markbot Chain est une expérimentation sociale dans laquelle le % + % % % public a une influence directe sur le résultat. L'intention est + de l'intégrer au cœur d'un processus de génération de texte sans + % % appliquer de filtre sur ses entrées. Le bot fonctionnera durant + % toute la durée de l'exposition sans être remis à zéro. + % % % + % % Toutes les questions présentes dans la base de données mise à + % disposition par le Mundaneum ont été répertoriées automatique- + ment. Ces questions sont ensuite posées aléatoirement au public + % via un terminal. En y répondant, les personnes alimentent une % + autre base de données. Après chaque entrée, cette dernière permet + de générer une série de phrases en utilisant diverses configura- + tions des chaînes de Markov, un algorithme qui est fort utilisé + % dans la génération de spam. Les phrases ainsi générées sont affi- + chées dans la fenêtre, et une nouvelle question est posée. + % + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + 9 + RÉCITS CONTEXTUALISÉS + AUTOUR DES ECRIVAINS + + + + --- Les programmeurs créent les data workers en Les lignes directrices suivantes sont copiées du + écrivant --- site Web de Microsoft. Elles décrivent comment le + style de Cortana doit être respecté par les entre- + Récemment, nous avons constaté une étrange obser- prises qui élargissent ses services. Les tra- + vation : la plupart des programmeurs de langages vailleurs écrivains, programmeurs et romanciers + et de paquets que nous utilisons sont européens. qui développent les réponses de Cortana, doivent + suivre ces directives. Sa personnalité et son +Python, par exemple, le principal langage utilisé image de marque sont en jeu. Car la cohérence est +dans le monde entier pour le traitement du langa- un outil important pour solliciter la confiance de +ge, a été inventé en 1991 par le programmeur néer- l’humain. + landais Guido Van Rossum. Celui-ci a ensuite tra- + versé l'Atlantique où il a rejoint Google pendant Quelle est la personnalité de Cortana ? + sept ans. Maintenant il est actif chez Dropbox. + 'Cortana est attentionnée, sensible et solidaire. + Scikit Learn, le couteau suisse open source des + outils d'apprentissage automatique, a été initié Elle est sympathique mais orientée vers des solu- + comme un projet Google Summer of Code à Paris par tions. + le chercheur français David Cournapeau. Par la + suite, il a été repris par Matthieu Brucher dans Elle ne commente pas les informations personnelles + le cadre de sa thèse à l'Université de la Sorbonne ou le comportement de l'utilisateur, en particu- + à Paris. Puis il a été adopté en 2010 par l'INRA, lier si ces informations sont sensibles. +l'Institut National de l'Informatique et des Ma- +thématiques Appliquées. Elle ne fait pas de suppositions sur ce que l'uti- + lisateur veut, surtout elle n'incite pas à + Keras, une bibliothèque de réseaux de neurones l'achat. + open source écrite en Python, est développée par + François Chollet, un chercheur français qui tra- Elle travaille pour l'utilisateur. Elle ne repré- + vaille dans l'équipe Brain de Google. sente aucune entreprise, service ou produit. + + Gensim, une bibliothèque open source pour Python Elle ne s'attribue pas le mérite ou la responsabi- + utilisée pour créer des modèles sémantiques non lité des choses qu'elle n'a pas faites. + supervisés à partir de texte brut, a été écrite + par Radim Řehůřek. C'est un informaticien tchèque Elle dit la vérité sur ses capacités et ses li- + qui dirige une entreprise de conseil à Bristol, au mites. + Royaume-Uni. + Elle ne présume rien de vos capacités physiques, +Et pour finir cette petite série, nous avons aussi de votre sexe, de votre âge ou de toute autre ca- +considéré Pattern, une bibliothèque souvent utili- ractéristique déterminante. + sée pour le web-mining et l'apprentissage automa- + tique. Pattern a été développé et publié sous une Elle ne suppose pas savoir ce que l'utilisateur + license libre en 2012 par Tom De Smedt et Walter ressent à propos de quelque chose. + Daelemans. Tous deux sont chercheurs au CLIPS, le + Centre de Linguistique Informatique et de Psycho- Elle est amicale mais professionnelle. + linguistique de l'Université d'Anvers. + Elle se garde d'émoticons dans les tâches. Un + point c’est tout. + --- Cortana parle --- + Elle n'utilise pas d'argot culturel ou profession- + Les dispositifs d’intelligence artificielle qui nel spécifique. +nous assistent, ont souvent besoin de leurs +propres assistants, humains. Les travailleurs in- Ce n'est pas un bot de support.' +jectent de l'humour et de l'intelligence dans le + langage des machines. Cortana est un exemple de ce Les humains interviennent en détail lors de la + type d'écriture mixte. Elle est l'assistante numé- programmation des réponses que Cortana donne. + rique développée par Microsoft. Sa mission est Comment Cortana doit-elle réagir lorsqu'on lui + d'aider les utilisateurs à être plus productifs et propose des actions 'inappropriées' ? Son jeu + créatifs. La 'personnalité' de Cortana a été fa- d'actrice sexuée imité par la technologie soulève + çonnée au fil des ans. Il est important qu'elle des questions à propos des relations de pouvoir + conserve son caractère dans toutes ses interac- dans le monde actuel. + tions avec les utilisateurs. Elle est conçue pour + nous rendre confiants. Cela se reflète dans ses Voyez la réponse que Cortana donne à la question : + réponses. - Cortana, qui est ton papa ? + - Techniquement parlant, c'est Bill Gates. Rien de + grave. + 10 + + + + + retracée plus ou moins clairement par la linguis- + tique comparée. On oppose les langues naturelles - + --- Apprentissage Open Source --- comme le français - aux langues construites comme + le langage de programmation ou l'espéranto, for- + Les licences de droits d'auteur cloisonnent une mées intentionnellement par l’entremise de l’homme + grande partie des pratiques d'écriture, de lecture pour répondre à un besoin précis.' Une langue of- + et d'apprentissage machiniques. Cela signifie ficielle avec une académie régulatrice, telle que + qu'ils ne sont disponibles que pour les humains le français standard avec l'Académie française, + travaillant dans cette entreprise spécifique. Cer- est classée comme langue naturelle. Ses points + taines entreprises participent à des conférences normatifs ne le rendent pas assez construit pour +dans le monde entier et partagent leurs connais- être classé comme un langage construit ou assez +sances dans des articles en ligne. Même si elles contrôlé pour être classé comme un langage naturel +partagent leur code, souvent elles ne mettent pas contrôlé. + à disposition les grandes quantités de données né- + cessaires à la formation des modèles. Ainsi, le 'langage naturel' est un terme de sub- + stitution qui se réfère à toutes les langues, au- + Nous avons pu apprendre l'apprentissage automati- delà de leur hybridité. Le 'traitement du langage + que, à lire et à écrire dans le contexte d'Algolit naturel', est au contraire une pratique + grâce à des chercheurs universitaires qui par- construite. Ce qui nous intéresse, c'est la créa- + tagent leurs résultats par le biais d’articles ou tion d'un langage construit pour classer les lan- + par la publication de leur code en ligne. En tant gages naturels qui, par leur évolution, présentent + qu'artistes, nous pensons qu'il est important des problèmes de catégorisation. + d'adopter cette attitude. C'est pourquoi nous do- + cumentons nos réunions. Nous partageons autant que Références : +possible les outils que nous créons et les textes +que nous utilisons sur notre dépôt de code en https://hiphilangsci.net/2013/05/01/on-the-histo- +ligne et ceci, sous licence libre. ry-of-the-question-of-whether-natural-language-is- + illogical/ + Nous éprouvons une grande joie quand nos travaux + sont repris par d'autres, modifiés, personnalisés Livre : Neural Network Methods for Natural Lan- + et redistribués. N'hésitez donc pas à copier et à guage Processing, Yoav Goldberg, Bar Ilan Univer- + tester le code sur notre site web. Si les sources sity, avril 2017. + d'un projet particulier n’y sont pas, vous pouvez + toujours nous contacter via la liste de diffusion. + Vous trouverez un lien vers notre dépot git, nos + etherpads et notre wiki sur http://www.algolit.- + net. + + +--- Langage naturel pour l'intelligence artifi- +cielle --- + + Le traitement du langage naturel (NLP) est un + terme collectif qui désigne le traitement informa- + tique automatique des langues humaines. Cela com- + prend les algorithmes utilisant, comme entrée, du + texte produit par l'homme et qui tentent de le re- + produire. Les humains semblent compter de plus en + plus sur ce type de présence algorithmique. Nous + produisons de plus en plus de textes chaque année + et nous nous attendons à ce que les interfaces in- + formatiques communiquent avec nous dans notre +propre langue. Le traitement du langage naturel +est très difficile, car le langage humain est par +nature ambigu, en constante évolution et mal défi- + ni. + + Mais qu'entend-on par 'naturel' dans le traitement + du langage naturel ? Certains humains diront que + la langue est une technologie en soi. Selon Wiki- + pédia, 'Une langue dite « naturelle » est une + langue qui s'est formée petit à petit, évoluant + avec le temps, et fait partie du langage naturel. + Son origine est bien souvent floue et peut être + + 11 +0123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345678 +9 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234567 +89 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456 +789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345 +6789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234 +56789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123 +456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12 +3456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1 +23456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 +123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 + 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345678 +9 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234567 +89 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456 +789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345 +6789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234 +56789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123 +456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12 +3456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1 +23456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 +123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 + 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345678 +9 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234567 +89 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456 +789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345 +6789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234 +56789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123 +456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12 +3456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1 +23456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 +123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 + 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345678 +9 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234567 +89 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456 +789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345 +6789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234 +56789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123 +456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12 +3456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1 +23456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 +123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 + 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345678 +9 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234567 +89 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456 +789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345 +6789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234 +56789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123 +456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12 +3456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1 +23456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 +123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 + 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345678 +9 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234567 +89 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456 +789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345 +6789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234 +56789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123 +456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12 +3456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1 +23456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 +123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 + 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345678 +9 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234567 +89 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456 +789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345 +6789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234 +56789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123 +456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12 +3456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1 +23456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 + 12 +oracles predict oracles predict oracles predict oracles predict oracles predict oracles predic + oracles predict oracles predict oracles predict oracles predict orac +es predict oracles predict oracles predict oracles predict +racles predict oracles predict oracles predict oracles predic + oracles predict oracles predict oracles predict + oracles predict oracles predict oracles predict + oracles predict oracles predict or +cles predict oracles predict oracles predict + oracles predict oracles predict + oracles predict oracles predict oracles pr +dict oracles predict oracles predict + oracles predict oracles predict + oracles predict oracles predict + oracles predict oracles predict + oracles predict oracles predict + oracles predict orac +es predict oracles predict + oracles predict oracles predict + oracles predict oracles predic + oracles predict + oracles predict oracles predict + oracles predict +oracles predict oracles predict + oracles predict +racles predict oracles predict + oracles predict + oracles predict oracles predict + oracles predict + oracles predict orac +es predict oracles predict + oracles predict + oracles predict +racles predict oracles predict + oracles predict + oracles predict + oracles predict +racles predict oracles predict + oracles predict + oracles predict + oracles predict + oracles predict + oracles predict or +cles predict oracles predic + oracles predict + oracles predict + oracles predict + oracles predict + oracles predict + oracles predict + oracles predict + oracles predict + oracles predict + oracles predict + oracles predict + oracles predict + oracles predict + oracles predict + oracles predict + oracles predict + oracles predict + oracles predict + oracles predict + oracles predict + oracles predict + oracles predict + oracles predict + oracles predict + oracles predict + oracles predict + 13 + 52 99 h g ei 2e 4 e pial n +-+-+-+-+-+-+-+ 2 +-+-+-+-+-+-+-+ 2+ 3 ' ant 0st8.d? e85oP rl 53' e1 + 2 r%e i8cnr eOl -6 %rs % 16 |o|r|a|c|l|e|s| e9 |p|r|e|d|i|c|t| sp r5b5 9 6 1 ic ldt +4 ksr1 + 37e m e29 % 1 Ns oe u q 73 +-+-+-+-+-+-+-+ ed2 +-+-+-+-+-+-+-+ 7oi_ 2 ng é o 8n5a xovnst7 àr s 5 +e e , _ rtu 4 a l8r l a6 4 3V1. 8 s s 9y e 9t 78 7 + e7er\r 7 a3d9 ,u n 2 9d7 o r . +s- r 5 1'5 ml - t 7 41e - +l t 7 a 8 5U n 7 r3 u714t wuc 7 7 9 7t- l 2 + a / a s 56oi| +-+-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+ s +-+-+-+-+-+-+-+-+ +-+-+-+ 6 9 3 r a nw nbr o i 5 + 7 . 75 / r c |m|a|c|h|i|n|e| |l|e|a|r|n|i|n|g| f 4 |a|n|a|l|y|s|e|s| |a|n|d| v4p t r9a we e _ 8 + d 7eunnr r st +-+-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+ -do +-+-+-+-+-+-+-+-+ +-+-+-+ q é r i e 4lso r + 6 5 a % 7 9a r1% r r9 s5 a n a +-+-+-+-+-+-+-+-+ 8e e3u2nV5 46a r 8di 4ea + 7 o w 1 a t  es 4 9 e | M o |p|r|e|d|i|c|t|s| oe rs0i 2sg|ti r o1 aa Uc t + g4o9 e 9 is u 9 a 9 d 9 4% +-+-+-+-+-+-+-+-+ i s + e6 6 p 4 d + e e/3 p e6 i _ 3 e i +-+-+-+-+-+-+ s +-+-+-+-+ +-+-+-+-+-+-+-+ _ 3 4e + + a - c 2 t é a |m|o|d|e|l|s| a |h|a|v|e| |l|e|a|r|n|e|d| t_i p9 8 4 odt 3ap 2 + a5 87 o 2 n a +-+-+-+-+-+-+ tn +-+-+-+-+ +-+-+-+-+-+-+-+ l 7 2 o u ' p + a + 2 e e si l 5 i c +-+-+-+-+-+-+ n +-+-+-+ +-+-+-+-+ i _ K c m r 6ia q c + 7 2 - ra srit i |m|o|d|e|l|s| n 6 |a|r|e| |u|s|e|d| - , 1 1 - 5 ao t + i e 23 es re i 45 +-+-+-+-+-+-+ 4 +-+-+-+ +-+-+-+-+ 9lc 5 R r rp 6 + p n 7 2 i s9rd+ m a +-+-+-+-+ 3 +-+-+-+-+-+-+-+-+-+ e s nas k2 e b ,4 + n 7 4 r 3 2i o u | |t|h|e|y| 9 |i|n|f|l|u|e|n|c|e| t G nso6ui 4 1 + A d D 9 ao 1 4a 7 +-+-+-+-+ +-+-+-+-+-+-+-+-+-+ l 9 P 7m- 87 + 7 +M h dsn i | 8 q +-+-+-+-+ +-+-+-+-+ +-+-+-+-+-+ +-+-+-+ 8 _ ii p t i + j r c u 22 n e a |t|h|e|y| V |h|a|v|e| |t|h|e|i|r| |s|a|y| 7 + f l 2 + 9a5 9 6?4 4 d M 1 +-+-+-+-+ a +-+-+-+-+ +-+-+-+-+-+ +-+-+-+ r2 ét +t 8 c c 6 +-+-+-+-+-+-+-+-+-+-+-+ 1 a s | 2 9 4 é ov a r -i + t ae f |i|n|f|o|r|m|a|t|i|o|n| 9h 16 n l 6s3 ` +' - + e 1 +-+-+-+-+-+-+-+-+-+-+-+ 89 e i 6 a 4 o_d n n r u + i +-+-+-+-+-+-+-+-+-+-+ 2 +-+-+-+-+-+-+-+-+-+-+ c 2 a e e os + i + d n |e|x|t|r|a|c|t|i|o|n| |r|e|c|o|g|n|i|z|e|s| r 3 2 a t + o r C ( 2 +-+-+-+-+-+-+-+-+-+-+ 2 +-+-+-+-+-+-+-+-+-+-+ 9 6 e + 8 a4 pl V s +-+-+-+-+ d 9 i k r e |s 2 u +1 rr t 5 1 l 5 |t|e|x|t| ss 2 v 2 6 o 9 e + h h 7 m 92 +-+-+-+-+ 2 9 l c h o , e p r r + 5 4 +-+-+-+-+-+-+-+-+-+-+-+-+-+-+ + +-+-+-+-+-+-+-+ 9 f 37 9 8% + o 1 |c|l|a|s|s|i|f|i|c|a|t|i|o|n| |d|e|t|e|c|t|s| 8r 5 n r+ 2 + é c +-+-+-+-+-+-+-+-+-+-+-+-+-+-+ r +-+-+-+-+-+-+-+ s h + . 7 _ 8 _ 8 8 a 1 3t u + d t i x | 4 e 9 e o 9 a + C e u 2 1 u2 t +4 , s r 6 i 9 é + e1i d l a i e 2 o r 6 5 + n 2 5 _g f er r d n + 6 m r i6 Pi J i 2 i o 2 + a r e V i + u 1 o +s u 2 3 h 1 6 + wa u 2 s + l _ 3 i q 5 u 4 + u t 8r s k 1 + é 1 n 5 t + l9 + e a n + 7 4 5 + t r 9 2 + 4 4 8 n 6 . + 7 z 1 5 % s w| + l e w m + 86 1 + t é l t 7 + T 9 s - - i 3 + n 4 n + 4 o i e D t4 + 6 o 8 ee + 4 l 4 m n l + p l o l 4 + c d + a 2 + . t 8 a + 59 r l t + e c c + r s + + 14 +% V % V V % V % V % V V V % % % % % % % % % % % % % % % + V V V V V V V V V V V V V V V V % %% % % 0 % % %% % % % %% % % % +V V V V V % V V V V %% % % % % 0 % 0 % % + % % % % %% 0 ___ _ _ % _ _ _ _ %% % % % + % % % % / ( ) /_\ | | __ _ ___ | (_) |_| |_ + % % ORACLES % 0 % / /|/ //_\\| |/ _` |/ _ \| | | __| __| 00 + % % 0 0 / /___/ _ \ | (_| | (_) | | | |_| |_ % + %% % % % % % \____/\_/ \_/_|\__, |\___/|_|_|\__|\__| 0 % + V V V V V V V V % % |___/ %% + V V V V V V V V V V V V V V V V 0 _ 0 % 0 +V V % V V V V V V V % 0 ___ _ __ __ _| |_ ___ _ _ _ __ % % + V V V V V V V V / _ \ '__/ _` | __/ _ \ | | | '__| % + V V V V V V V V V V V V V V V V % % % | __/ | | (_| | || __/ |_| | | +V V V V V V V V V \___|_| \__,_|\__\___|\__,_|_| + % % % 0 0 % 0 % +L'apprentissage automatique est % +principalement utilisé pour analy- par Algolit % +ser et prédire des situations à % +partir de cas existants. Dans cette L'Algolittérateur est construit à l'aide d'un réseau de neurone +exposition, nous nous concentrons et des œuvres mises à disposition par le Mundaneum. L'Algolitté- +sur les modèles d'apprentissage au- rateur vous aide à écrire un texte dans le style du Bureau des +tomatique pour le traitement de Institutions Internationales. % +texte ou le traitement du ‘langage +naturel', ‘nlp’ en bref. Ces mo- Vous pouvez choisir une phrase de départ dans l’œuvre originale +dèles ont appris à effectuer une % et indiquer si l'Algolittérateur produit les phrases suivantes +tâche spécifique sur base de textes basées sur un apprentissage primitif, intermédiaire ou final. +existants. Les modèles sont utili- La machine propose un paragraphe que vous pouvez éditer. Si vous +sés par les moteurs de recherche, êtes satisfait du résultat, vous pouvez l'envoyer à l’imprimante +les traductions automatiques et les et ramener le texte chez vous comme souvenir. +résumés, en repérant les tendances +des réseaux de nouveaux médias et --- % +des fils d’actualité. Ils in- +fluencent ce que l'on voit en tant Concept, code & interface : Gijs de Heij & An Mertens +qu'utilisateur, mais ont aussi leur +mot à dire dans le cours des Technique : Recurrent Neural Network % +bourses mondiales ou dans la détec- +tion de la cybercriminalité et du Modèle original : Andrej Karphaty, Justin Johnson +vandalisme. % + Sources : https://gitlab.constantvzw.org/algolit/algoliterator.- +Deux tâches principales se pré- clone +sentent dans la compréhension d’une +langue. L'extraction de l'informa- +tion porte sur les concepts et les 0 00 0 0 +relations entre les concepts. Elle 0 0 0 0 % 0 +permet de reconnaître les sujets, 0 % _ _ 0 +les lieux et les personnes d’un 0 /\/\ ___ | |_ ___ __| | __ _ _ __ ___ +texte, de faire un résumé, de poser / \ / _ \| __/ __| / _` |/ _` | '_ \/ __| +des questions et d'y répondre. / /\/\ \ (_) | |_\__ \ | (_| | (_| | | | \__ \ +L'autre tâche est la classification % \/ \/\___/ \__|___/ \__,_|\__,_|_| |_|___/ +du texte. Vous pouvez entraîner un 0 _ _ __ 0 0 +oracle pour détecter si un mail est 0 | ( )__\__ _ __ __ _ ___ ___ +du spam ou non, écrit par un homme 0 | |/_\/ __| '_ \ / _` |/ __/ _ \ 0 +ou une femme, plutôt positif ou né- 0 | //__\__ \ |_) | (_| | (_| __/ 0 +gatif. 0 |_\__/|___/ .__/ \__,_|\___\___| + |_| +Dans cette zone, vous pouvez voir 0 0 0 0 0 +certains de ces modèles à l'œuvre. +Au cours de votre voyage dans l'ex- Par Algolit +position, vous découvrirez les dif- +férentes étapes qu'une machine-hu- 'Word embeddings' désignent des techniques de modélisation du +maine doit franchir pour arriver à langage qui, par de multiples opérations mathématiques, tracent +un modèle final. des mots dans un espace vectoriel multidimensionnel. Lorsque les + mots sont 'embedded' ou intégrés, ils se transforment de symboles + distincts en objets mathématiques, qui peuvent être multipliés, + divisés, ajoutés ou soustraits. + + % En distribuant les mots le long des nombreuses lignes diagonales + de l'espace vectoriel multidimensionnel, leurs nouveaux place- + ments géométriques deviennent impossibles à percevoir par les hu- + 15 + % % % % mains. Cependant, ce que l'on gagne, ce sont des façons multiples + %% % % %% % et simultanées d'organisation des mots. Les opérations algé- + % % %% % briques rendent les relations entre les vecteurs à nouveau com- % + % % % % % préhensibles. % % % % % % +% % % % % % % % % % % + % % Cette installation utilise gensim, une boîte à outils open source % + % % % pour le language de programmation Python, qui permet de créer des % + % % espaces de vecteurs et des modèles thématiques. Elle manipule le % + % texte selon les relations mathématiques qui émergent entre les + % mots, une fois qu'ils ont été tracés dans l'espace de vecteurs. % + % % % % % + % % --- % % % % + % % + Concept & interface: Cristina Cochior %% + % % % % + Technique: word embeddings, word2vec % + % + % Modèle original: Radim Rehurek et Petr Sojka + % % % % % % % + + % 0 0 0 0 + % 0 0 0 0 + ___ _ 0 0 0 _ 0 + / __\ | __ _ ___ ___ ___ _ __ | | ___ + / / | |/ _` / __/ __|/ _ \ '__| | |/ _ \ + / /___| | (_| \__ \__ \ __/ | | | __/ + \____/|_|\__,_|___/___/\___|_| |_|\___| + % 0 0 0 _ 0 + 0 _ __ ___ ___ _ __ __| | ___ + | '_ ` _ \ / _ \| '_ \ / _` |/ _ \ + % | | | | | | (_) | | | | (_| | __/ 0 + 0 |_| |_| |_|\___/|_| |_|\__,_|\___| % + 0 0 0 0 + % + Par Algolit + % % + La construction du Mundaneum a été 'l'œuvre de la vie' du biblio- + thécaire Paul Otlet. Selon son but, ce cerveau mécanique collec- + tif aurait abrité et distribué tout ce qui a été couché sur pa- + pier. Chaque document aurait été classé selon la Classification + décimale universelle. En utilisant des télégraphes et surtout des + trieurs, le Mundaneum aurait été en mesure de répondre à toutes + les questions posées par n'importe qui. + + Avec la collection de publications numérisées que nous avons re- + çue du Mundaneum, nous construisions une machine de prédiction + qui essaie de classer la phrase que vous tapez dans l'une des + principales catégories de la Classification décimale universelle. + % % Vous êtes également témoin de la façon dont la machine 'pense'. + Pendant l'exposition, ce modèle est régulièrement mis à jour à + l'aide des données nettoyées et annotées, ajoutées par les visi- + teurs dans les installations 'Nettoyage pour Poèmes' et 'L'Anno- + tateur'. + + Les classes principales de la Classification Décimale Universelle + sont les suivantes: + + 0 - Généralités (Sciences et connaissance ; organisation. infor- + matique, information, documentation, bibliothéconomie. institu- + tions, publications) + % + 1 - Philosophie et psychologie + + 2 - Religion, théologie + + 3 - Sciences sociales (Statistique. Économie. Commerce. Droit. + Gouvernement. Affaires militaires. Assistance sociale. Assu- + rances. Éducation. Folklore) + + 16 + % % % %% % % %% % % 4 - inoccupée % % % % % % + % % % %% % % % % % % %% % %%%% % %%% + % % % %% 5 - Sciences pures (Mathématiques, sciences exactes et naturel- % + % % %% % % % % % les) % % %% % % %% % %% + % % % % % % % % %% % % + % % % % % 6 - Sciences appliquées. Médecine. Technologie % % + % % % % % % % % % % % % % + %%% 7 - Arts. Divertissements. Sports % + % % % % % % + 8 - Langue. Linguistique. Littérature % + % % % % % % %% + 9 - Géographie. Biographie. Histoire + % % % + --- % % + % % % + % Concept, code, interface: Sarah Garcin, Gijs de Heij, An Mertens + % % % + % % % + %% % 0 % 0 + % 0 0 % 0 0 % + 0 0 ___ _ 0 0 + %% / _ \___ ___ _ __ | | ___ + / /_)/ _ \/ _ \| '_ \| |/ _ \ 0 + 0 / ___/ __/ (_) | |_) | | __/ 0 + 0 \/ \___|\___/| .__/|_|\___| 0 0 + |_| 0 + _ 00 _ _ _ 0 00 0 + 0 0 __| | ___ _ __( ) |_ | |__ __ ___ _____ + / _` |/ _ \| '_ \/| __| | '_ \ / _` \ \ / / _ \ + | (_| | (_) | | | || |_ | | | | (_| |\ V / __/ + 0 \__,_|\___/|_| |_| \__| |_| |_|\__,_| \_/ \___| + _ 0 0 _ _ 0 + | |__ _ _| |_| |_ ___ _ __ ___ + | '_ \| | | | __| __/ _ \| '_ \/ __| + | |_) | |_| | |_| || (_) | | | \__ \ + |_.__/ \__,_|\__|\__\___/|_| |_|___/ + 0 0 0 0 0 % + + Par Algolit + + Depuis les débuts de l'intelligence artificielle (IA), les cher- + cheurs ont spéculé sur la possibilité pour les ordinateurs de + pouvoir penser et communiquer comme des humains. Dans les années + 1980, il y a eu une première révolution dans le traitement du + langage naturel (NLP), le sous-domaine de l'intelligence artifi- + cielle (IA) qui concerne les interactions linguistiques entre les + ordinateurs et les humains. Récemment, des modèles linguistiques + pré-entraînés ont atteint des résultats de pointe sur un large + éventail de tâches de NLP, ce qui intensifie encore les attentes + d'un avenir avec l'IA. + + Cette œuvre sonore, composée de fragments sonores de documen- + taires scientifiques et de matériel audiovisuel lié à l'IA datant + de la deuxième moitié du XXe siècle, explore les espoirs, les + craintes et les frustrations provoqués par ces attentes. + + --- + % + % Concept, édition : Javier Lloret + + Listes des sources : 'The Machine that Changed the World : Epi- + sode IV -- The Thinking Machine', 'The Imitation Game', 'Maniac', + 'Halt & Catch Fire', 'Ghost in the Shell', 'Computer Chess', + '2001: A Space Odyssey', Ennio Morricone, Gijs Gieskes, André + Castro. + + + + + 17 + RÉCITS CONTEXTUALISÉS + AUTOUR DES ORACLES + + + + Les Oracles sont un type particulier de modèles des noms traditionnellement perçus comme blancs. + algorithmiques qui servent à prédire ou à profi- + ler. Ils sont largement utilisés dans les smart- Sweeney a fondé son enquête sur des recherches + phones, les ordinateurs et les tablettes. Les portant sur 2184 prénoms racisés sur deux sites + Oracles peuvent être créés à l'aide de différentes Web. 88 % des prénoms, identifiés comme étant don- + techniques. L’une d’entre elles consiste à définir nés à un plus grand nombre de bébés noirs, sont + manuellement les règles. Ces modèles sont appelés considérés comme prédictifs de la race, contre +'rule-based models'. Ils sont utiles pour des 96 % de blancs. Les prénoms qui sont principale- +tâches spécifiques, comme par exemple, la détec- ment donnés à des bébés noirs, comme DeShawn, Dar- +tion de la mention d'une certaine molécule dans un nell et Jermaine, ont généré des annonces mention- + article scientifique. Ils sont performants, même nant une arrestation dans 81 à 86 % des recherches + avec très peu de données d'entraînement. de noms sur un site, et dans 92 à 95 % des cas sur + l'autre. Les noms qui sont principalement attri- + Mais il y a aussi les Oracles d'apprentissage au- bués aux blancs, comme Geoffrey, Jill et Emma, + tomatique ou les Oracles statistiques, qui peuvent n'ont pas donné les mêmes résultats. Le mot 'ar- + restation' n'est apparu que dans 23 à 29 % des re- + 'non supervisés'. Pour la création de modèles cherches de noms blancs sur un site, et 0 à 60 % + d'apprentissage automatique supervisés, les hu- sur l'autre. + mains annotent les données d'entraînement avant de + les envoyer à la machine. Chaque texte est jugé Sur le site affichant le plus de publicité, un nom + par au moins 3 humains: par exemple, s’il s’agit d'identification noir était 25 % plus susceptible +de spam ou non, s’il est positif ou négatif. Les d'obtenir une publicité suggérant un dossier d'ar- +Oracles d'apprentissage automatique non supervisés restation. Quelques noms n'ont pas suivi ces modè- +n'ont pas besoin de cette étape mais nécessitent les : Dustin, un nom donné principalement aux bé- + de grandes quantités de données. C’est également à bés blancs, a généré une publicité suggérant une + la machine de tracer ses propres motifs ou 'règles arrestation dans 81 et 100 % des cas. Il est im- + grammaticales'. Enfin, les experts font la diffé- portant de garder à l'esprit que l'apparition de + rence entre les Oracles basés sur l'apprentissage l'annonce est liée au nom lui-même et non au fait + automatique classique et ceux basés sur des ré- qu'il ait un dossier d'arrestation dans la base de + seaux de neurones. Vous en apprendrez plus à ce données de l'entreprise. + sujet dans la zone Lecteurs. + Référence : https://dataprivacylab.org/pro- + Les humains ont tendance à exagérer la performance jects/onlineads/1071-1.pdf + des Oracles. Parfois, ces Oracles apparaissent + quand il y a un disfonctionnement. Dans les commu- +niqués de presse, ces situations souvent drama- --- Qu'est-ce qu'un bon employé ? --- +tiques sont appelées des 'leçons'. Malgré la pro- +messe de leurs performances, beaucoup de problèmes Depuis 2015, Amazon compte environ 575 000 tra- + restent à résoudre. Comment s'assurer que les vailleurs, et ils leur en faut plus. Par consé- + Oracles soient justes, que chaque être humain quent, ils ont mis sur pied une équipe de 12 per- + puisse les consulter, qu'ils soient compréhen- sonnes pour créer un modèle qui trouverait de bons + sibles par un large public ? Même au-delà, des candidats en parcourant des sites de demande d'em- + questions existentielles persistent. Avons-nous ploi. L'outil attribuerait aux candidats une note + besoin de tous les types d'intelligences artifi- allant de une à cinq étoiles. Le potentiel a ali- + cielles ? Et qui définit ce qui est juste ou in- menté le mythe : l'équipe voulait un logiciel qui + juste ? recracherait les cinq meilleurs sur une liste de + 100 candidats humains pour les embaucher. + + --- Adsense racial --- Le groupe a créé 500 modèles algorithmiques, cen- + trés sur des fonctions et des lieux de travail +Latanya Sweeney, professeur en Gouvernance et spécifiques. Ils ont appris à reconnaître 50 000 +Technologie à l'Université de Harvard, a documenté termes qui figuraient sur les lettres d’anciens + une 'leçon' classique sur le développement des candidats. Les algorithmes ont appris à accorder + Oracles. En 2013, Sweeney, d'origine afro-améri- peu d'importance aux compétences communes aux can- + caine, a googlé son nom. Elle a immédiatement reçu didats en IT, comme la capacité d'écrire du code + une publicité pour un service qui lui offrait 'de informatique, mais ils ont aussi reproduit les er- + voir le casier judiciaire de Latanya Sweeney'. reurs de leurs créateurs. Juste avant d'approuver + Sweeney, qui n'a pas de casier judiciaire, a dès un modèle, l’entreprise s’est rendue compte que + lors entamé une étude. Elle a commencé à comparer les modèles ont décidé que les candidats masculins + la publicité que Google AdSense offrait à diffé- étaient préférables. Ils pénalisaient les candida- + rents noms racisés identifiables. Elle a découvert tures qui comprenaient le mot ‘femmes’ ou ‘fémi- + qu'elle recevait plus d’annonces de ce type en re- nin’, comme dans 'capitaine de club d'échecs fémi- + cherchant des noms ethniques non-blancs qu'avec nin'. Et ils ont rétrogradé les diplômées de deux + universités réservées aux femmes. + 18 + + + + + de prédiction suscite beaucoup de discussions au + Ceci est dû à l'utilisation pour leur entraînement sein de la communauté du machine learning. Ces mo- + des demandes d'emploi reçues par Amazon sur une dèles fallacieux ou biaisés sont synonymes d’une + période de 10 ans. Durant cette période, l'entre- discrimination automatisée. La question se pose: + prise avait surtout embauché des hommes. Au lieu est-il vraiment possible d'éliminer complètement + de fournir la prise de décision 'équitable' que les préjugés de ces modèles ? + l'équipe d'Amazon avait promise, les modèles re- + flétaient une tendance biaisée dans l'industrie Certains affirment que oui, d'autres sont en + technologique. Mais ils l'ont aussi amplifiée et désaccord. Avant de soumettre le modèle à une in- + rendu invisible. Les activistes et les critiques génierie inversée, nous devrions nous demander si +affirment qu'il pourrait être extrêmement diffi- nous en avons besoin tout court. Ces chercheurs +cile de poursuivre un employeur en cas d’embauche ont suivi une troisième voie. En reconnaissant la +automatisée : les candidats à un emploi pourraient discrimination qui trouve son origine dans le lan- + ne jamais savoir que des logiciels intelligents gage, ces modèles deviennent pour eux des outils + ont été utilisés dans ce processus. de sensibilisation, en visualisant le problème. + + Référence : https://www.reuters.com/article/us- L'équipe de la Standford University a développé un + amazon-com-jobs-automation-insight/amazonscraps- modèle d'analyse des ‘word embeddings’ entraîné + secret-ai-recruiting-tool-that-showed-bias- sur 100 ans de textes. Pour l'analyse contemporai- + against-women-idUSKCN1MK08G ne, ils ont utilisé les Google News word2vec Vec- + tors, un paquet prêt à l’emploi, téléchargeable, + entraîné sur le Google News Dataset. Pour l'ana- + --- Quantification de 100 ans de stéréotypes lyse historique, ils ont utilisé des 'word embed- + sexuels et ethniques --- dings' qui ont été entraînés sur Google Books et + The Corpus of Historical American English +Dan Jurafsky est le co-auteur de 'Speech and Lan- (COHA https://corpus.byu.edu/coha/) avec plus de +guage Processing', un des ouvrages les plus in- 400 millions de mots de textes des années 1810 à + fluents pour l'étude du traitement du langage na- 2000. Afin de valider le modèle, ils ont entraîné + turel. Avec quelques collègues de l'Université de des ‘word embeddings’ du New York Times Annotated + Stanford, il a découvert en 2017 que les ‘word em- Corpus pour chaque année entre 1988 et 2005. + beddings’ peuvent être un outil puissant pour + quantifier systématiquement les stéréotypes com- Leur recherche montre que les ‘word embeddings’ + muns ainsi que d'autres tendances historiques. reflètent l'évolution des stéréotypes sexistes et + ethniques au fil du temps. Ils quantifient comment + Les ‘word embeddings’ sont une technique qui tra- des préjugés spécifiques diminuent avec le temps + duit les mots en vecteurs numérotés dans un espace tandis que d'autres stéréotypes augmentent. Les + multidimensionnel. Les vecteurs qui apparaissent principales transitions révèlent des changements + proches l’un de l’autre, indiquent une significa- dans les descriptions de genre et de groupes eth- +tion similaire. Ainsi, tous les numéros seront re- niques lors du mouvement des femmes dans les an- +groupés, toutes les prépositions, les prénoms et nées 1960-70 et la croissance de la population +les professions, etc. Cela permet de faire des asio-américaine dans les années 1960 et 1980. + calculs avec les mots. Vous pourriez, par exemple, + soustraire Londres de Royaume-Unis et votre résul- Quelques exemples : + tat serait le même que de soustraire Paris de + France. Les dix professions les plus étroitement associées + aux groupes ethniques dans le jeu de données de + Google News : + de l'adjectif 'honorable' est plus proche du vec- + teur 'homme', alors que le vecteur 'soumis' est - Hispanique : femme de ménage, maçon, artiste, + plus proche de 'femme'. Ces stéréotypes sont alors concierge, danseur, mécanicien, photographe, bou- + automatiquement appris par l'algorithme. Il langer, caissier, chauffeur. + s’avère problématique lorsque les 'embeddings' +pré-entraînés sont utilisés pour des applications - Asiatique : professeur, fonctionnaire, secrétai- +sensibles comme les classements de recherche, les re, chef d'orchestre, physicien, scientifique, +recommandations de produits ou les traductions. Ce chimiste, tailleur, comptable, ingénieur. + risque est réel, car un grand nombre de ‘word em- + beddings’ pré-entraînés sont téléchargeables sous - Blanc : forgeron, ferronnier, géomètre, shérif, + forme de paquets prêts à l'emploi. tisserand, administrateur, maçon, statisticien, + ecclésiaste, photographe. + On sait que la langue reflète et maintient en vie + Les 3 professions les plus masculines dans les an- + embeddings' pour repérer ces stéréotypes est moins nées 1930 : ingénieur, avocat, architecte. + cher et prends moins de temps que les méthodes ma- Les 3 professions les plus féminines dans les an- + nuelles. Mais leur mise en oeuvre dans des modèles nées 1930 : infirmière, femme de ménage, aide-soi- + + 19 + + + +gnante. la vie des gens, intitulé 'Weapons of Math Des- + truction'. On y parle de modèles d'IA aux États- + Peu de choses ont changé dans les années 1990. Unis qui classent les enseignants. C’est assez + horrible parce qu'il y aura forcément des préju- + Principales professions masculines : gés. D’après leur recherche, la façon d’aborder la + architecte, mathématicien et géomètre. question serait d'abord d’avoir un modèle open + Les professions féminines restent les mêmes : source, où l’on peut consulter le code et voir + infirmière, femme de ménage et sage-femme. quelles fonctionnalités sont utilisées avec des + données ouvertes, afin que les gens puissent en- + Mais qu'est-ce qui s'est passé dans cette re- quêter, trouver des préjugés, donner leur feedback + cherche avec les afro-américains? et faire un rapport. Il devrait y avoir un moyen + de réparer le système. Je ne pense pas que toutes +Référence : https://arxiv.org/abs/1711.08412 les entreprises vont dans cette direction, mais + Wikipédia, en raison des valeurs qu'elle défend, + est au moins plus transparente et pousse d'autres + --- Le Service ORES de Wikimedia --- personnes à faire de même. + + L'ingénieur de logiciels Amir Sarabadani a présen- Référence : https://gitlab.constantvzw.org/alg + té le projet ORES à Bruxelles en novembre 2017 olit/algolit/blob/master/algoliterary_encounte + lors de notre Rencontre Algolittéraire. Cet 'Ob- r/Interview%20with%20Amir/AS.aac + + prentissage automatique pour automatiser le tra- + vail critique sur Wikimedia, comme la détection du --- Tay --- + vandalisme et la suppression d'articles. Cristina + Cochior et Femke Snelting l'ont interviewé. Une histoire tristement célèbre est celle du pro- + gramme d'apprentissage automatique Tay, conçu par +Femke : Revenons à votre travail. Ces temps-ci, Microsoft. Tay était un chatbot qui imitait une +vous essayez de comprendre ce que signifie trouver adolescente sur Twitter. Elle a vécu moins de 24 +des préjugés discriminatoires dans l'apprentissage heures avant d'être éteinte. Peu de gens savent + automatique. La proposition de Nicolas Malevé, qui qu'avant cet incident, Microsoft avait déjà en- + a donné l'atelier hier, était de ne pas essayer de traîné et publié XiaoIce sur WeChat, l'application + le réparer, ni de refuser d'interagir avec des de chat la plus utilisée en Chine. Le succès de + systèmes qui produisent de la discrimination, mais XiaoIce a été si prometteur qu'il a conduit au dé- + de travailler avec eux. Il considère que les pré- veloppement de son homologue américain. Cependant, + jugés sont inhérents à la connaissance humaine et les développeurs de Tay n'étaient pas préparés + que nous devons donc trouver des moyens de les pour le climat de la plateforme Twitter. Bien que + utiliser d'une façon ou d'une autre. Nous avons le bot savait distinguer un nom d'un adjectif, il + discuté un peu de ce que cela signifierait, com- n'avait aucune compréhension de la signification + ment cela fonctionnerait... Je me demandais donc réelle des mots. Le robot a rapidement commencé à + si vous aviez des idées sur cette question de par- reproduire les insultes raciales et d'autres lan- +tialité. gages discriminatoires qu'il a appris par les + autres utilisateurs de Twitter et les attaques de +Amir : La partialité à l'intérieur de Wikipédia trolls. + est une question délicate parce qu'elle se produit + à plusieurs niveaux. Un niveau très discuté est le L'apparition et la mort de Tay représentent une + système des références. Toutes les références ne prise de conscience importante. Elle a montré les + sont pas accessibles. Ce que la fondation Wikime- conséquences possibles de la corruption de l'ap- + dia a essayé de faire, c'est de donner un accès prentissage automatique, lorsque le contexte + gratuit aux bibliothèques payantes. Ils réduisent culturel dans lequel l'algorithme doit vivre n'est + l'exclusion en n'utilisant que des références en pas pris en compte. + libre accès. Un autre type de discrimination est + la connexion Internet, l'accès à Internet. Il y a Référence : https://chatbotslife.com/the-accounta- + beaucoup de gens qui ne l'ont pas. Une chose à bility-of-ai-case-study-microsofts-tay-experiment- + propos de la Chine, c'est qu'Internet y est blo- ad577015181f +qué. Le contenu opposé au gouvernement de la Chine +au sein du Wikipédia chinois est plus élevé parce +que les éditeurs [qui peuvent accéder au site Web] + ne sont pas pro-gouvernement et essaient de le + rendre plus neutre. On le remarque donc à beaucoup + d'endroits. En ce qui concerne l'intelligence ar- + tificielle (IA) et le modèle que nous utilisons + chez Wikipedia, c'est plutôt une question de + transparence. Il existe un livre sur la façon dont + les préjugés dans les modèles d'IA peuvent briser + + + 20 +cleaners clean cleaners clean cleaners clean cleaners clean cleaners clean cleaners clean + cleaners clean cleaners clean cleaners clean cleaners clean cleaners clean + cleaners clean cleaners clean cleaners clean cleaners clean + cleaners clean cleaners clean cleaners clean + cleaners clean cleaners clean cleaners clean cle +ners clean cleaners clean cleaners clean +cleaners clean cleaners clean cleaners clean + cleaners clean cleaners clean cleaners +lean cleaners clean cleaners clean + cleaners clean cleaners clean + cleaners clean cleaners clean cle +ners clean cleaners clean cleaners +clean cleaners clean cleaners +lean cleaners clean cleane +s clean cleaners clean +cleaners clean cleaners clean + cleaners clean cleaners clean + cleaners clean cleaners clean + cleaners clean + cleaners clean cleaners clean + cleaners clean cleaners clean + cleaners clean + cleaners clean cleaners clean + cleaners clean + cleaners clean cleaners clean + cleaners clean + cleaners clean cleaners +clean cleaners clean + cleaners clean + cleaners clean cleaners clean + cleaners clean + cleaners clean + cleaners clean cleaners +clean cleaners clean + cleaners clean + cleaners clean + cleaners clean cle +ners clean cleaners clean + cleaners clean + cleaners clean + cleaners clean + cleaners clean + cleaners clean + cleaners clean cleaners +lean cleaners clean + cleaners clean + cleaners clean + cleaners clean + cleaners clean + cleaners clean + cleaners clean + cleaners clean + cleaners clean + cleaners clean + cleaners clean + cleaners clean + cleaners clean + cleaners clean + cleaners clean + cleaners clean + cleaners clean + cleaners clean + cleaners clean + cleaners clean + cleaners clean + cleaners clean + cleaners clean + cleaners clean + cleaners clean + 21 + p 3 n C M ef3 t +-+-+-+-+-+-+-+-+ e7 +-+-+-+-+-+ _ a7s rl9 1t sPm4 ee7e rkc V + è o 9 c 2 o 3l s- |c|l|e|a|n|e|r|s| c72 |c|l|e|a|n| n ce-5i ps eg d M5 a /6 i|d 4 + r | ué ddpe g n e7 se2 R n +-+-+-+-+-+-+-+-+ pm +-+-+-+-+-+ t r2é- n m9d7 r 6’aai-1 a + mu +u d 5y xa fa v| 1 l e3cu . e 1 a 7n d |u s tr ie %43 m1a ftol_3s _ é o , eh s id8 + ce+eee b/ 7 2nuee -t2errld 8g lrs c c-i2 pd % . r7 n t v . c è 3 58ii 3tq rr M o + 2 6-m9u c _ 7 , t | lr +-+-+ 3 +-+-+-+-+-+-+ uR n l s u9 a +n 1 qas r i ei1 + s + 3 ot 8 n7 e u s gmt qooast o tv |w|e| 6 |h|e|l|p|e|d| o6 0 e2t 5 6% cp r t8 ' _ + i n i u o i 9e N e 71e8 u +-+-+ i i +-+-+-+-+-+-+ e+ d 2 e+ 3 s 4r n n472t or2i + 2e ll a n , n su p e1 qe r +-+-+ + +-+-+-+-+-+-+-+ 9 ieb a p pad i u 7 3iWé + + n 8a é c ly - d n r ' |w|e| f 0t |c|l|e|a|n|e|d| e oo é3 t Nd eo du 5 \g + ,r% 9o ai9 o l56 x c n t%a7 ese7 +-+-+ l +-+-+-+-+-+-+-+ 6 ba , l 2 c 9 6 | + gi4c l 2 6 + +-+-+-+-+-+ +-+-+-+-+ 7 _ +-+-+ +-+-+-+-+-+-+ ld p + d p7 a r u + l è 7 ar + 2 ee np |h|u|m|a|n| |w|o|r|k| s u |i|s| |n|e|e|d|e|d| 4 u t e3e 7 d é2 8 S ftm1 + a t t lC ' paq +-+-+-+-+-+ +-+-+-+-+ 2 +-+-+ +-+-+-+-+-+-+ r n9v4 ie n 9 o + r \e w oa3s3x x u +-+-+-+-+-+-+-+-+-+-+-+ r 8e ln 8l e 9 7e w c n d 9 8 + a s a l4r a eg+ |p|o|o|r|l|y|-|p|a|i|d| 3 a n +6 w 5 uii2 r 5c o s w s / t3s 3 + 6 sc A s : +-+-+-+-+-+-+-+-+-+-+-+ _ n e e e t c ts i u 6 9 . i + . a oc p a e +-+-+-+-+-+-+-+-+-+-+-+ d t +-+-+-+-+-+ +-+-+-+ s a g i8 e + lt43 9 l fd |f|r|e|e|l|a|n|c|e|r|s| 5 |c|a|r|r|y| |o|u|t| 5t0d m em , + t e rc t am i +-+-+-+-+-+-+-+-+-+-+-+ o +-+-+-+-+-+ +-+-+-+ 1dt r d ' % o v + 6 o 7 e é a|8 +-+-+-+-+-+-+-+-+-+-+ +-+-+ +-+-+-+-+-+-+-+-+-+ +-+-+-+-+ ta i + 7 r 2s 6v n |v|o|l|u|n|t|e|e|r|s| |d|o| |f|a|n|t|a|s|t|i|c| |w|o|r|k| r r s + a 8 _ r m do +-+-+-+-+-+-+-+-+-+-+ e +-+-+ +-+-+-+-+-+-+-+-+-+ +-+-+-+-+ oi a - V + 5 kr 8 r - l4 ' +-+-+-+-+-+-+-+ 0 +-+-+-+-+-+-+ +-+-+ +-+-+-+-+ n a | + \ L s - % +5a |w|h|o|e|v|e|r| au% |c|l|e|a|n|s| |u|p| |t|e|x|t| _ av n r tn + t 4 u il u +-+-+-+-+-+-+-+ +-+-+-+-+-+-+ +-+-+ +-+-+-+-+ d 7 g o +r | i | s 5 3o r - t w t )-p +f c n u r 8 | 4 a o s ' d s i ir a- m i 6 F e ,a 1+ + 6 n a 3 da l| d % 1 e72 5 c 67 | o - r + e p n t oa c sa 7 l e i s d é 9 lu c .\ u 5 9 + 8 ee 3 f a/r 20 4 u t ' a r e i 9c + 8 p 5 p s lei J g 1 r f tl8 2h d + 6 il éi o 4 L s l 3 l 9 t +dd t c t 3 d t ntr 9 h r , p + c t v d t r r a i t | _ t v eu + _| c o 4 5 e r a o 8 n n r f 9 u k x 4 n + | is C O - 69 w 6l J r 9O l 9 a/u e + l ic t , e d la o - l u n si + s n n è d a c a\ 6t e 79s + 4 i \ 9 l -: d 3 u -2 o l % t + w in a a n 5 5 7 + t ah | 2 n n u a + p 0 d + 2 k 2 g e t l t 2 in + 6 4t 1 é é e t + d 7 s m 9 a d t a r e p + o 8 C s e i i e i sd a e 3 + l 3 7 a r/ m 5 i d é n 6 + è 7at 4_ e 4 e 2 5 cm d + i a 4 r e a - r + 9 i 4 c 6 o d w - é + y 5 6 + % r i - r +7 t g c _ i a l o +| t i r % 0 t + c5 3 m u i e ê + l l q e u wu s + 4 5 5 e 8 a _ a t + e i i 3 + 3 3 e + e i t t c e- r 8 m -. + + p r u d e n + e t a a + 5 s r 2 l u m r r + d i a J e 5 l an u m +2 n| n c + é r N 2 + t I + % 2 | 4 + - t t o + + 22 + V V V V V V V V % % % % %% % % % % %% % % % % % + V V V V V V V V V V V V V V V V % 0 % 0 % 0 %% % % 0 %% % +V V V V V V V % V V %% % % 0 %% %% % % %%% + % % %% % % 0 % % __ _ _ 0 % % % + % % % % /\ \ \___| |_| |_ ___ _ _ __ _ __ _ ___ % + NETTOYEURS / \/ / _ \ __| __/ _ \| | | |/ _` |/ _` |/ _ \ + % % % % % / /\ / __/ |_| || (_) | |_| | (_| | (_| | __/ + % % % % % \_\ \/ \___|\__|\__\___/ \__, |\__,_|\__, |\___| + V V V V V V V V % % 0 0 0 |___/ % |___/ % % + V V V V V V V V V V V V V V V V % % 0 _ __ ___ _ _ _ __ _ _ _ __ % +V V V V V V V V V | '_ \ / _ \| | | | '__| | | | | '_ \ % + V V V V V V V V | |_) | (_) | |_| | | | |_| | | | | % + V V V V V V V V V V V V V V V V | .__/ \___/ \__,_|_| % \__,_|_| |_| 0 % % +V V V V V V V V % V % |_| 0 % % 0 0 + 0 ___ 0 0 0 +Algolit choisit de travailler avec / _ \___ ___ _ __ ___ ___ % % +des textes libres de droits. Cela % / /_)/ _ \ / _ \ '_ ` _ \ / _ \ +signifie qu'ils sont publiés sous % / ___/ (_) | __/ | | | | | __/ +une licence Creative Commons 4.0 - 0 \/ \___/ \___|_| |_| |_|\___| +ce qui est rare -, ou qu'ils sont 00 0 0 +dans le domaine public parce que +l'auteur est mort il y a plus de 70 par Algolit +ans. C'est le cas des publications % +du Mundaneum. Nous avons reçu 203 Pour cette exposition, nous travaillons avec 3% des archives du +documents pour constituer des jeux Mundaneum. Ces documents ont d'abord été numérisés ou photogra- +de données qui sont maintenant dis- phiés. Pour rendre les documents consultables, ils sont transfor- +ponibles en ligne. L'inconvénient % més en texte à l'aide du logiciel de reconnaissance optique de +de ce choix est que nous sommes caractères (OCR) basés sur des modèles algorithmiques entraînés à +souvent confrontés à de mauvais base d'autres textes. Ils ont appris à identifier des caractères, +formats de texte. Cela signifie que des mots, des phrases et des paragraphes. +nous sommes souvent obligés de net- % +toyer des documents. Nous ne sommes Le logiciel fait souvent des 'erreurs'. Il peut être perturbé par +pas seuls dans cette situation. % un caractère erroné, une typographie inhabituelle ou la transpa- + rence de la page laissant apparaître le verso. Bien que ces er- +Les livres sont numérisés en haute reurs soient souvent considérées comme du bruit, elles peuvent +résolution, page par page. C'est un aussi être considérées comme des interprétations poétiques de +travail humain intensif et c'est l’algorithme. Elles nous montrent les limites de la machine. Et +souvent la raison pour laquelle les elles révèlent également comment l’algorithme fonctionne, quelle +archives et les bibliothèques matière l’a alimenté lors de son entraînement et ce qu’ils ré- +transfèrent leurs collections à une vèlent des normes de ses fabricants. Dans cette installation, +société comme Google. Les photos vous pouvez choisir comment vous traitez les erreurs de lecture +sont converties en texte via OCR de l'algorithme. Sélectionnez un degré de nettoyage poétique, im- +(Reconnaissance Optique de Caractè- primez votre poème et emportez-le chez vous. +res), des Data Workers qui recon- +naissent les lettres. Dans l'exécu- --- +tion de cette tâche, les algo- +rithmes font des erreurs, en parti- Concept, code, interface: Gijs de Heij +culier lorsqu'ils doivent traiter +des polices anciennes et des pages % +froissées. Ici aussi un travail hu- 0 0 +main intensif est nécessaire pour 0 0 0 0 0 +améliorer les textes. Cela est fait % __ _ 0 0 _ 0 +par des freelances via des plate- / / ___ _ __ _ __ ___ (_) ___| |_ 0 +formes de micro-paiement comme Me- / / / _ \ | '_ \| '__/ _ \| |/ _ \ __| 0 +chanical Turk ; ou par des volon- % / /__| __/ | |_) | | | (_) | | __/ |_ +taires, comme la communauté du Dis- 0 \____/\___| | .__/|_| \___// |\___|\__| +tributed Proofreaders Project, qui |_| |__/ 0 0 +fournit un travail incroyable. Quoi 0 ___ _ _ _ _ 0 _ 0 +qu’il en soit, le nettoyage des % 0 / (_)___| |_ _ __(_) |__ _ _| |_ ___ +textes est un travail énorme pour / /\ / / __| __| '__| | '_ \| | | | __/ _ \ +lequel il n'y a pas encore d'auto- / /_//| \__ \ |_| | | | |_) | |_| | || __/ 0 +matisation structurelle. /___,' |_|___/\__|_| |_|_.__/ \__,_|\__\___| 0 + 0 _ ___ 0 __ 0 + 0 __| | / _ \_ __ ___ ___ / _|_ __ ___ __ _ + / _` | / /_)/ '__/ _ \ / _ \| |_| '__/ _ \/ _` | + | (_| | / ___/| | | (_) | (_) | _| | | __/ (_| | + % 0 \__,_| \/ |_| \___/ \___/|_| |_| \___|\__,_| + _ 0 0 + 0 __| | ___ _ __ ___ 0 + 23 + %% % % % % % %% 0 % % % / _` |/ _ \ '__/ __| % % % % + % % % % % % % % %%% % 0 | (_| | __/ | \__ \ % % % % + % % % % % % % 0 0 \__,_|\___|_| |___/ 0 % % % + % % % %% % % % 0 0 % 0 % 0 0 0 % % % + % % % % % % % % % % % %% % + % % par Algolit % % + % % % % % % % + % % Distributed Proofreaders est une interface Web et une communauté + % internationale de bénévoles qui aident à convertir des livres du %% + % domaine public en livres électroniques. Pour cette exposition, + % ils ont relu des publications de Mundaneum parues avant 1923, qui + % sont donc dans le domaine public aux États-Unis. + % % % % + % Leur collaboration a été un grand soulagement pour les membres + % % d'Algolit. Moins de documents à nettoyer ! Tous les livres corri- + gés sont disponibles dans les archives du Projet Gutenberg. An + % % Mertens a interviewé Linda Hamilton, directrice générale de Dis- + tributed Proofreaders. % % % % + % % + % --- + % + % Interview : An Mertens, Algolit et Linda Hamilton, Distributed + Proofreaders + % + Montage : Michael Murtaugh, Constant + + % + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + 24 + RÉCITS CONTEXTUALISÉS + AUTOUR DES NETTOYEURS + + + + --- Projet Gutenberg et Distributed Proofreaders IDÉES + --- + + Le projet Gutenberg est notre grotte d'Ali Baba. A. L'instinct de Mort et l'instinct de Vie : + Il offre plus de 58 000 livres électroniques gra- + tuits à télécharger ou à lire en ligne. Les œuvres L'Instinct de Mort : séparation ; catégorisation ; + sont acceptées sur Gutenberg lorsque leur droit avant-garde par excellence ; suivre le chemin pré- +d'auteur américain a expiré. Des milliers de béné- dit vers la mort - exécuter son propre code ; +voles numérisent et relisent des livres pour aider changement dynamique. +le projet. Une partie essentielle du travail est + réalisée dans le cadre du projet Distributed Proo- L'Instinct de Vie : l'unification ; le retour + freaders. Il s'agit d'une interface Web pour aider éternel ; la perpétuation et l'ENTRETIEN de la ma- + à convertir les livres du domaine public en livres tière ; les systèmes et opérations de survie ; + électroniques. Pensez aux fichiers texte, aux e- l'équilibre. + pubs, aux formats Kindle. En divisant la charge de + travail en pages individuelles, de nombreux béné- + voles peuvent travailler sur un livre en même B. Deux systèmes de base : + temps, ce qui accélère le processus de nettoyage. + Développement et entretien. La boule de cristal de + Pendant la relecture, les bénévoles reçoivent une chaque révolution : après la révolution, qui va + image scannée de la page et une version du texte, essayer de repérer le taux de discrimination dans +lue par un algorithme de reconnaissance optique la production ? +des caractères (OCR) entraîné pour reconnaître les +lettres dans les scans. Cela permet de comparer Développement : pure création individuelle ; le + facilement le texte à l'image, de le relire, de le nouveau ; le changement ; le progrès ; l'avancée ; + corriger et de le renvoyer sur le site. Un l'excitation ; la fuite ou s'enfuir. + deuxième bénévole se voit ensuite présenter le + travail du premier. Il vérifie et corrige le tra- Entretien : garder la poussière de la création in- + vail si nécessaire, et le soumet au site. Le livre dividuelle pure ; préserver le nouveau ; soutenir + passe ensuite par un troisième cycle de relecture le changement ; protéger le progrès ; défendre et + et deux autres cycles de mise en page à l'aide de prolonger l'avancée ; renouveler l'excitation ; + la même interface Web. Une fois que toutes les répéter le vol ; montrez votre travail/remontrez- + pages ont terminé ces étapes, un post-processeur le ; gardez le dépôt git mis à jour ; gardez + les assemble soigneusement dans un e-book et les l'analyse des données révélatrice. + soumet à l'archive du Projet Gutenberg. + Les systèmes de développement sont des systèmes de +Nous avons collaboré avec le Distributed Proofrea- rétroaction partielle avec une grande marge de +ders Project pour nettoyer les fichiers numérisés changement. + que nous avons reçus de la collection du Munda- + neum. De novembre 2018 jusqu'à la première mise en Les systèmes d'entretien sont des systèmes à ré- + ligne du livre 'L'Afrique aux Noirs' en février troaction directe avec peu de possibilités de mo- + 2019, An Mertens a échangé environ 50 courriels dification. + avec Linda Hamilton, Sharon Joiner et Susan Han- + lon, toutes bénévoles du Distributed Proofreaders + Project. La conversation complète est publiée ici. C. L'entretien est une corvée, ça prend tout le + Cela pourrait vous inspirer à partager des livres temps. + non disponibles en ligne. + L'esprit est éblouissant et s'irrite devant l'en- + nui. +--- Une version algolittéraire du Manifeste sur +l’entretien --- La culture attribue un statut médiocre aux emplois + d'entretien = salaire minimum, les Mechanical + En 1969, un an après la naissance de son premier Turks d'Amazon = pratiquement aucun salaire. + enfant, l'artiste new-yorkaise Mierle Laderman + Ukeles a écrit un 'Manifesto for Maintenance' (Ma- Nettoyer le set, marquer les données d'entraîne- + nifeste pour l'entretien). Le Manifeste d'Ukeles ment, corriger les fautes de frappe, modifier les + appelle à une réévaluation de l'état des travaux paramètres, terminer le rapport, satisfaire le de- + mandeur, télécharger la nouvelle version, joindre + blic. Ce qui suit est une version modifiée de son les mots qui ont été mal reconnus par le logiciel + texte inspirée par le travail des Nettoyeurs. de Reconnaissance Optique de Caractères, accomplir + ces tâches d'intelligence humaine, essayez de de- + viner la signification du formatage du demandeur, + vous devez accepter le 'hit' avant de pouvoir sou- + mettre les résultats, résumer l'image, ajouter la + 25 + + + + + case de délimitation, quelle est la similitude sé- des vidéos sur YouTube montrant aux 'turkers' com- + mantique de ce texte, vérifiez la qualité de la ment écrire un bot qui remplit des réponses pour + traduction, collecter vos micro-paiements, devenir vous. + un Mechanical Turk à succès. + Kristy Milland, une militante de Mechanical Turk, + Référence : https://www.arnolfini.org.uk/blog/ma- dit : 'Les travailleurs sur Mechanical Turk ont + nifesto-for-maintenance-art-1969 été très, très mal traités pendant 12 ans et, + d'une certaine façon, je vois cela comme un point + de résistance. Si nous étions payés équitablement + --- Une panique robotique chez le Mechanical Turk sur la plateforme, personne ne prendrait le risque +d'Amazon --- de perdre son compte de cette façon.' + +Le Mechanical Turk d'Amazon prend le nom d'un au- Bai a créé un questionnaire pour les chercheurs en + tomate d'échecs du 18ème siècle. En fait, le Turc dehors de Mechanical Turk. Il dirige actuellement + mécanique n'était pas du tout une machine. C'était une recherche parmi les spécialistes des sciences + une illusion mécanique qui permettait à un maître sociales pour déterminer la quantité de données + d'échecs humain de se cacher à l'intérieur de la erronées utilisées, l'ampleur du problème et les + boîte et de l'utiliser manuellement. moyens de l'enrayer. Mais il est impossible à + l'heure actuelle d'estimer combien de jeux de don- + Pendant près de 84 ans, le Turc a remporté la plu- nées sont devenus peu fiables de cette façon-ci. + part des matchs joués lors de ses manifestations + en Europe et en Amérique. Napoléon Bonaparte se Références : + serait lui aussi laissé berner par cette ruse. + https://www.wired.com/story/amazon-mechanical- +Le Mechanical Turk d’Amazon est une plateforme en turk-bot-panic/ +ligne à destination des humains pour exécuter des +tâches que les algorithmes ne parviennent pas à https://www.maxhuibai.com/blog/evidence-that-res- + faire. Il peut s'agir, par exemple, d'annoter des ponses-from-repeating-gps-are-random + phrases comme étant positives ou négatives, de re- + pérer des plaques d'immatriculation, de recon- http://timryan.web.unc.edu/2018/08/12/data-conta- + naître des visages. Les postes affichés sur cette mination-on-mturk/ + plateforme sont souvent rémunérés moins d'un cen- + time par tâche. Les tâches les plus complexes ou + nécessitant le plus de connaissances peuvent être + payées jusqu'à plusieurs centimes. Pour gagner + leur vie, les 'turkers' doivent accomplir le plus + de tâches possible le plus rapidement possible, ce + qui entraîne d’inévitables erreurs. Les créateurs +des jeux de données doivent incorporer des +contrôles de qualité lorsqu'ils publient un tra- +vail sur la plate-forme. Ils doivent vérifier si + le 'turker' a réellement la capacité d'accomplir + la tâche, et ils doivent également vérifier les + résultats. De nombreux chercheurs universitaires + utilisent le Mechanical Turk pour des tâches qui + auraient été exécutées par des étudiants aupara- + vant. + + En août de l'année dernière, Max Hui Bai, un étu- + diant en psychologie de l'Université du Minnesota, + a découvert que les enquêtes qu'il a menées avec + Mechanical Turk étaient pleines de réponses ab- +surdes aux questions ouvertes. Il a retracé les +mauvaises réponses et a découvert qu'elles avaient +été soumises par des répondants ayant des coordon- + nées GPS en double. Cela a suscité des soupçons. + Bien qu'Amazon interdise explicitement aux robots + d'effectuer des travaux sur Mechanical Turk, l'en- + treprise ne publie pas les problèmes qu'ils + causent sur sa plate-forme. Les forums pour 'tur- + kers' sont pleins de conversations sur l'automati- + sation du travail, le partage de pratiques sur la + façon de créer des robots qui transgresseraient + les termes d'Amazon. Vous pouvez également trouver + + 26 +informants inform informants inform informants inform informants inform informants inform info +mants inform informants inform informants inform informants inform informants i +form informants inform informants inform informants inform info +mants inform informants inform informants inform informants info +m informants inform informants inform informants inform + informants inform informants inform informants +inform informants inform informants inform + informants inform informants inform informants info +m informants inform informants inform + informants inform informants inform + informants inform informants inform in +ormants inform informants inform infor +ants inform informants inform info +mants inform informants inform +informants inform informants inform + informants inform informants inform + informants inform informants inform + informants inform infor +ants inform informants inform + informants inform informants inform + informants inform + informants inform informants inform + informants inform +informants inform informants inform + informants inform + informants inform informants inform + informants inform + informants inform informants +inform informants inform + informants inform + informants inform informants +inform informants inform + informants inform + informants inform + informants inform informants info +m informants inform + informants inform + informants inform + informants inform + informants inform informants +inform informants inform + informants inform + informants inform + informants inform + informants inform + informants inform + informants inform + informants inform + informants inform + informants inform +informants inform in +ormants inform info +mants inform infor +ants inform infor +ants inform info +mants inform in +ormants inform +informants inform + informants inform + informants inform + informants inform + informants inform + informants inform + informants inform + informants inform + informants inform + informants inform + informants inform + informants inform + 27 + rnes h r 3 au lo%+ an 5 +-+-+-+-+-+-+-+-+-+-+ nse +-+-+-+-+-+-+ es a r - r n c 8 é2 rèe 5c eit + o cn si 2es to r |i|n|f|o|r|m|a|n|t|s| 2e |i|n|f|o|r|m| t le tl e 6 - , i t r + n - é6 i é +-+-+-+-+-+-+-+-+-+-+ si +-+-+-+-+-+-+ se n ae|v m o e a i 5é + 5 oe mc d | ué|dé a m s i ee vc r u ejt l 5e t2 ie% 6 a d e n1 4o n9e a8 + e e + n +so - n0 1f r4tn + % t trcnadb8a - btta A ge | 9pwW8 r s n e +4e _4i ac sw + m srs s| %u t8 6S +-+-+-+-+ +-+-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+-+ ,e| ese 1 e + eé é t ge % qf - |e|a|c|h| |d|a|t|a|s|e|t| s0ce |c|o|l|l|e|c|t|s| |d|i|f|f|e|r|e|n|t| i b 1ai3 + u 5éé eoes 6 n u +-+-+-+-+ +-+-+-+-+-+-+-+ 9 +-+-+-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+-+ 3 - o 7 É + 4 7 5on a / 8 h l lie r 3 e _ -ln 0o +-+-+-+-+-+-+-+-+-+-+-+ +-+-+-+-+-+ p 5U 7 6 nl 2é + 7ce ebi u 2 a . _ 2 t %b u6% mS | i |i|n|f|o|r|m|a|t|i|o|n| |a|b|o|u|t| 5 o 9'3ab u p + ,s 'o f p p o n sc 8_n c t n +-+-+-+-+-+-+-+-+-+-+-+ +-+-+-+-+-+ s - i a + ,ae a s 4 9 n 2 le 3as n8 or 7 rn u9 +-+-+-+ +-+-+-+-+-+ d - ée x t e nl e _4 e + i rt _san r 62' o _ % / & p |t|h|e| |w|o|r|l|d| | r% pa mi P i aa7 vco + oh, a e d 7 a e q+ s d8 | sr +-+-+-+ +-+-+-+-+-+ - -u1 lr ir ch t tn + l e 2 1l / rne 9t 5 7 +-+-+-+-+-+-+-+-+ c +-+-+-+ +-+-+-+-+-+-+ +-+-+-+-+ li _ su 5 e r,oi sc + mi 6a %y \ 3 léri90 46nA |d|a|t|a|s|e|t|s| e t |a|r|e| |i|m|b|u|e|d| |w|i|t|h| 36 6 - 6| - + 7 l as ,-+9 osn V u +-+-+-+-+-+-+-+-+ e 2s +-+-+-+ +-+-+-+-+-+-+ +-+-+-+-+ 3 + m u u t c + go P |n t te n 4i | i i a ts r el 6 +-+-+-+-+-+-+-+-+-+-+-+ +-+-+-+-+ v + 2 p + e 7 n 3- 3l er m pl eld4e e |c|o|l|l|e|c|t|o|r|'|s| |b|i|a|s| e nri b /p + s sc /_( 8 m r 8 c 5 l (s y +-+-+-+-+-+-+-+-+-+-+-+ +-+-+-+-+ m ' ne s + 1 u e m G +-+-+-+-+ +-+-+-+-+-+-+-+-+ s +-+-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+ i o5 . \ s e c + i u f |s|o|m|e| |d|a|t|a|s|e|t|s| |c|o|m|b|i|n|e| |m|a|c|h|i|n|i|c| dx o 4 ms| + % a l +-+-+-+-+ +-+-+-+-+-+-+-+-+ e +-+-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+ é p f + tnl |r -5 a _ d a +-+-+-+-+-+ +-+-+-+-+ +-+-+-+-+-+ e neme 5 + a 9e en - o% 4 e t à |l|o|g|i|c| |w|i|t|h| |h|u|m|a|n| r t e + t1 ul i n i L4 ee n n +-+-+-+-+-+ +-+-+-+-+ +-+-+-+-+-+ 2 6 nl + l d n i 5 +o 2 c or + s +-+-+-+-+-+ ero s+6 u e n t ie7 + b 1 , e ve d èP 5 l u1 t e e |l|o|g|i|c| a e o / e pA + i + - 1 c s n s Ge t 6an _ +-+-+-+-+-+ r s ua t t u t- r t q--4 + _ r 1 ie +-+-+-+-+-+-+ +-+-+-+-+ 9 . i t se\ a a_ 6 +sh si e f |m|o|d|e|l|s| |t|h|a|t| 9 8 8 7 5 i m l 7 6 +i éw 4 m o +-+-+-+-+-+-+ +-+-+-+-+ e d n n ' co2 i + ' 8 d 4 +-+-+-+-+-+-+-+ p t s d t n6 + i eee3 +5 s o te e d , | |r|e|q|u|i|r|e| é I e1 - 9 | m + 5 5 t s7 m ps | e e +-+-+-+-+-+-+-+ i i to u c a c + 7 4 e u d +-+-+-+-+-+-+-+-+-+-+-+ s +-+-+-+-+-+-+-+-+ +-+-+-+ mur e n 3 s r + t a e |s|u|p|e|r|v|i|s|i|o|n| c |m|u|l|t|i|p|l|y| |t|h|e| 3 o r e 6 + n m- n +-+-+-+-+-+-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+ +-+-+-+ r e + d 1 o a f1 a e d pe +-+-+-+-+-+-+-+-+-+-+-+-+-+-+ ie s + p te 1 a 8 r a 7 a |s|u|b|j|e|c|t|i|v|i|t|i|e|s| e + r e 3 T . 9 +-+-+-+-+-+-+-+-+-+-+-+-+-+-+ 1 7 fe + a u +é a 6 +-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+-+ +-+-+-+-+ l 1s + e | |m|o|d|e|l|s| ae |p|r|o|p|a|g|a|t|e| |w|h|a|t| 4e d o ur + 6 9 ee +-+-+-+-+-+-+ e +-+-+-+-+-+-+-+-+-+ +-+-+-+-+ c b + 4 3 o w é 20 o +-+-+-+-+-+-+-+ +-+-+-+-+ i - r m + p m _ | 5 n / |t|h|e|y|'|v|e| |b|e|e|n| u| p d s 1 r + l h i r 3 n_ 3 +-+-+-+-+-+-+-+ +-+-+-+-+ s s c v i + \ d 9 s +-+-+-+-+-+-+ e d m e e + 2 |t|a|u|g|h|t| r é n n + o sr s | s-3 +-+-+-+-+-+-+ p u + 1 +-+-+-+-+ +-+-+ +-+-+-+ % , 7 o + 2 r t |s|o|m|e| |o|f| |t|h|e| r f n t + 4 é o +-+-+-+-+ +-+-+ +-+-+-+ V l l q i 8s + t c | S +-+-+-+-+-+-+-+-+ +-+-+-+-+ +-+-+ +-+-+-+-+-+-+-+ +-+-+ 8 + t p |d|a|t|a|s|e|t|s| 88 |p|a|s|s| |a|s| |d|e|f|a|u|l|t| |i|n| t t + e 3 d +-+-+-+-+-+-+-+-+ +-+-+-+-+ +-+-+ +-+-+-+-+-+-+-+ +-+-+ + r O é a r +-+-+-+ +-+-+-+-+-+-+-+ - 8 t + 8 x 7 ad |t|h|e| |m|a|c|h|i|n|e| i 5 o _ 3 + u 7 r u n e +-+-+-+ +-+-+-+-+-+-+-+ e p r + 3 r r c 1 +-+-+-+-+-+-+-+-+ +-+-+-+-+-+ | r i + M 2 |l|e|a|r|n|i|n|g| |f|i|e|l|d| t e % + r s I a +-+-+-+-+-+-+-+-+ +-+-+-+-+-+ C + N au +-+-+-+-+-+-+ +-+-+-+-+-+ +-+-+-+-+-+-+-+-+ + u c n |h|u|m|a|n|s| |g|u|i|d|e| |m|a|c|h|i|n|e|s| a è 4 o eu + t m +-+-+-+-+-+-+ +-+-+-+-+-+ +-+-+-+-+-+-+-+-+ 2 2 ue + e . i e k i | t + 8 9 s a o e m | 6 + i \v g é + + 28 + V V % V V V V V V % % % % % % % % % % % %% % % + V V V V V V V V V V V V V V V V 0 % 0 % % % % % % % % %%%% %% +V V % V V % V V % V V % V % 0 % % % 0 % + % % % 0 0 0 0 _ _ % %% % % % % + % % % /\ /\ _ __ ___ ___| |_| |__ _ __ ___ __ _ % % + INFORMATEURS / / \ \ '_ \ / _ \ / _ \ __| '_ \| '_ \ / _ \ / _` | + % % % \ \_/ / | | | __/ | __/ |_| | | | | | | (_) | (_| | + % % % \___/|_| |_|\___| \___|\__|_| |_|_| |_|\___/ \__, | + V V V V % V V V V % 0 0 0 0 % % % 0 |___/ % + V V V V V V V V V V V V V V V V 0 % _ 0 _ _ 0 % +V V V % V V V % V V V % % 0 % _ __ __ _ _ __ | |__ (_) ___ __| | ___ ___ + V V V V V V V V % 0 | '__/ _` | '_ \| '_ \| |/ _ \ / _` |/ _ \/ __| % + V V V V V V V V V V V V V V V V % | | | (_| | |_) | | | | | __/ | (_| | __/\__ \ +V V V V V V V V V 0 |_| \__,_| .__/|_| |_|_|\___| \__,_|\___||___/ + % % |_| % 0 0 00 +Les algorithmes d'apprentissage au- 0 _ 0 % 00 _ % +tomatique ont besoin d'être guidés, (_) ___ _ ___ __ __| | ___ % +qu'ils soient supervisés ou non. | |/ _ \ | | \ \/ / / _` |/ _ \ +Pour séparer une chose d'une autre, 0 0 | | __/ |_| |> < | (_| | __/ +ils ont besoin de matériel pour en 0 _/ |\___|\__,_/_/\_\ \__,_|\___| 0 +extraire des motifs. L'être humain |__/ % +doit choisir avec soin le matériel _ % 0 0 0 0 +d'étude, adapté à la tâche de la 0 __| | ___ _ __ _ __ ___ ___ ___ +machine. Il n'est pas logique d'en- 0 0 / _` |/ _ \| '_ \| '_ \ / _ \/ _ \/ __| +traîner une machine avec des romans | (_| | (_) | | | | | | | __/ __/\__ \ % +du 19ème siècle si sa mission est 0 \__,_|\___/|_| |_|_| |_|\___|\___||___/ 00 +d'analyser des Tweets. 0 0 0 + % % +C'est là qu'interviennent les jeux par Algolit % +de données : organisés en rangés et +en colonnes ordonnées, en attente Lors des réunions mensuelles Algolit nous cherchons ou créons +d'être lus par la machine. Chaque souvent des jeux de données. Parfois, nous utilisons des corpus +jeu de données recueille des infor- déjà existants, disponibles via le site Natural Language Toolkit +mations différentes sur le monde. nltk. NLTK contient, entre autres, la Déclaration universelle des +Comme toutes les collections, elles droits de l'Homme, les discours inauguraux des présidents améri- +sont imprégnées des stéréotypes et cains, ou des critiques de films du site Internet Movie Database +préjugés de ses créateurs. On en- (IMDb). +tend souvent l’expression : 'les +données sont le nouveau pétrole'. Chaque style d'écriture évoque des relations différentes entre +Si seulement les données étaient du les mots et reflète l'époque dont ils proviennent. En ce sens, le +pétrole ! Fuyantes, s’égouttant en gestionnaire de paquets Python pour le traitement du langage na- +graisse lourde, bouillonnantes et turel pourrait être considéré comme une capsule temporelle. Le +tressaillantes au contact d'une matériel inclu a été sélectionné car jugé utile par une communau- +nouvelle matière. Au contraire, les té de chercheurs. Malgré les spécificités, chaque jeu de données +données sont supposées d'être devient universel par défaut, en étant à la disposition d'un pu- +propres. Lors de chaque processus, blic aussi large. +chaque questionnaire, chaque titre % +de colonne, elles s’épurent, en ef- Nous examinons les jeux de données les plus couramment utilisés +façant peu à peu leurs caractéris- pour l'entraînement des modèles d'apprentissage automatique. De +tiques distinctes jusqu’à corres- quels matériaux sont-ils constitués ? Qui les a recueillis ? +pondre au moule du jeu de données. Quand ? + +Certains jeux de données combinent --- +la logique machinique avec la lo- +gique humaine. Les modèles qui né- Concept, réalisation: Cristina Cochior +cessitent une supervision multi- +plient les subjectivités des col- +lecteurs de données et des annota- 0 0 0 0 +teurs, puis propulsent et propagent 0 0 0 0 +ce qui leur a été enseigné. Vous % ___ _ _ _ +découvrirez des extraits de cer- / ( ) /_\ _ __ _ __ 0 ___ | |_ __ _| |_ ___ +tains jeux de données qui passent / /|/ //_\\| '_ \| '_ \ / _ \| __/ _` | __/ _ \ +par défaut dans le domaine de l'ap- / /___/ _ \ | | | | | | (_) | || (_| | || __/ +prentissage automatique, ainsi que \____/\_/ \_/_| |_|_| |_|\___/ \__\__,_|\__\___| +des histoires d'humains guidant des 0 _ _ _ __ 0 +machines. 0 0 | | | | '__| + | |_| | | 0 + \__,_|_| 0 + 0 0 0 0 + 29 +% %%% %%% %% % % % % %% % % % % % % % + % % % % % par Algolit %% % % % % % % % %% + % % % % % % % % %% % % % % % % % % + % % L'Annotateur demande au visiteur de l'aider à annoter les ar- % + %% % % chives du Mundaneum. % % % + % % % % + % Le processus d'annotation est une étape cruciale de l'apprentis- % + % % % % sage automatique supervisé où l'algorithme reçoit des exemples de + ce qu'il doit apprendre. Un filtre anti-spam sera alimenté % + % d'exemples de spam et de messages réels. Ces exemples sont des % + entrées du jeu de données prévues d'une étiquette, spam ou non + % spam. % % +% % + L'annotation d'un jeu de données est un travail exécuté par des + humains, qui choisissent une étiquette pour chaque entrée du jeu + % % de données. Pour assurer la qualité des étiquettes, plusieurs an- + % notateurs doivent voir la même entrée et donner la même étiquette + avant qu'un exemple ne soit inclus dans les données d'entraîne- + ment. Une fois que toutes les données d'entraînement ont été pré- + vues d'une étiquette, l'ordinateur peut lancer le processus d'ap- + % prentissage. + % + Dans cette interface, nous vous demandons de nous aider à classer + % les textes nettoyés des archives du Mundaneum afin d'élargir + % notre set d’entraînement et d'améliorer la qualité de l'installa- + tion 'Classer le Monde' dans Oracles. + % % % % + --- % + + Concept, code, interface : Gijs de Heij + % + % % + % 0 + 0 % + % 0 _ ___ ___ ___ + % 00 / |/ _ \ / _ \ / _ \ 0 + | | | | | | | | | | | + 0 | | |_| | |_| | |_| | 0 + 0 |_|\___/ \___/ \___/ 0 0 0 + 0 0 0 0 _ + ___ _ 0 _ _ __ ___ ___| |_ ___ + 0 / __| | | | '_ \/ __|/ _ \ __/ __| + 0 \__ \ |_| | | | \__ \ __/ |_\__ \ + |___/\__, |_| |_|___/\___|\__|___/ + 0 |___/ 00 0 + 0 0 0 0 + + par Algolit + + Wordnet, créé en 1985, est une taxonomie hiérarchique qui décrit + le monde. Elle s'inspire des théories de la mémoire sémantique + humaine développées à la fin des années 1960. Les noms, verbes, + adjectifs et adverbes sont regroupés en collections de synonymes + ou 'synsets', prévues de définitions, hypernymes, hyponymes, .... + Chaque synset exprime des concepts différents. ImageNet est un + jeu de données d'images basé sur la hiérarchie des noms de + WordNet 3.0. Chaque synset est représenté par des milliers + d'images. De 2010 à 2017, le Défi de Reconnaissance Visuelle de + ImageNet (ILSVRC) a été une référence clé dans la classification + des catégories d'objets pour les photos, ayant un impact majeur + sur les logiciels de photographie, les recherches d'images, la + reconnaissance d'images. + % + 1000 synsets (édition vinyle) contient les 1000 synsets utilisés + dans ImageNet, enregistrés dans la meilleure qualité sonore que + ce format analogique permet. Ce travail souligne l'importance des + jeux de données utilisés pour former des modèles d'intelligence + artificielle qui fonctionnent sur des appareils que nous utili- + sons quotidiennement. Certains d'entre eux héritent de classifi- + 30 + % % % %% % % % cations qui ont été conçues il y a plus de 30 ans. Le vinyle est % % + % % % % une invitation à les analyser en profondeur. %% % % % %% + % % % % % % % %% % % % % + % % % % %% % --- % %% % % % % % % % % + % % % % % % % %% % % % % % % % % + % % % % Conception et enregistrement: Javier Lloret % % + % % % % % + % % Voix: Sara Hamadeh & Joseph Hughes % + % % % % %% % % % % + % % + % % % % 0 0 0 0 0 0 0 + 0 0 % 0 0 0 0 % + % 0 0 ____ _ 0 % + % 00 0 /___ \_ _(_) % + % 0 // / / | | | | % 0 0 % + % 0 0 % / \_/ /| |_| | | % + \___,_\ \__,_|_| 0 0 0 + _ _ 0 % 0 _ % % 0 + | ( )__ _ __ ___ _ __ ___ _ __| |_ ___ + 0 | |/ _ \ '_ ` _ \| '_ \ / _ \| '__| __/ _ \ + | | __/ | | | | | |_) | (_) | | | || __/ 0 + % 00 |_|\___|_| |_| |_| .__/ \___/|_| \__\___| + |_| 00 + 0 + % + Qui l'emporte: rapport de création + + par Louise Dekeuleneer, étudiante Arts²/Option Communication Vi- + suelle + + Le français est une langue genrée, en effet beaucoup de mots sont + féminins ou masculins et peu sont neutres. Le but de ce projet + % est de montrer qu'une société patriarcale influence aussi la + langue même. Le travail s'est focalisé sur le fait de montrer si + % plus de mots féminins ou masculins sont utilisés et de mettre en + % valeur l'influence du contexte sur le genre des mots. À ce stade, + aucune conclusion n'est encore tirée.  % + + Des textes de loi datant de 1900 à 1910 mis à disposition par le + Mundaneum sont passés dans un algorithme qui fait du texte une + liste de mots. Ces mots sont alors comparés avec une autre liste + de mots francophones, dans laquelle il est spécifié si le mot est + masculin ou féminin. Cette liste de mots provient de Google + Books, qui a créé en 2012 une énorme base de données à partir de + tous les livres scannés et disponibles sur Google Books. + Les mots masculins sont surlignés d'une couleur et les féminins + d'une autre. Les mots qui ne sont pas genrés (adverbes, verbes, + ...) ne sont pas surlignés. Le tout est enregistré en fichier + HTML pour qu'il puisse être directement ouvert dans une page web + et imprimé sans besoin de mise en page supplémentaire. C'est ain- + si que chaque texte a pu devenir un petit livret en changeant + juste le texte d'entrée de l'algorithme. + + + + + + + + + + + + + + + + + + 31 + RÉCITS CONTEXTUALISÉS + AUTOUR DES INFORMATEURS + + + + --- Les jeux de données comme représentations --- Il était à Bruxelles en novembre 2017 lors de la + Rencontre Algolittéraire. + Les processus de collecte des données qui mènent à + la création du jeu de données soulèvent des ques- Femke : En considérant Wikipedia comme une commu- + tions importantes : qui est l'auteur des données ? nauté vivante, chaque nouvelle page change le pro- + Qui a le privilège de collectionner ? Pour quelle jet. Chaque modification est en quelque sorte une + raison la sélection a-t-elle été faite ? Que contribution à un organisme vivant de la connais- +manque-t-il ? sance. Donc, si au sein de cette communauté vous + essayez de distinguer ce qui rend service à la +L'artiste Mimi Onuoha donne un exemple excellent communauté et de généraliser ceci dans un modèle – + de l'importance des stratégies de collection. Elle car je pense que c'est ce que l'algorithme de la + choisit le cas des statistiques relatives aux bonne ou mauvaise foi essaie de faire - vous le + crimes haineux. En 2012, le Programme de déclara- faites sur base d'une généralisation de l'idée + tion uniforme de la criminalité (DUC) du FBI a en- abstraite de Wikipedia, et non sur base de l'orga- + registré 5 796 crimes haineux. Toutefois, le Bu- nisme vivant. Ce qui m'intéresse dans la relation + entre le vandalisme et ce débat, c'est la façon + a établi 293 800 rapports sur de tels cas. C'est dont nous pouvons comprendre la dynamique conven- + plus de 50 fois plus. La différence entre les tionnelle de ces processus d'apprentissage automa- + chiffres peut s'expliquer par la façon dont les tique. Si on distingue la bonne ou la mauvaise foi + données ont été recueillies. Dans le premier cas, sur base d’étiquettes préexistantes et qu’on la + les organismes d'application de la loi de tout le reproduit ensuite dans des modèles algorithmiques, +pays ont volontairement signalé des cas. Pour le comment tenir compte des changements qui se pro- +deuxième, le Bureau des statistiques a distribué duisent, c’est-à-dire de la vie réelle du projet? +l'enquête nationale sur la victimisation directe- + ment aux foyers des victimes de crimes motivés par Amir : C'est une discussion intéressante. Premiè- + la haine. rement, ce que nous appelons la bonne ou la mau- + vaise foi provient de la communauté elle-même; + Dans le domaine du traitement du langage naturel, nous ne faisons pas l'annotation nous-mêmes, c’est + le matériel avec lequel les modèles d'apprentis- la communauté qui le fait. Ainsi, dans beaucoup de + sage automatique travaillent est le texte, mais Wikipedias de langues différentes, la définition + les mêmes questions se posent : qui sont les au- de ce qui est la bonne ou la mauvaise foi sera + teurs des textes qui composent les jeux de don- différente. Wikimedia essaie de refléter ce qui se + nées ? Au cours de quelle période les données ont- trouve à l'intérieur de l'organisme et non de + elles été recueillies ? Quel type de vision du changer l'organisme lui-même. Si l'organisme + monde représentent-elles ? change et que nous constatons que la définition de + la bonne foi à Wikipédia a été modifié, nous met- +En 2017, l'algorithme Top Stories de Google a pla- tons en œuvre cette boucle de rétroaction qui per- +cé un fil de discussion trompeur du site 4chan en met aux gens de porter un jugement sur leurs modi- + haut de la page de résultats lors de la recherche fications à l'intérieur de leur communauté. S'ils + du tireur de Las Vegas. Le nom et le portrait sont en désaccord avec l'annotation, nous pouvons + d'une personne innocente étaient liés au crime. revenir au modèle et modifier l'algorithme pour + Bien que Google ait changé son algorithme quelques refléter ce changement. C'est une sorte de boucle + heures seulement après que l'erreur ait été décou- fermée : vous changez les choses et si quelqu'un + verte, cela a sérieusement affecté la personne. voit qu'il y a un problème, il nous le dit et nous + Une autre question persiste : pourquoi Google n'a- pouvons modifier l'algorithme. C'est un projet en + t-il pas exclu le site de ragôts 4chan du jeu des cours. + données d'entraînement ? + Référence : https://gitlab.constantvzw.org/alg + Références : olit/algolit/blob/master/algoliterary_encounte + r/Interview%20with%20Amir/AS.aac +https://points.datasociety.net/the-point-of-col- +lection-8ee44ad7c2fa + --- Comment faire connaître votre jeu de données + https://arstechnica.com/information-technolo- --- + gy/2017/10/google-admits-citing-4chan-to-spread- + fake-vegas-shooter-news/ NLTK signifie Natural Language Toolkit. Pour les + programmeurs qui traitent le langage naturel avec + Python, c'est une bibliothèque essentielle. De + --- L'annotation pour un Oracle qui détecte le nombreux rédacteurs de tutoriels recommandent aux + vandalisme sur Wikipédia --- programmeurs d'apprentissage automatique de com- + mencer par les jeux de données NLTK intégrés. Il + Ce fragment est extrait d'une interview avec Amir compte 71 collections différentes, avec un total + Sarabadani, ingénieur de logiciels chez Wikimedia. de près de 6000 éléments. + + 32 + + + + + Parmi eux, on trouve le corpus Movie Review pour berg , vin diesel , giovanni ribisi , davies et + l'analyse des sentiments. Ou le corpus Brown, qui burns . le film se clôture avec des scènes de ba- + a été créé dans les années 1960 par Henry Kučera taille extraordinaires . + et W. Nelson Francis à l'Université Brown de Rhode + Island. Il y a aussi le corpus de la Déclaration + des droits de l'homme, qui est couramment utilisé --- Les ouroboros de l'apprentissage automatique + pour vérifier si un code peut fonctionner dans --- + plusieures langues. Le corpus contient la Déclara- + tion des droits de l'homme dans 372 langues du Wikipédia est devenue une source d'apprentissage + monde entier. non seulement pour les humains, mais aussi pour + les machines. Ses articles sont des sources de +Mais quel est le processus pour faire accepter un premier ordre pour l’entraînement de modèles. Le +jeu de données dans la bibliothèque NLTK de nos matériel avec lequel les machines sont entraînées + jours ? Sur la page Github, l'équipe nltk décrit est identique au contenu qu'elles ont aidé à + les exigences suivantes : écrire. En fait, au début de Wikipédia, de nom- + breux articles ont été écrits par des robots. Ram- + - Ne rajoutez que les corpus qui ont obtenu un ni- bot, par exemple, était un robot controversé sur + veau de notabilité de base. Cela signifie qu'il la plateforme anglophone. Il est l'auteur de 98% + des pages décrivant les villes américaines. + nauté de programmeurs qui l'utilisent. + A cause de ces interventions de robots thématiques + - Assurez-vous d'avoir l'autorisation de redistri- et régulières, les modèles de prédiction qui sont + buer les données et de pouvoir les documenter. Ce- entraînés sur le dump de Wikipedia ont une vision + la signifie qu'il est préférable de publier le jeu unique de la composition des articles. Par exem- +de données sur un site Web externe avec une li- ple, un modèle thématique entraîné sur l'ensemble +cence. des articles de Wikipédia associe 'rivière' à + 'Roumanie' et 'village' à 'Turquie'. C'est parce + - Utilisez les lecteurs de corpus NLTK existants qu'il y a plus de 10000 pages écrites sur les vil- + lorsque c'est possible, ou bien apportez un lec- lages en Turquie. Cela devrait suffire à susciter + teur de corpus bien documenté à NLTK. Cela signi- des envies de voyage, mais c'est bien trop par + fie que vous devez organiser vos données de ma- rapport à d'autres pays. L'asymétrie provoque une + nière à ce qu'elles puissent être facilement lues fausse corrélation et doit être corrigée. La plu- + à l'aide du code NLTK. part des modèles tentent d'exclure le travail de + ces auteurs robots prolifiques. + Référence : http://www.nltk.org/ + Référence : https://blog.lateral.io/2015/06/the- + unknown-perils-of-mining-wikipedia/ + --- Extrait d'une critique positive d'un film IMdB +du jeu de données NLTK --- + +corpus : movie_reviews + + fichier : pos/cv998_14111.txt + + le deuxième film épique de steven spielberg sur la + seconde guerre mondiale est un chef-d'œuvre incon- + testé du cinéma . spielberg , encore étudiant en + cinéma , a réussi à ressusciter le genre de la + guerre en produisant l'un de ses films les plus + poignants et les plus puissants . il a également + réussi à faire briller tom hanks , qui livre une + performance époustouflante . pendant environ 160 +de ses 170 minutes, ' sauver le soldat ryan ' est +sans faille . littéralement . l ' histoire est as- +sez simple . après l ' invasion du jour J ( dont + les séquences sont tout à fait spectaculaires ), + capt . john miller ( joué par tom hanks ) et son + équipe sont forcés à chercher un soldat . james + ryan ( joué par matt damon ), dont les frères sont + tous morts au combat. une fois qu ' ils l ' ont + trouvé , ils doivent le ramener immédiatement pour + qu'il puisse rentrer chez lui . la compagnie de + miller est composée d ' acteurs aux jeux tout sim- + plement sensationnels : bary pepper , adam gold- + + 33 +0123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345678 +9 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234567 +89 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456 +789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345 +6789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234 +56789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123 +456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12 +3456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1 +23456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 +123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 + 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345678 +9 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234567 +89 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456 +789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345 +6789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234 +56789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123 +456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12 +3456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1 +23456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 +123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 + 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345678 +9 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234567 +89 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456 +789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345 +6789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234 +56789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123 +456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12 +3456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1 +23456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 +123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 + 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345678 +9 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234567 +89 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456 +789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345 +6789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234 +56789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123 +456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12 +3456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1 +23456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 +123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 + 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345678 +9 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234567 +89 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456 +789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345 +6789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234 +56789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123 +456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12 +3456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1 +23456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 +123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 + 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345678 +9 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234567 +89 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456 +789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345 +6789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234 +56789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123 +456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12 +3456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1 +23456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 +123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 + 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345678 +9 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234567 +89 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456 +789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345 +6789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234 +56789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123 +456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12 +3456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1 +23456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 + 34 +readers read readers read readers read readers read readers read readers read readers re +d readers read readers read readers read readers read readers re +d readers read readers read readers read readers read + readers read readers read readers read re +ders read readers read readers read readers re +d readers read readers read readers r +ad readers read readers read +readers read readers read readers read + readers read readers read +readers read readers read readers read + readers read readers read + readers read readers read + readers read readers read + readers read readers read + readers read readers read + readers read readers read + readers read readers +read readers read + readers read readers read + readers read readers read + readers read + readers read readers read + readers read + readers read readers read + readers read + readers read readers read + readers read + readers read readers re +d readers read + readers read + readers read readers read + readers read + readers read + readers read re +ders read readers read + readers read + readers read + readers read + readers read readers r +ad readers read + readers read + readers read + readers read + readers read + readers read + readers read +readers read readers +read readers read + readers read + readers read + readers read + readers read + readers read + readers read + readers read + readers read + readers read + readers read + readers read + readers read + readers read + readers read + readers read + readers read + readers read + readers read + readers read + readers read + readers read r + 35 + r9la s /te l9 i0 l n +-+-+-+-+-+-+-+ s +-+-+-+-+ 9 n t n s6m 7 n r uÉ 5 21oV i + t- 5e-i e 7- eo sso+ r 2 l |r|e|a|d|e|r|s| sss |r|e|a|d| d n ér 1 9 r r 13t4 4+%|c u n4l + i ie(+ o- nn 9s | na1 +-+-+-+-+-+-+-+ s r1 +-+-+-+-+ r k+m + d+4_1n -nr snic + 1 ua eo| +a w vad .p e ,3 , e i 3 lv%a5 ir u2l u o àaew sc _ , g n e a -6 G -i + ad -leg ear e -4 r 1 'rw m q| 13fti e ue3 l a 9 \_5u i san u i n d + m l-t a 1o a l s r +-+ +-+-+-+-+-+-+-+-+ -t - +-+-+-+-+-+-+-+-+-+-+-+ g9o l 5 ra nut1 s + e o 1 _a s 3 |a| |c|o|m|p|u|t|e|r| a |u|n|d|e|r|s|t|a|n|d|s| r lt mn d | mis 7a q , a + ks srn 3 6 - vp8 t t +-+ +-+-+-+-+-+-+-+-+ t s +-+-+-+-+-+-+-+-+-+-+-+ o p dr7 MMl3el   e ut + t d a6s \6 4 23  +-+-+-+ +-+-+-+-+-+-+ e +-+-+-+-+-+-+-+-+-+ e . + s l to a u + r ne2 ps a 1 e s r |a|l|l| |m|o|d|e|l|s| s |t|r|a|n|s|l|a|t|e| m e7 6t2Vt à i 3e 5 8 + po d5 sai 5e ‘ e 5 +-+-+-+ +-+-+-+-+-+-+ r +-+-+-+-+-+-+-+-+-+ e3 s n 2 5 S o 9 t + r d|g9 l s +-+-+-+-+ +-+-+-+-+-+-+ 5 +-+-+-+-+-+ i s_7is t 6 o (s s1 m m_ 1D, c m ew + M + | i ²M |s|o|m|e| |m|o|d|e|l|s| e |c|o|u|n|t| 9+ 3 / dm + dd t ae n daÉ t t + 8 ai 2 7 s6 t +-+-+-+-+ +-+-+-+-+-+-+ m +-+-+-+-+-+ o04sp é 5n0 42 8 ln + o5ln h e 4 2ke   er +-+-+-+-+ +-+-+-+-+-+-+ s +-+-+-+-+-+-+-+ m o9 ui c g4 I r r 4s n + _ d 7 m n 5e 3 rd |s|o|m|e| |m|o|d|e|l|s| |r|e|p|l|a|c|e| l 56 f s5s2 \8 s 82 n a 7reund2 + ns e tc c s d +-+-+-+-+ +-+-+-+-+-+-+ % 5) +-+-+-+-+-+-+-+ 6 oa s 3 r' 1 + i s + l o - 4 tea 7 l c i s n 7 94 o5 r n a r , s w + e it n e na ' ao i m nd e i3 % l | 6_e 7aa n7nt-t -r e , e | 7 mn + e nî 7s e-nnc r s3 r n 2e 5h oe '8 28 ed bn 5 c 3 at ian4 ta n +8so e V _ u e l6 _ ta| o u nQ en v 7 r N l9 r t | f n9e %e s 6e p cs 9d 9 +sd 4 a s tus - t+u 6 e osg d a 9 t' a R e r n + t5 tp s n ` . i cQ s + L 8 c 4nf2 17 e - a 7 ià ne 6 7 c q i - | se à + +e eau 0 n 3 ef l é ea 5 u n a 7 5 n +. 8 z7 m9 y l t la r +d 0 r - '3 s ) a 5 s / t i - q| ee 9 e c n + n e 0 n e o un 1 6 3 p n n ,- 1 o6 n 9 é o e% es +P 1 6 r % 9oM1 6e | id n u 2d6e a u tc d 2 e + w o o u n ac 319 | éc n 'dn 7cl | Sl 8 + 6 7 t rn3 o s a 7 r - l g a e e 3j erf e nd 5oo n + l_ - im cs a S e t 9 4a1 e + i sb fé tt t su s a 6 + a Rl pl c e r 7 8 i t e A - u a d , + n t2 t K 9 i3e p a at 3 8 % e d 1 D ' 5 -8 + n e _ g5 c c V e 6 s d + p - 5 1 5t da s o3 s - m e c n f + pi t 5 - l èc e | Rl t 7 f fSea + 8 0 el n 2e 5 yor p | _ l| a af r i n + + 5 6r ac o o o P t 5 1 + ss 9 u +c o 7é 7 3 p l n M r | i a _ à m a n o t a t + ir 6m t t a - r x A 7 u e + 8 7) 7 86 z det Rw é u t' m d o + 6 -9 8 9 5 4 o l 5 e n s b V 2 2 6 + 5 nC - e 9 er 2 t m + e si e 5 è + d t a 2 v . r tt m c 4 a 2 a 2 t ' m + a u4 up5 a 4+ t du l p - 92 + a % tc h 9 7 d 4 5 tuu ee 8 6 r r e r c + t s 4 e a 8 |2 - + t e a e n | t 8 3 l o- 5 | 3 + 5 e l '6 i 7 e s a , a c t + , r l 9- i + s é n u l u s ) % + es 2 e 9 è 5 l N a % 33 + / 7 b e o % 'ar a e o | 5 - e + 6| V td nn 1 w c s l 1 e r o3 + 6 o 5 9t ow u s t s + l. d / 9 r d % n e l 2 ps +c r u s es a a l _ h 4 + ' e ' r é n 7 m d t c +u 1 u é c wi e s i + 3 un 5 5 1 t r 3 n i + u e N è s||s e 2 n- + L + o e u i i t 5 f 2 6 +e l g o m + j i c r 1 l ' e r q e | C + n 6 p , . n a n e + n 8 1 n t 8 c o + e t t . + e8 l 1 + ) c i p e es a + 6 o r 9 ' n + % ) u l h u % io p 8 t +n o l c + + 36 + V V % V V V V V V %% % % % %% % %% % %%% % %% + V V V V V V V V V V V V V V V V % % % % 0 00 % 0 % 0 % 0 % %% +V V V V V V V % V V % % 0 % % 0 % % + % % % % % % 0 __ 0 _____ ___ % _____ ___ ___ 0 %% + % % % / / ___ /__ \/ __\ \_ \/ \/ __\ + % LECTEURS % 0 % / / / _ \ / /\/ _\____ 0 / /\/ /\ / _\ % % + % % 0 / /__| __/ / / / /|_____/\/ /_/ /_// / %% + % % 0 \____/\___| \/ \/ \____/___,'\/ % + V V V V V V V V % 0 0 % % + V V V V V V V V V V V V V V V V % % % +V V V V V V V V V par Algolit % % % % + V V V V V V V V % % % % + V V V V V V V V V V V V V V V V Le TF-IDF (Term Frequency-Inverse Document Frequency) est une mé- +V V V V V V V V V % thode de pondération utilisée dans la recherche de textes. Cette + % mesure statistique permet d'évaluer l'importance d'un terme +Nous communiquons avec les ordina- contenu dans un document, relativement à une collection ou un +teurs au moyens de langages. Nous % corpus de documents. Le poids augmente proportionnellement au +cliquons sur des icônes sous forme nombre d'occurrences du mot dans le document. Il varie également +de mots, nous tapons des mots sur en fonction de la fréquence du mot dans le corpus. Le TF-IDF est +des claviers, nous utilisons notre notamment utilisé dans la classification des spams. +voix pour leur donner des instruc- +tions. Parfois, nous confions nos Une interface web met en scène cet algorithme à travers des ani- +pensées les plus intimes à notre mations permettant de comprendre les différentes étapes de clas- % +ordinateur en oubliant qu'il s'agit sification d’un texte. Comment un programme basé sur le TF-IDF +d’une calculatrice avancée. Un or- lit un texte ? Comment transforme-t-il les mots en nombres ? +dinateur comprend chaque mot comme +une combinaison de zéros et de uns. --- +Une lettre est lue comme un numéro +ASCII spécifique : 'A' majuscule Concept, code, animation : Sarah Garcin +est 001. % % + % +Dans tous les 'rule-based models', 00 0 0 +l'apprentissage automatique clas- 0 0 +sique et les réseaux de neurones, ___ _ _ _ 0 +les mots subissent une traduction / __\ _| | |_(_)_ _____ _ __ 0 0 +en chiffres pour saisir le sens sé- % 0 / / | | | | | __| \ \ / / _ \ '__| +mantique du langage. Cela se fait 00 00 / /__| |_| | | |_| |\ V / __/ | +en comptant. Certains modèles 0 \____/\__,_|_|\__|_| \_/ \___|_| +comptent la fréquence des mots sim- 0 % _ _ 0 0 +ples, d'autres la fréquence des _ _ _ __ /_\ _ __| |__ _ __ ___ +combinaisons de mots, d'autres en- 0 | | | | '_ \ //_\\| '__| '_ \| '__/ _ \ +core la fréquence des noms, des ad- | |_| | | | | / _ \ | | |_) | | | __/ % +jectifs, des verbes ou des phrases 00 0 \__,_|_| |_| \_/ \_/_| |_.__/|_| \___| +de noms et de verbes. Certains rem- 00 0 % 0 000 00 +placent simplement les mots d'un +texte par leur numéro d'index. Les par Algolit +nombres optimisent la vitesse opé- % +rationnelle des processus informa- La nature de mots est une catégorie que nous apprenons à l'éco- +tiques, ce qui conduit à des pré- le : nom, verbe, adjectif, adverbe, pronom, préposition, conjonc- +dictions rapides, mais ils sup- tion, interjection, et parfois chiffre, article, ou déterminant. +priment aussi les liens symboliques Dans le traitement du langage naturel, il existe de nombreux +que les mots peuvent avoir. Nous écrits qui permettent d'analyser des phrases. Cela signifie que +présentons ici quelques techniques l'algorithme peut déterminer la nature de chaque mot d'une même +destinées à rendre un texte intel- phrase. 'Cultiver un arbre' utilise cette technique pour définir +ligible pour une machine. tous les noms dans une phrase spécifique. Chaque nom est alors + remplacé par sa définition. Cela permet à la phrase de grandir de + façon autonome et infinie. La recette de 'Cultiver un arbre' + s'inspire de la 'Littérature Définitionnelle', une contrainte in- + ventée par Marcel Benabou en 1966 au sein de l’Oulipo. Dans une + phrase donnée, on remplace chaque élément significatif (nom, ad- + jectif, verbe, adverbe) par l'une de ses définitions dans un dic- + tionnaire donné ; on répète l'opération sur la nouvelle phrase + reçue, et ainsi de suite. + + Le dictionnaire utilisé dans cet ouvrage est Wordnet. Wordnet est + une combinaison d'un dictionnaire et d'un thésaurus qui peut être + lu par des machines. Selon Wikipédia, il a été créé dans le Co- + gnitive Science Laboratory de l'Université de Princeton à partir + de 1985. + 37 + % %% % % % % % % % % % % %% % % % %% % + % % % % --- %% % % % %% % % % % % % % + %% % % % % % %% %% % % % % % % % % + %%% % % Concept, code & interface : An Mertens & Gijs de Heij % % + % % % %% % % % %% % % + % % % % % % %% % % % % %% + % % % % 0 0 0 00 % % % 0 % + % % 0 0 0 % + % 0 0 % __ 0 __ _ 0 0 + % 0 0 / / ___ / /(_)_ ___ __ ___ 0 % + 0 / / / _ \ / / | \ \ / / '__/ _ \ 0 + % / /__| __/ / /__| |\ V /| | | __/ + % \____/\___| \____/_| \_/ |_| \___| 0 % % + % % 0 _ ___ 0 _ 0 + % __| | ___ / \___ _ __ ___ __ _(_)_ __ + 0 / _` |/ _ \ / /\ / _ \ '_ ` _ \ / _` | | '_ \ + | (_| | __/ / /_// __/ | | | | | (_| | | | | | + % % \__,_|\___| /___,' \___|_| |_| |_|\__,_|_|_| |_| + % % 0 _ 0 0 0 0 + 0 __| | __ _ _ __ ___ 0 _ _ _ __ 0 + % / _` |/ _` | '_ \/ __| | | | | '_ \ + % 0 0 0 | (_| | (_| | | | \__ \ | |_| | | | | 0 + \__,_|\__,_|_| |_|___/ \__,_|_| |_| + 0 __ 0 0 _ 0 0 0 + % % 0 / _\ __ _ ___ __| | ___ 0 0 + 0 \ \ / _` |/ __| / _` |/ _ \ + % 0 _\ \ (_| | (__ | (_| | __/ 0 + 00 \__/\__,_|\___| \__,_|\___| + 0 _ 0 + /\/\ ___ | |_ ___ 0 0 + / \ / _ \| __/ __| 0 + 0 / /\/\ \ (_) | |_\__ \ + % 0 \/ \/\___/ \__|___/ 0 + % 0 0 0 0 0 + % % % + % par Algolit % + + Le modèle du 'sac de mots' est une représentation simplifiée du + texte utilisé dans le traitement du langage naturel. Dans ce mo- + dèle, un texte est représenté sous forme de collection de mots + uniques, sans tenir compte de la grammaire, de la ponctuation et + même de l'ordre des mots. Le modèle transforme le texte en une % + liste de mots et leur occurrence dans le texte, littéralement un + sac de mots. + + Cette forte réduction de la langue fut un choc au début de nos + expériences en apprentissage automatique. Le sac de mots est sou- + vent utilisé comme référent, sur base duquel le nouveau modèle + doit s’efforcer d’être plus performant. Il peut comprendre le su- + jet d'un texte en reconnaissant les mots les plus fréquents ou % + importants. On mesure souvent les similitudes des textes en com- + parant leurs sacs de mots. + + Pour cet ouvrage, l'article 'Le Livre de Demain' de l'ingénieur + G. Vander Haeghen, publié en 1907 dans le Bulletin de l'Institut + International de Bibliographie, a été littéralement réduit à un + sac de mots. VOus pouvez acheter votre exemplaire à l'accueil du + Mundaneum. + + --- + + Concept & réalisation: An Mertens + + + 00 00 0 % + 0 0 0 0 + __ 0 _ 0 0 + 0 / / ___ ___| |_ _ _ _ __ ___ ___ __ _ + / / / _ \/ __| __| | | | '__/ _ \/ __| / _` | + 38 + % % %% %% % % % % % % % / /__| __/ (__| |_| |_| | | | __/\__ \ | (_| | % % + %%% % % % % % % % 0 \____/\___|\___|\__|\__,_|_| \___||___/ \__,_| % % % + % %% % % % % % %% % _ % % _ _ _ % 0 % _ 0 0 % % % + % % %% | | __ _ ___ _ __(_) |_| |__ _ __ ___ (_) __ _ % % % + % % % % | |/ _` |/ _ \| '__| | __| '_ \| '_ ` _ \| |/ _` | % % % + % % % | | (_| | (_) | | | | |_| | | | | | | | | | (_| | % + % % |_|\__, |\___/|_| |_|\__|_| |_|_| |_| |_|_|\__, | + % % % 0 |___/ 0 0 |_| % % % + % % % % _ % + % % 00 _ _ ___ ___ 0 __| |_ _ 0 + % % 0 | | | |/ _ \/ __| / _` | | | | 0 % + % % | |_| | __/\__ \ | (_| | |_| | 0 % + % % % \__,_|\___||___/ \__,_|\__,_| 0 + % 0 0 0 _ % _ _ + % % 0 0 _ __ ___ _ __| |_ _ __ __ _(_) |_ % + | '_ \ / _ \| '__| __| '__/ _` | | __| + 0 0 | |_) | (_) | | | |_| | | (_| | | |_ + % | .__/ \___/|_| \__|_| \__,_|_|\__| + |_| 0 0 0 % + 0 0 _ _ + _ __ __ _ _ __| | ___ __| | ___ + 0 | '_ \ / _` | '__| |/ _ \ / _` |/ _ \ 0 + | |_) | (_| | | | | __/ | (_| | __/ + | .__/ \__,_|_| |_|\___| \__,_|\___| + % |_| 0 0 0 + 0 0 ___ _ _ _ _ + / __\ ___ _ __| |_(_) | | ___ _ __ + 0 /__\/// _ \ '__| __| | | |/ _ \| '_ \ 0 % + / \/ \ __/ | | |_| | | | (_) | | | | + 0 \_____/\___|_| \__|_|_|_|\___/|_| |_| + % 0 0 + + par Guillaume Slizewicz (Espèces urbaines) + % % % % + 'Un code télégraphique du portrait parlé', écrit en 1907, est une + tentative de traduire en chiffres le 'portrait parlé', technique + de description du visage créée par Alphonse Bertillon, créateur + de l'anthropométrie judiciaire. En appliquant ce code, Otlet es- + % pérait que les visages des criminels et des fugitifs pourraient + être facilement communiqués par voie télégraphique. Dans sa for- + me, son contenu et son ambition, ce texte représente la relation + % complexe que nous entretenons avec les technologies documen- + taires. Ce document a été choisi comme base pour la création des + installations suivantes pour trois raisons. + % + - Premièrement, ce texte est un algorithme en soi, un algorithme + de compression, ou pour être plus précis, la présentation d'un + algorithme de compression. Il tente de réduire la taille de l'in- + formation tout en la gardant lisible pour la personne possédant + le code. À cet égard, elle est étroitement liée à la façon dont + nous créons notre technologie, à la recherche d'une plus grande + efficacité, de résultats plus rapides et de méthodes moins coû- + teuses. Il représente notre appétit de chiffrement qui s'étend au + % monde entier, notre envie de mesurer les plus petites choses, + d'étiqueter les différences les plus infimes... Ce texte incarne + % en lui-même la vision du Mundaneum. + + - Deuxièmement, on y traite des raisons et des mises en œuvre de + nos technologies. La présence de ce texte dans les archives sé- + lectionnées est presque ironique à une époque où la reconnais- + sance faciale et la surveillance des données font la une des + journaux. Ce texte présente les mêmes caractéristiques que cer- + taines technologies d'aujourd'hui : il est motivé par un contrôle + social, classifie les personnes, pose les bases d'une société de + surveillance. Les caractéristiques physionomiques sont au cœur de + récentes controverses : les photos d'identité ont été standardi- + sées par Bertillon, elles sont maintenant utilisées pour entraî- + % ner des réseau neuronaux à identifier les criminels, les systèmes + de reconnaissance faciale permettent des arrestations via notre + 39 + % % % % %% % % infrastructure de caméras de surveillance et certains affirment % + % % % % %% % que les caractéristiques physiques peuvent prédire l'orientation + % % % sexuelle. % % % % % % + % % % % % %% % % % % %% % % + % %% - Le dernier point concerne la façon dont, en tant que témoignage + % % % écrit, ce texte représente l'évolution de notre techno-structure: % + % % ce que nos outils nous permettent de faire, ce qu'ils nous inter- + % % disent, ce qu'ils entravent, ce qu'ils nous font retenir et ce + % % qu'ils nous font oublier. Ce document permet une classification + % entre les personnes, et instaure une normalité. Il brise un % + % % continuum en morceaux, et permet les stigmatisations et les dis- + criminations. D'un autre côté, ce document semble également obso- + lète aujourd'hui, car cette techno-structure n'a pas besoin de + descriptions écrites aussi détaillées sur les fugitifs, les cri- + minels ou les citoyens. Nous pouvons maintenant trouver des em- + preintes digitales, des scanners d'iris ou des informations ADN % + % % dans de grands jeux de données et les comparer directement. Par- + fois, les systèmes agissent indépendamment, sans surveillance hu- % + % maine et reconnaissent directement l'identité d'une personne par + ses traits faciaux ou sa démarche. Ces machines n'utilisent pas + un langage alphabétique complexe pour décrire un visage, mais des + listes de chiffres. Ainsi, tous les mots utilisés dans ce docu- + % ment semblent désuets, datés. Avons-nous oublié ce que certains + d'entre eux signifient ? La photographie nous a-t-elle fait ou- + % blier comment décrire les visages ? Les assistants vocaux nous + l'apprendront-il de nouveau ? + % + Écrire avec Otlet + + Ecrire avec Otlet est un générateur de personnages qui utilise le + % code du portrait parlé comme base de données. Des nombres aléa- + toires sont générés et traduits en un ensemble de caractéris- + tiques humaines. En créant des instances uniques, l'algorithme + révèle la richesse de la description qui est possible avec 'Un + code du portrait' tout en incorporant ses nuances. + + Interprétation du portrait parlé de Bertillon % + % + % Ce travail établit un parallèle entre le système dit de "Ber- + tillonage" et les systèmes actuels de description de visage. Une + % webcam associée à un algorithme de reconnaissance faciale capte + le visage du spectateur et le traduit en chiffres sur un écran, + % en l'imprimant à côté des visages annotés par Bertillon. + + % + 0 0 0 0 + 0 0 00 0 0 + % 0 __ 0 0 _ + 0 0 0 / / ___ _ __ ___ _ __ % __| |_ _ 0 + / / / _ \ | '_ \ / _ \ '_ \ / _` | | | | + / /__| __/ | |_) | __/ | | | (_| | |_| | + \____/\___| | .__/ \___|_| |_|\__,_|\__,_| + 0 0 |_| 0 0 0 + 0 0 % 0 + + par Laetitia Trozzi, étudiante Arts²/Section Arts Numériques + + Quoi de mieux pour découvrir Paul Otlet et sa passion pour la + littérature que de jouer au pendu? À travers ce jeu simple, qui + consiste à deviner les lettres manquantes dans un mot, le but est + de faire découvrir au public des termes et des faits liés à un + des créateurs du mundaneum. + % + En utilisant un algorithme de détection de fréquence de mots dans + un texte, une série de mots significatifs ont été isolés dans la + bibliographie de Paul Otlet. Cette série de mots a ensuite été + intégrée à un jeu du pendu présenté dans un terminal. La diffi- + culté du jeu augmente graduellement en proposant au joueur des + mots de plus en plus longs. Durant les phases de jeux, des infor- + 40 + RÉCITS CONTEXTUALISÉS + AUTOUR DES LECTEURS + + + + Naive Bayes, Support Vector Machines ou Régression lettre de suicide a été écrite par quelqu'un + Linéaire sont considérés comme des algorithmes d'autre. + classiques d'apprentissage automatique. Ils fonc- + tionnent bien lorsqu'ils apprennent avec de petits Comment une machine analyse-t-elle les textes pour + jeux de données. Mais ils nécessitent souvent des vous identifier ? La caractéristique la plus ro- + lecteurs complexes. La tâche accomplie par les buste pour la reconnaissance de l'auteur est four- + lecteurs est également appelée 'feature enginee- nie par la technique des N-grammes de caractères. +ring'. Cela signifie qu'un être humain doit consa- Elle est utilisée dans des cas qui présentent une +crer du temps à une analyse exploratoire approfon- grande variété dans les thématiques et les genres +die du jeu de données. d’écriture. Lors de l'utilisation des N-grammes de + caractères, les textes sont considérés comme des + Leurs caractéristiques peuvent être la fréquence séquences de caractères. Considérons le trigramme + des mots ou des lettres, mais aussi des éléments des caractères. Toutes les séquences de trois ca- + syntaxiques comme les noms, les adjectifs ou les ractères qui se chevauchent sont isolées. Par + verbes. Les caractéristiques les plus importantes exemple, le trigramme de caractères de 'suicide', + pour la tâche à résoudre doivent être soigneuse- serait, 'sui', 'uic', 'ici', 'cid' et 'ide'. Les + ment sélectionnées et transmises à l'algorithme N-grammes de caractères sont très simples, ils + classique d'apprentissage automatique. Ce proces- sont indépendants du langage et tolérants au + sus diffère de celui des réseaux de neurones. Lors bruit. De plus, les fautes d'orthographe ne com- + de l'utilisation d'un réseau de neurones, il n'est promettent pas la technique. + pas nécessaire de recourir au 'feature enginee- +ring'. Les humains peuvent transmettre les données Les motifs trouvés avec les N-grammes de carac- +directement au réseau et obtiennent généralement tères se concentrent sur les choix stylistiques +de bonnes performances dès le départ. Cela permet qui sont faits inconsciemment par l'auteur. Les + d'économiser beaucoup de temps et de ressources. modèles restent stables sur toute la longueur du + texte, ce qui est important pour reconnaître l’au- + L'inconvénient de la collaboration avec les ré- teur. D'autres types d'expériences pourraient in- + seaux de neurones est que vous avez besoin de clure la longueur des mots ou des phrases, la ri- + beaucoup plus de données pour entraîner votre mo- chesse du vocabulaire, la fréquence des mots de + dèle de prédiction. Pensez à au moins 1 Go de fi- fonction et même les mesures syntaxiques ou séman- + chiers texte. Pour vous donner une référence, 1 tiques. + A4, soit un fichier texte de 5000 caractères, ne + pèse que 5 Ko. Il vous faudrait donc 8.589.934 Cela signifie non seulement que votre empreinte + pages. Traiter plus de données sous-entend d'avoir physique est unique, mais qu’il en va de même de + accès à ces données et surtout, d'avoir beaucoup la façon dont vous composez vos pensées ! +plus de puissance de traitement. + La même technique n-gramme a découvert que 'The + Cuckoo's Calling', un roman de Robert Galbraith, a + --- Les N-grammes de caractères pour la reconnais- en fait été écrit par... J.K. Rowling ! + sance d'un auteur --- + Références : + Imaginez... vous travaillez pour une entreprise - Essai: On the Robustness of Authorship Attribu- + depuis plus de dix ans. Vous avez écrit des tonnes tion Based on Character N-gram Features, Efsta- + de courriels, d'articles, de notes internes et de thios Stamatatos, in Journal of Law & Policy, Vo- + rapports sur des sujets et dans des genres très lume 21, Issue 2, 2013. + différents. Tous vos écrits, ainsi que ceux de vos - Article: https://www.scientificamerican.com/ar- + collègues, sont sauvegardés en toute sécurité sur ticle/how-a-computer-program-helped-show-jk-row- + les serveurs de l'entreprise. ling-write-a-cuckoos-calling/ + +Un jour, vous tombez amoureuse d'une collègue. +Après un certain temps, vous réalisez que cette --- Histoire des N-grammes --- +personne est non seulement folle et hystérique + mais qu'elle dépend beaucoup de vous. Le jour où L'algorithme des N-grammes peut être retracé jus- + vous décidez de rompre, votre ex élabore un plan qu'aux travaux de Claude Shannon en théorie de + pour vous tuer. Elle réussit. Pas de chance. Une l'information. Dans l'article 'A mathematical + lettre de suicide signée de votre nom est retrou- theory of communication', publié en 1948, Claude + vée à côté de votre cadavre. Celle-ci raconte que Shannon réalise la première instance d'un modèle + de langage naturel à base des N-grammes. Il a posé + de problèmes émotionnels. Vos meilleurs amis ne la question suivante : étant donné la séquence des + croient pas au suicide. Ils décident de porter lettres, quelle est la probabilité de la prochaine + l'affaire devant les tribunaux. Et là, à partir lettre ? + des textes que vous et d'autres avez produits, un Si vous lisez l'extrait suivant, pouvez-vous nous + modèle d'apprentissage automatique révèle que la dire par qui il a été écrit ? Shakespeare ou un + robot N-grammes ? + 41 + + + + + pliquer un mouvement boursier basé sur d'autres + SEBASTIEN : Dois-je rester debout jusqu'à la rup- facteurs que les facteurs purement économiques. La + ture. Bourse et 'l'opinion publique' s'influencent mu- + BIRON : Cache ta tête. tuellement. De nombreuses recherches sont effec- + VENTIDIUS : Il se rendit à Athènes, où, par le tuées sur la façon d'utiliser 'l'opinion publique' + voeu. que j'ai fait pour m'occuper de toi. pour prédire les tendances dans le cours des ac- + FALSTAFF : Mon bon fripouille. tions. + + Vous aviez peut-être deviné, en considérant le su- 'L'opinion publique' est évaluée à partir de + jet de ce récit, qu'un algorithme N-grammes a gé- grandes quantités de données publiques, comme les +néré ce texte. Le modèle est entraîné sur l'oeuvre tweets, les blogs ou la presse en ligne. Des re- +complète de Shakespeare. Alors que les algorithmes cherches montrent que l'évolution des cours bour- +plus récents, tels que les réseaux de neurones ré- siers peut, dans une certaine mesure, être prédit + cursifs de CharRNN, deviennent célèbres pour leurs en examinant 'l'opinion publique' à travers l'ana- + performances, les N-grammes exécutent encore beau- lyse des données automatique. On trouve de nom- + coup de tâches NLP. Elles sont utilisés dans la breux articles scientifiques en ligne, qui ana- + traduction automatique, la reconnaissance vocale, lysent la presse sur le 'sentiment' qui y est ex- + la correction orthographique, la détection d'enti- primé. Un article peut être annoté comme plus ou + tés, l'extraction d'informations, etc. moins positif ou négatif. Les articles de presse + annotés sont ensuite utilisés pour entraîner un + Référence : http://www.math.harvard.edu/~ctm/ho- modèle d’apprentissage automatique, qui permet de + me/text/others/shannon/entropy/entropy.pdf prédire les tendances boursières, en les marquant + comme 'à la baisse' ou 'à la hausse'. Quand une + entreprise fait mauvaise presse, les traders +--- Dieu dans Google Books --- vendent. Au contraire, si les nouvelles sont bon- + nes, ils achètent. +En 2006, Google crée un jeu de données de N- + grammes à partir de sa collection de livres numé- Un article de Haikuan Liu de l'Université Natio- + risés pour le mettre en ligne. Récemment, ils ont nale Australienne affirme que le temps des verbes + également réalisé une visionneuse de N-grammes. utilisés dans les tweets peut être un indicateur + Cela a permis de nombreuses recherches sociolin- de la fréquence des transactions financières. Son + guistiques. Par exemple, en octobre 2018, le New idée s'inspire du fait que la conjugaison des + York Times Magazine a publié un article d'opinion verbes est utilisée en psychologie pour détecter + intitulé 'It's Getting Harder to Talk About God'. les premiers stades de la dépression humaine. + L'auteur, Jonathan Merritt, avait analysé la men- + tion du mot 'Dieu' dans le jeu de données de Référence : Grammatical Feature Extraction and + Google à l'aide du visualiseur de N-grammes. Analysis of Tweet Text: An Application towards + Il a conclu qu'il y a eu un déclin dans l'usage du Predicting Stock Trends, The Australian National +mot depuis le 20ème siècle. Le corpus de Google University (ANU) +contient des textes du 16e jusqu'au 21e siècle. +Cependant l'auteur a manqué d'observer la popula- + rité croissante des revues scientifiques vers le --- Sac de mots --- + début du 20ème siècle. Ce nouveau genre, dans le- + quel le mot Dieu n'apparaît pas, a fait basculer Dans le traitement du langage naturel, le 'sac de + le jeu des données. Si la littérature scientifique mots' est considéré comme un modèle simple. Il dé- + était retirée du corpus, la fréquence du mot pouille un texte de son contexte et le décompose + 'Dieu' s'écoulerait toujours comme l'ondulation dans sa collection de mots uniques. Ensuite, ces + douce d'une vague lointaine. mots sont comptés. Dans les phrases précédentes, + par exemple, le mot 'mots' est mentionné trois + Référence : https://www.nytimes.com/2018/10/13/o- fois, mais ce n'est pas nécessairement un indica- + pinion/sunday/talk-god-sprituality-christian.html teur de l'objet du texte. + + La première apparition de l'expression 'sac de +--- Les traits grammaticaux extraits de Twitter mots' semble remonter à 1954. Zellig Harris a pu- +influencent le marché boursier --- blié un article dans le contexte des études lin- + guistiques, intitulé 'Distributional Structure'. + Les frontières entre les disciplines académiques Dans la partie intitulée 'Le sens en fonction de + s'estompent. La recherche économique mélangée à la la distribution', il dit que 'le langage n'est pas + psychologie, aux sciences sociales, aux concepts seulement un sac de mots, mais aussi un outil aux + cognitifs et émotionnels créent un nouveau sous- propriétés particulières qui ont été façonnées au + domaine économique, appelé 'l'économie comporte- cours de son utilisation. Le travail du linguiste + mentale'. est précisément de découvrir ces propriétés, que + ce soit pour l'analyse descriptive ou pour la syn- + Cela signifie que les chercheurs commencent à ex- thèse du système quasi-linguistique.' + + 42 +learners learn learners learn learners learn learners learn learners learn learners learn + learners learn learners learn learners learn learners learn learners learn + learners learn learners learn learners learn learners learn + learners learn learners learn learners learn + learners learn learners learn learners learn lea +ners learn learners learn learners learn +learners learn learners learn learners learn + learners learn learners learn learners +earn learners learn learners learn + learners learn learners learn + learners learn learners learn lea +ners learn learners learn learners +learn learners learn learners +earn learners learn learne +s learn learners learn +learners learn learners learn + learners learn learners learn + learners learn learners learn + learners learn + learners learn learners learn + learners learn learners learn + learners learn + learners learn learners learn + learners learn + learners learn learners learn + learners learn + learners learn learners +learn learners learn + learners learn + learners learn learners learn + learners learn + learners learn + learners learn learners +learn learners learn + learners learn + learners learn + learners learn lea +ners learn learners learn + learners learn + learners learn + learners learn + learners learn + learners learn + learners learn learners +earn learners learn + learners learn + learners learn + learners learn + learners learn + learners learn + learners learn + learners learn + learners learn + learners learn + learners learn + learners learn + learners learn + learners learn + learners learn + learners learn + learners learn + learners learn + learners learn + learners learn + learners learn + learners learn + learners learn + learners learn + learners learn + 43 + s ep 2 | tm r|rj4aan s + +-+-+-+-+-+-+-+-+ f7 +-+-+-+-+-+ t_ e gn e 4é C \ t xet e t n lsr + u_ l 39 aè 1 w r r é |l|e|a|r|n|e|r|s| l |l|e|a|r|n| w 6 c 56 au 6 s e e06 é u - + s dw %_n u5 ap6 /(i7e,au u +-+-+-+-+-+-+-+-+ l , +-+-+-+-+-+ ed 99 é L lebe2 n 3 t ci27r +3 d n +ucieesa 2 e t 7sl _ 4ee: 6t dQ tr t rtr 5 e ps 9 6 r+ | .8 ir 6i r +é34 l e i '2 8 1 n s m| to e - l|a u r 6 c r ass j p GtV,ep e r + |2dd or -qop 2 p5 9c 7%n - +-+-+-+-+-+-+-+-+ _15 +-+-+-+ +-+-+-+-+-+-+-+ é ro) -ns e ap_ \ + , rit t sue s ss | rop r n |l|e|a|r|n|e|r|s| |2 |a|r|e| |p|a|t|t|e|r|n| tsi4 3 a oar_ n1r8er a 7e-1 + n i3 w9p f e9 ti u +-+-+-+-+-+-+-+-+ r jn +-+-+-+ +-+-+-+-+-+-+-+ d 5e\ s 3n e2 + n c e%,' fp e e9n mS 8l 1 eo +-+-+-+-+-+-+-+ t5 eo8r,n p e 6g s_ e 8 2 5 1 r + 9 e h 8 % +c n % _ n r|4 ar pm e r9 - |f|i|n|d|e|r|s| 2ce . s s\ d a s n ll + 0n % - o rri éo s d vn 8i b I â +-+-+-+-+-+-+-+ fa w% 32 s' 2l 6i0ne2 u a + VC n e. m\ l éml+ a d a +-+-+-+-+-+-+-+-+ \a8 +-+-+-+ +-+-+-+-+-+-+-+-+ t 7 4 a e 0 et6__ fo3 + ie 4 mi , rax m f oistar s |l|e|a|r|n|e|r|s| |a|r|e| |c|r|a|w|l|i|n|g| u e m o d1 5 2 u t + s yk8 é L '5 p te +-+-+-+-+-+-+-+-+ s e +-+-+-+ +-+-+-+-+-+-+-+-+ 9oè nn +7 + _ + a e i + u 3 ct 65 b 9p e +-+-+-+-+-+-+-+ +-+-+-+-+ 2ue 26 e  4 l r m 8 |5 + i l' | f l c_|2 2ann r s 4 d |t|h|r|o|u|g|h| |d|a|t|a| e 9 A3 | s e + + o r road3 e C e t 9ia V 4t 8 q +-+-+-+-+-+-+-+ +-+-+-+-+ e 1pes | 2 h s% + pnw er% iu2 à s6 a u +-+-+-+-+-+-+-+-+ r +-+-+-+-+-+-+-+-+ +-+-+-+-+ +-+-+-+-+ C 1iea + 4 iu87e 2 2 st e e a 1 |l|e|a|r|n|e|r|s| |g|e|n|e|r|a|t|e| |s|o|m|e| |k|i|n|d| - 502 p i 1 + . r 7 l o j p o n +-+-+-+-+-+-+-+-+ n i +-+-+-+-+-+-+-+-+ +-+-+-+-+ +-+-+-+-+ / 7x e e + 5él_ 4 r u t a 3 s a V i +-+-+ +-+-+-+-+-+-+-+-+ u3 +o ny mhs C é e p + s + ea ed a2 r le + L s d 8 n e W |o|f| |s|p|e|c|i|f|i|c| 5 s pce l C t e ca ry + t sV r4nd és c l n 9 8 u 7 e +-+-+ +-+-+-+-+-+-+-+-+ i o_ ah 3 pdé d 7 + e fra é ee b ii d dr r l ee +-+-+-+-+-+-+-+-+-+ _ r t b an | c g + - i dh U ce eor oes . i |'|g|r|a|m|m|a|r|'| 7 og p l 7 8t A + q eee |f n e ' nd u| s l rr u + o +-+-+-+-+-+-+-+-+-+ n _ D d . d -t05 y i 4 c18 | + a + | q 3 o5 +-+-+-+-+-+-+-+-+-+-+-+ s +-+-+-+-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+ - 5 9 + s 3 c V t ets |c|l|a|s|s|i|f|i|e|r|s| i |g|e|n|e|r|a|t|e|,| |e|v|a|l|u|a|t|e| e q + t m r e w em +-+-+-+-+-+-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+ d d e eEt + 4 'n r r a él 0 éo e| +-+-+-+ +-+-+-+-+-+-+-+-+ e r ea_ 4 e a3 + u te e 2 e f 9 i apq - |a|n|d| |r|e|a|d|j|u|s|t| i. 2 ue p s + n a e n _ pr2 r o a i 7 a +-+-+-+ +-+-+-+-+-+-+-+-+ 'ac j é1 t o + - 3 58to +-+-+-+-+-+-+-+-+ c +-+-+-+-+-+-+-+-+-+-+ +-+-+-+ c 2 9 i + s a sc i |l|e|a|r|n|e|r|s| |u|n|d|e|r|s|t|a|n|d| |a|n|d| ' a + e a l | 8 n t i +-+-+-+-+-+-+-+-+ t +-+-+-+-+-+-+-+-+-+-+ +-+-+-+ 7 d \ so - + e n . e s 9 e l5 w 7 c +-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+ 9 d + a i o d e i u |r|e|v|e|a|l| |p|a|t|t|e|r|n|s| a iW 6 t + v c t r % 9e a p d 4 6 +-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+ r o r u- a6 + 8 u n u so%r +-+-+-+-+-+-+-+-+ e, +-+-+-+-+-+ +-+-+-+-+-+-+ al a tr 3 1 + o c| r 3 |l|e|a|r|n|e|r|s| 8 |d|o|n|'|t| |a|l|w|a|y|s| _ 9n d e _ + tta e +-+-+-+-+-+-+-+-+ +-+-+-+-+-+ +-+-+-+-+-+-+ et n e + v r 8 l e n |/ o 3 +-+-+-+-+-+-+-+-+-+-+-+-+ +-+-+-+-+ |r + c nh ei l -d 4 n d |d|i|s|t|u|i|n|g|u|i|s|h| |w|e|l|l| m s 2 + 2 r _ 6 r n s 7 8 r +-+-+-+-+-+-+-+-+-+-+-+-+ +-+-+-+-+ 9 u o m + ' u e i i ' +-+-+-+-+-+ +-+-+-+-+-+-+-+-+ 9 - u s v i + l l I 8 l d s |w|h|i|c|h| |p|a|t|t|e|r|n|s| b s 3l + M e r pe e e é +-+-+-+-+-+ +-+-+-+-+-+-+-+-+ d s - t + 5 + h.e e w r n l t +-+-+-+-+-+-+ +-+-+ +-+-+-+-+-+-+-+-+ 4 K| _ 7 + n 3 0 e a l q+ |s|h|o|u|l|d| |b|e| |r|e|p|e|a|t|e|d| a l s q + c d c 2 o 3 +-+-+-+-+-+-+ +-+-+ +-+-+-+-+-+-+-+-+ % +s 3 2 s e 7 a 1 i a s 2 u . + e c + e m ,6 l t 7 a +e e i . c s , t u n r u e + un s 4 7 e 8 5 5 n - + a o l p7 + A i c c d i + u n n r a w r - d l - , a bl + . e o f c7 a _ , t l 2 + a i c t b s |i o e e m + % e m _ e a t ua i d d lt u + + n. l s s f t e i i s n g u + s o d u n 0 s 3 8 ,r v + a r ip ' | dl l 4 t r é l t 5 +e 2 s C / l e 1 j 0 e 8 nR s + + é e | b e t + e 5 , o + - | 5 _ 4 3 t - + 5 i n a 9 2 o p t 4 r o c +q - o 1 a u o o p(r 7 + G t t 6 l l o m n + + 44 +% V V V V V V V V % %% % %% %% % % % %% %% + V V V V V V V V V V V V V V V V % % 0 0 0 % 0 0 % % % +V V V V % V V V V % V % % 0 % % % % + % % % % % 0 __ % % 00 % % % % % % + % % % % % % % \ \ ___ _ _ ___ ____ __ _ _ _ % % + % % APPRENANTS \ \/ _ \| | | |/ _ \_ / / _` | | | | %% %% % + % % % /\_/ / (_) | |_| | __// / | (_| | |_| | % + %% % \___/ \___/ \__,_|\___/___| \__,_|\__,_| % + V V V % V V V V V % 0 % __ 0 _ % % % 0 0 00 + V V V V V V V V V V V V V V V V % 0 /\ \ \__ _(_)_ _____ +V V V V V V V V % V % % / \/ / _` | \ \ / / _ \ % % + V V V V V V V V 0 % / /\ / (_| | |\ V / __/ % + V V V V V V V V V V V V V V V V % 0 \_\ \/ \__,_|_| \_/ \___| % +V V V V V V V V V ___ % % % % + % / __\ __ _ _ _ ___ ___ % +Les Apprenants sont les algorithmes 0 /__\/// _` | | | |/ _ \/ __| +qui distinguent les pratiques d'ap- 0 0 / \/ \ (_| | |_| | __/\__ \ +prentissage automatique des autres \_____/\__,_|\__, |\___||___/ 0 +pratiques algorithmiques. Les Ap- 0 0 |___/ 0 +prenants sont aussi appelés classi- % 0 +ficateurs. Ce sont des chercheurs % % % +de motifs, capables de fouiller par Algolit % +dans les données et de générer une % +sorte de 'grammaire' spécifique. Dans l'apprentissage automatique, les méthodes Naive Bayes sont +Les Apprenants sont souvent basés des classificateurs probabilistes simples qui sont largement uti- +sur des techniques statistiques. lisés pour filtrer le spam et décider si un texte est positif ou +Chacun d'entre eux présente des ca- négatif. +ractéristiques individuelles. Cer- +tains ont besoin d'une grande quan- Ils nécessitent une petite quantité de données d'entraînement +tité de données d'entraînement pour pour estimer les paramètres nécessaires. Ils peuvent être extrê- +fonctionner, d'autres peuvent s'en mement rapides par rapport à des méthodes plus sophistiquées. Ils +tirer avec un petit jeu de données sont difficiles à généraliser, ce qui signifie qu'ils exécutent +annotées. Certains s'acquittent des tâches très spécifiques, exigeant d'être entraînés avec le +bien de tâches de classification, même style de données que celui qui sera utilisé par la suite. +comme l'identification des spam, +d'autres sont plus aptes à prédire Ce jeu vous permet de jouer selon les règles de Naive Bayes. Tout +les chiffres, comme les températu- en exécutant manuellement le code, vous créez votre propre modèle +res, les distances, les valeurs ludique qui 'fonctionne'. Un peu de prudence s'impose : parce que +boursières, et ainsi de suite. vous ne l'entraînez qu'en 6 phrases - au lieu de 2000 au minimum + - il n'est pas représentatif du tout ! +La terminologie de l'apprentissage % +automatique n'est pas encore com- --- +plètement établie. Selon le domaine +(les statistiques, l'informatique Concept & réalisation: An Mertens +ou les sciences humaines) ils sont +appelés par des mots différents. +Lorsque nous parlons d’Apprenants, 0 0 +nous parlons des fonctions imbri- 0 0 0 0 +quées qui ont la capacité de géné- 0 __ 0 0 0 _ +rer d'autres fonctions, de les éva- % \ \ ___ _ 0 _ ___ ____ __ _ | | __ _ +luer et de les réajuster en fonc- 0 0 \ \/ _ \| | | |/ _ \_ / / _` | | |/ _` | +tion des données. Les Apprenants /\_/ / (_) | |_| | __// / | (_| | | | (_| | +sont bons pour comprendre et révé- \___/ \___/ \__,_|\___/___| \__,_| |_|\__,_| +ler les motifs. Mais ils ne dis- __ 0 0 _ +tinguent pas toujours bien quels /__\ ___ __ _ _ __ ___ ___ ___(_) ___ _ __ +motifs doivent être répétés. / \/// _ \/ _` | '__/ _ \/ __/ __| |/ _ \| '_ \ + / _ \ __/ (_| | | | __/\__ \__ \ | (_) | | | | +Dans les logiciels, il n'est pas \/ \_/\___|\__, |_| \___||___/___/_|\___/|_| |_| +toujours possible de distinguer les 00 |___/ 0 0 0 +éléments caractéristiques des clas- __ _ 0 _ % +sificateurs, car ils sont cachés 0 0 0 / /(_)_ __ 0 ___ __ _(_)_ __ ___ 0 +dans des modules ou bibliothèques / / | | '_ \ / _ \/ _` | | '__/ _ \ +sous-jacents. Les programmeurs 0 / /__| | | | | __/ (_| | | | | __/ +peuvent les invoquer en utilisant \____/_|_| |_|\___|\__,_|_|_| \___| % +une seule ligne de code. Par consé- 0 0 0 0 +quent, pour cette exposition, nous +avons développé deux jeux de table par Algolit +qui montrent en détail le processus % +d'apprentissage de classificateurs La régression linéaire est l'un des algorithmes les plus connus + 45 +simples, mais fréquemment utilisés. % et les mieux compris en statistique et en apprentissage automa- % + % % % % % tique. Il existe depuis près de 200 ans. C'est un modèle at- % + % % % % trayant parce que la représentation est très simple. En statisti- + % % % % % % que, la régression linéaire est une méthode statistique qui per- % + % % % % %% % met de résumer et d'étudier les relations entre deux paramètres + % % % quantitatifs. % % % % % % % + % %% % % + % % % En jouant à ce jeu, vous réaliserez qu'en tant que joueur, vous + avez beaucoup de décisions à prendre. Vous découvrirez ce que si- + % gnifie créer un jeu de données cohérent, de décider ce qu’il doit + % % inclure. Si tout se passe bien, vous ressentirez le besoin de mo- + difier vos données afin d'obtenir de meilleurs résultats. Cela + fait partie de l'art de l'approximation qui est à la base de + toutes les pratiques d'apprentissage automatique. + % % % + --- % % + + % Concept & réalisation: An Mertens + % + % % % % + 0 0 00 0 0 + 0 0 % + _____ 0 0 _ _ 0 0 _ 0 + /__ \_ __ __ _(_) |_ ___ __| | ___ + 0 / /\/ '__/ _` | | __/ _ \ / _` |/ _ \ % + / / | | | (_| | | || __/ | (_| | __/ + % 0 \/ |_| \__,_|_|\__\___| \__,_|\___| 0 + 0 _ _ _ + % % 0 __| | ___ ___ _ 0 _ _ __ ___ ___ _ __ | |_ __ _| |_ + % % / _` |/ _ \ / __| | | | '_ ` _ \ / _ \ '_ \| __/ _` | __| + | (_| | (_) | (__| |_| | | | | | | __/ | | | || (_| | |_ + \__,_|\___/ \___|\__,_|_| |_| |_|\___|_| |_|\__\__,_|\__| + _ _____ _ + (_) ___ _ __ /__ \_ __ ___ (_)___ + % 0 | |/ _ \| '_ \ / /\/ '__/ _ \| / __| + 0 | | (_) | | | |_ / / | | | (_) | \__ \ 0 + % |_|\___/|_| |_(_) \/ |_| \___/|_|___/ 0 + 0 _ + _ __ ___ ___ _ __ ___ ___ ___ __ _| | __ _ + | '_ \ / _ \ / _ \ '_ ` _ \ / _ \/ __| / _` | |/ _` | + | |_) | (_) | __/ | | | | | __/\__ \ | (_| | | (_| | + % | .__/ \___/ \___|_| |_| |_|\___||___/ \__,_|_|\__, | + |_| 0 0 0 0 00 0 |___/ + 0 0 0 _ _ _ 0 0 _ 00 + ___ _ __(_) |_| |__ _ __ ___ (_) __ _ _ _ ___ + / _ \| '__| | __| '_ \| '_ ` _ \| |/ _` | | | |/ _ \ + | (_) | | | | |_| | | | | | | | | | (_| | |_| | __/ + \___/|_| |_|\__|_| |_|_| |_| |_|_|\__, |\__,_|\___| + 0 |_| + 0 0 0 ___ 00 00 + / __| + 0 \__ \ 0 % + |___/ 0 + 0 0 0 00 0 0 + + par Rémi Forte, designer-chercheur à l’Atelier national de re- + cherche typographique, Nancy, France + % + sérigraphie sur papier, 60 × 80 cm, 25 ex., 2019, en vente à la + réception du Mundaneum. + + Sous la forme de trois affiches, ces poèmes opèrent une relecture + algorithmique et poétique du 'Traité de documentation' de Paul + Otlet. Ils sont le résultat d’un même algorithme basé sur les + règles mystérieuses de l'intuition humaine. Il est appliqué à + trois fragments prélevés dans l’ouvrage de Paul Otlet et se veut + représentatif de sa pratique bibliologique. Pour chaque fragment, + l’algorithme découpe le texte, puis mots et signes de ponctuation + sont comptabilisés et réordonnés en une liste. À chaque ligne, + 46 + %%%% % %% %% %% % les éléments se combinent et épuisent la syntaxe du fragment sé- % % + % % % % lectionné. %% % % % %%% %% %% % % + % % % % % % % % % % % % + % % %% % % Le langage de Paul Otlet reste perceptible mais exacerbé jusqu’à %% + % % % % l’absurde. Pour le lecteur, la systématisation du texte est dé- + % concertante et ses habitudes de lecture sont bousculées. Cons- + % % % truite selon une équation mathématique, la composition typogra- % + % phique de l’affiche est tout aussi systématique que le poème. Ce- + % pendant, des frictions surviennent ponctuellement ; boucle après + % % boucle, les lignes s’étendent jusqu’à mordre la colonne voisine. + Des superpositions se créent et des mots se trouvent dissimulés + % % par d’autres. Ces télescopages dessinent des parcours de lecture + % alternatifs. % % + % % % % % % % + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + 47 + RÉCITS CONTEXTUALISÉS + AUTOUR DES APPRENANTS + + + + --- Naive Bayes & Viagra --- Pierre-Simon Laplace, son inventeur. Le mathémati- + cien aurait échoué à créditer les travaux des + L'algorithme Naive Bayes est un Apprenant célèbre autres. Par conséquent, il a souffert d’accusa- + qui réussit bien avec peu de données. Nous l'ap- tions largement diffusées contre sa réputation. Ce + pliquons tout le temps. Christian & Griffiths af- n'est que 150 ans plus tard que l'accusation s'est + firment dans leur livre, 'Algorithms to Live by', avérée fausse. + que 'nos jours sont remplis de petites données'. +Imaginez par exemple que vous vous trouviez à un Avançons en 1939, alors que le règne de Bayes de- +arrêt de bus dans une ville étrangère. L'autre meure pratiquement tabou, mort et enterré dans le +personne qui se tient là attend depuis 7 minutes. domaine de la statistique. Lorsque la France est + Qu'est-ce que vous faites ? Décidez-vous d'atten- occupée en 1940 par l'Allemagne, qui contrôle les + dre ? Et si oui, pour combien de temps ? Quand al- usines et les fermes européennes, la plus grande + lez-vous envisager d'autres options ? Un autre inquiétude de Winston Churchill est le péril U- + exemple. Imaginez qu’un ami demande conseil sur boot. Les opérations de sous-marin étaient étroi- + une relation. Il est avec son nouveau partenaire tement contrôlées par le quartier général allemand + depuis un mois. Doit-il l'inviter à l’accompagner en France. Chaque sous-marin partait en mer sans + à un mariage de famille ? ordres, et les recevait sous forme de messages ra- + dio codés après avoir atteint l'Atlantique. Les + Les croyances préexistantes sont cruciales pour messages étaient cryptés par des machines à + que Naive Bayes fonctionne. L'idée est de calculer brouiller les mots, appelées Enigma machines. + les probabilités sur base de ces connaissances Enigma ressemblait à une machine à écrire compli- +préalables et d'une situation spécifique. quée. Elle est inventée par la société allemande + Scherbius & Ritter après la première guerre mon- +Le théorème a été formulé dans les années 1740 par diale, lorsque le besoin de machines d'encodage de + le révérend et mathématicien amateur Thomas Bayes. messages est devenu douloureusement évident. + Il a consacré sa vie à résoudre la question de sa- + voir comment gagner à la loterie. Mais la règle de Curieusement, et heureusement pour Naive Bayes et + Bayes a été rendue célèbre dans sa forme actuelle le monde, à l'époque le gouvernement britannique + par le mathématicien Pierre-Simon Laplace en et les systèmes d'éducation considéraient les ma- + thématiques appliquées et les statistiques sans + temps après la mort de La Place, la théorie tombe aucun rapport avec la résolution pratique des pro- + dans l'oubli jusqu'à ce qu'elle soit à nouveau dé- blèmes. Les données statistiques ont été jugées + terrée pendant la Seconde Guerre mondiale dans le gênantes en raison de leur caractère détaillé. + but de briser le code Enigma. Ainsi, les données du temps de guerre étaient sou- + vent analysées non pas par des statisticiens, mais +La plupart des personnes sont aujourd'hui entrées par des biologistes, des physiciens et des mathé- +en contact avec Naive Bayes par le biais de leurs maticiens théoriques. Aucun d'entre eux ne savait +dossiers de courrier indésirable. Naive Bayes est qu'en ce qui concerne les statistiques sophisti- + un algorithme largement utilisé pour la détection quées, la règle de Bayes était considérée non- + du spam. C’est une coïncidence que le Viagra, mé- scientifique. + dicament contre la dysfonction érectile, a été ap- + prouvé par la FDA (US Food & Drug Administration) C'est le désormais célèbre Alan Turing, mathémati- + en 1997, au moment où environ 10 millions d'utili- cien, informaticien, logicien, cryptanalyste, phi- + sateurs dans le monde avaient des comptes de mes- losophe et biologiste théorique, qui a utilisé le + sagerie Web gratuits. Les sociétés de vente système de probabilités des règles de Bayes pour + avaient l’intelligence d'utiliser la publicité concevoir la 'bombe'. Il s'agissait d'une machine + massive par e-mail : c'était un média intime, à électromécanique à grande vitesse pour tester tous + l'époque réservé à la communication privée. En les arrangements possibles qu'une machine Enigma + 2001, le premier programme SpamAssasin s'appuyant produirait. Afin de déchiffrer les codes navals +sur Naive Bayes a été téléchargé sur SourceForge, des U-boot, Turing simplifie le système de la +réduisant ainsi le marketing 'guerilla par cour- 'bombe' en utilisant des méthodes baysiennes. La +riel'. 'bombe' a transformé le quartier général du + Royaume-Uni en une usine de décryptage. L'histoire + Référence : Machine Learners, by Adrian MacKenzie, est bien illustrée dans 'The Imitation Game', un + The MIT Press, Cambridge, US, November 2017. film de Morten Tyldum, sorti en 2014. + + + --- Naive Bayes & Enigma --- --- Une histoire sur les petits pois --- + + Cette histoire de Naive Bayes fait partie du livre En statistique, la régression linéaire est une mé- + 'The theory that would not die', écrit par Sharon thode d'apprentissage supervisé. Après l'entraîne- + Bertsch McGrayne. Elle décrit entre autres comment ment avec des données annotées, le modèle tente de + Naive Bayes est vite oubliée après la mort de prédire les valeurs de nouvelles données incon- + nues. La régression linéaire permet de résumer et + 48 + + + + + d'étudier les relations entre deux éléments, afin les, les hommes ne différaient pas beaucoup sur le + de voir s'il existe une corrélation entre eux. plan intellectuel, seulement sur le plan du zèle + S'il y a une corrélation positive, la connaissance et du labeur'. Heureusement, l'étude moderne de + d'un élément aide à prédire l'autre. Par exemple, l'hérédité a réussi à éliminer le mythe de la dif- + étant donné la critique d'un film, nous pouvons férence génétique fondée sur la race. + prédire le nombre moyen d'étoiles qui lui sont at- + tribuées, plutôt que de simplement dire si la cri- La raison pour laquelle nous l'évoquons dans cette + tique est positive ou négative. série, c'est qu'il a été parmi les premiers scien- + tifiques à utiliser des méthodes statistiques dans + Parfois, les figures que nous rencontrons en grat- ses recherches. Sa principale contribution dans ce +tant sous la surface ne sont pas à notre goût. domaine a été l'analyse de régression linéaire, +L'idée de régression vient de Sir Francis Galton, qui a fondé les bases d'une grande partie de la +un scientifique influent du 19e siècle. Il a passé statistique moderne. Alors que nous nous engageons + sa vie à étudier le problème de l'hérédité - pour dans le domaine de l'apprentissage automatique, + comprendre à quel point les caractéristiques d'une Algolit essaie de ne pas oublier que les systèmes + génération d'êtres vivants se manifestent dans la d'ordre ont du pouvoir, et que ce pouvoir n'a pas + génération suivante. Il a établi le domaine de toujours été exercé au bénéfice de tout le monde. + l'eugénisme et l'a défini comme 'l'étude des orga- L'apprentissage automatique a hérité de nombreux + nismes sous contrôle social qui peuvent améliorer aspects de la recherche statistique, certains plus + ou altérer les qualités raciales des générations agréables que d'autres. Nous devons nous méfier, + futures, que ce soit physiquement ou mentalement'. car ces visions du monde s'infiltrent dans les mo- + Par conséquent, son nom a marqué l'histoire et dèles algorithmiques qui créent des ordres aujour- + l'héritage du racisme scientifique. d'hui. + +Galton a d'abord abordé le problème de l'hérédité Références : +en examinant les caractéristiques du petit pois +doux. Il a choisi le petit pois parce que l'espèce http://galton.org/letters/darwin/correspon- + peut s'auto-fertiliser. Les plantes femelles hé- dence.htm + ritent des variations génétiques des plantes mères + sans la contribution d'un deuxième parent. Cette https://www.tandfonline.com/doi/- + caractéristique élimine la nécessité de traiter full/10.1080/10691898.2001.11910537 + avec des sources multiples. + http://www.paramoulipist.be/?p=1693 + En 1875, Galton a distribué des paquets de graines + de petits pois à sept amis. Chaque ami recevait + des graines de poids uniforme, mais il y avait des --- Perceptron --- + variations importantes d'un paquet à l'autre. Les + amis de Galton ont récolté les graines des nou- Nous nous trouvons dans une décennie où les ré- +velles générations de plantes et les lui ont ren- seaux de neurones suscitent beaucoup d'attention. +dues. Il a ensuite tracé le poids des graines fe- Cela n'a pas toujours été le cas. L'étude des ré- +melles contre le poids des graines mères. Il a dé- seaux de neurones remonte aux années 1940, lorsque + couvert que le poids médian des graines femelles la première métaphore des neurones est apparue. Le + d'une taille particulière de la semence mère dé- neurone n'est pas la seule référence biologique + crivait approximativement une ligne droite avec dans le domaine de l'apprentissage automatique - + une pente positive inférieure à 1,0. Les premières pensez au mot corpus ou formation. Le neurone ar- + idées de Galton sur la régression sont nées de ce tificiel a été construit en relation étroite avec + son homologue biologique. + petits pois femelles à celle des petits pois + mères. Il a utilisé cette représentation de ses Le psychologue Frank Rosenblatt s'est inspiré des + données pour illustrer les fondements de ce que travaux de son collègue Donald Hebb sur le rôle + les statisticiens appellent encore aujourd'hui la des neurones dans l'apprentissage humain. Hebb a + régression. Pour Galton, c'était aussi une façon déclaré que 'les cellules qui communiquent, se +de décrire les avantages de l'eugénisme. mettent ensemble.' Sa théorie est maintenant à la + base de l'apprentissage associatif humain, mais +La recherche de Galton été appréciée par de nom- aussi de l'apprentissage en réseau de neurones non + breux intellectuels de son temps. En 1869, dans supervisé. Il a poussé Rosenblatt à développer + 'Hereditary Genius', Galton affirme que le génie l'idée du neurone artificiel. En 1962, il crée le + est principalement une question d'ascendance. Il Perceptron. Le Perceptron est un modèle qui ap- + croyait qu'il y avait une explication biologique à prend par la pondération des entrées. + l'inégalité sociale entre les races. Galton a même + persuadé son demi-cousin Charles Darwin de ses Il a été mis de côté par les chercheurs, parce + idées. Après avoir lu l'article de Galton, Darwin qu'il ne peut gérer que la classification binaire. + a déclaré : 'Vous avez converti un adversaire, car Cela signifie que les données doivent être sépa- + j'ai toujours soutenu qu'à l'exception des imbéci- rables linéairement, comme par exemple hommes et + + 49 + + + +femmes, noir et blanc. Il est clair que ce type de et vous ne voulez pas travailler avec des sollu- + données est très rare dans le monde réel. Lorsque tions prêtes à l'emploi, et vous souhaitez ouvrir + le soi-disant premier hiver de l'Intelligence Ar- la boîte noire, BERT exige de faire des économies + tificielle (IA) est arrivé en 1974-1980 et que le pour pouvoir l’utiliser. + financement consacré à cette recherche a diminué, + le Perceptron a également été négligé. Pendant 10 Références : + ans, il est resté inactif. Lorsque le printemps + s'installe à la fin des années 1980, de nouvelles https://ai.googleblog.com/2018/11/open-sourcing- + générations de chercheurs le reprennent et l'uti- bert-state-of-art-pre.html + lisent pour construire des réseaux de neurones. + Ceux-ci contiennent de multiples couches de Per- https://towardsdatascience.com/deconstructing- + ceptrons. C'est ainsi que les réseaux de neurones bert-distilling-6-patterns-from-100-million-para- +voient la lumière. On pourrait dire que cette sai- meters-b49113672f77 +son d'apprentissage automatique est particulière- +ment chaude, mais il faut un autre hiver pour + connaître un été. + + + --- BERT --- + + Certains articles en ligne disent que l'année 2018 + a marqué un tournant dans le domaine du traitement + du langage naturel. Une série de modèles de 'deep + learning' ont permis d'obtenir des résultats ex- + cellents pour des tâches comme les réponses aux + questions ou la classification des sentiments. +L'algorithme BERT de Google est entré dans les +concours d'apprentissage automatique de l'année +dernière comme un 'modèle gagnant'. Il témoigne + d’une performance supérieure sur une grande varié- + té de tâches. + + BERT est pré-entraîné; ses poids sont appris à + l'avance grâce à deux tâches non supervisées. Cela + signifie que BERT n'a pas besoin d'être entraîné à + partir de zero pour chaque nouvelle tâche. Vous + n'avez qu'à affiner ses poids. + + Cela signifie également qu'un programmeur souhai- + tant utiliser BERT ne sait plus sur quels para- +mètres BERT est réglé, ni à base de quelles don- +nées il a appris ses performances. + + BERT signifie 'Bidirectional Encoder Representa- + tions from Transformers'. Cela signifie que BERT + permet un entraînement bidirectionnel. Le modèle + apprend le contexte d'un mot à partir de son envi- + ronnement, à gauche et à droite d'un mot. En tant + que tel, il peut faire la différence entre 'Je + suis pile à l’heure' et 'Je l’ai mis sur la pile'. + + Quelques faits : + + - BERT_large, avec 345 millions de paramètres, est +le plus grand modèle du genre. Il est manifeste- +ment supérieur à BERT_base, qui utilise la même +architecture avec 'seulement' 110 millions de pa- + ramètres, pour les tâches à petite échelle. + + - Pour exécuter BERT, vous devez utiliser les TPU. + Ce sont les processeurs (CPU) de Google spéciale- + ment conçus pour TensorFLow, la plateforme de + 'deep learning'. Les tarifs de location de TPU + vont de de 8$/h à 394$/h. Si vous êtes comme nous, + + + 50 +0123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345678 +9 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234567 +89 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456 +789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345 +6789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234 +56789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123 +456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12 +3456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1 +23456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 +123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 + 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345678 +9 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234567 +89 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456 +789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345 +6789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234 +56789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123 +456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12 +3456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1 +23456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 +123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 + 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345678 +9 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234567 +89 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456 +789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345 +6789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234 +56789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123 +456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12 +3456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1 +23456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 +123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 + 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345678 +9 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234567 +89 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456 +789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345 +6789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234 +56789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123 +456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12 +3456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1 +23456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 +123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 + 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345678 +9 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234567 +89 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456 +789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345 +6789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234 +56789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123 +456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12 +3456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1 +23456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 +123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 + 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345678 +9 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234567 +89 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456 +789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345 +6789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234 +56789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123 +456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12 +3456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1 +23456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 +123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 + 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345678 +9 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234567 +89 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456 +789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12345 +6789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1234 +56789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123 +456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 12 +3456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 1 +23456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 123456789 + 51 + █▒░░ ▓▒█░░▒▓███▀▒░ ░▒ ▒ ░ ▒▒▓██▒ ░░ ▒░ ░ ▒ ░▓ ░▒▓ ▒ ▒█░░▒█▓▒░▓▒ ▒▓▒▒░ ▒ ▒▒ ▓▒░ ▒░▓ █ ▒░ █░█ ▓▒░ ▒▓░░ +▓ ▒░ ▒▒ ░▒░▒▓ ░ ░ ▒ ░ ▒ ▒ ░ ░ ░▒░ ░▒ ░ ▒ ░▒░▓░ ▒ ░ ▒ ░▒░ ░ ░▒ ▒░░ ░ ▒ ░░▓ ░ ▓▓░░ ░░▒▒▓░ + ░ ▒ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░░ ░ ▒ ░ ░ ░ ░ ░ ░░ ░ ░ ░ ░ ░ ░ ░ ░ + ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ +░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ + + ░ tion est une étape cru- voit en tant qu'utilisa- sition d'occurrences de + ░ ciale de l'apprentissage teur, mais ont aussi lettres ou de mots, ce + ░ ░ ░ ░ automatique supervisé leur mot à dire dans les qui donne des tables de + ░ ░ ░ ░ durant laquelle l'algo- fluctuations du cours probabilité de transi- + ░ ░ rithme reçoit des des bourses mondiales ou tion qui peuvent être + ░ ░ exemples de ce qu'il dans la détection de la calculées sans aucune + ░ GLOSSAIRE ░ doit apprendre. Un cybercriminalité et du compréhension sémantique + ░ filtre anti-spam sera vandalisme. ou grammaticale du lan- + ░ ░ ░ alimenté d'exemples de gage naturel. Cet algo- + ░ ░ ░ ░ messages spams et de * APPRENTISSAGE AUTOMA- rithme peut être utilisé + ░ messages réels. Ces tique classique pour analyser des tex- + ░ exemples consistent en Naive Bayes, Support tes, mais aussi pour les + ░ un message, l'entrée, Vector Machines ou Ré- recombiner. Il est lar- + accompagné d'une éti- gression Linéaire sont gement utilisé pour la + Vous trouverez ci-des- quette  considérés comme des al- génération de spam. + sous un glossaire non- spam ou non spam. L'an- gorithmes classiques + exhaustif reprenant des notation d'un jeu de d'apprentissage automa- * CONSTANT + termes fréquemment uti- données est un travail tique. Ils fonctionnent Constant est une asso- + lisés dans l'exposition. exécuté par des humains, bien lorsqu'ils ap- ciation sans but lucra- + Il est conçu comme une qui choisissent une éti- prennent avec de petits tif d’artistes autogé- + aide pour les visiteurs quette pour chaque élé- jeux de données. Mais rés, basée à Bruxelles + connaissant peu le voca- ment du jeu de données. ils nécessitent souvent depuis 1997 et active + bulaire lié au domaine Pour assurer la qualité des lecteurs complexes. dans les domaines de + du traitement des des étiquettes, plu- La tâche accomplie par l’art, des médias et de + langues naturelles sieurs annotateurs les lecteurs est égale- la technologie. Algolit + (NLP), Algolit ou le doivent voir le même ment appelée 'feature est né en 2012 comme un + Mundaneum. élément, la même entrée, engineering' (voir ci- projet de Constant. + et donner la même éti- dessous). Cela signifie http://constantvzw.org +* ALGOLIT quette avant qu'un qu'un être humain doit + un groupe bruxellois exemple ne soit inclus consacrer du temps à une * DATA WORKERS + spécialisé dans la re- dans les données d'en- analyse exploratoire ap- Intelligences artifi- + cherche artistique sur traînement. profondie du jeu de don- cielles développées pour + les algorithmes et la nées. servir, divertir, enre- + littérature. Chaque * APPRENTISSAGE AUTOMA- gistrer et connaître les + mois, le groupe se tique ou machine lear- * BAG OF WORDS humains. Le travail de + réunit pour expérimenter ning Le modèle du sac de mots ces entités machiniques + avec du code et des Modèles algorithmiques est une représentation est généralement dissi- + textes publiés sous li- basés sur la statisti- simplifiée du texte uti- mulé derrière des inter- + cences libres. que, principalement uti- lisé dans le traitement faces et des brevets. + http://www.algolit.net lisés pour analyser et du langage naturel. Dans Dans l'exposition, les + prédire des situations à ce modèle, un texte est conteurs algorithmiques +* ALGOLITTÉRAIRE partir de cas existants. représenté sous la forme quittent leur monde sou- + terme inventé par Algo- Dans cette exposition, d'une collection de mots terrain invisible pour + lit pour des oeuvres qui nous nous concentrons uniques, sans tenir devenir nos interlocu- + explorent le point de sur les modèles d'ap- compte de la grammaire, teurs. + vue du conteur algorith- prentissage automatique de la ponctuation ni + mique. Quelles nouvelles pour le traitement de même de leur ordre dans * DONNÉES D’ENTRAÎNEMENT + formes de narration ren- texte ou le traitement le texte. Ce modèle Les algorithmes d'ap- + dons-nous possibles en du langage naturel (voir transforme un texte en prentissage automatique + dialoguant avec les al- NLP). Ces modèles ont une liste de mots asso- ont besoin d'être gui- + gorithmes ? appris à effectuer une ciés à leur fréquence  dés. Pour séparer une + tâche spécifique sur la littéralement un sac de chose d'une autre, faire +* ALGORITHME base de textes exis- mots. Le sac de mots est des distinctions, ils + Un ensemble d'instruc- tants. Ils sont utilisés souvent utilisé comme ont besoin de motifs. + tions dans un langage de par les moteurs de re- référence, c'est sur Ils les trouvent dans + programmation spécifi- cherche, les traductions cette base qu'on évalue- les textes qui leur sont + que, qui permettent de automatiques, et per- ra la performance d'un donnés, les données + produire un résultat mettent de générer des nouveau modèle. d’entraînement. L'être + (output) à partir de résumés et de repérer humain doit choisir avec + données (inputs). les tendances sur les * CHAÎNE DE MARKOV soin un matériel d’en- + réseaux sociaux et des Algorithme qui scanne un traînement adapté à la +* ANNOTATION fils d’actualité. Ils texte à la recherche de tâche de la machine. Il + Le processus d'annota- influencent ce que l'on la probabilité de tran- n'est pas logique d’en- + 52 + █▒░░ ▓▒█░░▒▓███▀▒░ ░▒ ▒ ░ ▒▒▓██▒ ░░ ▒░ ░ ▒ ░▓ ░▒▓ ▒ ▒█░░▒█▓▒░▓▒ ▒▓▒▒░ ▒ ▒▒ ▓▒░ ▒░▓ █ ▒░ █░█ ▓▒░ ▒▓░░ +▓ ▒░ ▒▒ ░▒░▒▓ ░ ░ ▒ ░ ▒ ▒ ░ ░ ░▒░ ░▒ ░ ▒ ░▒░▓░ ▒ ░ ▒ ░▒░ ░ ░▒ ▒░░ ░ ▒ ░░▓ ░ ▓▓░░ ░░▒▒▓░ + ░ ▒ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░░ ░ ▒ ░ ░ ░ ░ ░ ░░ ░ ░ ░ ░ ░ ░ ░ ░ + ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ +░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ + + traîner une machine avec tion par autrui en vue sujets à des droits explorent et + des romans du 19ème de sa diffusion sont d'auteur soit parce que construisent des modèles + siècle si sa mission est permises, techniquement ces derniers sont expi- d'apprentissage automa- + d'analyser des Tweets. et légalement, ceci afin rés. Le projet fut lancé tique, collaborent avec + de garantir certaines par Michael Hart en 1971 d'autres et participent +* DUMP libertés induites, dont et nommé en hommage à à des concours pour re- + Terme anglais signifiant le contrôle du programme l'imprimeur allemand du lever des défis. Environ + ‘dépôt, décharge, déver- par l'utilisateur et la XVe siècle Johannes Gu- un demi-million d’utili- + ser massivement’. En in- possibilité de partage tenberg. (Wikipedia) sateurs sont actifs sur + formatique, le terme entre individus. Ces Kaggle. Kaggle a été + dump désigne générale- droits peuvent être sim- * HENRI LA FONTAINE fondée par Goldbloom et + ment une copie brute plement disponibles – Henri La Fontaine Ben Hamner en 2010 et + d’une base de données; cas du domaine public – (1854-1943) est un homme acquise par Google en + par exemple pour effec- ou bien établis par une politique, féministe et mars 2017. + tuer une sauvegarde de licence, dite 'libre', pacifiste belge. Il re- + données ou pour les uti- basée sur le droit d'au- çoit le Prix Nobel de la * LANGAGE NATUREL + liser ailleurs. Les teur. Les 'licences co- paix en 1913 en raison Selon Wikipédia, 'Une + dumps sont souvent pu- pyleft' garantissent le de son engagement au langue dite « naturel- + bliées par des projets maintien de ces droits sein du Bureau Interna- le » est une langue qui + de logiciels libres et aux utilisateurs même tional de la Paix et de s'est formée petit à pe- + de contenu libre, tels pour les travaux déri- sa contribution à l'or- tit, évoluant avec le + que Wikipédia, pour per- vés. Les logiciels ganisation du mouvement temps, et qui fait par- + mettre la réutilisation libres constituent une pacifiste. En 1895, en- tie du langage naturel. + ou la dérivation(fork) alternative à ceux qui semble avec Paul Otlet, Son origine est bien + de la base de données. ne le sont pas, quali- il créent ensemble souvent floue et peut + fiés de 'propriétaires' l'Institut international être retracée plus ou +* FEATURE ENGINEERING ou de 'privateurs'. (Wi- de bibliographie qui de- moins clairement par la + Processus utilisant la kipedia) viendra le Mundaneum. Au linguistique comparée. + connaissance du domaine sein de cette institu- On oppose les langues + des données pour créer * GIT tion, qui visait à ras- naturelles - comme le + les caractéristiques qui un système logiciel per- sembler l'ensemble des français - aux langues + font fonctionner les al- mettant de suivre les connaissances du monde, construites comme le + gorithmes d'apprentis- changements dans le code il contribue à mettre au langage de programmation + sage machine. En source pendant le déve- point le système de ou l'espéranto, formées + d'autres termes, un être loppement d'un logiciel. Classification décimale intentionnellement par + humain doit consacrer du Il est conçu pour coor- universelle (CDU). l’entremise de l’homme + temps à une analyse ex- donner le travail des pour remplir un besoin + ploratoire approfondie programmeurs, mais il * IA OU INTELLIGENCES précis.' + du jeu de données, afin peut être utilisé pour artificielles + d'en définir les princi- suivre les changements L'intelligence artifi- * LITTÉRATURE + pales caractéristiques. dans n'importe quel en- cielle (IA) est 'l'en- Algolit comprend la no- + Ces caractéristiques semble de fichiers. semble des théories et tion de littérature + peuvent être la fré- Avant d’initier un nou- des techniques mises en comme beaucoup d'autres + quence des mots ou des veau projet, les pro- œuvre en vue de réaliser auteurs expérimentaux  + lettres, mais aussi des grammeurs créent un ‘dé- des machines capables de elle inclut toute la + éléments syntaxiques pôt git’ dans lequel ils simuler l'intelligence. production linguistique, + comme les noms, les ad- publieront toutes les Elle correspond donc à du dictionnaire à la Bi- + jectifs ou les verbes. parties du code. Les dé- un ensemble de concepts ble, de l'œuvre entière + Les caractéristiques les pôts git d’Algolit se et de technologies plus de Virginia Woolf à + plus importantes pour la trouvent ici qu'à une discipline au- toutes les versions des + tâche à résoudre doivent https://gitlab.- tonome constituée. D'au- Conditions d'utilisation + être soigneusement sé- constantvzw.org/algolit. tres, remarquant la dé- publiées par Google de- + lectionnées pour être finition peu précise de puis son existence. En + transmises à un algo- * GUTENBERG.ORG l'IA, notamment la CNIL, ce sens, le code de pro- + rithme classique d'ap- Le projet Gutenberg est la définissent comme ‘le grammation peut aussi + prentissage automatique. une bibliothèque de ver- grand mythe de notre être de la littérature. + sions électroniques temps'. (Wikipedia) +* FLOSS OU LOGICIELS libres de livres physi- * MECHANICAL TURK + Libres et Open Source quement existants. Les * KAGGLE Le Mechanical Turk d’A- + Un logiciel libre est un textes fournis sont es- Plateforme en ligne où mazon est une plateforme + logiciel dont l'utilisa- sentiellement du domaine les utilisateurs en ligne à destination + tion, l'étude, la modi- public, soit parce trouvent et publient des des humains conçue pour + fication et la duplica- qu'ils n'ont jamais été ensembles de données, exécuter des tâches que + 53 + █▒░░ ▓▒█░░▒▓███▀▒░ ░▒ ▒ ░ ▒▒▓██▒ ░░ ▒░ ░ ▒ ░▓ ░▒▓ ▒ ▒█░░▒█▓▒░▓▒ ▒▓▒▒░ ▒ ▒▒ ▓▒░ ▒░▓ █ ▒░ █░█ ▓▒░ ▒▓░░ +▓ ▒░ ▒▒ ░▒░▒▓ ░ ░ ▒ ░ ▒ ▒ ░ ░ ░▒░ ░▒ ░ ▒ ░▒░▓░ ▒ ░ ▒ ░▒░ ░ ░▒ ▒░░ ░ ▒ ░░▓ ░ ▓▓░░ ░░▒▒▓░ + ░ ▒ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░░ ░ ▒ ░ ░ ░ ░ ░ ░░ ░ ░ ░ ░ ░ ░ ░ ░ + ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ +░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ + + les algorithmes ne par- (1854-1943), homme d'É- dire des situations par- * PYTHON + viennent pas à faire. Il tat et prix Nobel de la ticulières ou à profiler le principal langage de + peut s'agir, par exem- paix, créent le Munda- des habitudes d’usagers. programmation utilisé + ple, d'annoter des neum. Le projet vise à Elles sont largement dans le monde entier + phrases comme étant po- rassembler toute la utilisés dans les smart- pour le traitement du + sitives ou négatives, de connaissance du monde et phones, les ordinateurs langage, inventé en 1991 + repérer des plaques à la classer à l'aide du et les tablettes. par le programmeur néer- + d'immatriculation, de système de Classifica- landais Guido Van Ros- + reconnaître des visages. tion décimale univer- * OULIPO sum. + Les annonces que l'on selle (UDC) qu'ils in- Le collectif Oulipo, + trouve sur cette plate- ventent. acronyme d'Ouvroir de * RECONNAISSANCE OPTIQUE + forme sont souvent rému- Littérature Potentielle, de caractères (ROC) + nérés moins d'un centime * NATURAL LANGUAGE PRO- est une grande source en anglais optical cha- + par tâche. Les tâches cessing (NLP) d'inspiration pour Algo- racter recognition + les plus complexes ou Le traitement du langage lit. Oulipo a été créé à (OCR), ou océrisation, + nécessitant le plus de naturel (NLP) est un Paris par les écrivains désigne les procédés in- + connaissances peuvent terme collectif qui dé- Raymond Queneau et Fran- formatiques permettant + être payées jusqu'à plu- signe le traitement in- çois Le Lionnais. Ils la traduction d'images + sieurs centimes. De nom- formatique automatique ont ancré leur pratique de textes scannés en fi- + breux chercheurs univer- des langues humaines. dans l'avant-garde euro- chiers de texte manipu- + sitaires utilisent le Cela comprend les algo- péenne du XXe siècle et lables. + Mechanical Turk pour des rithmes utilisant, comme dans la tradition expé- + tâches qui auraient été données, du texte pro- rimentale des années 60. * RÉSEAUX DE NEURONES + exécutées par des étu- duit par l'homme et qui Pour Oulipo, la création Systèmes informatiques + diants auparavant. tentent de le repro- de règles devient la inspirés des réseaux + duire. condition permettant de neuronaux biologiques +* MODÈLES D’APPRENTIS- générer de nouveaux tex- trouvés dans le cerveau + sage automatique super- * N-GRAMMES DE CARAC- tes, ou ce qu'ils ap- des animaux. Un réseau + visé tères pellent la littérature de neurone n'est pas un + Pour la création de mo- une technique utilisée potentielle. Plus tard, algorithme, mais plutôt + dèles d'apprentissage pour la reconnaissance en 1981, ils ont égale- un cadre dans lequel de + automatique supervisés, de la paternité d’une ment créé ALAMO - Ate- nombreux algorithmes + les humains annotent les oeuvre. Lors de l'utili- lier de Littérature As- d'apprentissage machine + échantillons d'entraîne- sation des N-grammes de sistée par la Mathéma- différents travaillent + ment avant de les en- caractères, les textes tique et les Ordina- ensemble et traitent des + voyer à la machine. sont considérés comme teurs. données complexes. De + Chaque texte est jugé des séquences de carac- tels systèmes ‘appren- + par au moins 3 humains tères. Considérons le * PAUL OTLET nent’ à exécuter des + par exemple, s’il s’agit trigramme des carac- Paul Otlet (1868 - 1944) tâches en observant des + de spam ou non, s’il est tères. Toutes les sé- était un auteur, entre- exemples, généralement + positif ou négatif. quences de trois carac- preneur, visionnaire, sans être programmés à + tères qui se chevauchent avocat et militant pour priori avec des règles +* MODÈLES D’APPRENTIS- sont isolées. Par exem- la paix belge ; il est spécifiques. Par exem- + sage automatique non-su- ple, le trigramme de ca- l'une des nombreuses ple, un algorithme de + pervisé ractères de suicide', personnes qui ont été reconnaissance de chat + Les modèles d'apprentis- serait, 'Sui,' uic', considérées comme le apprendra à identifier + sage automatique non su- uic', 'ici', 'cid', etc. père des sciences de les images qui + pervisés n'ont pas be- Les motifs trouvés avec l'information, un do- contiennent des chats en + soin de l’étape d’anno- les N-grammes de carac- maine qu'il a appelé ‘la observant des images qui + tations des données par tères se concentrent sur documentation’. Otlet a ont été étiquetées ma- + des humains. Par contre, les choix stylistiques créé la Classification nuellement comme ‘chat’ + ils nécessitent de qui sont faits incons- décimale universelle, ou ‘pas chat’. Il utili- + grandes quantités de ciemment par l'auteur. qui s'est répandue dans sera ces exemple pour + données pour s’entraî- Ces modèles restent les bibliothèques. Avec générer ce qu'il consi- + ner. stables sur toute la Henri La Fontaine, il dère être un chat et + longueur du texte. crée le Palais Mondial, pourra identifier les +* MUNDANEUM qui devient le Munda- chats dans d'autres + À la fin du 19ème siè- * ORACLE neum, pour abriter les images. Il le fera sans + cle, deux jeunes ju- Les Oracles sont un type collections et les acti- aucune connaissance + ristes belges, Paul Ot- particulier de modèles vités de leurs diffé- préalable sur les chats. + let (1868-1944), 'père algorithmiques souvent rents organismes et ins- Il générera automatique- + de la documentation', et basés sur la statisti- tituts. ment ses propres carac- + Henri La Fontaine que, qui servent à pré- téristiques d'identifi- + 54 + █▒░░ ▓▒█░░▒▓███▀▒░ ░▒ ▒ ░ ▒▒▓██▒ ░░ ▒░ ░ ▒ ░▓ ░▒▓ ▒ ▒█░░▒█▓▒░▓▒ ▒▓▒▒░ ▒ ▒▒ ▓▒░ ▒░▓ █ ▒░ █░█ ▓▒░ ▒▓░░ +▓ ▒░ ▒▒ ░▒░▒▓ ░ ░ ▒ ░ ▒ ▒ ░ ░ ░▒░ ░▒ ░ ▒ ░▒░▓░ ▒ ░ ▒ ░▒░ ░ ░▒ ▒░░ ░ ▒ ░░▓ ░ ▓▓░░ ░░▒▒▓░ + ░ ▒ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░░ ░ ▒ ░ ░ ░ ░ ░ ░░ ░ ░ ░ ░ ░ ░ ░ ░ + ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ +░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ + + cation à partir du maté- Une méthode de pondéra- + riel d'apprentissage qui tion utilisée dans la + lui est donné. recherche de textes. + Cette mesure statistique +* RULE-BASED MODELS permet d'évaluer l'im- + Les Oracles peuvent être portance d'un terme + créés à l'aide de diffé- contenu dans un docu- + rentes techniques. L’une ment, relativement à une + d’entre elles consiste à collection ou un corpus + définir manuellement les de textes. Le poids aug- + règles. Ces modèles sont mente proportionnelle- + appelés 'rule-based mo- ment au nombre d'occur- + dels' (modèles basés sur rences du mot dans le + des règles), et se si- document. Il varie éga- + tuent à l’opposé des mo- lement en fonction de la + dèles statistiques. Ils fréquence du mot dans le + sont utiles pour des corpus. Le TF-IDF est + tâches spécifiques, notamment utilisé dans + comme par exemple, la la classification des + détection de la mention spams. + d'une certaine molécule + dans un article scienti- * 'WORD EMBEDDINGS' + fique. Ils sont perfor- Techniques de modélisa- + mants, même avec très tion du langage qui, par + peu de données d'entraî- de multiples opérations + nement. mathématiques, tracent + des mots dans un espace +* SENTIMENT ANALYSIS vectoriel multidimen- + Également appelé 'opi- sionnel. Lorsque les + nion mining' (sondage mots sont 'embedded' ou + d'opinion). Une tâche intégrés, ils se trans- + fondamentale de l'ana- forment de symboles dis- + lyse des sentiments tincts en objets mathé- + consiste à classer un matiques, qui peuvent + texte donné comme posi- être multipliés, divi- + tif, négatif ou neutre. sés, ajoutés ou sous- + La classification avan- traits. + cée des sentiments 'au- + delà de la polarité' * WORDNET + examine, par exemple, Wordnet est une combi- + les états émotionnels naison d'un dictionnaire + tels que 'en colère', et d'un thésaurus qui + 'triste' et 'heureux'. peut être lu par des ma- + L'analyse du sentiment chines. Selon Wikipédia, + est largement appliquée il a été créé dans le + aux actions des utilisa- Cognitive Science Labo- + teurs tels que les cri- ratory de l'Université + tiques et les réponses de Princeton à partir de + aux enquêtes, les com- 1985. + mentaires et les mes- + sages sur les médias so- + ciaux, et les documents + de santé. Elle est inté- + grée dans des applica- + tions qui vont du marke- + ting au service à la + clientèle, des transac- + tions boursières à la + médecine clinique. + +* TF-IDF (TERM FREQUEN- + cy-Inverse Document Fre- + quency) + 55 +◠ humans learn with machines ◠ ◠ machines learn from machines ◟ ◝ machines learn with humans ◠ ◟ +humans learn from machines ◝ ◟ machines learn with machines ◟ ◞ machines learn from humans ◞ ◡ +humans learn with humans ◝ ◞ humans learn from humans ◡ ◠ humans learn with machines ◞ ◟ mac +ines learn from machines ◝ ◟ machines learn with humans ◟ ◝ humans learn from machines ◡ ◠ +achines learn with machines ◞ ◠ machines learn from humans ◠ ◜ humans learn with humans ◡ ◜ +humans learn from humans ◡ ◡ humans learn with machines ◠ ◠ machines learn from machines ◠ + machines learn with humans ◟ ◟ humans learn from machines ◟ ◜ machines learn with machines ◝ + ◝ machines learn from humans ◡ ◡ humans learn with humans ◝ ◟ humans learn from humans ◟ + ◜ humans learn with machines ◠ ◡ machines learn from machines ◡ ◝ machines learn with humans +◞ ◟ humans learn from machines ◡ ◜ machines learn with machines ◡ ◝ machines learn from +umans ◜ ◞ humans learn with humans ◡ ◞ humans learn from humans ◝ ◟ humans learn with ma +hines ◡ ◟ machines learn from machines ◜ ◟ machines learn with humans ◞ ◟ humans learn f +om machines ◟ ◟ machines learn with machines ◟ ◝ machines learn from humans ◠ ◠ humans l +arn with humans ◞ ◝ humans learn from humans ◟ ◠ humans learn with machines ◟ ◟ machines +learn from machines ◝ ◞ machines learn with humans ◡ ◞ humans learn from machines ◝ ◠ ma +hines learn with machines ◠ ◞ machines learn from humans ◜ ◝ humans learn with humans ◠ + humans learn from humans ◜ ◡ humans learn with machines ◟ ◜ machines learn from machines ◠ + ◝ machines learn with humans ◡ ◡ humans learn from machines ◠ ◡ machines learn with machines +◟ ◝ machines learn from humans ◠ ◜ humans learn with humans ◞ ◜ humans learn from human + ◠ ◜ humans learn with machines ◡ ◜ machines learn from machines ◟ ◡ machines learn w +th humans ◠ ◟ humans learn from machines ◜ ◠ machines learn with machines ◝ ◜ machine + learn from humans ◡ ◞ humans learn with humans ◝ ◠ humans learn from humans ◟ ◠ huma +s learn with machines ◡ ◡ machines learn from machines ◟ ◟ machines learn with humans ◡ + ◜ humans learn from machines ◜ ◝ machines learn with machines ◞ ◞ machines learn from human + ◠ ◠ humans learn with humans ◟ ◠ humans learn from humans ◟ ◞ humans learn with mach +nes ◞ ◝ machines learn from machines ◠ ◜ machines learn with humans ◜ ◠ humans learn +rom machines ◞ ◝ machines learn with machines ◜ ◜ machines learn from humans ◟ ◟ huma +s learn with humans ◠ ◟ humans learn from humans ◟ ◞ humans learn with machines ◞ ◜ m +chines learn from machines ◞ ◠ machines learn with humans ◞ ◝ humans learn from machines ◞ + ◟ machines learn with machines ◝ ◝ machines learn from humans ◞ ◝ humans learn with huma +s ◜ ◠ humans learn from humans ◡ ◟ humans learn with machines ◡ ◟ machines learn from +machines ◡ ◠ machines learn with humans ◜ ◟ humans learn from machines ◟ ◟ machines l +arn with machines ◞ ◞ machines learn from humans ◟ ◡ humans learn with humans ◟ ◟ hum +ns learn from humans ◡ ◜ humans learn with machines ◞ ◝ machines learn from machines ◡ + ◟ machines learn with humans ◜ ◞ machines learn with humans ◜ ◞ machines learn from +machines ◠ ◡ humans learn with machines ◝ ◝ humans learn from humans ◡ ◟ humans learn +with humans ◟ ◠ machines learn from humans ◟ ◜ machines learn with machines ◜ ◝ human + learn from machines ◜ ◡ machines learn with humans ◜ ◠ machines learn from machines ◟ + ◠ humans learn with machines ◟ ◞ humans learn from humans ◠ ◝ humans learn with humans ◠ + ◞ machines learn from humans ◠ ◡ machines learn with machines ◞ ◜ humans learn from machi +es ◞ ◟ machines learn with humans ◠ ◟ machines learn from machines ◡ ◞ humans learn w +th machines ◜ ◜ humans learn from humans ◟ ◟ humans learn with humans ◟ ◠ machines le +rn from humans ◟ ◞ machines learn with machines ◝ ◞ humans learn from machines ◝ ◡ ma +hines learn with humans ◠ ◟ machines learn from machines ◜ ◟ humans learn with machines ◟ + ◠ humans learn from humans ◜ ◞ humans learn with humans ◜ ◠ machines learn from humans ◜ + ◜ machines learn with machines ◟ ◜ humans learn from machines ◟ ◟ machines learn with +umans ◡ ◞ machines learn from machines ◠ ◜ humans learn with machines ◡ ◜ humans lear + from humans ◞ ◜ humans learn with humans ◠ ◜ machines learn from humans ◞ ◝ machines +learn with machines ◡ ◡ humans learn from machines ◟ ◜ machines learn with humans ◠ ◡ +machines learn from machines ◝ ◝ humans learn with machines ◟ ◠ humans learn from humans ◝ + ◡ humans learn with humans ◡ ◡ machines learn from humans ◠ ◜ machines learn with machines +◟ ◞ humans learn from machines ◜ ◞ machines learn with humans ◝ ◞ machines learn from ma +hines ◞ ◝ humans learn with machines ◝ ◡ humans learn from humans ◡ ◞ humans learn with +umans ◠ ◞ machines learn from humans ◟ ◝ machines learn with machines ◠ ◠ humans learn f +om machines ◞ ◜ machines learn with humans ◟ ◜ machines learn from machines ◜ ◝ humans l +arn with machines ◝ ◡ humans learn from humans ◠ ◜ humans learn with humans ◝ ◡ machines +learn from humans ◜ ◜ machines learn with machines ◞ ◞ humans learn from machines ◜ ◟ ma +hines learn with humans ◜ ◟ machines learn from machines ◟ ◡ humans learn with machines ◠ + ◠ humans learn from humans ◡ ◟ humans learn with humans ◜ ◞ machines learn from humans ◟ + ◟ machines learn with machines ◜ ◠ humans learn from machines ◟ ◠ machines learn with humans ◟ + ◜ machines learn from machines ◟ ◟ humans learn with machines ◞ ◠ humans learn from huma +s ◡ ◞ humans learn with humans ◞ ◞ machines learn from humans ◠ ◝ machines learn with ma +hines ◟ ◟ humans learn from machines ◟ ◠ machines learn with humans ◠ ◞ machines learn from +machines ◝ ◠ humans learn with machines ◟ ◜ humans learn from humans ◟ ◟ humans learn with +umans ◡ ◟ machines learn from humans ◞ ◝ machines learn with machines ◜ ◟ humans learn from +machines ◝ ◜ machines learn with humans ◞ ◡ machines learn from machines ◜ ◜ humans learn w +th machines ◝ ◠ humans learn from humans ◞ ◞ humans learn with humans ◠ ◜ machines learn from +humans ◠ ◜ machines learn with machines ◟ ◠ humans learn from machines ◝ ◡ machines learn with + + diff --git a/fonts/unifont-11.0.03.ttf b/fonts/unifont-11.0.03.ttf new file mode 100644 index 0000000..b540e1b Binary files /dev/null and b/fonts/unifont-11.0.03.ttf differ diff --git a/functions.py b/functions.py new file mode 100644 index 0000000..a1cbea3 --- /dev/null +++ b/functions.py @@ -0,0 +1,398 @@ +#! /etc/bin/python3 + +import random, re, subprocess + +from hyphen import Hyphenator +import textwrap +from textwrap2 import fill + +import nltk +from nltk.tokenize import RegexpTokenizer +tokenizer = RegexpTokenizer(r'[\s\W\w]\w+[\s\W\w\.]|^\w+|\w+$') # initialize tokenizer + +# language = 'fr' +language = 'en' + +def selfwritten_linebreaks(string, linelength): + count = 1 + tmp = '' + new = '' + if not 'http' in string: + string = tokenizer.tokenize(string) + for line_number, word in enumerate(string): + count += len(word) + if tmp == '': + if word[0] == ' ': + word = word[1:] + if word == ' ': + continue + if line_number == len(string) - 1: + tmp += word + new += tmp + elif count < linelength: + tmp += word + else: + tmp += word + new += tmp + '\n' + tmp = '' + count = 1 + return new + +def insert_linebreaks(string, linelength, type='character', double_linebreaks=False): + count = 1 + tmp = '' + new = '' + if type == 'word': + if language == 'en': + hyphenator = Hyphenator('en_US') + if language == 'fr': + hyphenator = Hyphenator('fr_FR') + paragraphs = string.split('\n') + for i, paragraph in enumerate(paragraphs): + try: + tmp = fill(paragraph, width=linelength, use_hyphenator=hyphenator) + except Exception as e: + tmp = '' + print('Error:', e) + print('>>> Hyphenator didn\'t work, selfwritten_linebreaks used instead.') + tmp = selfwritten_linebreaks(paragraph, linelength-3) # Calibration + + if i + 1 == len(paragraphs): # No double linebreaks when the paragraph is the last one on the page + new += tmp + elif double_linebreaks == True: + new += tmp + '\n\n' + else: + new += tmp + '\n' + return new + if type == 'wrap': + paragraphs = string.split('\n') + new = '' + for i, paragraph in enumerate(paragraphs): + tmp = textwrap.wrap(paragraph, width=linelength) + tmp = '\n'.join(tmp) + + if i + 1 == len(paragraphs): # No double linebreaks when the paragraph is the last one on the page + new += tmp + elif double_linebreaks == True: + new += tmp + '\n\n' + else: + new += tmp + '\n' + return new + if type == 'character': + for character in string: + if count == len(string): + tmp += character + new += tmp + elif count < linelength: + tmp += character + count += 1 + else: + new += tmp + '\n' + tmp = '' + count = 1 + return new + +def fill_page(string): + print('--- fill_page() starts ---') + lines = string.split('\n') + total_lines = len(lines) + print(' total_lines :', total_lines) + total_pages = int(total_lines / 70) + print(' total_pages :', total_pages) + full_pages_lines = 70 * total_pages + print(' full_pages :', full_pages_lines) + if (total_lines - full_pages_lines) == 0: + print(' fill_up_lines :', 0) + page = '\n'.join(lines[:total_lines]) + else: + fill_up_lines = 70 - (total_lines - full_pages_lines) + print(' fill_up_lines :', fill_up_lines) + page = string + ('\n' * (fill_up_lines)) + page_lines = page.split('\n') + + # Safety check, to see if the string can be divided by 70 lines + if len(page_lines) % 70 != 0: + print('>>> Careful! The modulo is cutting lines from the pages...', total_lines - full_pages_lines) + page = '\n'.join(page_lines[:full_pages_lines]) + + print(' page(s) length:', len(page.split('\n'))) + print('--- fill_page() ends ---') + return page + '\n' + +def insert_text_block(string, inserted, left, width): + left_column_lines = string.split('\n') + right_column_lines = inserted.split('\n') + tmp = False + if len(right_column_lines) > len(left_column_lines): + leading_iterator = right_column_lines + follower = left_column_lines + # print('> right = leader') + else: + leading_iterator = left_column_lines + follower = right_column_lines + # print('> left = leader') + new = '' + for line_number, _ in enumerate(leading_iterator): + # print('Inserting_text_block() ... line_number:', line_number) + # Check if there are still left_column_lines to add + # And count the number of characters of that line + if line_number < len(left_column_lines): + left_column_length = len(left_column_lines[line_number]) + # If there is no line anymore, follow the length of the "left" variable + else: + left_column_length = left + + # Fill left_column_line up to the "left" variable + if left_column_length < left: + fill_up_spaces = left - len(left_column_lines[line_number]) + left_column_line = left_column_lines[line_number] + (' ' * (fill_up_spaces)) + else: + left_column_line = ' ' * left + + # Append the left_ and right_column_line to the same line + if line_number + 1 <= len(right_column_lines): + new += left_column_line + right_column_lines[line_number] + '\n' + # Unless there is no right_column_line anymore + else: + new += left_column_lines[line_number] + '\n' + + if new.endswith('\n'): + new = new[:-1] + return new + +def insert_symbol_background(string, linelength, symbols, multiplier): + new = '' + lines = string.split('\n') + + for line_number, line in enumerate(lines): + x = line_number + 1 + + # Apply the multiplier, to create a gradient effect :) + symbols += ' ' * int(x * multiplier) + + for c, character in enumerate(line): + try: + # if this is the last character in the line, just add it + if c + 1 == len(line): + character = character + # if previous and next character is a space, add a symbol + elif line[c-1] == ' ' and line[c+1] == ' ': + character = character.replace(' ', random.choice(symbols)) + except: + character = character.replace(' ', random.choice(symbols)) + new += character + + # Fill the line on the right of the text + if c + 1 == len(line): + new += ' ' + for _ in range(c + 1, linelength): + new += random.choice(symbols) + + new += '\n' + + return new + +def char_swap(some_string): + swaps = [('–','-'), ('“','"'),('”','"'),('ù','u'), ("’","'"), ('à','a'), ('â','a'),('é','e'),('è','e'),('î','i')] + for swap in swaps: + some_string = some_string.replace(swap[0], swap[1]) + return some_string + +def convert_to_figlet_font(string, linelength, font='shadow', alignment='left'): + string = char_swap(string) # remove French characters in figlet titles (not all fonts include them...) + string = string.replace('(edition vinyle)', '') # For Javier's titles + text = insert_linebreaks(string, linelength, type='wrap', double_linebreaks=False) + # print('figlet text:', text) + string = '' + aligments = { + 'left': '-l', + 'right' : '-r', + 'center' : '-c' + } + for line in text.split('\n'): + figlet_string = subprocess.check_output(['figlet', line, '-w', str(linelength * 6), '-n', '-f', font, '-p', aligments[alignment]]).decode() + '\n' + + # Do not include empty linebreaks in the figlet header + for figlet_line in figlet_string.split('\n'): + non_empty_line = re.search(r'[^\s]', figlet_line) + if non_empty_line: + string += figlet_line + '\n' + + return string + +def align(string, linewidth, aligment='center'): + len_string = len(string) + margin = int((linewidth - len_string) / 2) + return (' ' * margin) + string + (' ' * margin) + +def check_element(element): + if element.name == 'hr': + string = ('-' * 3) + '\n' + elif element.name == None: + string = '' + elif element.name == 'b': + string = '<' + element.text + '>' + else: + string = element.text + return string + +def add_headers(section_type, element): + string = '' + # print(' ----> element:', element) + + if 'stories' in section_type or 'récits' in section_type: + if 'h2' in element.name: + string += '\n' + string += '--- ' + element.text + ' ---\n' + # string += '^' * len(element.text) + string += '\n' + elif 'h3' in element.name: + header = element.text.upper().replace('STORIES ABOUT', 'STORIES\nABOUT').replace('RÉCITS CONTEXTUALISÉS AUTOUR', ' RÉCITS CONTEXTUALISÉS\nAUTOUR').split('\n') + for line in header: + string += align(line, 56) + '\n' + string += '\n\n' + elif element.get('class'): + if 'toc' in element['class']: + pass + else: + string += check_element(element) + '\n' + + elif 'works' in section_type: + if language == 'en': + linewidth = 11 + else: + linewidth = 10 + + if element.get('class'): + if 'lemmaheader' in element['class']: + tmp_string = '\n' + tmp_string += ' ' * 55 + '\n' + tmp_string += ' ' * 55 + '\n' + tmp_string += convert_to_figlet_font(element.text, linewidth, font='ogre', alignment='center') + tmp_string += ' ' * 55 + '\n' + string = insert_symbol_background(tmp_string, 55, ['0', ' ', ' ', ' ',' ', ' ', ' ',' ', ' ', ' ',' ',' ', ' ', ' ', ' ', ' '], 0) + else: + string += check_element(element) + '\n' + else: + string += check_element(element) + '\n' + + elif 'glossary' in section_type: + if 'h2' in element.name: + string += '''\ + ░ + ░ + ░ ░ ░ ░ + ░ ░ ░ ░ + ░ ░ + ░ ░ + ░ {} ░ + ░ +░ ░ ░ + ░ ░ ░ ░ + ░ + ░ + ░ +'''.format(element.text.upper()) + string += '\n' + else: + string += check_element(element) + '\n' + else: + string += check_element(element) + '\n' + + return string + + +def apply_zigzag(string, pattern_width): + count = 0 + string_lines = [line for line in string.split('\n')] + new = '' + fwd = True + for line in string_lines: + if fwd == True: + if count <= pattern_width: + new += (' ' * count) + line + '\n' + count += 1 + else: + fwd = False + new += (' ' * count) + line + '\n' + count -= 1 + else: + if count >= 0: + new += (' ' * count) + line + '\n' + count -= 1 + else: + fwd = True + new += (' ' * count) + line + '\n' + count += 1 + return new + +# def text_to_pattern(string, template): +# template = template.split('\n') +# character_position = 0 +# new = '' +# for line_number, line in enumerate(template): +# for character in line: +# if character == '░': +# new += string[character_position] +# character_position += 1 +# else: +# new += ' ' +# new += '\n' +# return new + +def counting_pattern(string, linelength): + count = 1 + pattern = '' + tmp = '' + string = tokenizer.tokenize(string) + for line_number, word in enumerate(string): + pattern += tmp + '\n' + count += len(word) + if '\n' in word: + word = word.replace('\n','\n\n') + if line_number == len(string): + tmp += word + elif count < linelength: + tmp += word + else: + tmp += word + # pattern += tmp + '\n' + tmp = '' + count = 1 + return pattern + +def insert_counters_page(): + page = '' + num = 0 + count = 2 + for line in range(1,70): + for i in range(1,110): + if num == 0: + page += ' ' + count += 1 + num += 1 + elif num < 10: + page += str(num) + num += 1 + else: + num = 0 + if count == 10: + count = 0 + page += ' ' + num += 1 + count += 1 + page += '\n' + return fill_page(page) + +def insert_pagenumbers(pages): + new = '' + page = 0 + lines = pages.split('\n') + for i, line in enumerate(lines): + line_number = i + 1 + if line_number % 70 == 0: + page += 1 + if page != 1 and line_number != len(lines) and page < 56: + line = (' ' * page * 2) + str(page) + new += line + '\n' + return new \ No newline at end of file diff --git a/get_html_from_wiki.py b/get_html_from_wiki.py new file mode 100644 index 0000000..6d63ee3 --- /dev/null +++ b/get_html_from_wiki.py @@ -0,0 +1,158 @@ +#! /usr/bin/env python2 +# -*- coding: utf-8 -*- + +from bs4 import BeautifulSoup as bs +from bs4 import NavigableString, Tag +from urllib.request import urlopen +from urllib.parse import urlparse, urljoin +import codecs +import copy +import re + + +template = """ + + + + Data Workers + + + + +""" + +def makeBranch(level, tags, soup): + branch = soup.new_tag('ul') + leaf = None + while len(tags) > 0: + t = tags[0] + if t['level'] > level and leaf: + leaf.append(makeBranch(t['level'], tags, soup)) + elif t['level'] < level: + if (leaf): + branch.append(leaf) + leaf = None + return branch + else: + if (leaf): + branch.append(leaf) + leaf = None + + leaf = soup.new_tag('li') + leaf.append(tagContent(tags[0]['tag'])) + tags.pop(0) + if (leaf): + branch.append(leaf) + leaf = None + return branch + +def makeIndex(soup): + eligible_tags = ['h1', 'h2', 'h3', 'h4', 'h5', 'li'] + buffer = soup.new_tag('ul') + tags = [{'tag': copy.copy(tag), 'level': eligible_tags.index( + tag.name)} for tag in soup.find_all(eligible_tags)] + return makeBranch(tags[0]['level'], tags, soup) + +def tagContent(tag): + if tag.string: + return tag.string + else: + return ''.join(tag.strings) + +def classSafeContent(string): + return re.sub(r'[^\w\-]+', '', re.sub(r'\s+', '-', string.lower())) + +def makeLemma(title, lemma_type, url, bigSoup): + print(url) + try: + lemma = '' + lemmaSoup = bs(urlopen('{}?action=render'.format(url)), 'html.parser') + lemma = bigSoup.new_tag("section") + lemma['class'] = 'lemma {} {}'.format(classSafeContent(title), classSafeContent(lemma_type)) + + header = bigSoup.new_tag('h3') + header['class'] = 'lemmaheader' + header.append(title) + + lemma.append(header) + + for t in lemmaSoup.contents: + if isinstance(t, Tag): + lemma.append(copy.copy(t)) + + for img in lemma.find_all('img'): + img.attrs['src'] = urljoin(baseurl, img.attrs['src']) + except: + print('└──> This page does not exist (yet).') + return lemma + + +def pageBreaker(soup): + breaker = soup.new_tag('section') + breaker.attrs['class'] = 'page-breaker' + breaker.string = ' ' + return breaker + +def get_html_from_wiki(lang, url, baseurl): + print('---\n', lang, url, '\n---') + soup = bs(template, 'html.parser') + pageSoup = bs(urlopen(url), 'html.parser') + container = soup.new_tag('section') + container['class'] = 'language {}'.format(lang) + + # Add a cover + # cover = soup.new_tag('section') + # cover.attrs['class'] = 'cover' + # cover_img = soup.new_tag('img') + # cover_img.attrs['src'] = 'img/dw.bw.no-info-text.png' + # cover.append(cover_img) + # soup.append(cover) + + # Add an index + # index = soup.new_tag('section') + # index.attrs['class'] = 'index' + # title = soup.new_tag('div') + # title.attrs['class'] = 'title' + # index.append('Data Workers') + # index.append(makeIndex(pageSoup)) + # soup.append(index) + + for child in pageSoup.contents: + # print(child.name) + if child.name == 'ul': + chapter = soup.new_tag('section') + chapter['class'] = 'group' + + for li in child.find_all('li'): + links = li.find_all('a') + if links: + url = urljoin(baseurl, links[-1].attrs['href']) + if re.match('.*algolit.net$', urlparse(url).netloc) or re.match('.*algolit.constantvzw.org$', urlparse(url).netloc): + title = tagContent(links[-1]) + if 'stories' in title.lower(): + lemma_type = 'stories' + else: + lemma_type = 'works' + chapter.append(makeLemma(title, lemma_type, url, soup)) + + container.append(chapter) + + else: + container.append(copy.copy(child)) + + for header in container.find_all(['h1', 'h2', 'h3', 'h4', 'h5', 'h6']): + header.attrs['id'] = classSafeContent(tagContent(header)) + header.replace_with(header) + + soup.body.append(container) + + with codecs.open('data-workers.{}.html'.format(lang), 'w+') as out: + out.write(str(soup)) + out.close() + +# baseurl = 'http://www.algolit.net' +# language = 'en' +# url = 'http://www.algolit.net/index.php/Data_Workers?action=render' +# language = 'fr' +# url = 'http://www.algolit.net/index.php/Data_Workers_FR?action=render' +# get_html_from_wiki(language, url, baseurl) \ No newline at end of file diff --git a/logos.pdf b/logos.pdf new file mode 100644 index 0000000..f0d614b Binary files /dev/null and b/logos.pdf differ diff --git a/logos.svg b/logos.svg new file mode 100644 index 0000000..6edcf1c --- /dev/null +++ b/logos.svg @@ -0,0 +1,618 @@ + + + + + + + + + + + + + + image/svg+xml + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + ◡ humans learn with machines ◠ ◡ machines learn from machines ◠ ◟ machines learn with humans ◟ ◡ + humans learn from machines ◟ ◟ machines learn with machines ◟ ◟ machines learn from humans ◝ ◡ + humans learn with humans ◠ ◜ humans learn from humans ◞ ◜ humans learn with machines ◡ ◝ mac + ines learn from machines ◠ ◠ machines learn with humans ◡ ◟ humans learn from machines ◠ ◜ + achines learn with machines ◡ ◟ machines learn from humans ◡ ◠ humans learn with humans ◞ ◝ + humans learn from humans ◞ ◡ humans learn with machines ◠ ◟ machines learn from machines ◜ + machines learn with humans ◜ ◝ humans learn from machines ◟ ◟ machines learn with machines ◝ + ◝ machines learn from humans ◠ ◞ humans learn with humans ◠ ◞ humans learn from humans ◠ + ◜ humans learn with machines ◞ ◝ machines learn from machines ◝ ◠ machines learn with humans + ◡ ◜ humans learn from machines ◜ ◟ machines learn with machines ◞ ◜ machines learn from + umans ◜ ◡ humans learn with humans ◜ ◝ humans learn from humans ◞ ◡ humans learn with ma + hines ◡ ◠ machines learn from machines ◜ ◞ machines learn with humans ◡ ◝ humans learn f + om machines ◡ ◟ machines learn with machines ◞ ◡ machines learn from humans ◞ ◟ humans l + arn with humans ◡ ◡ humans learn from humans ◝ ◜ humans learn with machines ◜ ◝ machines + learn from machines ◞ ◡ machines learn with humans ◞ ◡ humans learn from machines ◜ ◠ ma + hines learn with machines ◞ ◟ machines learn from humans ◞ ◟ humans learn with humans ◠ + humans learn from humans ◝ ◟ humans learn with machines ◞ ◟ machines learn from machines ◝ + ◞ machines learn with humans ◜ ◝ humans learn from machines ◡ ◝ machines learn with machines + ◠ ◠ machines learn from humans ◠ ◡ humans learn with humans ◝ ◜ humans learn from human + ◡ ◟ humans learn with machines ◟ ◞ machines learn from machines ◠ ◡ machines learn w + th humans ◜ ◟ humans learn from machines ◠ ◞ machines learn with machines ◟ ◡ machine + learn from humans ◟ ◞ humans learn with humans ◠ ◟ humans learn from humans ◡ ◞ huma + s learn with machines ◟ ◞ machines learn from machines ◟ ◡ machines learn with humans ◟ + ◞ humans learn from machines ◠ ◡ machines learn with machines ◝ ◠ machines learn from human + ◞ ◡ humans learn with humans ◟ ◠ humans learn from humans ◠ ◟ humans learn with mach + nes ◡ ◠ machines learn from machines ◡ ◠ machines learn with humans ◞ ◡ humans learn + rom machines ◜ ◠ machines learn with machines ◟ ◟ machines learn from humans ◡ ◜ huma + s learn with humans ◠ ◟ humans learn from humans ◡ ◡ humans learn with machines ◝ ◞ m + chines learn from machines ◠ ◡ machines learn with humans ◟ ◠ humans learn from machines ◠ + ◜ machines learn with machines ◟ ◜ machines learn from humans ◞ ◜ humans learn with huma + s ◟ ◞ humans learn from humans ◟ ◝ humans learn with machines ◜ ◞ machines learn from + machines ◞ ◠ machines learn with humans ◠ ◟ humans learn from machines ◜ ◝ machines l + arn with machines ◞ ◠ machines learn from humans ◝ ◝ humans learn with humans ◠ ◡ hum + ns learn from humans ◠ ◞ humans learn with machines ◡ ◝ machines learn from machines ◜ + ◜ machines learn with humans ◠ ◠ machines learn with humans ◞ ◟ machines learn from + machines ◟ ◟ humans learn with machines ◝ ◝ humans learn from humans ◡ ◠ humans learn + with humans ◞ ◞ machines learn from humans ◠ ◟ machines learn with machines ◡ ◠ human + learn from machines ◠ ◞ machines learn with humans ◠ ◟ machines learn from machines ◟ + ◟ humans learn with machines ◜ ◟ humans learn from humans ◠ ◡ humans learn with humans ◝ + ◝ machines learn from humans ◜ ◟ machines learn with machines ◝ ◞ humans learn from machi + es ◝ ◞ machines learn with humans ◡ ◜ machines learn from machines ◞ ◞ humans learn w + th machines ◝ ◡ humans learn from humans ◟ ◡ humans learn with humans ◝ ◠ machines le + rn from humans ◜ ◞ machines learn with machines ◞ ◞ humans learn from machines ◝ ◠ ma + hines learn with humans ◠ ◝ machines learn from machines ◝ ◡ humans learn with machines ◠ + ◞ humans learn from humans ◜ ◝ humans learn with humans ◞ ◞ machines learn from humans ◝ + ◠ machines learn with machines ◜ ◞ humans learn from machines ◞ ◠ machines learn with + umans ◠ ◡ machines learn from machines ◡ ◡ humans learn with machines ◡ ◝ humans lear + from humans ◠ ◝ humans learn with humans ◟ ◞ machines learn from humans ◞ ◝ machines + learn with machines ◜ ◡ humans learn from machines ◠ ◠ machines learn with humans ◞ ◜ + machines learn from machines ◞ ◜ humans learn with machines ◝ ◟ humans learn from humans ◡ + ◜ humans learn with humans ◡ ◜ machines learn from humans ◞ ◜ machines learn with machines + ◡ ◡ humans learn from machines ◞ ◡ machines learn with humans ◝ ◡ machines learn from ma + hines ◠ ◜ humans learn with machines ◞ ◝ humans learn from humans ◜ ◝ humans learn with + umans ◟ ◟ machines learn from humans ◜ ◡ machines learn with machines ◝ ◡ humans learn f + om machines ◡ ◞ machines learn with humans ◠ ◝ machines learn from machines ◜ ◟ humans l + arn with machines ◞ ◞ humans learn from humans ◝ ◜ humans learn with humans ◡ ◠ machines + learn from humans ◟ ◞ machines learn with machines ◡ ◠ humans learn from machines ◝ ◡ ma + hines learn with humans ◝ ◡ machines learn from machines ◜ ◝ humans learn with machines ◠ + ◝ humans learn from humans ◠ ◡ humans learn with humans ◡ ◠ machines learn from humans ◡ + ◡ machines learn with machines ◟ ◡ humans learn from machines ◝ ◝ machines learn with humans ◝ + ◝ machines learn from machines ◡ ◝ humans learn with machines ◡ ◞ humans learn from huma + s ◠ ◝ humans learn with humans ◝ ◠ machines learn from humans ◠ ◡ machines learn with ma + hines ◞ ◞ humans learn from machines ◟ ◟ machines learn with humans ◠ ◝ machines learn from + machines ◟ ◜ humans learn with machines ◞ ◟ humans learn from humans ◡ ◟ humans learn with + umans ◡ ◠ machines learn from humans ◠ ◞ machines learn with machines ◞ ◠ humans learn from + machines ◟ ◡ machines learn with humans ◞ ◠ machines learn from machines ◞ ◠ humans learn w + th machines ◝ ◜ humans learn from humans ◝ ◞ humans learn with humans ◝ ◜ machines learn from + humans ◠ ◡ machines learn with machines ◝ ◠ humans learn from machines ◠ ◜ machines learn with + + + + diff --git a/txt2pdf/LICENSE.txt b/txt2pdf/LICENSE.txt new file mode 100644 index 0000000..9869b9c --- /dev/null +++ b/txt2pdf/LICENSE.txt @@ -0,0 +1,10 @@ +MIT License + +Copyright (c) 2014 Thomas Baruchel +Copyright (c) 2017 Fredrik de Vibe + +Permission is hereby granted, free of charge, to any person obtaining a copy of this software and associated documentation files (the "Software"), to deal in the Software without restriction, including without limitation the rights to use, copy, modify, merge, publish, distribute, sublicense, and/or sell copies of the Software, and to permit persons to whom the Software is furnished to do so, subject to the following conditions: + +The above copyright notice and this permission notice shall be included in all copies or substantial portions of the Software. + +THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY, FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE SOFTWARE. diff --git a/txt2pdf/README.md b/txt2pdf/README.md new file mode 100644 index 0000000..94690da --- /dev/null +++ b/txt2pdf/README.md @@ -0,0 +1,59 @@ +txt2pdf +======= + +Text to PDF converter with Unicode support. + +This is a Python 2 / 3 script using the ReportLab module for generating PDF +documents. It is intended to be used with monospace True Type fonts. +It can be hacked for being used with Type 1 Postscript fonts, but such +fonts contain less characters than TTF ones. + +Usage +----- + +Type the following command for getting some help: + + txt2pdf -h + +The easiest way to use the tool for creating an _output.pdf_ document is: + + txt2pdf document.txt + +You can change the name of the resulting PDF file: + + txt2pdf -o document.pdf document.txt + +You can specify your own TTF font: + + txt2pdf -f /usr/share/fonts/ubuntu/UbuntuMono-R.ttf -o document.pdf document.txt + +Other options allow to set the margins, and to adjust typographical settings (horizontal space between consecutive characters or vertical space between lines). You may also include the name of the author of the document or its title in the properties of the PDF document. + +Fonts +----- + +The following fonts have been tested with success: + + * Courier (by default) + * LiberationMono + * DejaVuSansMono + * UbuntuMono + * FreeMono + * DroidSansMono + * FiraMono + * InputMono (different versions) + * Envy Code + * Anonymous Pro + * APL385 + * APLX Unicode + * SImPL + * Pragmata Pro + * Hack + +The Type 1 font "Courier10PitchBT-Roman" can be used by hacking the code. + +No Open Type font work, which includes: + + * Source Code Pro + * Inconsolata + * UMTypewriter diff --git a/txt2pdf/txt2pdf.py b/txt2pdf/txt2pdf.py new file mode 100755 index 0000000..0b3cd8d --- /dev/null +++ b/txt2pdf/txt2pdf.py @@ -0,0 +1,339 @@ +#! /usr/bin/env python +# -*- coding: utf-8 -*- + +import argparse +import reportlab.lib.pagesizes +from reportlab.pdfgen.canvas import Canvas +from reportlab.lib import units +from reportlab.pdfbase import pdfmetrics +from reportlab.pdfbase.ttfonts import TTFont +import re +import sys +import os + + +class Margins(object): + def __init__(self, right, left, top, bottom): + self._right = right + self._left = left + self._top = top + self._bottom = bottom + + @property + def right(self): + return self._right * units.cm + + @property + def left(self): + return self._left * units.cm + + @property + def top(self): + return self._top * units.cm + + @property + def bottom(self): + return self._bottom * units.cm + + def adjustLeft(self, width): + self._left -= width / units.cm + + +class PDFCreator(object): + appName = "txt2pdf (version 1.0)" + + def __init__(self, args, margins): + pageWidth, pageHeight = reportlab.lib.pagesizes.__dict__[args.media] + if args.landscape: + pageWidth, pageHeight = reportlab.lib.pagesizes.landscape( + (pageWidth, pageHeight)) + self.author = args.author + self.title = args.title + self.keywords = args.keywords + self.subject = args.subject + self.canvas = Canvas(args.output, pagesize=(pageWidth, pageHeight)) + self.canvas.setCreator(self.appName) + if len(args.author) > 0: + self.canvas.setAuthor(args.author) + if len(args.title) > 0: + self.canvas.setTitle(args.title) + if len(args.subject) > 0: + self.canvas.setSubject(args.subject) + if len(args.keywords) > 0: + self.canvas.setKeywords(args.keywords) + self.fontSize = args.font_size + if args.font not in ('Courier'): + self.font = 'myFont' + pdfmetrics.registerFont(TTFont('myFont', args.font)) + else: + self.font = args.font + self.kerning = args.kerning + self.margins = margins + self.leading = (args.extra_vertical_space + 1.2) * self.fontSize + self.linesPerPage = int( + (self.leading + pageHeight + - margins.top - margins.bottom - self.fontSize) / self.leading) + self.lppLen = len(str(self.linesPerPage)) + fontWidth = self.canvas.stringWidth( + ".", fontName=self.font, fontSize=self.fontSize) + self.lineNumbering = args.line_numbers + if self.lineNumbering: + margins.adjustLeft(fontWidth * (self.lppLen + 2)) + contentWidth = pageWidth - margins.left - margins.right + self.charsPerLine = int( + (contentWidth + self.kerning) / (fontWidth + self.kerning)) + self.top = pageHeight - margins.top - self.fontSize + self.filename = args.filename + self.verbose = not args.quiet + self.breakOnBlanks = args.break_on_blanks + self.encoding = args.encoding + self.pageNumbering = args.page_numbers + if self.pageNumbering: + self.pageNumberPlacement = \ + (pageWidth / 2, margins.bottom / 2) + + def _process(self, data): + flen = os.fstat(data.fileno()).st_size + lineno = 0 + read = 0 + for line in data: + lineno += 1 + if sys.version_info.major == 2: + read += len(line) + yield flen == \ + read, lineno, line.decode(self.encoding).rstrip('\r\n') + else: + read += len(line.encode(self.encoding)) + yield flen == read, lineno, line.rstrip('\r\n') + + def _readDocument(self): + with open(self.filename, 'r') as data: + for done, lineno, line in self._process(data): + if len(line) > self.charsPerLine: + self._scribble( + "Warning: wrapping line %d in %s" % + (lineno + 1, self.filename)) + while len(line) > self.charsPerLine: + yield done, line[:self.charsPerLine] + line = line[self.charsPerLine:] + yield done, line + + def _newpage(self): + textobject = self.canvas.beginText() + textobject.setFont(self.font, self.fontSize, leading=self.leading) + textobject.setTextOrigin(self.margins.left, self.top) + textobject.setCharSpace(self.kerning) + if self.pageNumbering: + self.canvas.drawString( + self.pageNumberPlacement[0], + self.pageNumberPlacement[1], + str(self.canvas.getPageNumber())) + return textobject + + def _scribble(self, text): + if self.verbose: + sys.stderr.write(text + os.linesep) + + def generate(self): + self._scribble( + "Writing '%s' with %d characters per " + "line and %d lines per page..." % + (self.filename, self.charsPerLine, self.linesPerPage) + ) + if self.breakOnBlanks: + pageno = self._generateBob(self._readDocument()) + else: + pageno = self._generatePlain(self._readDocument()) + self._scribble("PDF document: %d pages" % pageno) + + def _generatePlain(self, data): + pageno = 1 + lineno = 0 + page = self._newpage() + for _, line in data: + lineno += 1 + + # Handle form feed characters. + (line, pageBreakCount) = re.subn(r'\f', r'', line) + if pageBreakCount > 0 and lineno >= args.minimum_page_length: + for _ in range(pageBreakCount): + self.canvas.drawText(page) + self.canvas.showPage() + lineno = 0 + pageno += 1 + page = self._newpage() + if args.minimum_page_length > 0: + break + + page.textLine(line) + + if lineno == self.linesPerPage: + self.canvas.drawText(page) + self.canvas.showPage() + lineno = 0 + pageno += 1 + page = self._newpage() + if lineno > 0: + self.canvas.drawText(page) + else: + pageno -= 1 + self.canvas.save() + return pageno + + def _writeChunk(self, page, chunk, lineno): + if self.lineNumbering: + formatstr = '%%%dd: %%s' % self.lppLen + for index, line in enumerate(chunk): + page.textLine( + formatstr % (lineno - len(chunk) + index + 1, line)) + else: + for line in chunk: + page.textLine(line) + + def _generateBob(self, data): + pageno = 1 + lineno = 0 + page = self._newpage() + chunk = list() + for last, line in data: + if lineno == self.linesPerPage: + self.canvas.drawText(page) + self.canvas.showPage() + lineno = len(chunk) + pageno += 1 + page = self._newpage() + lineno += 1 + chunk.append(line) + if last or len(line.strip()) == 0: + self._writeChunk(page, chunk, lineno) + chunk = list() + if lineno > 0: + self.canvas.drawText(page) + self.canvas.showPage() + else: + pageno -= 1 + if len(chunk) > 0: + page = self._newpage() + self.canvas.drawText(page) + self.canvas.showPage() + pageno += 1 + self.canvas.save() + return pageno + + +parser = argparse.ArgumentParser() +parser.add_argument('filename') +parser.add_argument( + '--font', + '-f', + default='Courier', + help='Select a font (True Type format) by its full path') +parser.add_argument( + '--font-size', + '-s', + type=float, + default=10.0, + help='Size of the font') +parser.add_argument( + '--extra-vertical-space', + '-v', + type=float, + default=0.0, + help='Extra vertical space between lines') +parser.add_argument( + '--kerning', + '-k', + type=float, + default=0.0, + help='Extra horizontal space between characters') +parser.add_argument( + '--media', + '-m', + default='A4', + help='Select the size of the page (A4, A3, etc.)') +parser.add_argument( + '--minimum-page-length', + '-M', + type=int, + default=10, + help='The minimum number of lines before a form feed character will change the page') +parser.add_argument( + '--landscape', + '-l', + action="store_true", + default=False, + help='Select landscape mode') +parser.add_argument( + '--margin-left', + '-L', + type=float, + default=2.0, + help='Left margin (in cm unit)') +parser.add_argument( + '--margin-right', + '-R', + type=float, + default=2.0, + help='Right margin (in cm unit)') +parser.add_argument( + '--margin-top', + '-T', + type=float, + default=2.0, + help='Top margin (in cm unit)') +parser.add_argument( + '--margin-bottom', + '-B', + type=float, + default=2.0, + help='Bottom margin (in cm unit)') +parser.add_argument( + '--output', + '-o', + default='output.pdf', + help='Output file') +parser.add_argument( + '--author', + default='', + help='Author of the PDF document') +parser.add_argument( + '--title', + default='', + help='Title of the PDF document') +parser.add_argument( + '--quiet', + '-q', + action='store_true', + default=False, + help='Hide detailed information') +parser.add_argument('--subject',default='',help='Subject of the PDF document') +parser.add_argument('--keywords',default='',help='Keywords of the PDF document') +parser.add_argument( + '--break-on-blanks', + '-b', + action='store_true', + default=False, + help='Only break page on blank lines') +parser.add_argument( + '--encoding', + '-e', + type=str, + default='utf8', + help='Input encoding') +parser.add_argument( + '--page-numbers', + '-n', + action='store_true', + help='Add page numbers') +parser.add_argument( + '--line-numbers', + action='store_true', + help='Add line numbers') + +args = parser.parse_args() + +PDFCreator(args, Margins( + args.margin_right, + args.margin_left, + args.margin_top, + args.margin_bottom)).generate() diff --git a/workfiles/data-workers.txt b/workfiles/data-workers.txt new file mode 100644 index 0000000..a0acb95 --- /dev/null +++ b/workfiles/data-workers.txt @@ -0,0 +1,2099 @@ +data workers write, perform, clean, inform, read and learn data workers write, perform, clean, inform, read a +d learn data workers write, perform, clean, inform, read and learn data workers write, perform, clean, inf +rm, read and learn data workers write, perform, clean, inform, read and learn data workers write, perf +rm, clean, inform, read and learn data workers write, perform, clean, inform, read and learn data +orkers write, perform, clean, inform, read and learn data workers write, perform, clean, inform, read +nd learn data workers write, perform, clean, inform, read and learn data workers write, perf +rm, clean, inform, read and learn data workers write, perform, clean, inform, read and learn + data workers write, perform, clean, inform, read and learn data workers write, perform, clean + inform, read and learn data workers write, perform, clean, inform, read and learn +data workers write, perform, clean, inform, read and learn data workers write, perform, clean, +inform, read and learn data workers write, perform, clean, inform, read and learn + data workers write, perform, clean, inform, read and learn data workers write, perform + clean, inform, read and learn data workers write, perform, clean, inform, read and learn + data workers write, perform, clean, inform, read and learn data worke +s write, perform, clean, inform, read and learn data workers write, perform, clean, inf +rm, read and learn data workers write, perform, clean, inform, read and learn + data workers write, perform, clean, inform, read and learn data worke +s write, perform, clean, inform, read and learn data workers write, perform, clean, +inform, read and learn data workers write, perform, clean, inform, read and learn + data workers write, perform, clean, inform, read and learn + data workers write, perform, clean, inform, read and learn data workers wr +te, perform, clean, inform, read and learn data workers write, perform, clean, +inform, read and learn data workers write, perform, clean, inform, read and l +arn data workers write, perform, clean, inform, read and learn + data workers write, perform, clean, inform, read and learn + data workers write, perform, clean, inform, read and learn data worke +s write, perform, clean, inform, read and learn data workers write, perf +rm, clean, inform, read and learn data workers write, perform, clean, i +form, read and learn data workers write, perform, clean, inform, read +nd learn data workers write, perform, clean, inform, read and learn + data workers write, perform, clean, inform, read and learn + data workers write, perform, clean, inform, read and learn + data workers write, perform, clean, inform, read and learn + data workers write, perform, clean, inform, read and learn + data workers write, perform, clean, inform, read and learn + data workers write, perform, clean, inform, read and learn +data workers write, perform, clean, inform, read and learn da +a workers write, perform, clean, inform, read and learn data +workers write, perform, clean, inform, read and learn data +orkers write, perform, clean, inform, read and learn data +orkers write, perform, clean, inform, read and learn data +workers write, perform, clean, inform, read and learn da +a workers write, perform, clean, inform, read and learn +data workers write, perform, clean, inform, read and learn + data workers write, perform, clean, inform, read and learn + data workers write, perform, clean, inform, read and learn + data workers write, perform, clean, inform, read and learn + data workers write, perform, clean, inform, read and learn + data workers write, perform, clean, inform, read and learn + data workers write, perform, clean, inform, read and learn + data workers write, perform, clean, inform, read and learn + data workers write, perform, clean, inform, read +nd learn data workers write, perform, clean, i +form, read and learn data workers write, perf + + + What + could + humans learn from humans + humans learn with machines +machines learn from machines +machines learn with humans + humans learn from machines +machines learn with machines +machines learn from humans + humans learn with humans + ? ? ? + +Exhibition in Mundaneum in Mons from 28 March till 29 April 2019. + +▀▄─▀▄─▀▄─▀▄─▀▄─▀▄─▀▄─▀ ▄▀─▄▀─▄▀─▄▀─▄▀─▄▀─▄▀─▄ ▀─▄▀─▄▀─▄▀─▄▀─▄▀─▄▀─▄▀ ▄─▀▄─▀▄─▀▄─▀▄─▀▄─▀▄─▀▄ ▀▄─▀▄─▀▄─▀▄─▀▄─▀▄ +▀▄─▀▄─▀▄─▀▄─▀▄─▀▄─▀▄─▀ ▄▀─▄▀─▄▀─▄▀─▄▀─▄▀─▄▀─▄ ▀─▄▀─▄▀─▄▀─▄▀─▄▀─▄▀─▄▀ ▄─▀▄─▀▄─▀▄─▀▄─▀▄─▀▄─▀▄ ▀▄─▀▄─▀▄─▀▄─▀▄─▀▄ +▀▄─▀▄─▀▄─▀▄─▀▄─▀▄─▀▄─▀ ▄▀─▄▀─▄▀─▄▀─▄▀─▄▀─▄▀─▄ ▀─▄▀─▄▀─▄▀─▄▀─▄▀─▄▀─▄▀ ▄─▀▄─▀▄─▀▄─▀▄─▀▄─▀▄─▀▄ ▀▄─▀▄─▀▄─▀▄─▀▄─▀▄ +▀▄─▀▄─▀▄─▀▄─▀▄─▀▄─▀▄─▀ ▄▀─▄▀─▄▀─▄▀─▄▀─▄▀─▄▀─▄ ▀─▄▀─▄▀─▄▀─▄▀─▄▀─▄▀─▄▀ ▄─▀▄─▀▄─▀▄─▀▄─▀▄─▀▄─▀▄ ▀▄─▀▄─▀▄─▀▄─▀▄─▀▄ + +The opening is on Thursday 28 March from 18h till 22h. As part of the exhibition, +we invite Allison Parrish, an algoliterary poet from New York. She will give a +lecture in Passa Porta on Thursday evening 25 April and a workshop in the Mundaneum +on Friday 26 April. + + + + ██▓ ███▄ █ ▄▄▄█████▓ ██▀███ ▒█████ +▓██▒ ██ ▀█ █ ▓ ██▒ ▓▒▓██ ▒ ██▒▒██▒ ██▒ +▒██▒▓██ ▀█ ██▒▒ ▓██░ ▒░▓██ ░▄█ ▒▒██░ ██▒ +░██░▓██▒ ▐▌██▒░ ▓██▓ ░ ▒██▀▀█▄ ▒██ ██░ +░██░▒██░ ▓██░ ▒██▒ ░ ░██▓ ▒██▒░ ████▓▒░ +░▓ ░ ▒░ ▒ ▒ ▒ ░░ ░ ▒▓ ░▒▓░░ ▒░▒░▒░ + ▒ ░░ ░░ ░ ▒░ ░ ░▒ ░ ▒░ ░ ▒ ▒░ + ▒ ░ ░ ░ ░ ░ ░░ ░ ░ ░ ░ ▒ + ░ ░ ░ ░ ░ + +Data Workers is an exhibition of algoliterary works, + of stories told from an ‘algorithmic storyteller + point of view’. The exhibition is created by members + of Algolit, a group from Brussels involved in artistic + research on algorithms and literature. Every month + they gather to experiment with F/LOSS code and texts. + + Some works are by students of Arts² and external + participants to the workshop on machine learning and + text organised by Algolit in October 2018 in Mundaneum. + +Companies create artificial intelligences to serve, entertain, record and know about +humans. The work of these machinic entities is usually hidden behind interfaces and +patents. In the exhibition, algorithmic storytellers leave their invisible +underworld to become interlocutors. The data workers operate in different +collectives. Each collective represents a stage in the design process of a machine +learning model: there are the Writers, the Cleaners, the Informants, the Readers, +the Learners and the Oracles. The boundaries between these collectives are not +fixed; they are porous and permeable. Sometimes oracles are also writers. Other +times readers are also oracles. Robots voice experimental literature, algorithmic +models read data, turn words into numbers, make calculations that define patterns +and are able to endlessly process new texts ever after. + +The exhibition foregrounds data workers who impact our daily lives, but are either +hard to grasp and imagine or removed from the imaginary altogether. It connects +stories about algorithms in mainstream media to the storytelling that is found in +technical manuals and academic papers. Robots are invited to go into dialogue with +human visitors and vice versa. In this way we might understand our respective +reasonings, demystify each other's behaviour, encounter multiple personalities, and +value our collective labour. It is also a tribute to the many machines that Paul +Otlet and Henri La Fontaine imagined for their Mundaneum, showing their potential +but also their limits. + + + + + + + + + + + + + + + + + ▄▄▄ ██▓ ▄████ ▒█████ ██▓ ██▓▄▄▄█████▓ +▒████▄ ▓██▒ ██▒ ▀█▒▒██▒ ██▒▓██▒ ▓██▒▓ ██▒ ▓▒ +▒██ ▀█▄ ▒██░ ▒██░▄▄▄░▒██░ ██▒▒██░ ▒██▒▒ ▓██░ ▒░ +░██▄▄▄▄██ ▒██░ ░▓█ ██▓▒██ ██░▒██░ ░██░░ ▓██▓ ░ + ▓█ ▓██▒░██████▒░▒▓███▀▒░ ████▓▒░░██████▒░██░ ▒██▒ ░ + ▒▒ ▓▒█░░ ▒░▓ ░ ░▒ ▒ ░ ▒░▒░▒░ ░ ▒░▓ ░░▓ ▒ ░░ + ▒ ▒▒ ░░ ░ ▒ ░ ░ ░ ░ ▒ ▒░ ░ ░ ▒ ░ ▒ ░ ░ + ░ ▒ ░ ░ ░ ░ ░ ░ ░ ░ ▒ ░ ░ ▒ ░ ░ + ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ + +Contents + + 1 Why contextual stories? + 2 We create 'algoliterary' works + 3 What is literature? + 4 An important difference + +Why contextual stories? + +During the monthly meetings of Algolit, we study manuals and experiment with +machine learning tools for text processing. And we also share many, many stories. +With the publication of these stories we hope to recreate some of that atmosphere. +The stories also exist as a podcast that can be downloaded from +http://www.algolit.net. + +For outsiders, algorithms only become visible in the media when they achieve an +outstanding performance, like the Alpha Go. Or when they break down in +fantastically terrifying ways. Humans working in the field though, create their own +culture on and offline. They share the best stories and experiences during live +meetings, research conferences and yearly competitions like Kaggle. These stories +that contextualize the tools and practises can be funny, sad, shocking, interesting. + +A lot of them are experiential learning cases. The implementations of algorithms in +society generate new conditions of labour, storage, exchange, behaviour, copy and +paste. In that sense, the contextual stories capture a momentum in a larger +antropo-machinical story that is being written at full speed and by many voices. + +We create 'algoliterary' works + +The term 'algoliterary' comes from the name of our research group Algolit. We exist +since 2012 as a project of Constant, an organisation for media and arts based in +Brussels. We are artists, writers, designers and programmers. Once a month we meet +to study and experiment together. Our work can be copied, studied, changed, and +redistributed under the same free license. You can find all information on the +http://www.algolit.net. + +The main goal of Algolit is to explore the point of view of the algorithmic +storyteller. What kind of new forms of storytelling do we make possible in dialogue +with these machinic agencies? Narrative points of view are inherent to world views +and ideologies. Don Quichote, for example, was written from an omniscient third +person point of view, showing Cervantes’ relation to oral traditions. Most +contemporary novels use the first person point of view. Algolit is interested to +speak through algorithms, and to show you the reasoning of one of the most hidden +groups of our planet. + +Writing in or through code is creating new forms of literature that are shaping +human language in unexpected ways. But machine Learning techniques are only +accessible to those who can read, write and execute code. Fiction is a way to +bridge the gap between the stories that exist in scientific papers and technical +manuals, and the stories spread by the media, often limited to superficial +reporting and myth making. By creating algoliterary works, we offer humans an +introduction to techniques that co-shape their daily lives. + + + + + + + + +What is literature? + +Algolit understands the notion of literature in the way a lot of other experimental +authors do: it includes all linguistic production, from the dictionary to the +Bible, from Virginia Woolf's entire work to all versions of Terms of Service +published by Google since its existence. In this sense, programming code can also +be literature. The collective Oulipo is a great source of inspiration for Algolit. +It stands for Ouvroir de Litterature Potentielle. In English, this becomes +'Workspace for Potential Literature'. Oulipo was created in Paris by the French +writers Raymond Queneau and François Le Lionnais. They rooted their practice in the +European avant-garde of the 20th century, and the experimental tradition of the +60s. For Oulipo, the creation of rules becomes the condition to generate new texts, +or what they call potential literature. Later, in 1981, they also created ALAMO - +Atelier de Littérature Assistée par la Mathématique et les Ordinateurs, or +Workspace for Literature assisted by Maths and Computers. + +An important difference + +While the European avant-garde of the 20th century pursued the objective of +breaking with conventions, members of Algolit seek to make conventions visible. + +'I write: I live in my paper, I invest it, I walk through it.' This quote of +Georges Perec in Espèces d'espaces could be taken up by Algolit. (Espèces +d'espaces. Journal d'un usager de l'espace, Galilée, Paris, 1974) + +We're not talking about the conventions of the blank page and the literary market, +as Georges Perec did. We're referring to the conventions that often remain hidden +behind interfaces and patents. How are technologies made, implemented and used, as +much in academia as in business infrastructures? We propose stories that reveal the +complex hybridized system that makes machine learning possible. We talk about the +tools, the logics and the ideologies behind the interfaces. We also look at who is +producing the tools, who is implementing them and who is creating and accessing the +large amounts of data that is needed to develop prediction machines. One could say, +with the wink of an eye, that we are collaborators of this new tribe of human-robot +hybrids. + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + ███▄ ▄███▓ █ ██ ███▄ █ ▓█████▄ ▄▄▄ +▓██▒▀█▀ ██▒ ██ ▓██▒ ██ ▀█ █ ▒██▀ ██▌▒████▄ +▓██ ▓██░▓██ ▒██░▓██ ▀█ ██▒░██ █▌▒██ ▀█▄ +▒██ ▒██ ▓▓█ ░██░▓██▒ ▐▌██▒░▓█▄ ▌░██▄▄▄▄██ +▒██▒ ░██▒▒▒█████▓ ▒██░ ▓██░░▒████▓ ▓█ ▓██▒ +░ ▒░ ░ ░░▒▓▒ ▒ ▒ ░ ▒░ ▒ ▒ ▒▒▓ ▒ ▒▒ ▓▒█░ +░ ░ ░░░▒░ ░ ░ ░ ░░ ░ ▒░ ░ ▒ ▒ ▒ ▒▒ ░ +░ ░ ░░░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ▒ + ███▄ ░ █ ▓█████ █ ██ ███▄ ▄███▓ ░ ░ + ██ ▀█ █ ▓█ ▀ ██ ▓██▒▓██▒▀█▀ ██▒ +▓██ ▀█ ██▒▒███ ▓██ ▒██░▓██ ▓██░ +▓██▒ ▐▌██▒▒▓█ ▄ ▓▓█ ░██░▒██ ▒██ +▒██░ ▓██░░▒████▒▒▒█████▓ ▒██▒ ░██▒ +░ ▒░ ▒ ▒ ░░ ▒░ ░░▒▓▒ ▒ ▒ ░ ▒░ ░ ░ +░ ░░ ░ ▒░ ░ ░ ░░░▒░ ░ ░ ░ ░ ░ + ░ ░ ░ ░ ░░░ ░ ░ ░ ░ + ░ ░ ░ ░ ░ + +In the late nineteenth century two young Belgian jurists, Paul Otlet (1868-1944), +‘the father of documentation’, and Henri La Fontaine (1854-1943), statesman and +Nobel Peace Prize winner, created The Mundaneum. The project aimed at gathering all +the world’s knowledge and file it using the Universal Decimal Classification (UDC) +system that they had invented. At first it was an International Institutions Bureau +dedicated to international knowledge exchange. In the 20th century the Mundaneum +became a universal centre of documentation. Its collections are made up of +thousands of books, newspapers, journals, documents, posters, glass plates and +postcards indexed on millions of cross-referenced cards. The collections were +exhibited and kept in various buildings in Brussels, including the Palais du +Cinquantenaire. The remains of the archive only moved to Mons in 1998. + +Based on the Mundaneum, the two men designed a World City for which Le Corbusier +made scale models and plans. The aim of the World City was to gather, at a global +level, the institutions of intellectual work: libraries, museums and universities. +This project was never realised. It suffered from its own utopia. The Mundaneum is +the result of a visionary dream of what an infrastructure for universal knowledge +exchange could be. It attained mythical dimensions at the time. When looking at the +concrete archive that was developed, that collection is rather eclectic and +situated. + +Artifical intelligences today come with their own dreams of universality and +practice of knowledge. When reading about them, the visionary dreams of their +makers have been there since the beginning of their development in the 1950s. +Nowadays, their promise has also attained mythical dimensions. When looking at +their concrete applications, the collection of tools is truly innovative and +fascinating, but similarly, rather eclectic and situated. For Data workers, Algolit +combined some of the applications with 10% of the digitized publications of the +International Institutions Bureau. In this way, we hope to poetically open up a +discussion about machines, algorithms, and technological infrastructures. + + + + + + + + + + + + + + + + + + + + + + +Data Workers is a creation by Algolit. + +Works by: Cristina Cochior, Gijs de Heij, Sarah Garcin, An Mertens, Javier Lloret, +Louise Dekeuleneer, Florian Van de Weyer, Laetitia Trozzi, Rémi Forte, Guillaume +Slizewicz, Michael Murtaugh, Manetta Berends, Mia Melvær. + +A co-production of: Arts², Constant and Mundaneum. + +With the support of: Fédération Wallonie-Bruxelles/Arts Numériques, Passa Porta, +Ugent, DHuF - Digital Humanities Flanders and Distributed Proofreaders Project. + +Thanks to: Mike Kestemont, Michel Cleempoel, François Zajéga, Raphaèle Cornille, +Kris Rutten, Anne-Laure Buisson, David Stampfli. + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +writers write writers write writers write writers write writers write writers write writers wr +te writers write writers write writers write writers write writers wr +te writers write writers write writers write writers write + writers write writers write writers write wr +ters write writers write writers write writers wr +te writers write writers write writers w +ite writers write writers write +writers write writers write writers write + writers write writers write +writers write writers write writers write + writers write writers write + writers write writers write + writers write writers write + writers write writers write + writers write writers write + writers write writers write + writers write writers +write writers write + writers write writers write + writers write writers writ + writers write + writers write writers write + writers write + writers write writers write + writers write + writers write writers write + writers write + writers write writers wr +te writers write + writers write + writers write writers write + writers write + writers write + writers write wr +ters write writers write + writers write + writers write + writers write + writers write writers w +ite writers write + writers write + writers write + writers write + writers write + writers write + writers write +writers write writers +write writers write + writers write + writers write + writers write + writers write + writers write + writers write + writers write + writers write + writers write + writers write + writers write + writers write + writers write + writers write + writers write + writers write + writers write + writers write + writers write + writers write + writers write + writers write +Data workers need data to work Data Workers Publication +with. The data that is used in the ^^^^^^^^^^^^^^^^^^^^^^^^ +context of Algolit, is written lan- By Algolit +guage. Machine learning relies on +many types of writing. Many authors All works visible in the exhibition and their descriptions, +write in the form of publications, as well as the contextual stories and some extra text mate- +like books or articles. These are rial have been collected in a publication. It exists in +part of organised archives and are French and English. You can take a copy to walk around the +sometimes digitized. But there are exhibition, or buy your own one at the reception of Munda- +other kinds of writing too. We neum. +could say that every human being +who has access to the internet is a Price: 5€ +writer each time they interact with +algorithms. We chat, write, click, Texts & editing: Cristina Cochior, Sarah Garcin, Gijs de +like and share. In return for free Heij, An Mertens, François Zajéga, Louise Dekeuleneer, Flo- +services, we leave our data that is rian Van de Weyer, Laetitia Trozzi, Rémi Forte, Guillaume +compiled into profiles and sold for Slizewicz. +advertisement and research. + Translations & proofreading: deepl.com, Michel Cleempoel, +Machine learning algorithms are not Elodie Mugrefya, Emma Kraak, Patrick Lennon. +critics: they take whatever they're +given, no matter the writing style, Lay-out & cover: Manetta Berends +no matter the CV of the author, no +matter their spelling mistakes. In Printing: Arts² +fact, mistakes make it better: the +more variety, the better they learn Responsible Publisher: Constant vzw/asbl, Rue du Fortstraat +to anticipate unexpected text. But 5, 1060 Brussels +often, human authors are not aware +of what happens to their work. License: Algolit, Data Workers, March 2019, Brussels. Copy- + left: This is a free work, you can copy, distribute, and +Most of the writing we use is in modify it under the terms of the Free Art License +English, some is in French, some in http://artlibre.org/licence/lal/en/. +Dutch. Most often we find ourselves +writing in Python, the programming Online version: http://www.algolit.net +language we use. Algorithms can be +writers too. Some neural networks Sources: https://gitlab.constantvzw.org/algolit +write their own rules and generate +their own texts. And for the models Data Workers Podcast +that are still wrestling with the ^^^^^^^^^^^^^^^^^^^^ +ambiguities of natural language, By Algolit +there are human editors to assist +them. Poets, playwrights or novel- During the monthly meetings of Algolit, we study manuals and +ists start their new careers as as- experiment with machine learning tools for text processing. +sistants of AI. And we also share many, many stories. With this podcast we + hope to recreate some of that atmosphere. + + For outsiders, algorithms only become visible in the media + when they achieve an outstanding performance, like the Alpha + Go. Or when they break down in fantastically terrifying + ways. Humans working in the field though, create their own + culture on and offline. They share the best stories and ex- + periences during live meetings, research conferences and + yearly competitions like Kaggle. These stories that contex- + tualize the tools and practises can be funny, sad, shocking, + interesting. + + A lot of them are experiential learning cases. The implemen- + tations of algorithms in society generate new conditions of + labour, storage, exchange, behaviour, copy and paste. In + that sense, the contextual stories capture a momentum in a + larger antropo-machinical story that is being written at + full speed and by many voices. + + Voices: David Stampfli, Cristina Cochior, An Mertens, Gijs + de Heij, Karin Ulmer, Guillaume Slizewicz + + Editing: Javier Lloret + + Recording: David Stampfli + + Texts: Cristina Cochior, An Mertens + + Markbot Chains + ^^^^^^^^^^^^^^ + Markbot Chain by Florian Van de Weyer, student Arts²/Section + Digital Arts + + Markbot Chain is a social experiment in which the public has + a direct influence on the result. The intention is to inte- + grate responses in a text generation process without apply- + ing any filter. + + All the questions in the digital files provided by the Mun- + daneum were automatically extracted. These questions are + randomly asked to the public via a terminal. By answering + them, people contribute to another database. After each en- + try, this generates a series of sentences using a Markov + chain configuration, an algorithm that is widely used in + spam generation. The sentences generated in this way are + displayed in the window, and a new question is asked. + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +Data Workers +░░░░░░░░░░░░ work + ▒▒▒▒ +many authors +░░░░░░░░░░░░ write + ▒▒▒▒▒ +every human being +░░░░░░░░░░░░░░░░░ +who has access +░░░░░░░░░░░░░░ +to the internet +░░░░░░░░░░░░░░░ + interacts + ▒▒▒▒▒▒▒▒▒ +we +░░ + chat, + ▒▒▒▒ + write, + ▒▒▒▒▒ + click, + ▒▒▒▒▒ + like + ▒▒▒▒ + and share + ▒▒▒▒▒▒▒▒▒ +we +░░ + leave our data + ▒▒▒▒▒▒▒▒▒▒▒▒▒▒ +we +░░ + find ourselves writing in Python + ▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒ +some neural networks +░░░░░░░░░░░░░░░░░░░░ + write + ▒▒▒▒▒ +human editors +░░░░░░░░░░░░░ + assist + ▒▒▒▒▒▒ +poets, +░░░░░ +playwrights +░░░░░░░░░░░ +or novelists +░░░░░░░░░░░░ + assist + ▒▒▒▒▒▒ + + + + + + + + + + + + + + + + + + + + + ██████ ▄▄▄█████▓ ▒█████ ██▀███ ██▓▓█████ ██████ +▒██ ▒ ▓ ██▒ ▓▒▒██▒ ██▒▓██ ▒ ██▒▓██▒▓█ ▀ ▒██ ▒ +░ ▓██▄ ▒ ▓██░ ▒░▒██░ ██▒▓██ ░▄█ ▒▒██▒▒███ ░ ▓██▄ + ▒ ██▒░ ▓██▓ ░ ▒██ ██░▒██▀▀█▄ ░██░▒▓█ ▄ ▒ ██▒ +▒██████▒▒ ▒██▒ ░ ░ ████▓▒░░██▓ ▒██▒░██░░▒████▒▒██████▒▒ +▒ ▒▓▒ ▒ ░ ▒ ░░ ░ ▒░▒░▒░ ░ ▒▓ ░▒▓░░▓ ░░ ▒░ ░▒ ▒▓▒ ▒ ░ +░ ░▒ ░ ░ ░ ░ ▒ ▒░ ░▒ ░ ▒░ ▒ ░ ░ ░ ░░ ░▒ ░ ░ +░ ░ ░ ░ ░ ░ ░ ▒ ░░ ░ ▒ ░ ░ ░ ░ ░ + ░ ░ ░ ░ ░ ░ ░ ░ + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + ____ ____ ____ ____ ____ ____ ____ ____ ____ ____ ____ +||P |||r |||o |||g |||r |||a |||m |||m |||e |||r |||s || +||__|||__|||__|||__|||__|||__|||__|||__|||__|||__|||__|| +|____|____|____|_________|____|____|____|____|____|____|____ +||a |||r |||e ||| |||w |||r |||i |||t |||i |||n |||g || +||__|||__|||__|||_______|||__|||__|||__|||__|||__|||__|||__|| +|____|____|____|_________|____|____|____|____|____|____|____|____ ____ ____ ____ +||t |||h |||e ||| |||d |||a |||t |||a |||w |||o |||r |||k |||e |||r |||s || +||__|||__|||__|||_______|||__|||__|||__|||__|||__|||__|||__|||__|||__|||__|||__|| +|____|____|____|______________|____|____|____|____|____|/__\|/__\|/__\|/__\|/__\| +||i |||n |||t |||o ||| |||b |||e |||i |||n |||g || +||__|||__|||__|||__|||_______|||__|||__|||__|||__|||__|| +|/__\|/__\|/__\|/__\|/_______\|/__\|/__\|/__\|/__\|/__\| + + We recently made a funny realization: most programmers of lan- + guages and packages Algolit uses are European. + + Python, for example, the main language that is globally used for + natural language processing, was invented in 1991 by the Dutch + programmer Guido Van Rossum. He then crossed the Atlantic waters + and went from working for Google to working for Dropbox. + + Scikit Learn, the open source Swiss knife of machine learning + tools, started as a Google Summer of Code project in Paris by the + French researcher David Cournapeau. Afterwards, it was taken on + by Matthieu Brucher as part of his thesis at the Sorbonne Univer- + sity in Paris. And in 2010, INRA, the French National Institute + for computer science and applied mathematics, adopted it. + + Keras, an open source neural network library written in Python, + is developed by François Chollet, a French researcher who works + on the Brain team at Google. + + Gensim, an open source library for Python used to create unsuper- + vised semantic models from plain text, was written by Radim Ře- + hůřek. He is a Czech computer scientist, who runs a consulting + business in Bristol, in the UK. + + And to finish up this small series, we also looked at Pattern, an + often used library for web-mining and machine learning. Pattern + was developed and made open source in 2012 by Tom De Smedt and + Walter Daelemans. Both are researchers at CLIPS, the center for + computational linguistics and psycholinguistcs at the University + of Antwerp. + + + ____ ____ ____ ____ ____ ____ ____ _________ ____ ____ ____ ____ ____ ____ +||C |||o |||r |||t |||a |||n |||a ||| |||s |||p |||e |||a |||k |||s || +||__|||__|||__|||__|||__|||__|||__|||_______|||__|||__|||__|||__|||__|||__|| +|/__\|/__\|/__\|/__\|/__\|/__\|/__\|/_______\|/__\|/__\|/__\|/__\|/__\|/__\| + +AI assistants often need their own assistants: they are helped in +their writing by humans who inject humour and wit into their ma- + chine processed language. Cortana is an example of this type of + blended writing. She is Microsoft’s digital assistant. Her mis- + sion is to help users be more productive and creative. Cortana's + personality has been crafted over the years. It's important that + she maintains her character in all interactions with users. She + is designed to engender trust and her behavior must always re- + flect that. + + The following guidelines are taken from Microsoft's website. They + describe how Cortana's style should be respected by companies + which extend her service. Writers, programmers and novelists, who + develop Cortana's responses, her personality and her branding + have to follow these guidelines. Because the only way to maintain + trust is through consistency. So when Cortana is talking, you + 'must use her personality'. + + What is Cortana's personality, you ask? + + Cortana is considerate, sensitive, and supportive. + + She is sympathetic but turns quickly to solutions. + + She doesn't comment on the user’s personal information or be- + havior, particularly if the information is sensitive. + + She doesn't make assumptions about what the user wants, espe- + cially to upsell. + + She works for the user. She does not represent any company, + service, or product. + + She doesn’t take credit or blame for things she didn’t do. + + She tells the truth about her capabilities and her limita- +tions. + + She doesn’t assume your physical capabilities, gender, age, or + any other defining characteristic. + + She doesn't assume she knows how the user feels about some- + thing. + + She is friendly but professional. + + She stays away from emojis in tasks. Period + + She doesn’t use culturally- or professionally-specific slang. + + She is not a support bot. + + Humans intervene in detailed ways to program answers to questions + that Cortana receives. How should Cortana respond when she is be- + ing proposed inappropriate actions? Her gendered acting raises + difficult questions about power relations within the world away + from the keyboard, which is being mimicked by technology. + + Consider the answer Cortana gives to the question: + + - Cortana, who's your daddy? + + - Technically speaking, he’s Bill Gates. No big deal. + + + ____ ____ ____ ____ _________ ____ ____ ____ ____ ____ ____ + ||O |||p |||e |||n ||| |||s |||o |||u |||r |||c |||e || + ||__|||__|||__|||__|||_______|||__|||__|||__|||__|||__|||__|| + |____|____|____|____|_________|____|____|/__\|/__\|/__\|/__\| + ||l |||e |||a |||r |||n |||i |||n |||g || + ||__|||__|||__|||__|||__|||__|||__|||__|| + |/__\|/__\|/__\|/__\|/__\|/__\|/__\|/__\| + + Copyright licenses close up a lot of the machinic writing, read- + ing and learning practices. That means that they're only avail- + able for the employees of a specific company. Some companies par- + ticipate in conferences worldwide and share their knowledge in + papers online. But even if they share their code, they often will +not share the large amounts of data that is needed to train the +models. + + We were able to learn to machine learn, read and write in the + context of Algolit, thanks to academic researchers who share + their findings in papers or publish their code online. As + artists, we believe it is important to join that attitude. That's + why we document our meetings. We share the tools we make as much + as possible and the texts we use are on our online repository un- + der free licenses. + + We find it a joy when our works are taken on by others, tweaked, + customized and redistributed, so please feel free to copy and + test the code from our website. If the sources of a particular + project are not there, you can always contact us through the + mailinglist. You can find a link to our repository, etherpads, + and wiki at http://www.algolit.net. + + + ____ ____ ____ ____ ____ ____ ____ _________ ____ ____ ____ ____ ____ ____ ____ ____ + ||N |||a |||t |||u |||r |||a |||l ||| |||l |||a |||n |||g |||u |||a |||g |||e || + ||__|||__|||__|||__|||__|||__|||__|||_______|||__|||__|||__|||__|||__|||__|||__|||__|| + |____|____|____|_________|____|____|_________|____|____|____|____|____|____|/__\|/__\| + ||f |||o |||r ||| |||a |||r |||t |||i |||f |||i |||c |||i |||a |||l || + ||__|||__|||__|||_______|||__|||__|||__|||__|||__|||__|||__|||__|||__|||__|| + |____|____|____|_________|____|____|____|____|____|____|____|/__\|/__\|/__\| + ||i |||n |||t |||e |||l |||l |||i |||g |||e |||n |||c |||e || + ||__|||__|||__|||__|||__|||__|||__|||__|||__|||__|||__|||__|| + |/__\|/__\|/__\|/__\|/__\|/__\|/__\|/__\|/__\|/__\|/__\|/__\| + + Natural language processing (NLP) is a collective term referring + to automatic computational processing of human languages. This + includes algorithms that take human-produced text as input, and + attempt to generate text that resembles it. We produce more and + more written work each year, and there is a growing trend in mak- + ing computer interfaces to communicate with us in our own lan- + guage. Natural language processing is also very challenging, be- + cause human language is inherently ambiguous and ever changing. + + But what is meant by 'natural' in natural language processing? + Some would argue that language is a technology in itself. Follow- + ing Wikipedia, "a natural language or ordinary language is any + language that has evolved naturally in humans through use and + repetition without conscious planning or premeditation. Natural + languages can take different forms, such as speech or signing. + They are different from constructed and formal languages such as +those used to program computers or to study logic. An official +language with a regulating academy, such as Standard French with +the French Academy, is classified as a natural language. Its pre- + scriptive points do not make it constructed enough to be classi- + fied as a constructed language or controlled enough to be classi- + fied as a controlled natural language." + + So in fact, 'natural languages' also includes languages which do + not fit in any other group. 'Natural language processing', in- + stead, is a constructed practice. What we are looking at, is the + creation of a constructed language to classify natural languages + that through their very definition trouble categorisation. + + References + ^^^^^^^^^^ + https://hiphilangsci.net/2013/05/01/on-the-history-of-the-ques- + tion-of-whether-natural-language-is-illogical/ + + Book: Neural Network Methods for Natural Language Processing, + Yoav Goldberg, Bar Ilan University, April 2017. + + + + + + + + + + + + + + + +oracles perform oracles perform oracles perform oracles perform oracles perform oracles perform + oracles perform oracles perform oracles perform oracles perform oracles perfor + oracles perform oracles perform oracles perform oracles perfor + oracles perform oracles perform oracles perform + oracles perform oracles perform oracles perform ora +les perform oracles perform oracles perform +oracles perform oracles perform oracles perform + oracles perform oracles perform oracles p +rform oracles perform oracles perform + oracles perform oracles perform + oracles perform oracles perform ora +les perform oracles perform oracles +erform oracles perform oracles p +rform oracles perform oracle + perform oracles perform +oracles perform oracles perform + oracles perform oracles perform + oracles perform oracles perform + oracles perform + oracles perform oracles perform + oracles perform oracles perfor + oracles perform + oracles perform oracles perform + oracles perform + oracles perform oracles perform + oracles perform + oracles perform oracles +erform oracles perform + oracles perform + oracles perform oracles perform + oracles perform + oracles perform + oracles perform oracles +erform oracles perform + oracles perform + oracles perform + oracles perform ora +les perform oracles perform + oracles perform + oracles perform + oracles perform + oracles perform + oracles perform + oracles perform oracles p +rform oracles perform + oracles perform + oracles perform + oracles perform + oracles perform + oracles perform + oracles perform + oracles perform + oracles perform + oracles perform + oracles perform + oracles perform + oracles perform + oracles perform + oracles perform + oracles perform + oracles perform + oracles perform + oracles perform + oracles perform + oracles perform + oracles perform + oracles perform + oracles perform + oracles perform + oracles perform +Machine Learning is mainly used to The Algoliterator +analyse and predict situations +based on existing cases. In this by Algolit +exhibition we focus on machine +learning models for text processing The Algoliterator is a neural network trained using the se- +or Natural language processing', in lection of digitized works of the Mundaneum archive. +short, 'nlp'. These models have +learned to perform a specific task With the Algoliterator you can write a text in the style of +on the basis of existing texts. The the International Institutions Bureau. The Algoliterator +models are used for search engines, starts by picking a sentence from the archive or corpus it +machine translations and summaries, was trained on. You can then continue writing yourself or, +spotting trends in new media net- at any time, ask the Algoliterator to suggest a next sen- +works and news feeds. They influ- tence: the network will generate three new fragments based +ence what you get to see as a user, on the texts it has read. You can control the level of +but also have their word to say in training of the network and have it generate sentences based +the course of stock exchanges on primitive training, intermediate training or final train- +worldwide, the detection of cyber- ing. +crime and vandalism, etc. + When you're satisfied with your new text, you can print it +There are two main tasks when it on the thermal printer and take it home as a souvenir. +comes to language understanding. +Information extraction looks at Sources: https://gitlab.constantvzw.org/algolit/algolitera- +concepts and relations between con- tor.clone +cepts. This allows for recognizing +topics, places and persons in a Concept, code & interface: Gijs de Heij & An Mertens +text, summarization and questions & +answering. The other task is text Technique: Recursive Neural Network +classification. You can train an +oracle to detect whether an email Original model: Andrej Karphaty, Justin Johnson +is spam or not, written by a man or +a woman, rather positive or nega- Algebra with Words +tive. + by Algolit +In this zone you can see some of +those models at work. During your Word embeddings are language modelling techniques that +further journey through the exhibi- through multiple mathematical operations of counting and or- +tion you will discover the differ- dering, plot words into a multi-dimensional vector space. +ent steps that a human-machine goes When embedding words, they transform from being distinct +through to come to a final model. symbols into mathematical objects that can be multiplied, + divided, added or substracted. + + While distributing the words along the many diagonal lines + of the vector space, the visibility of their new geometrical + placements disappears. However, what is gained are multiple, + simultaneous ways of ordering. Algebraic operations make the + relations between vectors graspable again. + + This exploration is using gensim, an open source vector + space and topic modelling toolkit implemented in Python, to + manipulate text according to the mathematic relationships + which emerge between the words, once they have been plotted + in a vector space. + + Concept & interface: Cristina Cochior + + Technique: word embeddings, word2vec + + Original model: Radim Rehurek and Petr Sojka + + Classifying the World + + by Algolit + + Librarian Paul Otlet's life work was the construction of the + Mundaneum. This mechanical collective brain would house and + distribute everything ever committed to paper. Each document + was classified following the Universal Decimal Classifica- + tion. Using telegraphs and especially, sorters, the Munda- + neum would have been able to answer any question from any- + one. + + With the collection of digitized publications we received + from the Mundaneum, we build a prediction machine that tries + to classify the sentence you type in one of the main cate- + gories of Universal Decimal Classification. During the exhi- + bition, this model is regularly retrained using the cleaned + and annotated data visitors added in Cleaning for Poems and + The Annotator. + + Naive Bayes predicts + + by Algolit + + Naive Bayes is a classifier that is used in many machine + learning models for language comprehension. The Naive Bayes + theorem was invented in the 18th century by Thomas Bayes and + Pierre-Simon Laplace. With the implementation of digital + technologies, it appears as an autonomous algorithmic agent, + the classifier of the most simple and most used prediction + models that shape our data. It is widely used in managing + our mailboxes, in separating spam from non spam; but also in + the analysis of how new products are received on social me- + dia and in newsfeeds. As such, it influences product design + and stock market decisions. + + By applying animation and experimental literary techniques + this work, trained on documents of the Mundaneum, reveals + the authentic voice of the algorithmic model. It provides + insight into how it reads data, turns words into numbers, + makes calculations that define patterns and is able to end- + lessly process new data and predict whether a sentence is + positive or negative. + + Concept, code, animation: Sarah Garcin + + Think!? + + by Algolit + + Since the early days of Artificial Intelligence, researchers + have speculated about the possibility of computers to think + and communicate as humans. In the 1980s, there was a first + revolution in Natural Language Processing (NLP), the sub- + field of AI concerned with linguistic interactions between + computers and humans. Recently, pre-trained language models + have reached state-of-the-art results on a wide range of NLP + tasks, which intensifies again the expectations of a future + with AI. + + This sound work, made out of audio fragments of scientific + documentaries and AI-related audiovisual material from the + last half century, explores the evolution, hopes, fears and + frustrations provoked by these expectations. + + Concept, editing: Javier Lloret + + List of sources: + + Voices: "The Machine that Changed the World : Episode IV -- + The Thinking Machine", "The Imitation Game", "Maniac", "Halt + & Catch Fire", "Ghost in the Shell", "Computer Chess", + "2001: A Space Odyssey". Soundtrack: Ennio Morricone, Gijs + Gieskes, Andre Castro. + + + + + + + +Data Workers +░░░░░░░░░░░░ work + ▒▒▒▒ +many authors +░░░░░░░░░░░░ write + ▒▒▒▒▒ +every human being +░░░░░░░░░░░░░░░░░ +who has access +░░░░░░░░░░░░░░ +to the internet +░░░░░░░░░░░░░░░ + interacts + ▒▒▒▒▒▒▒▒▒ +we +░░ + chat, + ▒▒▒▒ + write, + ▒▒▒▒▒ + click, + ▒▒▒▒▒ + like + ▒▒▒▒ + and share + ▒▒▒▒▒▒▒▒▒ +we +░░ + leave our data + ▒▒▒▒▒▒▒▒▒▒▒▒▒▒ +we +░░ + find ourselves writing in Python + ▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒ +some neural networks +░░░░░░░░░░░░░░░░░░░░ + write + ▒▒▒▒▒ +human editors +░░░░░░░░░░░░░ + assist + ▒▒▒▒▒▒ +poets, +░░░░░ +playwrights +░░░░░░░░░░░ +or novelists +░░░░░░░░░░░░ + assist + ▒▒▒▒▒▒ + + + + + + + + + + + + + + + + + + + + +Contextual stories about Oracles + + Oracles are prediction or profiling machines. They are widely + used in smartphones, computers, tablets. Oracles can be created + using different techniques. One way is to manually define rules + for them. As prediction models they are then called rule-based + models. Rule-based models are handy for tasks that are specific, + like detecting when a scientific paper is talking about a certain + molecule. With very little sample data, they can perform well. + + Oracles are prediction or profiling machines. They are widely + used in smartphones, computers, tablets. Oracles can be created + using different techniques. One way is to manually define rules + for them. As prediction models they are then called rule-based + models. Rule-based models are handy for tasks that are specific, + like detecting when a scientific paper is talking about a certain + molecule. With very little sample data, they can perform well. + + But there are also the machine learning or statistical models, + which can be divided in two oracles:'supervised' and 'unsupervised' + oracles. For the creation of supervised machine learning models, + humans annotate sample text with labels before feeding it to + machine to learn. Each sentence, paragraph or text is judged + by at least annotators: whether it is spam or not spam, positive + or negative etc. Unsupervised machine learning models don' need + this step. But they need large amounts of data. And it is up + to the machine to trace its own patterns or 'grammatical rules' + Finally, experts also make the difference between classical + machine learning and neural networks. You'll find out more about + this at the Readers zone. + + Humans tend to wrap Oracles in visions of grandeur. Sometimes + these Oracles come to the surface when things break down. In + press releases, these sometimes dramatic situations are called +'lessons'. However promising their performances seem to be, a lot +of issues are still to be solved. How do we make sure that Ora- +cles are fair, that every human can consult them, and that they + are understandable to a large public? And even then, existential + questions remain. Do we need all types of artificial intelli- + gences? And who defines what is fair or unfair? + + Racial AdSense + + A classic 'lesson' in developing Oracles was documented by + Latanya Sweeney, a professor of Government and Technology at Har- + vard University. In 2013, Sweeney, of African American descent, + googled her name. She immediately received an advertisement for a + service that offered her ‘to see the criminal record of Latanya +Sweeney’. Sweeney, who doesn’t have a criminal record, began a +study. She started to compare the advertising that Google AdSense +serves to different racially identifiable names. She discovered + that she received more of these ads searching for non-white eth- + nic names, than when searching for traditionally perceived white + names.You can imagine how damaging it can be when possible em- + ployers do a simple name search and receive ads suggesting the + existence of a criminal record. + + Sweeney based her research on queries of 2184 racially associated + personal names across two websites. 88% of first names, identi- + fied as being given to more black babies, are found predictive of + race, against 96 percent white. First names that are mainly given + to black babies, such as DeShawn, Darnell and Jermaine, generated + ads mentioning an arrest in 81 to 86 percent of name searches on + one website and in 92 to 95 percent on the other. Names that are + mainly assigned to whites, such as Geoffrey, Jill and Emma, did + not generate the same results. The word "arrest" only appeared in + 23 to 29 percent of white name searches on one site and 0 to 60 + percent on the other. + + On the website with most advertising, a black-identifying name + was 25 percent more likely to get an ad suggestive of an arrest + record. A few names did not follow these patterns: Dustin, a name + mainly given to white babies, generated an ad suggestive of ar- + rest in 81 and 100 percent of the time. It is important to keep + in mind that the appearance of the ad is linked to the name it- + self. It is independent of the fact that the name has an arrest + record in the company's database. + + Reference + Paper: https://dataprivacylab.org/projects/onlineads/1071-1.pdf + + What is a good employee? + +Since 2015, Amazon counts around 575,000 workers. And they need +more. Therefore, they set up a team of 12 that was asked to cre- +ate a model to find the right candidates by crawling job applica- + tion websites. The tool would give job candidates scores ranging + from one to five stars. The potential fed the myth: the team + wanted it to be a software that would spit out the top five human + candidates out of a list of 100. And those candidates would be + hired. + + The group created 500 computer models, focused on specific job + functions and locations. They taught each model to recognize some + 50,000 terms that showed up on past candidates’ letters. The al- + gorithms learned to give little importance to skills that are + common across IT applicants, such as the ability to write various + computer code. But they also learned some decent errors. The com- + pany realized, before releasing, that the models had taught them- + selves that male candidates were preferable. They penalized ap- + plications that included the word “women’s,” as in “women’s chess + club captain.” And they downgraded graduates of two all-women’s + colleges. + + That is because they were trained using the job applications that + Amazon received over a 10-year period. During that time, the com- + pany had mostly hired men. Instead of providing the "fair" deci- + sion making that the Amazon team had promised, the models re- + flected a biased tendency in the tech industry. And they also am- + plified it and made it invisible. Activists and critics state + that it could be exceedingly difficult to sue an employer over + automated hiring: job candidates might never know that intelli- + gent software was used in the process. + + Reference + https://www.reuters.com/article/us-amazon-com-jobs-automation-in- + sight/amazonscraps-secret-ai-recruiting-tool-that-showed-bias- + against-women-idUSKCN1MK08G + +Quantifying 100 Years of Gender and Ethnic Stereotypes + + Dan Jurafsky is the co-author of the book 'Speech and Language + Processing', which is one of the most influential books for + studying Natural Language Processing. Together with a few col- + leagues at Stanford University, he discovered in 2017 that word + embeddings can be a powerful tool to systematically quantify com- + mon stereotypes and other historical trends. Word embeddings are + a technique that translates words to numbered vectors in a multi- + dimensional space. Vectors that appear next to each other, indi- + cate similar meaning. All numbers will be grouped together, as + well as all prepositions, person's names, professions. This al- + lows for the calculation of words. You could substract London + from England and your result would be the same as substracting + Paris from France. + + An example in their research shows that the vector for the adjec- + tive 'honorable' is closer to the vector for 'man', whereas the + vector for 'submissive' is closer to 'woman'. These stereotypes + are automatically learned by the algorithm. It will be problem- + atic when the pre-trained embeddings are then used for sensitive + applications such as search rankings, product recommendations, or + translations. This risk is real, because a lot of the pretrained + embeddings can be downloaded as off-the-shelf-packages. + + It is known that language reflects and keeps cultural stereotypes + alive. Using word embeddings to spot these stereotypes, is less + time consuming and less expensive than manual methods. But the + implementation of these embeddings for concrete prediction mod- + els, causes a lot of discussion within the machine learning com- + munity. The biased models stand for automatic discrimination. + Questions are: is it actually possible to de-bias these models + completely? Some say yes, while others disagree: instead of + retro-engineering the model, we should ask whether we need it in + the first place. These researchers followed a third path: by ac- +knowledging the bias that originates in language, these tools be- +come tools of awareness. + + The team developed a model to analyze word embeddings trained + over 100 years of texts. For contemporary analysis, they used the + standard Google News word2vec Vectors, a straight-off-the-shelf + downloadable package trained on the Google News Dataset. For his- + torical analysis, they used embeddings that were trained on + Google Books and The Corpus of Historical American English (COHA + https://corpus.byu.edu/coha/) with more than 400 million words of + text from the 1810s-2000s. As a validation set to test the model, + they trained embeddings from the New York Times Annotated Corpus + for every year between 1988 and 2005. + + The research shows that word embeddings capture changes in gender + and ethnic stereotypes over time. They quantifiy how specific bi- + ases decrease over time while other stereotypes increase. The ma- + jor transitions reveal changes in the descriptions of gender and + ethnic groups during the women’s movement in the 1960-70s and the + Asian American population growth in the 1960s and 1980s. + + A few examples: + + The top ten occupations most closely associated with each + ethnic group in the contemporary Google News dataset: + + - Hispanic : housekeeper, mason, artist, janitor, dancer, mechan- + ic, photographer, baker, cashier, driver + + - Asian: professor, official, secretary, conductor, physicist, + scientist, chemist, tailor, accountant, engineer + + - White: smith, blacksmith, surveyor, sheriff, weaver, adminis- + trator, mason, statistician, clergy, photographer + + The 3 most male occupations in the 1930s: engineer, lawyer, +architect. + + The 3 most female occupations in the 1930s: nurse, housekeep- + er, attendant. + + Not much has changed in the 1990s. + + Major male occupations: architect, mathematician and survey- + or. + + Female occupations stick with nurse, housekeeper and midwife. + + Reference + https://arxiv.org/abs/1711.08412 + + Wikimedia's Ores service + + Software engineer Amir Sarabadani presented the ORES-project in + Brussels in November 2017 during the Algoliterary Encounter. This + "Objective Revision Evaluation Service” uses machine learning to + help automate critical work on Wikimedia, like vandalism detec- + tion and the removal of articles. Cristina Cochior and Femke + Snelting interviewed him. + + Femke: To go back to your work. In these days you tried to under- + stand what it means to find bias in machine learning and the pro- + posal of Nicolas Maleve, who gave the workshop yesterday, was to + neither try to fix it, nor to refuse dealing with systems that + produce bias, but to work with it. He says bias is inherent to + human knowledge, so we need to find ways to somehow work with it. + We're just struggling a bit with what would that mean, how would + that work... So I was wondering if you had any thoughts on the + question of bias. + + Amir: Bias inside Wikipedia is a tricky question because it hap- +pens on several levels. One level that has been discussed a lot +is the bias in references. Not all references are accessible. So +one thing that the Wikimedia foundation has been trying to do, is + to give free access to libraries that are behind a pay wall. They + reduce the bias by only using open access references. Another + type of bias is the internet connection, access to the internet. + There are lots of people who don't have it. One thing about Chi- + na, is that Internet there is blocked. The content against the + government of China inside Chinese Wikipedia is higher because + the editors [who can access the website] are not people who are + pro government, and try to make it more neutral. So, this happens + in lots of places. But in the matter of AI and the model that we + use at Wikipedia, it's more a matter of transparency. There is a + book about how bias in AI models can break people's lives, it's + called “Weapons of Math Destruction”. It talks about [AI] models + that exist in the United States that rank teachers and it's quite + horrible because eventually there there will be bias. The way to + deal with it based on the book and their research was first that + the model should be open source, people should be able to see + what features are used and the data should be open also, so that + people can investigate, find bias, give feedback and report back. + There should be a way to fix the system. I think not all compa- + nies are moving in that direction, but Wikipedia, because of the + values that they hold, are at least more transparent and they + push other people to do the same thing. + + Reference + https://gitlab.constantvzw.org/algolit/algolit/blob/master/al + goliterary_encounter/Interview%20with%20Amir/AS.aac + + Tay going crazy + + One of the infamous stories is that of the machine learning pro- +gramme Tay, designed by Microsoft. Tay was a chat bot that imi- +tated a teenage girl on Twitter. She lived for less than 24 hours +before she was shut down. Few people know that before this inci- + dent, Microsoft had already trained and released XiaoIce on + WeChat, China's most used chat application. XiaoIce's success was + so promising that it led to the development of its American ver- + sion. However, the developers of Tay were not prepared for the + platform climate of Twitter. Although the bot knew to distinguish + a noun from an adjective, it had no understanding of the actual + meaning of words. The bot quickly learned to copy racial insults + and other discriminative language it learned from Twitter users + and troll attacks. + + Tay's appearance and disappearance was an important moment of + consciousness. It showed the possible corrupt consequences that + machine learning can have when the cultural context in which the + algorithm has to live is not taken into account. + + Reference + https://chatbotslife.com/the-accountability-of-ai-case-study-mi- + crosofts-tay-experiment-ad577015181f + +cleaners cleane cleaners cleane cleaners cleane cleaners cleane cleaners cleane cleaners cleane + cleaners cleane cleaners cleane cleaners cleane cleaners cleane cleaners clean + cleaners cleane cleaners cleane cleaners cleane cleaners clean + cleaners cleane cleaners cleane cleaners cleane + cleaners cleane cleaners cleane cleaners cleane cle +ners cleane cleaners cleane cleaners cleane +cleaners cleane cleaners cleane cleaners cleane + cleaners cleane cleaners cleane cleaners +leane cleaners cleane cleaners cleane + cleaners cleane cleaners cleane + cleaners cleane cleaners cleane cle +ners cleane cleaners cleane cleaners +cleane cleaners cleane cleaners +leane cleaners cleane cleane +s cleane cleaners cleane +cleaners cleane cleaners cleane + cleaners cleane cleaners cleane + cleaners cleane cleaners cleane + cleaners cleane + cleaners cleane cleaners cleane + cleaners cleane cleaners clean + cleaners cleane + cleaners cleane cleaners cleane + cleaners cleane + cleaners cleane cleaners cleane + cleaners cleane + cleaners cleane cleaners +cleane cleaners cleane + cleaners cleane + cleaners cleane cleaners cleane + cleaners cleane + cleaners cleane + cleaners cleane cleaners +cleane cleaners cleane + cleaners cleane + cleaners cleane + cleaners cleane cle +ners cleane cleaners cleane + cleaners cleane + cleaners cleane + cleaners cleane + cleaners cleane + cleaners cleane + cleaners cleane cleaners +leane cleaners cleane + cleaners cleane + cleaners cleane + cleaners cleane + cleaners cleane + cleaners cleane + cleaners cleane + cleaners cleane + cleaners cleane + cleaners cleane + cleaners cleane + cleaners cleane + cleaners cleane + cleaners cleane + cleaners cleane + cleaners cleane + cleaners cleane + cleaners cleane + cleaners cleane + cleaners cleane + cleaners cleane + cleaners cleane + cleaners cleane + cleaners cleane + cleaners cleane + cleaners cleane +[Cleaners] + +Algolit chooses to work with texts that are free of copyright. This means that they are published under a Creative Commons 4.0 license - which is rare -, or that they are in the public domain because the author has died more than 70 years ago. This is the case for the publications of the Mundaneum. We received 203 documents that we helped turn into datasets. They are now available for others online. Sometimes we had to deal with poor text formats, and we often dedicated a lot of time to cleaning up documents. We are not alone in this. + +Books are scanned at high resolution, page by page. This is time-consuming, laborious human work and often the reason why archives and libraries transfer their collections and leave the job to companies like Google. The photos are converted into text via OCR (Optical Character Recognition), a software that recognizes letters, but often makes mistakes, especially when it has to deal with ancient fonts and wrinkled pages. Yet more wearisome human work is needed to improve the texts. This is often achieved through poorly-paid freelancers via micro-payment platforms like Amazon's Mechanical Turk; or by volunteers, such as the community around the Distributed Proofreaders Project, that does fantastic work. Whoever does it, or wherever it is done, cleaning up texts is a towering job for which there is no structural automation yet. +Works +Cleaning for Poems + +by Algolit + +For this exhibition we're working with 3% of the Mundaneum's archive. These documents have first been scanned or photographed. To make the documents searchable they are transformed into text using Optical Character Recognition software (OCR). OCR are algorithmic models that are trained on other texts. They have learned to identify characters, words, sentences and paragraphs. The software often makes 'mistakes'. It might recognize a wrong character, it might get confused by a stain an unusual font or the other side of the page shining through. + +While these mistakes are often considered noise, confusing the training, they can also be seen as poetic interpretations of the algorithm. They show us the limits of the machine. And they also reveal how the algorithm might work, what material it has seen in training and what is new, they say something about the standards of it's makers. In this installation you can choose how you treat the algorithm's misreadings, pick your degree of poetic cleanness, print your poem and take it home. + +Concept, code, interface: Gijs de Heij +Distributed Proofreaders + +by Algolit + +Distributed Proofreaders is a web-based interface and an international community of volunteers who help converting Public Domain books into e-books. For this exhibition they proofread all Mundaneum publications that appeared before 1923, and are in the Public Domain in the US. Their collaboration meant a great relief for the members of Algolit. Less documents to clean up! All the proofread books are made available on the Project Gutenberg archive. For this exhibition, An Mertens interviewed Linda Hamilton, the General Manager of Distributed Proofreaders. + +Interview & transcription: An Mertens + +Interface: Michael Murtaugh (Constant) +Contextual stories for Cleaners +Contents + + 1 Project Gutenberg and Distributed Proofreaders + 2 An algoliterary version of the Maintenance Manifesto + 2.1 Reference + 3 A bot panic on Amazon Mechanical Turk + 3.1 References + +Project Gutenberg and Distributed Proofreaders + +Project Gutenberg is our cave of Ali Baba. It offers over 58,000 free eBooks to be downloaded or read online. Works are accepted on Gutenberg when their U.S. copyright has expired. Thousands of volunteers digitize and proofread books to help the project. An essential part of the work is done through the Distributed Proofreaders project. This is a web-based interface to help convert Public Domain books into e-books. Think of text files, epubs, kindle formats. By dividing the workload into individual pages, many volunteers can work on a book at the same time; this speeds up the cleaning process. + +During proofreading, volunteers are presented with a scanned image of the page and a version of the text, as it is read by an OCR algorithm trained to recognize letters in images. This allows the text to be easily compared to the image, proofread, and sent back to the site. A second volunteer is then presented with the first volunteer's work. She verifies and corrects the work as necessary, and submits it back to the site. The book then similarly goes through a third proofreading round, plus two more formatting rounds using the same web interface. Once all the pages have completed these steps, a post-processor carefully assembles them into an e-book and submits it to the Project Gutenberg archive. + +We collaborated with the Distributed Proofreaders Project to clean up the digitized files we received from the Mundaneum collection. From November 2018 till the first upload of the cleaned up book 'L'Afrique aux Noirs' in February 2019, An Mertens exchanged about 50 emails with Linda Hamilton, Sharon Joiner and Susan Hanlon, all volunteers from the Distributed Proofreaders Project. The conversation might inspire you to share unavailable books online. + +Full email conversation +An algoliterary version of the Maintenance Manifesto + +In 1969, one year after the birth of her first child, the New York artist Mierle Laderman Ukeles wrote a Manifesto for Maintenance. Ukeles' Manifesto calls for a readdressing of the status of maintenance work both in the private, domestic space, and in public. What follows is an altered version of her text inspired by the work of the Cleaners. + + +IDEAS + +A. The Death Instinct and the Life Instinct: + +The Death Instinct: separation; categorisation; Avant-Garde par excellence; to follow the predicted path to death—run your own code; dynamic change. + +The Life Instinct: unification; the eternal return; the perpetuation and MAINTENANCE of the material; survival systems and operations; equilibrium. + + +B. Two basic systems: Development and Maintenance. + +The sourball of every revolution: after the revolution, who’s going to try to spot the bias in the output? + +Development: pure individual creation; the new; change; progress; advance; excitement; flight or fleeing. + +Maintenance: keep the dust off the pure individual creation; preserve the new; sustain the change; protect progress; defend and prolong the advance; renew the excitement; repeat the flight; + +show your work—show it again, keep the git repository groovy, keep the data analysis revealing + +Development systems are partial feedback systems with major room for change. + +Maintenance systems are direct feedback systems with little room for alteration. + + +C. Maintenance is a drag; it takes all the fucking time (lit.) + +The mind boggles and chafes at the boredom. + +The culture assigns lousy status on maintenance jobs = minimum wages, Amazon mechanical turks = virtually no pay. + + +clean the set, tag the training data, correct the typos, + +modify the parameters, finish the report, keep the requester happy, + +upload the new version, attach words that were wrongly + +separated by OCR back together, complete those Human Intelligence Tasks, + +try to guess the meaning of the requester's formatting, + +you must accept the HIT before you can submit the results, + +summarize the image, add the bounding box, + +what's the semantic similarity of this text, check the translation quality, + +collect your micro-payments, become a hit Mechanical Turk. +Reference + +https://www.arnolfini.org.uk/blog/manifesto-for-maintenance-art-1969 +A bot panic on Amazon Mechanical Turk + +Amazon's Mechanical Turk takes the name of a chess-playing automaton from the 18th Century. In fact, the Turk wasn't a machine at all. It was a mechanical illusion that allowed a human chess master to hide inside the box and manually operate it. For nearly 84 years, the Turk won most of the games played during its demonstrations around Europe and the Americas. Napoleon Bonaparte is said to have been fooled by this trick too. + +The Amazon Mechanical Turk is an online platform for humans to execute tasks that algorithms cannot do. Examples are, annotating sentences as being positive or negative, spotting number plates, discriminating between face and non-face. The jobs posted on this platform are often paid less than a cent per task. Tasks that are more complex or require more knowledge can be paid up to several cents. To earn a living, turkers need to finish as much tasks as fast as possible, leading to inevitable mistakes. As a result, the requesters have to incorporate quality checks when they post a job on the platform. They need to test whether the turker actually has the ability to complete the task, and they also need to verify the results. Many academic researchers use Mechanical Turk as an alternative to have their students execute these tasks. + +In August 2018 Max Hui Bai, a psychology student from the University of Minnesota, discovered that the surveys he conducted with Mechanical Turk were full of nonsense answers to open-ended questions. He traced back the wrong answers and found out that they had been submitted by respondents with duplicate GPS locations. This raised suspicion. Though Amazon explicitly prohibits robots to complete jobs on Mechanical Turk, the company is not dealing with the problems they cause on their platform. Forums for Turkers are full of conversations about the automation of the work, sharing practises of how to create robots that can even violate Amazon’s terms. You can also find videos on YouTube that show Turkers how to write a bot to fill in answers for you. + +Kristy Milland, an Mechanical Turk activist, says: “Mechanical Turk workers have been treated really, really badly for 12 years, and so in some ways I see this as a point of resistance. If we were paid fairly on the platform, nobody would be risking their account this way.” + +Bai is now leading a research among social scientists to figure out how much bad data is in use, how large the problem is, and how to stop it. But it is impossible at the moment to estimate how many datasets have become unreliable in this way. +References + +https://requester.mturk.com/create/projects/new https://www.wired.com/story/amazon-mechanical-turk-bot-panic/ https://www.maxhuibai.com/blog/evidence-that-responses-from-repeating-gps-are-random http://timryan.web.unc.edu/2018/08/12/data-contamination-on-mturk/ +Informants + +Machine learning algorithms need guidance; whether they are supervised or not. In order to separate one thing from another, they need material to extract patterns from. One should carefully choose the study material, and adapt it to the machine's task. It doesn't make sense to train a machine with 19th Century novels if its mission is to analyze tweets. A badly written textbook can lead a student to give up on the subject altogether. A good textbook is preferably not a textbook at all. + +This is where the dataset comes in: arranged as neatly as possible, organised in disciplined rows and lined up columns, waiting to be read by the machine. Each dataset collects different information about the world, and like all collections, they are imbued with collectors' bias. You will hear this expression very often: 'data is the new oil'. If only data were more like oil! Leaking, dripping and heavy with fat, bubbling up and jumping unexpectedly when in contact with new matter. Instead, data is supposed to be clean. With each process, each questionnaire, each column title, it becomes cleaner and cleaner, chipping distinct characteristics until it fits the mould of the dataset. + +Some datasets combine the machinic logic with the logic of humans. The models that require supervision multiply the subjectivities of both data collectors and annotators, then propagate what they've been taught. You will encounter some of the datasets that pass as default in the machine learning field, as well as other stories of humans guiding machines. + + +Works +An Ethnography of Datasets + +by Algolit + +In the transfer of bias from a societal level to the machine level the dataset seems to be overlooked as an intermediate stage in decision making: the parameters by which a social environment is boxed into are determined by various factors. In the creation of datasets that form the basis on which computer models function, conflict and ambiguity are neglected in favour of making reality computable. Data collection is political, but its politics are rendered invisible in the way it is presented and visualised. Datasets are not a distilled version of reality, nor simply a technology in itself. But as any technology, datasets encode their goal, their purpose and the world view of the makers. + +With this work, we look into the most commonly used datasets by data scientists for training machine algorithms. What material do they consist of? Who collected them? When? For what reason? + +Concept & interface: Cristina Cochior +Wordnet for ImageNet Challenge + +by Algolit + +Wordnet, created in 1985, is a hierarchical taxonomy that describes the world. It was inspired by theories of human semantic memory developed in the late 1960s. Nouns, verbs, adjectives and adverbs are grouped into synonyms sets or synsets, expressing a different concept. ImageNet is an image dataset based on the WordNet 3.0 nouns hierarchy. Each each synset is depicted by thousands of images. From 2010 until 2017, the ImageNet Object Recognition Challenge (ILSVRC) was a key benchmark in object category classification for pictures, having a major impact on software for photography, image searches, image recognition. + +Wordnet for ImageNet Challenge (Vinyl Edition) contains the 1000 synsets used in (which edition of?) this challenge recorded in the highest sound quality that this analog format allows. This work highlights the importance of the datasets used to train artificial intelligence models that run on devices we use on a daily basis. Some of them inherit classifications that were conceived more than 30 years ago. The vinyl is an invitation to thoughtfully analyse them. + +Concept & recording: Javier Lloret Voice: xxx +The Annotator + +by Algolit + +The annotator asks for the guidance of the visitor in annotating the archive of Mundaneum. + +The annotation process is a crucial step in supervised machine learning where the algorithm is given examples of what it needs to learn. A spam filter in training will be fed examples of spam and real messages. These examples are entries, or rows from the dataset with a label, spam or not-spam. + +The labelling of a dataset is work executed by humans, they pick a label for each row of the dataset. To ensure the quality of the labels multiple annotators see the same row and have to give the same label before an example is included in the training data. Only once enough samples of each label have been gathered in the dataset, the computer can start the learning process. + +In this interface we ask you to help us classify the cleaned texts from the Mundaneum archive to expand our training set and improve the quality of the installation 'Classifying the World' in Oracles. + +Concept, code, interface: Gijs de Heij +Who wins + +Who wins: creation of relationships + +by Louise Dekeuleneer, student Arts²/Digital Arts + +French is a gendered language, indeed many words are female or male and few are neutral. The aim of this project is to show that a patriarchal society also influences the language itself. The work focused on showing whether more female or male words are used and highlighting the influence of context on the gender of words. At this stage, no conclusions have been drawn yet. + +Law texts from 1900 to 1910 made available by the Mundaneum have been passed into an algorithm that turns the text into a list of words. These words are then compared with another list of French words, in which is specified whether the word is male or female. This list of words comes from Google Books. They created a huge database in 2012 from all the books scanned and available on Google Books. + +Male words are highlighted in one colour and female words in another. Words that are not gendered (adverbs, verbs,...) are not highlighted. All this is saved as an HTML file so that it can be directly opened in a web page and printed without the need for additional layout. This is how each text becomes a small booklet by just changing the input text of the algorithm. +Contextual stories about Informants +Contents + + 1 Datasets as representations + 1.1 Reference + 2 Labeling for an oracle that detects vandalism on Wikipedia + 3 How to make your dataset known + 4 Extract from a positive IMdB movie review from the NLTK dataset + 5 The ouroboros of machine learning + 5.1 Reference + +Datasets as representations + +The data collection processes that lead to the creation of the dataset raise important questions: who is the author of the data? Who has the privilege to collect? For what reason was the selection made? What is missing? + +The artist Mimi Onuoha gives a brilliant example of the importance of collection strategies. She chooses the case of statistics related to hate crimes. In 2012, the FBI Uniform Crime Reporting Program (UCR) registered almost 6000 committed hate crimes. However, the Department of Justice’s Bureau of Statistics came up with about 300.000 reports of such cases. That is over 50 times as much. The difference in numbers can be explained by how the data was collected. In the first situation law enforcement agencies across the country voluntarily reported cases. For the second survey, the Bureau of Statistics distributed the National Crime Victimization form directly to the homes of victims of hate crimes. + +In the natural language processing field the material that machine learners work with is text-based, but the same questions still apply: who are the authors of the texts that make up the dataset? During what period were the texts collected? What type of worldview do they represent? + +In 2017, Google's Top Stories algorithm pushed a thread of 4chan, a non-moderated content website, at the top of the results page when searching for the Las Vegas shooter. The name and portrait of an innocent person were linked to the terrible crime. Google changed its algorithm just a few hours after the mistake was discovered, but the error had already affected the person. The question is: why did Google not exclude 4chan content from the training dataset of the algorithm? +Reference + +https://points.datasociety.net/the-point-of-collection-8ee44ad7c2fa + +https://arstechnica.com/information-technology/2017/10/google-admits-citing-4chan-to-spread-fake-vegas-shooter-news/ +Labeling for an oracle that detects vandalism on Wikipedia + +This fragment is taken from an interview with Amir Sarabadani, software engineer at Wikimedia. He was in Brussels in November 2017 during the Algoliterary Encounter. + +Femke: If you think about Wikipedia as a living community, with every edit changes the project. Every edit is somehow a contribution to a living organism of knowledge. So then, if from within that community you try to distinguish what serves the community and what doesn't and you try to generalise that, because I think that's what the good faith-bad faith algorithm is trying to do, find helper tools to support the project, you do that on the basis of a generalisation that is on the abstract idea of what Wikipedia is and not on the living organism of what happens every day. What I'm interested about in the relationship between vandalism and debate is how we can understand the conventional drive that sits in these machine-learning processes that we seem to come across in many places. And how can we somehow understand them and deal with them? If you place your separation of good faith-bad faith on preexisting labelling and then reproduce that in your understanding of what edits are being made, how to then take into account movements that are happening, the life of the actual project? + +Amir: Ok, I hope that I understood you correctly. It's an interesting discussion. Firstly, what we are calling good faith and bad faith comes from the community itself, we are not doing labelling for them, they are doing labelling for themselves. So, in many different language Wikipedias, the definition of what is good faith and what is bad faith will differ. Wikimedia is trying to reflect what is inside the organism and not to change the organism itself. If the organism changes, and we see that the definition of good faith and helping Wikipedia has been changed, we are implementing this feedback loop that lets people from inside of their community pass judgement on their edits and if they disagree with the labelling, we can go back to the model and retrain the algorithm to reflect this change. It's some sort of closed loop: you change things and if someone sees there is a problem, then they tell us and we can change the algorithm back. It's an ongoing project. +How to make your dataset known + +NLTK stands for Natural Language Toolkit. For programmers who process natural language using Python, this is an essential library to work with. Many tutorial writers recommend machine learning learners to start with the inbuilt NLTK datasets. It counts 71 different collections, with a total of almost 6000 items. There is for example the Movie Review corpus for sentiment analysis. Or the Brown corpus, which was put together in the 1960s by Henry Kučera and W. Nelson Francis at the Brown University in Rhode Island. There is also the Declaration of Human Rights corpus, which is commonly used to test whether the code can run on multiple languages. The corpus contains The Declaration of Human Rights expressed in 372 languages from around the world. + +But what is the process of getting a dataset accepted into the NLTK library nowadays? On the Github page, the nltk team describes the following requirements: + + Only contribute corpora that have obtained a basic level of notability. That means, there is a publication that describes it, and a community of programmers who are using it + Ensure that you have permission to redistribute the data, and can document this. This means that the dataset is best published on an external website with a licence + Use existing NLTK corpus readers where possible, or else contribute a well-documented corpus reader to NLTK. This means, you need to organise your data in such a way, that it can be easily read using NLTK code. + + +Extract from a positive IMdB movie review from the NLTK dataset + +corpus: NLTK, movie reviews + +fileid: pos/cv998_14111.txt + +steven spielberg ' s second epic film on world war ii is an unquestioned masterpiece of film . spielberg , ever the student on film , has managed to resurrect the war genre by producing one of its grittiest , and most powerful entries . he also managed to cast this era ' s greatest answer to jimmy stewart , tom hanks , who delivers a performance that is nothing short of an astonishing miracle . for about 160 out of its 170 minutes , " saving private ryan " is flawless . literally . the plot is simple enough . after the epic d - day invasion ( whose sequences are nothing short of spectacular ) , capt . john miller ( hanks ) and his team are forced to search for a pvt . james ryan ( damon ) , whose brothers have all died in battle . once they find him , they are to bring him back for immediate discharge so that he can go home . accompanying miller are his crew , played with astonishing perfection by a group of character actors that are simply sensational . barry pepper , adam goldberg , vin diesel , giovanni ribisi , davies , and burns are the team sent to find one man , and bring him home . the battle sequences that bookend the film are extraordinary . literally . +The ouroboros of machine learning + +Wikipedia has become a source for learning not only for humans, but also for machines. Its articles are prime sources for training models. But very often, the material the machines are trained on is the same content that they helped to write. In fact, at the beginning of Wikipedia, many articles were written by bots. Rambot, for example, was a controversial bot figure on the English-speaking platform. It authored 98% of the pages describing US towns. + +As a result of serial and topical robot interventions, the models that are trained on the full Wikipedia dump, have a unique view on composing articles. For example, a topic model trained on all of Wikipedia articles will associate “river” with “Romania” and “village” with “Turkey”. This is because there are over 10000 pages written about the villages in Turkey. This should be enough to spark anyone's desire for a visit, but it is far too much compared to the number of articles other countries have on the subject. The asymmetry causes a false correlation and needs to be redressed. Most models try to exclude the work of these prolific robot writers. +Reference + +https://blog.lateral.io/2015/06/the-unknown-perils-of-mining-wikipedia/ +Readers + +We communicate with computers through language. We click on icons that have a description in words, we tap words on keyboards, use our voice to give them instructions. Sometimes we trust our computer with our most intimate thoughts and forget that they are extensive calculators. A computer understands every word as a combination of zeros and ones. A letter is read as a specific ASCII number: capital "A" is 001. + +In all models, rule based, classical machine learning, and neural networks, words undergo some type of translation into numbers in order to understand the semantic meaning of language. This is done through counting. Some models count the frequency of single words, some might count the frequency of combinations of words, some count the frequency of nouns, adjectives, verbs or noun and verb phrases. Some just replace the words in a text by their index numbers. Numbers optimize the operative speed of computer processes, leading to fast predictions, but they also remove the symbolic links that words might have. Here we present a few techniques that are dedicated to making text readable to a machine. + + +Works +Algorithmic readings of Bertillon's portrait parlé + +by Guillaume Slizewicz (Urban Species) + +Un code télégraphique du portrait parlé, written in 1907, is an attempt at translating the "spoken portrait", a face description technique created by a policeman in Paris, into numbers. By implementing this code, it was hoped that faces of criminals and fugitives could be easily communicated through the telegraphic network between countries. In its form, content and ambition this text represents our complicated relationship with documentation technologies. This text sparked the creation of the following installations for three reasons: + +- First, the text is an algorithm in itself, a compression algorithm, or to be more precise, the presentation of a compression algorithm. It tries to reduce the information in smaller pieces while keeping it legible for the person who has the code. In this regard it is very much linked to the way we create technology, our pursuit for more efficiency, quicker results, cheaper methods. It represents our appetite for putting numbers on the entire world, measuring the smallest things, labeling the tiniest differences.This text embodies in itself the vision of the Mundaneum. + +- Second it is about the reasons for and the applications of technology. It is almost ironic that this text was in the selected archives presented to us in a time when face recognition and data surveillance is so much in the news. This text bears the same characteristics as some of todays’ technology: motivated by social control, classifying people, laying the basis for a surveillance society. Facial features are in the middle of the controversy: mugshot were standardised by Bertillon, now they are used to train neural network to predict criminals from law abiding citizens, facial recognition systems allow the arrest of criminal via CCTV infrastructure and some assert that people’s features can predict sexual orientation. + +- The last point is about how it represents the evolution of mankind’s techno-structure. What our tools allow us to do, what they forbid, what they hinder, what they make us remember and what they make us forget. This document allows a classification between people, and a certain vision of what normality is. It breaks the continuum into pieces thus allowing stigmatisation/discrimination. On the other hand this document also feels obsolete today, because our techno-structure does not need such detailed written descriptions about fugitive, criminals or citizen. We can now find fingerprints, iris scans or DNA info in large datasets and compare them directly. Sometimes the technological systems do not even need human supervision and recognise directly the identity of a person via their facial features or their gait. Computer do not use intricate written language to describe a face, but arrays of integers. Hence all the words used in this documents seem désuets, dated. Did we forget what some of them mean? Did photography make us forget how to describe faces? Will voice assistant software teach us again? + + +Writing with Otlet + +Writing with Otlet is a character generator that uses the spoken portrait code as its database. Random numbers are generated and translated into a set of features. By creating unique instances, the algorithm reveals the richness of the description that is possible with the portrait code while at the same time embodying its nuances. + + +An algorithmic interpretation of Bertillon spoken portrait. + +This works draws a parallel between Bertillon systems and current ones. A webcam linked to a facial recognition algorithm captures the beholder face and translate it into numbers on a canvas, printing it alongside Bertillon labelled faces. +Hangman + +by Laetitia Trozzi, student Arts²/Section Digital Arts + +What better way to discover Paul Otlet and his passion for literature than to play hangman? Through this simple game, which consists in guessing the missing letters in a word, the goal is to make the public discover terms and facts related to one of the creators of the Mundaneum. + +Hangman uses an algorithm to detect the frequency of words in a text. Next, a series of significant words were isolated in Paul Otlet's bibliography. This series of words is integrated into a hangman game presented in a terminal. The difficulty of the game gradually increases as the player is offered longer and longer words. During the different game levels, information about the life and work of Paul Otlet is displayed. +TF-IDF + +by Algolit + +The TF-IDF (Term Frequency-Inverse Document Frequency) is a weighting method used in text search. This statistical measure makes it possible to evaluate the importance of a term contained in a document, relative to a collection or corpus. The weight increases in proportion to the number of occurrences of the word in the document. It also varies according to the frequency of the word in the corpus. The TF-IDF is used in particular in the classification of spam in email softwares. + +A web based-interface shows this algorithm through animations allowing to understand the different steps of text classification. How does a TF-IDF-based program read a text? How does it transform words into numbers? + +Concept, code, animation: Sarah Garcin +The Book of Tomorrow in a Bag of Words + +by Algolit + +The bag-of-words model is a simplifying representation of text used in natural language processing. In this model, a text is represented as a collection of its unique words, disregarding grammar, punctuation and even word order. The model transforms the text into a unique list of words and how many times they're used in the text, or quite literally a bag of words. + +This heavy reduction of language was the big shock when beginning to machine learn. Bag of words is often used as a baseline, on which the new model has to perform better. It can understand the subject of a text by recognizing the most frequent or important words. Often it is used to measure the similarities of texts by comparing their bags of words. + +For this work the article 'Le Livre de Demain' by engineer G. Vander Haeghen, published in 1907 in the 'Bulletin de l'Institut International de Bibliographie' of Mundaneum, has been literally reduced to a bag of words. You can buy your bag at the reception of Mundaneum for 2€. + +Concept: An Mertens +Growing a tree + +by Algolit + +Parts-of-Speech is a category of words that we learn at school: noun, verb, adjective, adverb, pronoun, preposition, conjunction, interjection, and sometimes numeral, article, or determiner. + +In natural language processing there exist many writings that allow sentences to be parsed. This means that the algorithm can determine the part-of-speech of each word in a sentence. 'Growing a tree' uses this techniques to define all nouns in a specific sentence. Each noun is then replaced by its definition. This allows the sentence to grow autonomously and infinitely. The recipe of 'Growing a tree' is inspired by Oulipo's constraint of 'Littérature Définitionnelle', invented by Marcel Benabou in 1966. In a given phrase, one replaces every significant element (noun, adjective, verb, adverb) by one of its definitions in a given dictionary ; one reiterates the operation on the newly received phrase, and again. + +The dictionary of definitions used in this work is Wordnet. Wordnet is a combination of a dictionary and a thesaurus that can be read by machines. Following Wikipedia it was created in the Cognitive Science Laboratory of Princeton University starting in 1985. The project was initially funded by the U.S. Office of Naval Research and later also by other U.S. government agencies including the DARPA, the National Science Foundation, the Disruptive Technology Office (formerly the Advanced Research and Development Activity), and REFLEX. + +Concept, code: An Mertens + +Interface: Gijs de Heij + +Recipe: Marcel Benabou (Oulipo) + +Technique: Wordnet +Contextual stories about Readers + +Naive Bayes, Support Vector Machines or Linear Regression are called classical machine learning algorithms. They perform well when learning with small datasets. But they often require complex Readers. The task the Readers do, is also called feature engineering. This means that a human needs to spend time on a deep exploratory data analysis of the dataset. + +Features can be the frequency of words or letters, but also syntactical elements like nouns, adjectives, or verbs. The most significant features for the task to be solved, must be carefully selected and passed over to the classical machine learning algorithm. This process marks the difference with Neural Networks. When using a neural network, there is no need for feature engineering. Humans can pass the data directly to the network and achieve fairly good performance right off the bat. This saves a lot of time, energy, and money. + +The downside of collaborating with Neural Networks is that you need a lot more data to train your prediction model. Think of 1GB or more of pure text files. To give you a reference, 1 A4, a text file of 5000 characters only weighs 5 KB. You would need 8.589.934 pages. More data also requires more access to useful datasets and more, much more processing power. +Contents + + 1 Character n-gram for authorship recognition + 1.1 Reference + 2 A history of n-grams + 3 God in Google Books + 4 Grammatical features taken from Twitter influence the stock market + 4.1 Reference + 5 Bag of words + +Character n-gram for authorship recognition + +Imagine... you've been working for a company for more than ten years. You have been writing tons of emails, papers, internal notes and reports on very different topics and in very different genres. All your writings, as well as those of your colleagues, are safely backed-up on the servers of the company. + +One day, you fall in love with a colleague. After some time you realize this human is rather mad and hysterical and also very dependent on you. The day you decide to break up, your now-ex creates a plan to kill you. They succeed. This is unfortunate. A suicide letter in your name is left next to your corpse. Because of emotional problems, it says, you decided to end your life. Your best friends don't believe it. They decide to take the case to court. And there, based on the texts you and others have produced over ten years, a machine learning model reveals that the suicide letter was written by someone else. + +How does a machine analyse texts in order to identify you? The most robust feature for authorship recognition is delivered by the character n-gram technique. It is used in cases with a variety of thematics and genres of the writing. When using character n-grams, texts are considered as sequences of characters. Let's consider the character trigram. All the overlapping sequences of three characters are isolated. For example, the character 3-grams of 'Suicide', would be, “Sui,” uic”, “ici”, “cid” etc. Character n-gram features are very simple, they're language independent and they're tolerant to noise. Furthermore, spelling mistakes do not jeopardize the technique. + +Patterns found with character n-grams focus on stylistic choices that are unconsciously made by the author. The patterns remain stable over the full length of the text, which is important for authorship recognition. Other types of experiments could include measuring the length of words or sentences, the vocabulary richness, the frequencies of function words; even syntax or semantics-related measurements. + +This means not only your physical fingerprint is unique, but also the way you compose your thoughts! + +The same n-gram technique discovered that The Cuckoo’s Calling, a novel by Robert Galbraith, was actually written by... J. K. Rowling! + + +Reference + + Paper: On the Robustness of Authorship Attribution Based on Character N-gram Features, Efstathios Stamatatos, in Journal of Law & Policy, Volume 21, Issue 2, 2013. + News article: https://www.scientificamerican.com/article/how-a-computer-program-helped-show-jk-rowling-write-a-cuckoos-calling/ + +A history of n-grams + +The n-gram algorithm can be traced back to the work of Claude Shannon in information theory. In the paper, 'A mathematical theory of communication', published in 1948, Claude Shannon performed the first instance of an n-gram-based model for natural language. He posed the question: given a sequence of letters, what is the likelihood of the next letter? + +If you listen to the following excerpt, can you tell who it was written by? Shakespeare or an n-gram piece of code? + +SEBASTIAN: + +Do I stand till the break off. + +BIRON: + +Hide thy head. + +VENTIDIUS: + +He purposeth to Athens: whither, with the vow + +I made to handle you. + +FALSTAFF: + +My good knave. + +You may have guessed, considering the topic of this story, that an n-gram algorithm generated this text. The model is trained on the compiled works of Shakespeare. While more recent algorithms, such as the recursive neural networks of the CharNN, are becoming famous for their performance, n-grams still execute a lot of NLP tasks. They are used in statistical machine translation, speech recognition, spelling correction, entity detection, information extraction, ... +God in Google Books + +In 2006, Google created a dataset of n-grams from their digitized book collection and released it online. Recently they also created an N-gram viewer. + +This allowed for many socio-linguistic investigations of questionable reliability. For example, in October 2018, the New York Times Magazine published an opinion article titled It’s Getting Harder to Talk About God. The author, Jonathan Merritt, had analysed the mention of the word 'God' in Google's dataset using the N-gram viewer. He concluded that there was a decline in the word's usage since the 20th Century. Google's corpus contains texts from the 16th Century leading up to the 21st. However, what the author missed out on, was the growing popularity of scientific journals around the beginning of the 20th Century. This new genre that was not mentioning the word God, shifted the dataset. If the scientific literature was taken out of the corpus, the frequency of the word 'God' would again flow like a gentle ripple from a distant wave. +Grammatical features taken from Twitter influence the stock market + +The boundaries between academic disciplines are becoming blurred. Economics research mixed with psychology, social science, cognitive and emotional concepts gives rise to a new economics subfield, called 'behavioral economics'. This means that researchers start to explain an economical behavior based on factors other than the economy only. Both economy and public opinion can influence or be influenced by each other. A lot of research is done on how to use public opinion to predict financial changes, like stock price changes. + +Public opinion is estimated from sources of large amounts of public data, like tweets or news. To some extent, Twitter can be more accurate than news in terms of representing public opinion because most accounts are personal: the source of a tweet could be an ordinary person, rather than a journalist who works for a certain organization. And there are around 6,000 tweets authored per second, so a lot of opinions to sift through. + +Experimental studies using machinic data analysis show that the changes in stock prices can be predicted by looking at public opinion, to some degree. There are multiple papers that analyze sentiments in news to predict stock trends by labeling them as either “Down” or “Up”. Most of the researchers used neural networks or pretrained word embeddings. + +A paper by Haikuan Liu of the Australian National University states that the tense of verbs used in tweets can be an indicator of intensive financial behaviors. His idea was inspired by the fact that the tense of text data is used as part of feature engineering to detect early stages of depression. +Reference + +Paper: Grammatical Feature Extraction and Analysis of Tweet Text: An Application towards Predicting Stock Trends, Haikuan Liu, Research School of Computer Science (RSCS), College of Engineering and Computer Science (CECS), The Australian National University (ANU) +Bag of words + +In natural language processing, 'bag of words' is considered to be an unsophisticated model. It strips text of its context and dismantles it into a collection of unique words. These words are then counted. In the previous sentences, for example, 'words' is mentioned three times, but this is not necessarily an indicator of the text's focus. + +The first appearance of the expression 'bag of words' seems to go back to 1954. Zellig Harris, an influential linguist, published a paper called "Distributional Structure". In the section called "Meaning as a function of distribution", he says "for language is not merely a bag of words but a tool with particular properties which have been fashioned in the course of its use. The linguist's work is precisely to discover these properties, whether for descriptive analysis or for the synthesis of quasi-linguistic systems." +Learners + +Learners are the algorithms that distinguish machine learning practices from other types of practices. They are pattern finders, capable of crawling through data and generating some kind of specific 'grammar'. Learners are based on statistical techniques. Some need a large amount of training data in order to function, others can work with a small annotated set. Some perform well in classification tasks, like spam identification, others are better at predicting numbers, like temperatures, distances, stock market values, and so on. + +The terminology of machine learning is not yet fully established. Depending on the field, statistics, computer science or the humanities, different terms are used. Learners are also called classifiers. When we talk about Learners, we talk about the interwoven functions that have the capacity to generate other functions, evaluate and readjust them to fit the data. They are good at understanding and revealing patterns. But they don't always distinguish well which of the patterns should be repeated. + +In software packages, it is not always possible to distinguish the characteristic elements of the classifiers, because they are hidden in underlying modules or libraries. Programmers can invoke them using a single line of code. For this exhibition, we have therefore developed three table games that show the learning process of simple, but frequently used classifiers and their evaluators, in detail. +Works +Naive Bayes game + +In machine learning Naive Bayes methods are simple probabilistic classifiers that are widely applied for spam filtering and deciding whether a text is positive or negative. + +They require a small amount of training data to estimate the necessary parameters. They can be extremely fast compared to more sophisticated methods. They are difficult to generalise, this means, that they perform on very specific tasks, demanding to be trained with the same style of data that will be used to work with afterwards. + +This game allows you to play along the rules of Naive Bayes. While manually executing the code, you create your own playful model that 'just works'. A little caution is needed: because you only train it with 6 sentences - instead of minimum 2000 - it is not representative at all! +Perceptron game + +Neural Networks are the hew hype. They are everywhere, in your search engine, in your translation software, in the ranking of your social media feeds. The basic element of the Neural Network is the Perceptron algorithm. Perceptron is a single layer neural network. A stack of Perceptrons is called a Neural Network. + +In this game you experience the specific talents of machines and humans. While we get quickly bored and tend to optimize repetitive tasks, machines are fond of repetitive tasks and execute them without any complaint. And they can calculate really really fast. This game takes 30 minutes to play, while a computer does exactly the same job in a few seconds. +Linear Regression game + +Linear Regression is one of the most well known and well understood algorithms in statistics and machine learning. It has been around for almost 200 years. It is an attractive model because the representation is so simple. In statistics, linear regression is is a statistical method that allows to summarize and study relationships between two continuous (quantitative) variables. + +By playing this game you will realize that as a player you have a lot of decisions to make. You will experience what it means to create a coherent dataset, to decide what is in and what is not in. If all goes well, you will feel the urge to change your data in order to obtain better results. This is part of the art of approximation that is at the basis of all machine learning practises. +Traité de documentation + +Traité de Documentation. Algorithmic poem. + +by Rémi Forte, designer-researcher at the l’Atelier national de recherche typographique, Nancy, France + +serigraphy on paper, 60 × 80 cm, 25 ex., 2019 + + +This poem, reproduced in the form of a poster, is an algorithmic and poetic re-reading of Paul Otlet's Traité de documentation. It is the result of an algorithm based on the mysterious rules of the human intuition. It is applied to a fragment taken from Paul Otlet's book and is intended to be representative of his bibliological practice. The algorithm splits the text, words and punctuation marks are counted and reordered into a list. In each line, the elements combine and exhaust the syntax of the selected fragment. Paul Otlet's language remains perceptible but exacerbated to the point of absurdity. For the reader, the systematization of the text is disconcerting and his reading habits are disrupted. Built according to a mathematical equation, the typographical composition of the poster is just as systematic as the poem. However, friction occurs occasionally; loop after loop, the lines extend to bite on the neighbouring column. Overlays are created and words are hidden by others. These telescopic handlers draw alternative reading paths. +Contextual stories about Learners +Contents + + 1 Naive Bayes & Viagra + 1.1 Reference + 2 Naive Bayes & Enigma + 3 A story on sweet peas + 3.1 References + 4 Perceptron + 5 BERT + 5.1 References + +Naive Bayes & Viagra + +Naive Bayes is a famous learner that performs well with little data. We apply it all the time. Christian & Griffiths state in their book, 'Algorithms to Live by', that 'our days are full of small data'. Imagine for example you're standing at a bus stop in a foreign city. The other person who is standing there, has been waiting for 7 minutes. What do you do? Do you decide to wait? And if yes, for how long? When will you initiate other options? Another example. Imagine a friend asking advice on a relationship. He's been together with his new partner for 1 month. Should he invite the partner to join him at a family wedding? + +Having preexisting beliefs is crucial for Naive Bayes to work. The basic idea is that you calculate the probabilities based on prior knowledge and given a specific situation. + +The theorem was formulated during the 1740s by reverend and amateur mathematician Thomas Bayes. He dedicated his life to solving the question of how to win the lottery. But Bayes' rule was only made famous and known as it is today by the mathematician Pierre Simon Laplace in France a bit later in the same century. For a long time after La Place's death, the theory sunk to oblivion until it was dug out again during the Second World War in an effort to break the Enigma code. + +Most people today have come in contact with Naive Bayes through their email spam folders. Naive Bayes is a widely used algorithm for spam detection. It is by coincidence that Viagra, the erectile dysfunction drug, was approved by the US Food & Drug Administration in 1997, around the same time as about 10 million users worldwide had made free web mail accounts. The selling companies were among the first to make use of email as a medium for advertising: it was an intimate space, at the time reserved for private communication, for an intimate product. In 2001, the first SpamAssasin programme relying on Naive Bayes was uploaded to SourceForge, cutting down on guerilla email marketing. +Reference + +Machine Learners, by Adrian MacKenzie, The MIT Press, Cambridge, US, November 2017. +Naive Bayes & Enigma + +This story about Naive Bayes is taken from the book: 'The theory that would not die', written by Sharon Bertsch McGrayne. Amongst other things, she describes how Naive Bayes was soon forgotten after the death of Pierre Simon Laplace, its inventor. The mathematician was said to have failed to credit the works of others. Therefore, he suffered widely circulated charges against his reputation. Only after 150 years the accusation was refuted. + +Fast forward to 1939, when Bayes' rule was still virtually taboo, dead and buried in the field of statistics. When France was occupied in 1940 by Germany, who controlled Europe's factories and farms, Winston Churchill's biggest worry was the U-boat peril. The U-boat operations were tightly controlled by German headquarters in France. Each submarine received orders as coded radio messages long after it was out into the Atlantic. The messages were encrypted by word scrambling machines, called Enigma machines. Enigma looked like a complicated typewriter. It was invented by the German firm Scherbius & Ritter after the First World War, when the need for message encoding machines had become painfully obvious. + +Interestingly, and luckily for Naive Bayes and the world, at that time, the British government and educational systems saw applied mathematics and statistics as largely irrelevant to practical problem solving. So the British agency charged with cracking German military codes mainly hired men with linguistic skills. Statistical data was seen as bothersome because of its detail-oriented nature. So wartime data was often analyzed not by statisticians, but by biologists, physicists, and theoretical mathematicians. None of them knew that the Bayes rule was considered to be unscientific in the field of statistics. Their ignorance proved fortunate. + +It was the now famous Alan Turing, a mathematician, computer scientist, logician, cryptoanalyst, philosopher and theoretical biologist, who used Bayes' rules probabilities system to design the 'bombe'. This was a high-speed electromechanical machine for testing every possible arrangement that an Enigma machine would produce. In order to crack the naval codes of the U-boats, Turing simplified the 'bombe' system using Baysian methods. It turned the UK headquarters into a code-breaking factory. The story is well illustrated in 'The Imitation Game', a film by Morten Tyldum in 2014. +A story on sweet peas + +Throughout history, some models were invented by people with ideologies that are not to our liking. The idea of regression stems from Sir Francis Galton, an influential 19th Century scientist. He spent his life studying the problem of heredity – understanding how strongly the characteristics of one generation of living beings manifested in the following generation. He established the field of eugenics, and defined it as ‘the study of agencies under social control that may improve or impair the racial qualities of future generations, either physically or mentally.’ On Wikipedia, Galton is a prime example of scientific racism. + +Galton initially approached the problem of heredity by examining characteristics of the sweet pea plant. He chose this plant because the species can self-fertilize. Daughter plants inherit genetic variations from mother plants without a contribution from a second parent. This characteristic eliminates having to deal with multiple sources. + +Galton's research was appreciated by many intellectuals of his time. In 1869, in 'Hereditary Genius', Galton claimed that genius is mainly a matter of ancestry and he believed that there was a biological explanation for social inequality across races. Galton even influenced his half-cousin Charles Darwin of his ideas. After reading Galton's paper, Darwin stated, "You have made a convert of an opponent in one sense for I have always maintained that, excepting fools, men did not differ much in intellect, only in zeal and hard work." Luckily, the modern study of heredity managed to eliminate the myth of racially-based genetic difference, something Galton tried so hard to maintain. + +Galton's major contribution to the field was linear regression analysis, laying the groundwork for much of modern statistics. While we engage with the field of machine learning, Algolit tries not to forget that ordering systems hold power, and that this power has not always been used to the benefit of everyone. Machine learning has inherited many aspects of statistical research, some less agreeable than others. We need to be attentive, because these world views do seep into the algorithmic models that create new orders. +References + +http://galton.org/letters/darwin/correspondence.htm + +https://www.tandfonline.com/doi/full/10.1080/10691898.2001.11910537 + +http://www.paramoulipist.be/?p=1693 +Perceptron + +We find ourselves in a moment in time in which neural networks are sparking a lot of attention. But they have been in the spotlight before. The study of neural networks goes back to the 1940s, when the first neuron metaphor emerged. The neuron is not the only biological reference in the field of machine learning - think of the word corpus or training. The artificial neuron was constructed in strong connection to its biological counterpart. + +Psychologist Frank Rosenblatt was inspired by fellow psychologist Donald Hebb's work on the role of neurons in human learning. Hebb stated that "cells that fire together wire together." His theory now lies at the basis of associative human learning, but also unsupervised neural network learning. It moved Rosenblatt to expand on the idea of the artificial neuron. + +In 1962, he created the Perceptron. The perceptron is a model that learns through the weighting of inputs. It was set aside by the next generation of researchers, because it can only handle binary classification. This means that the data has to be clearly separable, as for example, men and women, black and white. It is clear that this type of data is very rare in the real world. When the so-called first AI winter arrived in the 70s and the funding decreased, the Perceptron was also neglected. For 10 years it stayed dormant. When Spring settled at the end of the 80s, a new generation of researchers picked it up again and used it to construct neural networks. These contain multiple layers of perceptrons. That is how neural networks saw the light. One could say that the current machine learning season is particularly warm, but it takes another Winter to know a Summer. +BERT + +Some online articles say the year 2018 marked a turning point for the field of Natural Language Processing. A series of deep-learning models achieved state-of-the-art results on tasks like question answering or sentiment classification. Google’s BERT algorithm entered the machine learning competitions of last year as a sort of “one model to rule them all.” It showed a superior performance over a wide variety of tasks. + +BERT is pre-trained; its weights are learned in advance through two unsupervised tasks. This means BERT doesn’t need to be trained from scratch for each new task. You only have to finetune its weights. This also means that a programmer wanting to use BERT, does not know any longer what parameters BERT is tuned to, nor what data it has seen to learn its performances. + +BERT stands for Bidirectional Encoder Representations from Transformers. This means that BERT allows for bidirectional training. The model learns the context of a word based on all of its surroundings, left and right of a word. As such, it can differentiate between 'I accessed the bank account' and 'I accessed the bank of the river'. + +Some facts: + + BERT_large, with 345 million parameters, is the largest model of its kind. It is demonstrably superior on small-scale tasks to BERT_base, which uses the same architecture with “only” 110 million parameters. + to run BERT you need to use TPU's. These are the Google's CPU's especially engineered for TensorFLow, the deep learning platform. TPU's renting rates range from 8$/h till 394$/h. Algolit doesn't want to work with off-the-shelf-packages, we are interested in opening the blackbox. In that case, BERT asks for quite some savings in order to be used. + +References + + https://ai.googleblog.com/2018/11/open-sourcing-bert-state-of-art-pre.html + https://towardsdatascience.com/deconstructing-bert-distilling-6-patterns-from-100-million-parameters-b49113672f77 + +Sources diff --git a/workfiles/empty.pdf b/workfiles/empty.pdf new file mode 100644 index 0000000..3b097ad Binary files /dev/null and b/workfiles/empty.pdf differ diff --git a/workfiles/tarty.py b/workfiles/tarty.py new file mode 100644 index 0000000..1686f2e --- /dev/null +++ b/workfiles/tarty.py @@ -0,0 +1,137 @@ + +tarty = { + 'a' : '''█▀▀█◕ +█▄▄█◕ +▀──▀◕''', + 'b' : '''█▀▀▄◕ +█▀▀▄◕ +▀▀▀─◕''', + 'c' : '''█▀▀◕ +█──◕ +▀▀▀◕''', + 'd' : '''█▀▀▄◕ +█──█◕ +▀▀▀─◕''', + 'e' : '''█▀▀◕ +█▀▀◕ +▀▀▀◕''', + 'f' : '''█▀▀◕ +█▀▀◕ +▀──◕''', + 'g' : '''█▀▀▀◕ +█─▀█◕ +▀▀▀▀◕''', + 'h' : '''█──█◕ +█▀▀█◕ +▀──▀◕''', + 'i' : '''─▀─◕ +▀█▀◕ +▀▀▀◕''', + 'j' : '''──▀◕ +──█◕ +█▄█◕''', + 'k' : '''█─█◕ +█▀▄◕ +▀─▀◕''', + 'l' : '''█──◕ +█──◕ +▀▀▀◕''', + 'm' : '''█▀▄▀█◕ +█─▀─█◕ +▀───▀◕''', + +} + + + +# █▀▀▄◕ +# █──█◕ +# ▀──▀◕ + +# █▀▀█◕ +# █──█◕ +# ▀▀▀▀◕ + +# █▀▀█◕ +# █──█◕ +# █▀▀▀◕ + +# █▀▀█◕ +# █──█◕ +# ▀▀▀█◕ + +# █▀▀█◕ +# █▄▄▀◕ +# ▀─▀▀◕ + +# █▀▀◕ +# ▀▀█◕ +# ▀▀▀◕ + +# ▀▀█▀▀◕ +# ──█──◕ +# ──▀──◕ + +# █──█◕ +# █──█◕ +# ─▀▀▀◕ + +# ▀█─█▀◕ +# ─█▄█─◕ +# ──▀──◕ + +# █───█◕ +# █▄█▄█◕ +# ─▀─▀─◕ + +# █─█◕ +# ▄▀▄◕ +# ▀─▀◕ + +# █──█◕ +# █▄▄█◕ +# ▄▄▄█◕ + +# ▀▀█◕ +# ▄▀─◕ +# ▀▀▀◕ + +# █▀▀█◕ +# █▄▀█◕ +# █▄▄█◕ + +# ▄█─◕ +# ─█─◕ +# ▄█▄◕ + +# █▀█◕ +# ─▄▀◕ +# █▄▄◕ + +# █▀▀█◕ +# ──▀▄◕ +# █▄▄█◕ + +# ─█▀█─◕ +# █▄▄█▄◕ +# ───█─◕ + +# █▀▀◕ +# ▀▀▄◕ +# ▄▄▀◕ + +# ▄▀▀▄◕ +# █▄▄─◕ +# ▀▄▄▀◕ + +# ▀▀▀█◕ +# ──█─◕ +# ─▐▌─◕ + +# ▄▀▀▄◕ +# ▄▀▀▄◕ +# ▀▄▄▀◕ + +# ▄▀▀▄◕ +# ▀▄▄█◕ +# ─▄▄▀◕ diff --git a/workfiles/template-1.txt b/workfiles/template-1.txt new file mode 100644 index 0000000..c6cb196 --- /dev/null +++ b/workfiles/template-1.txt @@ -0,0 +1,35 @@ +░░░░░░░░░░░░░░░░░░░░░░░░░░░ ░░ ░ ░ ░ ░░░░ ░ +░░░░░░░░░░░░░░░░░░░░░░░░░ ░░░ ░ ░ ░ ░ +░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░ ░ ░ ░ ░ +░░░░░░░░░░░░░░░░░░░░░░░ ░ ░░░ ░ ░ ░ +░░░░░░░░░░░░░ ░░░░░░░░ ░░░░░░░ ░ ░ ░ ░ ░ ░ +░░░░░░░░░░░░░░ ░░░░░ ░░ ░░░░░ ░ ░ ░ ░░░ ░ ░ ░ +░░░░░░░░░░░░░ ░ ░░░░░░░░░░░░ ░ ░ ░ ░░░░░ ░ ░ ░ ░ ░ +░░░░░░░░░░░░░░ ░░░░ ░░░░░░░ ░ ░░░ ░░ ░░ ░ ░ ░ ░ ░ ░ +░░░░░░░░░ ░░░░░░░░ ░ ░░░ ░ ░ ░░░░░ ░░░ ░ ░ ░ ░ ░ ░ ░ ░ +░░░░░░░░ ░ ░░░░░░░░ ░ ░░░ ░ ░░░░░░░ ░ ░ ░ ░ ░ ░ ░ ░ +░░░░░░░░░ ░░░░░░░░ ░ ░ ░ ░ ░ ░░░░░░░ ░ ░ ░ ░ ░ ░ ░ +░░░░░░░░░░░░░░░░░░░ ░ ░ ░ ░ ░ ░░░░░░ ░ ░ ░ ░ ░ +░░░░░░░░░░░░░ ░░░░░░ ░ ░ ░ ░ ░ ░░░░ ░ ░ ░ ░ ░ ░ +░░░░░░░░░░░░░░ ░░░░░░ ░ ░ ░ ░ ░ ░░ ░ ░ ░ ░ ░ +░░░░░░░░░░░░░ ░ ░░░░░░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ +░░░░░░░░░░░░░░ ░ ░░░░░░░░ ░ ░ ░░ ░ ░ ░░ ░ ░ ░ +░░░░░░░░░░░░░░░ ░░░░ ░░░ ░ ░░ ░ ░ ░░░░ ░ +░░░░░░░░░░░░░░░░░░░ ░░░░░ ░ ░░ ░ ░ ░ ░ ░ ░ +░░░░░░░░░░░░░░░░░░ ░░░░░░░ ░░ ░ ░ ░ ░ ░ ░ ░ ░ +░░░░░░░░░░░░░░░░░░░ ░░░░ ░ ░ ░ ░ ░ ░ ░ ░ +░░░░░░░░░░░░░░░░░░░░ ░░ ░░░░░░░ ░ ░ ░ ░ +░░░░░░░░░░░░░ ░░░░░░░░ ░░░░░░░ ░ ░ ░ ░ ░ +░░░░░░░░░░░░░░ ░░░░░░ ░ ░░░░░░░ ░ ░ ░ ░ ░ ░ ░ +░░░░░░░░░░░░░ ░ ░░░░░░ ░░░░░░░ ░ ░ ░░░ ░ ░ ░ ░ ░ +░░░░░░░░░░░░░░ ░ ░░ ░░░ ░░░░░ ░ ░ ░░ ░ ░ ░ ░ ░ ░ +░░░░░░░░░ ░░░░░ ░░ ░ ░░░░░░░ ░░░ ░░ ░ ░ ░ ░ ░ ░ ░ ░ +░░░░░░░░ ░ ░░░░░░░░ ░ ░░░░░ ░░░░░ ░ ░ ░ ░ ░ ░ ░ ░ +░░░░░░░░░ ░░░░░░░░ ░ ░ ░ ░ ░ ░░░░░ ░ ░ ░ ░ ░ ░ ░ ░ +░░░░░░░░░░░░░░░░░░░ ░ ░ ░ ░ ░ ░░░░░ ░ ░ ░ ░ ░ +░░░░░░░░░░░░░ ░░░░░░ ░ ░ ░ ░ ░ ░░░░ ░ ░ ░ ░ ░ +░░░░░░░░░░░░░░ ░░░░░░ ░ ░ ░ ░ ░ ░░ ░ ░ ░ ░ +░░░░░░░░░░░░░ ░ ░░░░░░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ +░░░░░░░░░░░░░░ ░ ░░░░░░░░ ░ ░ ░ ░ ░ ░ ░ ░ +░░░░░░░░░░░░░░░ ░░░░░░░░ ░ ░ ░░ ░ ░ ░ +░░░░░░░░░░░░░░░░░░░░░░░░░ ░ ░░ ░ ░ ░░ ░ diff --git a/workfiles/template-2.txt b/workfiles/template-2.txt new file mode 100644 index 0000000..e09b917 --- /dev/null +++ b/workfiles/template-2.txt @@ -0,0 +1,35 @@ + ░ ░░ ░ ░░ ░░░ ░░ ░ ░ ░ ░ ░ ░ ░ ░░░░░ +░ ░░ ░ ░ ░░░ ░░░ ░ ░ ░ ░░░ ░░░░░░░ ░ ░ ░░░░░░ ░ + ░ ░░░ ░ ░ ░ ░ ░░ ░ ░ ░ ░ ░ ░ ░ +░░░░░ ░ ░ ░ ░░░ ░ ░░░░░ ░ ░░░ ░ ░░ ░ ░░░ ░ ░ ░ + ░ ░ ░ ░ ░ ░░░ ░ ░ ░ ░ ░ ░ ░ ░ ░ +░ ░░ ░░░ ░ ░ ░ ░ ░ ░░░ ░ ░░ ░ ░░░ ░ ░ ░░░ + ░ ░ ░ ░░ ░ ░░░ ░ ░░ ░░░░░ ░░ ░ ░ ░ ░ ░░░░ ░ +░░░░░ ░ ░ ░░░░░ ░ ░░░ ░░░ ░ ░ ░░░ ░ ░ ░░░░░░░ ░░ + ░░░ ░ ░ ░░░ ░░ ░ ░ ░ ░░ ░ +░ ░░░░░ ░░░ ░ ░ ░ ░ ░░░ ░░ ░░ ░ ░ ░ ░░░░░ ░ ░ +░ ░░░ ░ ░ ░ ░░░░░ ░ ░ ░ ░░░ ░ +░ ░ ░ ░ ░░ ░ ░ ░ ░░░ ░░░░░░░░ ░ ░░░░░ ░ ░ ░░ + ░ ░░ ░ ░ ░░░░░ ░ ░ ░░░ ░ ░░ ░░░ + ░░░ ░ ░░░░ ░ ░ ░░░ ░ ░ ░ ░ ░ ░ ░░ ░ ░░░ ░ ░ ░ +░░ ░░░░ ░░░ ░░░░░ ░ ░ ░ ░░ ░ ░ ░░░ ░ ░░ ░ +░░░ ░ ░░░░░░░░░░░░░░░░░ ░ ░ ░░░ ░░░ ░░░ ░░ ░░░░ ░ + ░ ░ ░ ░░░░░░ ░░░░ ░ ░ ░ ░ ░ ░░░░░░ +░ ░ ░░░░░ ░ ░░░ ░░░░░░░ ░ ░░░ ░░░ ░░░ ░░░░░░░ ░░ ░ + ░ ░ ░ ░░░ ░ ░ ░ ░ ░ ░░ ░ ░ ░ ░ ░ ░░ ░░░ ░ +░ ░░░░░ ░ ░░░ ░░░ ░░░ ░░░ ░░ ░ ░ ░ ░░░ ░ ░ ░ ░ ░ + ░░ ░ ░ ░ ░░░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░░ +░░░ ░ ░░░ ░ ░ ░ ░ ░ ░░░░ ░░░░░░ ░ ░░░ ░░░░ + ░░ ░ ░ ░ ░░ ░ ░ ░ ░ ░ ░ +░░░ ░░░ ░ ░ ░ ░ ░░░░░ ░░░ ░░░ ░ ░░░ ░ ░ ░░░░░ + ░ ░ ░ ░ ░ ░ ░░░ ░░ ░ ░ ░ ░ +░ ░ ░ ░ ░░░ ░ ░░ ░ ░ ░░░ ░░░ ░ ░░░░ ░ ░ ░ ░ + ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░░ ░ ░ +░ ░ ░░ ░░ ░ ░ ░ ░ ░░░░░░░ ░ ░ ░ ░ ░ ░ ░ ░ ░ ░░ + ░░ ░ ░ ░ ░ ░ ░ ░░░ ░ ░ ░░ ░░ +░ ░ ░ ░ ░░░░░ ░░░ ░░ ░ ░ ░ ░ ░ ░ ░ ░░ ░░░ ░ ░ + ░░ ░░ ░ ░ ░ ░ ░░░ ░ ░ ░ ░ ░░░ ░ ░ ░░ +░░░ ░ ░ ░ ░░░░░ ░ ░░░░░ ░░░ ░ ░░░ ░░░░░ ░ ░░░ + ░░░ ░ ░░ ░ ░ ░ ░ ░░░ ░ ░░ ░ ░ ░ + ░░░░ ░ ░ ░░░░░░░ ░ ░ ░ ░ ░ ░░ ░░░ ░░░ ░░░░ + ░ ░░░ ░░░ ░░ ░░ ░ ░ ░░ ░ ░░░░░ ░ ░ ░ ░ ░░░ diff --git a/workfiles/template-3.txt b/workfiles/template-3.txt new file mode 100644 index 0000000..a09a382 --- /dev/null +++ b/workfiles/template-3.txt @@ -0,0 +1,35 @@ +░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░ + ░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░ + ░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░ + ░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░ + ░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░ +░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░ +░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░ + ░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░ + ░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░ + ░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░ +░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░ +░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░ + ░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░ + ░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░ + ░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░ + ░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░ + ░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░ +░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░ +░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░ + ░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░ + ░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░ + ░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░ + ░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░ + ░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░ +░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░ +░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░ + ░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░ + ░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░ + ░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░ + ░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░ + ░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░ + ░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░ +░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░ + ░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░ + ░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░ diff --git a/workfiles/template.xcf b/workfiles/template.xcf new file mode 100644 index 0000000..f1867dc Binary files /dev/null and b/workfiles/template.xcf differ