You can not select more than 25 topics
Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
62 lines
4.4 KiB
62 lines
4.4 KiB
{% extends "fr/base.html" %}
|
|
{% block title %}{% endblock %}
|
|
|
|
{% block search %}
|
|
{% endblock %}
|
|
|
|
{% block results %}
|
|
<div class="cross">
|
|
|
|
<p class="tfidf" style="margin-left: calc(50% + 1.5em);">
|
|
<code>
|
|
def tfidf(query, words, corpus):<br /><br>
|
|
# Term Frequency<br />
|
|
tf_count = 0<br />
|
|
for word in words:<br />
|
|
if query == word:<br />
|
|
tf_count += 1<br />
|
|
tf = tf_count/len(words)<br />
|
|
<br />
|
|
# Inverse Document Frequency<br />
|
|
idf_count = 0<br />
|
|
for words in corpus:<br />
|
|
if query in words:<br />
|
|
idf_count += 1<br />
|
|
<br />
|
|
tfidf_value = tf * idf<br />
|
|
<br />
|
|
return tf_count, tf_count, tfidf_value
|
|
</code>
|
|
</p>
|
|
<br><br>
|
|
|
|
<p class="note">[Note sur les mappings de contraste]</p>
|
|
<p class="tfidf" style="float: right;margin-left:1em;">
|
|
L’algorithme TF-IDF, formaté ci dessus dans le language de programmation Python, intègre un niveau de contraste au sein du texte, sous une forme numérique. Les mots se démarquant le plus fortement sont considérés par l’algorithme comme les plus importants pour ce texte.
|
|
<br><br>
|
|
Ces mappings de contraste permettent une lecture simultannée des manifestes et de l’algorithme.
|
|
<br><br>
|
|
Les valeurs TF-IDF sont calculées en deux étapes. Premièrement, l’algorithme compte la fréquence <em>Term Frequency (TF)</em> en recherchant l’apparition d’un mot dans le texte, proportionellement au nombre total de mots au sein de ce texte. Cette façon de rechercher la fréquence rend possible la comparaison du nombre de mots entre des documents de largeur variable. Ceci rend la comparaison possible entre le très long <em>Manifeste Cyborg</em> de Donna Haraway (1984) et le Call for Feminist Data de Caroline Sinders (2018), lui-même relativement succint.
|
|
<br><br>
|
|
Lors de la seconde étape, l’algorithme établira un comptage comparatif avec tous les autres documents dans l’ensemble donné, en utilisant la partie <em>Inversed Document Frequency (IDF)</em>. Cette partie de l’algorithme, qui constitue la contribution de Karen Spärck Jones, a introduit une forme subtile d’inversion relative à travers tous les documents d’un ensemble donné. Plutôt que de se limiter à un calcul de fréquence au sein d’un document, Karen a proposé de comparer cette fréquence entre tous les documents. Cela signifie que lorsqu’un mot n’apparaît qu’au sein d’une quantité très restreinte de documents, sa valeur sera élargie.
|
|
<br><br>
|
|
En conséquence, des mots tels que <em>“le”</em>, <em>“elle”</em> ou <em>“il”</em> obtiendront un nombre très petit, puisqu’ils apparaissent fréquemment. Le terme paranodal n’apparaît que 4 fois dans A Feminist Server Manifesto. Il s’agit d’un terme très fort et specifique, n’apparaissant dans aucun autre du corpus.
|
|
<br><br>
|
|
Autre cas de figure est <em>SCUM</em>. Bien que le mot <em>SCUM</em> ne soit pas le mot le plus utilisé dans le <em>S.C.U.M Manifesto</em>, il s’agit du mot obtenant le score le plus élevé: en comparaison avec tous les autres manifestes, le mot <em>SCUM</em> est principalement utilisé dans cet ouvrage ce qui a pour conséquence d’augmenter son score très fortement.
|
|
</p>
|
|
</div>
|
|
|
|
<div id="mappings">
|
|
<h1>{{ manifesto | prettyfilename }}</h1>
|
|
{% for sentence in mappings %}
|
|
<p class="sentence">
|
|
{% for word, tfidf in sentence %}
|
|
<strong class="query" style="font-size:{{ 50 + tfidf }}%;"> <a href="/{{ lang }}/?q={{ word }}">{{ word }}</a> </strong>
|
|
{% endfor %}
|
|
</p>
|
|
{% endfor %}
|
|
</div>
|
|
{% endblock %}
|
|
|
|
{% block suggestions %}
|
|
{% endblock %}
|
|
|