cross-reader/templates/fr/mappings-name.html

63 lines
4.4 KiB
HTML
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

{% extends "fr/base.html" %}
{% block title %}{% endblock %}
{% block search %}
{% endblock %}
{% block results %}
<div class="cross">
<p class="tfidf" style="margin-left: calc(50% + 1.5em);">
<code>
def tfidf(query, words, corpus):<br /><br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;# Term Frequency<br />
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;tf_count = 0<br />
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;for word in words:<br />
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;if query == word:<br />
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;tf_count += 1<br />
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;tf = tf_count/len(words)<br />
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<br />
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;# Inverse Document Frequency<br />
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;idf_count = 0<br />
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;for words in corpus:<br />
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;if query in words:<br />
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;idf_count += 1<br />
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<br />
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;tfidf_value = tf * idf<br />
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<br />
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;return tf_count, tf_count, tfidf_value
</code>
</p>
<br><br>
<p class="note">[Note sur les mappings de contraste]</p>
<p class="tfidf" style="float: right;margin-left:1em;">
Lalgorithme TF-IDF, formaté ci dessus dans le language de programmation Python, intègre un niveau de contraste au sein du texte, sous une forme numérique. Les mots se démarquant le plus fortement sont considérés par lalgorithme comme les plus importants pour ce texte.
<br><br>
Ces mappings de contraste permettent une lecture simultannée des manifestes et de lalgorithme.
<br><br>
Les valeurs TF-IDF sont calculées en deux étapes. Premièrement, lalgorithme compte la fréquence <em>Term Frequency (TF)</em> en recherchant lapparition dun mot dans le texte, proportionellement au nombre total de mots au sein de ce texte. Cette façon de rechercher la fréquence rend possible la comparaison du nombre de mots entre des documents de largeur variable. Ceci rend la comparaison possible entre le très long <em>Manifeste Cyborg</em> de Donna Haraway (1984) et le Call for Feminist Data de Caroline Sinders (2018), lui-même relativement succint.
<br><br>
Lors de la seconde étape, lalgorithme établira un comptage comparatif avec tous les autres documents dans lensemble donné, en utilisant la partie <em>Inversed Document Frequency (IDF)</em>. Cette partie de lalgorithme, qui constitue la contribution de Karen Spärck Jones, a introduit une forme subtile dinversion relative à travers tous les documents dun ensemble donné. Plutôt que de se limiter à un calcul de fréquence au sein dun document, Karen a proposé de comparer cette fréquence entre tous les documents. Cela signifie que lorsquun mot napparaît quau sein dune quantité très restreinte de documents, sa valeur sera élargie.
<br><br>
En conséquence, des mots tels que <em>“le”</em>, <em>“elle”</em> ou <em>“il”</em> obtiendront un nombre très petit, puisquils apparaissent fréquemment. Le terme paranodal napparaît que 4 fois dans A Feminist Server Manifesto. Il sagit dun terme très fort et specifique, napparaissant dans aucun autre du corpus.
<br><br>
Autre cas de figure est <em>SCUM</em>. Bien que le mot <em>SCUM</em> ne soit pas le mot le plus utilisé dans le <em>S.C.U.M Manifesto</em>, il sagit du mot obtenant le score le plus élevé: en comparaison avec tous les autres manifestes, le mot <em>SCUM</em> est principalement utilisé dans cet ouvrage ce qui a pour conséquence daugmenter son score très fortement.
</p>
</div>
<div id="mappings">
<h1>{{ manifesto | prettyfilename }}</h1>
{% for sentence in mappings %}
<p class="sentence">
{% for word, tfidf in sentence %}
<strong class="query" style="font-size:{{ 50 + tfidf }}%;"> <a href="/{{ lang }}/?q={{ word }}">{{ word }}</a> </strong>
{% endfor %}
</p>
{% endfor %}
</div>
{% endblock %}
{% block suggestions %}
{% endblock %}