{% extends "fr/base.html" %} {% block title %}{% endblock %} {% block search %} {% endblock %} {% block results %}
def tfidf(query, words, corpus):
# Term Frequency
tf_count = 0
for word in words:
if query == word:
tf_count += 1
tf = tf_count/len(words)
# Inverse Document Frequency
idf_count = 0
for words in corpus:
if query in words:
idf_count += 1
tfidf_value = tf * idf
return tf_count, tf_count, tfidf_value
[Note sur les mappings de contraste]
L’algorithme TF-IDF, formaté ci dessus dans le language de programmation Python, intègre un niveau de contraste au sein du texte, sous une forme numérique. Les mots se démarquant le plus fortement sont considérés par l’algorithme comme les plus importants pour ce texte.
Ces mappings de contraste permettent une lecture simultannée des manifestes et de l’algorithme.
Les valeurs TF-IDF sont calculées en deux étapes. Premièrement, l’algorithme compte la fréquence Term Frequency (TF) en recherchant l’apparition d’un mot dans le texte, proportionellement au nombre total de mots au sein de ce texte. Cette façon de rechercher la fréquence rend possible la comparaison du nombre de mots entre des documents de largeur variable. Ceci rend la comparaison possible entre le très long Manifeste Cyborg de Donna Haraway (1984) et le Call for Feminist Data de Caroline Sinders (2018), lui-même relativement succint.
Lors de la seconde étape, l’algorithme établira un comptage comparatif avec tous les autres documents dans l’ensemble donné, en utilisant la partie Inversed Document Frequency (IDF). Cette partie de l’algorithme, qui constitue la contribution de Karen Spärck Jones, a introduit une forme subtile d’inversion relative à travers tous les documents d’un ensemble donné. Plutôt que de se limiter à un calcul de fréquence au sein d’un document, Karen a proposé de comparer cette fréquence entre tous les documents. Cela signifie que lorsqu’un mot n’apparaît qu’au sein d’une quantité très restreinte de documents, sa valeur sera élargie.
En conséquence, des mots tels que “le”, “elle” ou “il” obtiendront un nombre très petit, puisqu’ils apparaissent fréquemment. Le terme paranodal n’apparaît que 4 fois dans A Feminist Server Manifesto. Il s’agit d’un terme très fort et specifique, n’apparaissant dans aucun autre du corpus.
Autre cas de figure est SCUM. Bien que le mot SCUM ne soit pas le mot le plus utilisé dans le S.C.U.M Manifesto, il s’agit du mot obtenant le score le plus élevé: en comparaison avec tous les autres manifestes, le mot SCUM est principalement utilisé dans cet ouvrage ce qui a pour conséquence d’augmenter son score très fortement.
{% for word, tfidf in sentence %} {{ word }} {% endfor %}
{% endfor %}