searrrrrrrrrrch/tfidf.py


								import os, json, re

								from math import log, exp

								from flask import Markup


								from nltk import sent_tokenize

								from nltk.tokenize import RegexpTokenizer

								tokenizer = RegexpTokenizer(r'\w+') # initialize tokenizer


								import pprint

								pp = pprint.PrettyPrinter(indent=4)


								def tfidf(query, words, corpus):

									# Term Frequency

									tf_count = 0

									for word in words:

										if query == word:

											tf_count += 1

									tf = tf_count/len(words)

									# print('count:', tf_count)

									# print('total:', len(words))

									# print('TF - count/total', tf_count/len(words))


									# Inverse Document Frequency

									idf_count = 0

									for words in corpus:

										if query in words:

											idf_count += 1

									# print('count:', idf_count)

									idf = log(len(corpus)/idf_count)

									# print('documents:', len(corpus))

									# print('documents/count', len(corpus)/idf_count)

									# print('IDF - log(documents/count)', log(len(corpus)/idf_count))


									tfidf_value = tf * idf

									# print('TF-IDF:', tfidf_value)


									return tf_count, tf_count, tfidf_value


								def load_text_files():

									files = []

									corpus = []

									sentences = {}

									dir = 'txt'


									for f in sorted(os.listdir(dir)):

										# manifesto = f.replace('.txt','')

										manifesto = f

										lines = open(dir+'/'+f, "r").read() # list of lines in .txt file

										words = [word for word in tokenizer.tokenize(lines)] # tokenize words, without punctuation

										corpus.append(words) # all words of one manifesto, in reading order

										s = sent_tokenize(lines)

										sentences[manifesto] = s

										files.append(manifesto) # list of filenames


									print('*txt files loaded*')

									return files, corpus, sentences


								def create_index():

									files, corpus, sentences = load_text_files()

									index = {}


									# index = {

									# 	Fem manifesto : {

									# 		'words' : {

									# 			'aap': 39.2,

									# 			'beer': 20.456,

									# 			'citroen': 3.21

									# 		}

									# 		'tf' : {

									# 			'aap': 4,

									# 			'beer': 6,

									# 			'citroen': 2

									# 		}

									# 		'idf' : {

									# 			'aap': 4,

									# 			'beer': 6,

									# 			'citroen': 2

									# 		}

									# 	}

									# }


									for i, words in enumerate(corpus):

										manifesto = files[i]

										index[manifesto] = {}

										index[manifesto]['sentences'] = sentences[manifesto]

										for word in words:

											tf_count, idf_count, tfidf_value = tfidf(word, words, corpus)

											if 'words' not in index[manifesto]:

												index[manifesto]['words'] = {}

											index[manifesto]['words'][word] = tfidf_value

											if 'tf' not in index[manifesto]:

												index[manifesto]['tf'] = {}

											index[manifesto]['tf'][word] = tf_count


									with open('index.json','w+') as out:

										out.write(json.dumps(index, indent=4, sort_keys=True))

										out.close()

									print('*index created*')


								def load_index():

									f = open('index.json').read()

									index = json.loads(f)

									return index


								def request_results(query):

									query = query.strip()

									f = open('index.json').read()

									index = json.loads(f)

									files = [manifesto for manifesto, _ in index.items()]


									results = {}


									# results = {

									# 	0 : {

									#       'name' : 'Fem_manifesto',

									# 		'value' : 0.00041,

									# 		'sentences' : [

									# 			'This is a first sentence.',

									# 			'This is a second sentence.',

									# 			'This is a third sentence.'

									# 		]

									# 	}

									# }


									# make a list of manifesto's that use the query word

									result_matches = []

									for manifesto, _ in index.items():

										for word, value in index[manifesto]['words'].items():

											if query == word:

												tf = index[manifesto]['tf'][word]

												total = len(index[manifesto]['words'])

												sentences = index[manifesto]['sentences']

												result_matches.append([value, manifesto, tf, total, sentences])


									result_matches.sort(reverse=True)

									for x, result in enumerate(result_matches):

										results[x] = {}

										results[x]['tfidf'] = result[0]

										results[x]['name'] = result[1]

										results[x]['tf'] = result[2]

										results[x]['total'] = result[3]

										results[x]['sentences'] = result[4]


									pp.pprint(results)


									# make a list of sentences that contain the query word

									# and shape results object

									for x, manifesto in results.items():

										value = manifesto['tfidf'] * 50000

										result_sentences = []

										# count = 0

										for s in manifesto['sentences']:

											done = 'no'

											for word in tokenizer.tokenize(s):

												if word == query:

													# if count < 3: # set to include a max 3 results/manifesto in the results list

													# count += 1

													if done is not 'yes':

														sentence = re.sub(r'[ .,;/\\*]'+query+r'[ ,.;/\\*]', '<strong style="font-size:{}%;"> {} </strong>'.format(100 + value, query), s)

														html = Markup(sentence)

														# if count == 3:

															# html = html + Markup('<div id="more">(...)<sup>*</sup></div>')

														result_sentences.append(html)

														done = 'yes'

										results[x]['sentences'] = result_sentences


									print('*results returned*')

									return results, files


								def request_ordered():

									f = open('index.json').read()

									index = json.loads(f)

									files = [manifesto for manifesto, _ in index.items()]

									results = {}

									for manifesto, _ in index.items():

										words = sorted([[value, word] for word, value in index[manifesto]['words'].items()], reverse=True)

										results[manifesto] = words

									return results, files


								def request_ordered_all():

									f = open('index.json').read()

									index = json.loads(f)

									files = [manifesto for manifesto, _ in index.items()]

									results = []

									i = 0

									for manifesto, _ in index.items():

										for word, value in index[manifesto]['words'].items():

											results.append([value, word, i])

										i += 1

									results = sorted(results)

									return results, files