cross-readers/cross-reader.adj-pre/create_index.py

import os, json, re

import nltk
from nltk import sent_tokenize
from nltk.tokenize import RegexpTokenizer
tokenizer = RegexpTokenizer(r'\w+') # initialize tokenizer

import pprint
pp = pprint.PrettyPrinter(indent=4)

def load_text_files():
	files = []
	corpus = []
	sentences = {}
	wordlists = {}
	dir = 'txt'

	for document in sorted(os.listdir(dir)):
		document = document.replace('.txt','')
		lines = open('{}/{}.txt'.format(dir, document), "r").read() # list of lines in .txt file
		lines = lines.replace(' •', '. ') # turn custom linebreaks into full-stops to let the tokenizer recognize them as end-of-lines
		s = sent_tokenize(lines)
		sentences[document] = s
		files.append(document) # list of filenames

	print('*txt files loaded*')
	return files, sentences

def create_index():
	files, sentences = load_text_files()
	index = {}

	# index = {
	# 	document : {
	# 		'sentences' : []
	# }

	for document in files:
		print('---------')
		print('document:', document)
		index[document] = {}
		index[document]['sentences'] = sentences[document]

	with open('index.json','w+') as out:
		out.write(json.dumps(index, indent=4, sort_keys=True))
		out.close()
	print('*index created*')

# create_index()
first commit with 2 cross-reading prototypes 5 years ago			`import os, json, re`

			`import nltk`
			`from nltk import sent_tokenize`
			`from nltk.tokenize import RegexpTokenizer`
			`tokenizer = RegexpTokenizer(r'\w+') # initialize tokenizer`

			`import pprint`
			`pp = pprint.PrettyPrinter(indent=4)`

			`def load_text_files():`
			`files = []`
			`corpus = []`
			`sentences = {}`
			`wordlists = {}`
			`dir = 'txt'`

			`for document in sorted(os.listdir(dir)):`
			`document = document.replace('.txt','')`
			`lines = open('{}/{}.txt'.format(dir, document), "r").read() # list of lines in .txt file`
			`lines = lines.replace(' •', '. ') # turn custom linebreaks into full-stops to let the tokenizer recognize them as end-of-lines`
			`s = sent_tokenize(lines)`
			`sentences[document] = s`
			`files.append(document) # list of filenames`

			`print('txt files loaded')`
			`return files, sentences`

			`def create_index():`
			`files, sentences = load_text_files()`
			`index = {}`

			`# index = {`
			`# document : {`
			`# 'sentences' : []`
			`# }`

			`for document in files:`
			`print('---------')`
			`print('document:', document)`
			`index[document] = {}`
			`index[document]['sentences'] = sentences[document]`

			`with open('index.json','w+') as out:`
			`out.write(json.dumps(index, indent=4, sort_keys=True))`
			`out.close()`
			`print('index created')`

			`# create_index()`