data-workers-publication/get_html_from_wiki.py

#! /usr/bin/env python2
# -*- coding: utf-8 -*-

from bs4 import BeautifulSoup as bs
from bs4 import NavigableString, Tag
from urllib.request import urlopen
from urllib.parse import urlparse, urljoin
import codecs
import copy
import re


template = """<!DOCTYPE html>
<html>
  <head>
	<meta charset="utf-8">
	<title>Data Workers</title>
	<!-- <link rel="stylesheet" href="stylesheet.css"> -->
  </head>
  <body>
  </body>
</html>"""

def makeBranch(level, tags, soup):
	branch = soup.new_tag('ul')
	leaf = None
	while len(tags) > 0:
		t = tags[0]
		if t['level'] > level and leaf:
			leaf.append(makeBranch(t['level'], tags, soup))
		elif t['level'] < level:
			if (leaf):
				branch.append(leaf)
				leaf = None
			return branch
		else:
			if (leaf):
				branch.append(leaf)
				leaf = None

			leaf = soup.new_tag('li')
			leaf.append(tagContent(tags[0]['tag']))
			tags.pop(0)
	if (leaf):
		branch.append(leaf)
		leaf = None
	return branch

def makeIndex(soup):
	eligible_tags = ['h1', 'h2', 'h3', 'h4', 'h5', 'li']
	buffer = soup.new_tag('ul')
	tags = [{'tag': copy.copy(tag), 'level': eligible_tags.index(
		tag.name)} for tag in soup.find_all(eligible_tags)]
	return makeBranch(tags[0]['level'], tags, soup)

def tagContent(tag):
	if tag.string:
		return tag.string
	else:
		return ''.join(tag.strings)

def classSafeContent(string):
	return re.sub(r'[^\w\-]+', '', re.sub(r'\s+', '-', string.lower()))

def makeLemma(title, lemma_type, url, bigSoup):
	print(url)
	try:
		lemma = ''
		lemmaSoup = bs(urlopen('{}?action=render'.format(url)), 'html.parser')
		lemma = bigSoup.new_tag("section")
		lemma['class'] = 'lemma {} {}'.format(classSafeContent(title), classSafeContent(lemma_type))

		header = bigSoup.new_tag('h3')
		header['class'] = 'lemmaheader'
		header.append(title)

		lemma.append(header)

		for t in lemmaSoup.contents:
			if isinstance(t, Tag):
				lemma.append(copy.copy(t))

		for img in lemma.find_all('img'):
			img.attrs['src'] = urljoin(baseurl, img.attrs['src'])
	except:
		print('└──> This page does not exist (yet).')
	return lemma


def pageBreaker(soup):
	breaker = soup.new_tag('section')
	breaker.attrs['class'] = 'page-breaker'
	breaker.string = ' '
	return breaker

def get_html_from_wiki(lang, url, baseurl):
	print('---\n', lang, url, '\n---')
	soup = bs(template, 'html.parser')
	pageSoup = bs(urlopen(url), 'html.parser')
	container = soup.new_tag('section')
	container['class'] = 'language {}'.format(lang)

	# Add a cover
	# cover = soup.new_tag('section')
	# cover.attrs['class'] = 'cover'
	# cover_img = soup.new_tag('img')
	# cover_img.attrs['src'] = 'img/dw.bw.no-info-text.png'
	# cover.append(cover_img)
	# soup.append(cover)

	# Add an index
	# index = soup.new_tag('section')
	# index.attrs['class'] = 'index'
	# title = soup.new_tag('div')
	# title.attrs['class'] = 'title'
	# index.append('Data Workers')
	# index.append(makeIndex(pageSoup))
	# soup.append(index)

	for child in pageSoup.contents:
		# print(child.name)
		if child.name == 'ul':
			chapter = soup.new_tag('section')
			chapter['class'] = 'group'

			for li in child.find_all('li'):
				links = li.find_all('a')
				if links:
					url = urljoin(baseurl, links[-1].attrs['href'])
					if re.match('.*algolit.net$', urlparse(url).netloc) or re.match('.*algolit.constantvzw.org$', urlparse(url).netloc):
						title = tagContent(links[-1])
						if 'stories' in title.lower():
							lemma_type = 'stories'
						else:
							lemma_type = 'works'
						chapter.append(makeLemma(title, lemma_type, url, soup))

			container.append(chapter)

		else:
			container.append(copy.copy(child))

	for header in container.find_all(['h1', 'h2', 'h3', 'h4', 'h5', 'h6']):
		header.attrs['id'] = classSafeContent(tagContent(header))
		header.replace_with(header)

	soup.body.append(container)

	with codecs.open('data-workers.{}.html'.format(lang), 'w+') as out:
		out.write(str(soup))
		out.close()

# baseurl = 'http://www.algolit.net'
# language = 'en'
# url = 'http://www.algolit.net/index.php/Data_Workers?action=render'
# language = 'fr'
# url = 'http://www.algolit.net/index.php/Data_Workers_FR?action=render'
# get_html_from_wiki(language, url, baseurl)