PROJECT WHO

1 minute read

STEP 1:

import requests
import lxml.html as lh
import pandas as pd
from bs4 import BeautifulSoup as bs

url = "https://www.who.int/emergencies/diseases/novel-coronavirus-2019/situation-reports/"

page = requests.get(url)
soup= bs(page.content, "html.parser")

content_block = soup.find(id="PageContent_C006_Col01")
content_block.findAll('a')

urls = [x['href'] for x in content_block.findAll('a') if 'docs' in x['href']]

STEP 2: Convert the pdfs to csvs

Single file conversion

camelot --format csv --output ./foo.csv --pages 1-end lattice sitrep56.pdf

Multi file conversion

(we did this in ocr_corona2)

for d in *; do
    if [[ $d == *.pdf ]] ; then
        echo "${d%%.*}"
        camelot --format csv --output ./${d%%.*}.csv --pages 1-end lattice $d
    fi
done

STEP 3: Merge the CSVS

import os
import pandas as pd
entries = os.listdir('test_csvs/')
li = []
for entry in entries:
    if '.csv' in entry:
        num = entry.split('sitrep-')[1].split('-')[0]
        date = entry.split('-')[0]
        f = pd.read_csv('csvs/'+entry, index_col=None, header=0)
        if f.shape[1] == 7:
            if 'Total' in f.columns[0]:
                f.columns = ['country', 'total_confirmed', 'total_new', 'total_deaths', 'total_new_deaths', 'transmission_class', 'days_since_report']
                f['date'] = date
                li.append(f)

frame = pd.concat(li, axis=0, ignore_index=True)
grouped = pd.DataFrame(frame.groupby(['country', 'date','total_deaths']).sum())
grouped

FILES:

COVID19_CA_KAGGLE

COVID19_KAGGLE_WK3_QUICK_EDA

GET_GEORGIA_NUMS

GET_GEORGIA_NUMS_i2

PROJECT_COVID19_GLOBAL_WK1_WK2

PROJECT_COVID19_GLOBAL_WK2

PROJECT_COVID19_GLOBAL_WK2_COLAB_with_races

PROJECT_COVID19_GLOBAL_WK2_TESTING

PROJECT_COVID19_GLOBAL_WK2_XGBtest

PROJECT_COVID19_GLOBAL_WK2_graphs1

PROJECT_COVID19_GLOBAL_WK2_graphs2

PROJECT_COVID19_GLOBAL_WK4

PROJECT_COVID19_GLOBAL_WK4_i2

PROJECT_COVID19_V2

PROJECT_COVID19_colab

PROJECT_COVID19_colab_i2

PROJECT_COVID19_colab_i3_predictionDFs

PROJECT_COVID19_i4_snsgraphs

READ_COVID_CSV

READ_COVID_CSV_i2

READ_COVID_CSV_i3_graphsidequest

cc_df

covid19-global-wk2-v3

covid19-global-wk2-v3_BEST

covid19-global-wk3

covid19-global-wk4

covid19-wk2-v1

covid_flourish

covid_flourish_V2_MARCH

covid_flourish_V4

covid_flourish_v2

covid_flourish_v5

covid_top_20_percapita

covid_top_20_percapita_by1000

covid_top_20_percapita_march

covid_top_20_percent_march

covid_wk4_pop

covid_wk4_pop_march

covid_wk4_pop_march_v2

covid_wk4_testing

covid_wk4_with_population

fc_df

four_countries_with_pop

four_countries_with_pop_v2

reshaped_for_races

sm_pop_test

sm_pop_test_v2

twenty_countries_with_pop

Share on

Twitter Facebook LinkedIn

Daniel Caraway

PROJECT WHO

STEP 1:

STEP 2: Convert the pdfs to csvs

Single file conversion

Multi file conversion

STEP 3: Merge the CSVS

FILES:

Share on

You may also enjoy

daily log 03-25-21

How to use Data Science Superpowers for Useless Things: Getting a Job at Amazon, Take 2

How to use Data Science Superpowers for Useless Things: Getting a Job at Amazon

How to use Data Science Superpowers for Useless Things: Adding Text to Images (aka Cats Narrate the Big Lebowski)