import os
os.environ["JAX_PLATFORMS"] = "cpu"
import numpyro
numpyro.set_host_device_count(4)

import pyro_util
import pandas as pd
import numpy as np
import numpyro.distributions as dist
import arviz as az
import xarray as xr
import seaborn as sns

df = pd.read_stata("https://github.com/scunning1975/mixtape/raw/master/abortion%202.dta")

df = df[(df.year <= 1993)]

treatment_group = df.repeal == 1.0
df['treated_frac'] = 0.0
age = df.age.astype(int)
df.loc[treatment_group, 'treated_frac'] = np.clip(
    df[treatment_group].year - 1970 - age, 0, 5) / 5
df.loc[~treatment_group, 'treated_frac'] = np.clip(
    df[~treatment_group].year - 1973 - age, 0, 5) / 5

sns.relplot(df[df.age == 15], x="year", y="treated_frac", kind="line", hue="repeal");

df['year'] = pd.CategoricalIndex(df.year)
df['repeal'] = pd.CategoricalIndex(df.repeal)
df['fip'] = pd.CategoricalIndex(df.fip)

bf15_mask = (df.race == 2) & (df.sex == 2) & (df.age == 15)

bf15 = df[bf15_mask]

bf15 = bf15.loc[:,['fip', 'year', 'lnr', 'treated_frac', 'repeal', 'poverty', 'alcohol']]

bf15.dropna(inplace=True)

bf15 = bf15.reset_index(drop=True)
bf15.index.name = 'obs'

sns.relplot(bf15, x="year", y="lnr", hue="repeal", kind="line", errorbar="sd");

def model0(predictive=False):
    pyro_util.glm('lnr ~ year + treated_frac + center(alcohol) + center(poverty) - 1', 
        bf15, family=dist.NegativeBinomial2, predictive=predictive)

mcmc = pyro_util.fit_nuts(model0, num_samples=1500, predictive=False)

  0%|          | 0/2000 [00:00<?, ?it/s]

  0%|          | 0/2000 [00:00<?, ?it/s]

  0%|          | 0/2000 [00:00<?, ?it/s]

  0%|          | 0/2000 [00:00<?, ?it/s]

results = pyro_util.from_numpyro(bf15, model0, mcmc)

az.plot_posterior(results, "treated_frac", ref_val=0.0);

pred_plot = xr.Dataset({'repeal': results.constant_data.repeal,
                   'lnr': np.log(az.extract(results, group='posterior_predictive',
                                            num_samples=1000, var_names='y')),
                   'year': results.constant_data.year}).to_dataframe()

sns.relplot(pred_plot, x='year', y='lnr', hue='repeal', kind='line', errorbar="sd");

az.plot_ppc(results, var_names='y');

az.plot_loo_pit(results, y="y");

trend_plot = xr.Dataset({
    'trend': np.log(az.extract(results, var_names="year", num_samples=1000)),
    'year': 1985 + results.posterior.years}).to_dataframe()

sns.relplot(trend_plot, x='year', y='trend', kind='line', errorbar="sd");

def model1(predictive=False):
    pyro_util.glm('lnr ~ year + year:repeal + center(alcohol) + center(poverty) - 1',
        bf15, family=dist.NegativeBinomial2,  predictive=predictive)

mcmc = pyro_util.fit_nuts(model1, num_samples=1500, predictive=False)

  0%|          | 0/2000 [00:00<?, ?it/s]

  0%|          | 0/2000 [00:00<?, ?it/s]

  0%|          | 0/2000 [00:00<?, ?it/s]

  0%|          | 0/2000 [00:00<?, ?it/s]

results = pyro_util.from_numpyro(bf15, model1, mcmc)

coeffs = az.extract(results, var_names='year:repeal', num_samples=1000,
                    keep_dataset=True).rename_dims({'year:repeals': 'years'})['year:repeal'].drop_indexes('year:repeals')

coeffs = az.extract(results, var_names='year:repeal', num_samples=1000,
                    keep_dataset=True).rename_dims({'year:repeals': 'years'})['year:repeal'].drop_indexes('year:repeals')

diff_plot = xr.Dataset({'trend': coeffs, 'year': 1985 + results.posterior.years}).to_dataframe()

sns.relplot(diff_plot, x='year', y='trend', kind='line', errorbar="sd");

bf25_mask = (df.race == 2) & (df.sex == 2) & (df.age == 25)

df["older"] = True
df.loc[bf15_mask, "older"] = False
df.older = pd.CategoricalIndex(df.older)

bf = df[bf15_mask | bf25_mask]

bf = bf.dropna()

sns.relplot(bf, x="year", y="lnr", hue="repeal", kind="line", style="older", errorbar="sd");

def model2(predictive=False):
    pyro_util.glm('lnr ~ treated_frac + year:older + year*repeal', bf,
        family=dist.NegativeBinomial2, predictive=predictive)

mcmc = pyro_util.fit_nuts(model2, num_samples=1500, predictive=False)

  0%|          | 0/2000 [00:00<?, ?it/s]

  0%|          | 0/2000 [00:00<?, ?it/s]

  0%|          | 0/2000 [00:00<?, ?it/s]

  0%|          | 0/2000 [00:00<?, ?it/s]

results = pyro_util.from_numpyro(bf, model2, mcmc)

az.plot_posterior(results, "treated_frac", ref_val=0.0);

Import Statements¶

Difference in Differences¶

A Linear Model¶

Relaxing Linearity Assumptions¶

Triple Differences¶