import torch
import pandas as pd
import numpy as np
from torch import nn
from gpytorch.means import ConstantMean
from gpytorch.kernels import ScaleKernel, RBFKernel
from gpytorch.distributions import MultivariateNormal
from torch.distributions import Normal
from gpytorch.likelihoods.noise_models import HomoskedasticNoise
import matplotlib.pyplot as plt
import seaborn as sns
from scipy.stats import zscore

texas = pd.read_stata("https://github.com/scunning1975/mixtape/raw/master/texas.dta")
texas = texas[texas.state != 'District of Columbia']

texas['incarceration_rate'] = texas.bmprison / texas.bmpop

texas['incarceration_z'] = texas.groupby('year').incarceration_rate.transform(zscore)

texas['poverty'] = texas['poverty'] / 100

texas = texas.sort_values(["state", "year"])

data = np.reshape(texas[["incarceration_z", "poverty", "alcohol"]].values, (50, 16,-1))

years = pd.unique(texas.year)

states = pd.unique(texas.state)

texix = list(states).index("Texas")

for ix, r in enumerate(data):
    if ix == texix:
        plt.plot(years, r[:,0], color="C0")
    else:
        plt.plot(years, r[:,0], color="C1" , alpha=0.1)

X = torch.from_numpy(data[:,7,:]).float()

Y = torch.from_numpy(data[:,:7,0]).float()

class SynthControlModel(nn.Module):
    def __init__(self):
        super().__init__()
        self.covar_module = ScaleKernel(RBFKernel(ard_num_dims=3))
        self.noise = HomoskedasticNoise()

    def forward(self, x):
        covar_x = self.noise(x) + self.covar_module(x)
        return MultivariateNormal(torch.zeros(covar_x.shape[0]), covar_x)

model = SynthControlModel()

opt = torch.optim.Adam(model.parameters(), lr=0.1)

for i in range(200):
    opt.zero_grad()
    loss = -model(X).log_prob(Y.T).sum()
    loss.backward()
    if i % 20 == 0:
        print(loss.item())
    opt.step()

390.9499206542969
221.37319946289062
212.59107971191406
211.1005401611328
210.900634765625
210.87908935546875
210.87689208984375
210.87579345703125
210.87570190429688
210.87567138671875

model.noise.noise.detach()

tensor([0.0906])

model.covar_module.base_kernel.lengthscale.detach()

tensor([[1.6206, 0.9185, 1.6307]])

def predict(X, test_X, Y):
    with torch.no_grad():
        prior_x = model(X)
        prior_t = model(test_X)
        X_tk = model.covar_module.forward(test_X, X)
        mu = X_tk @ torch.linalg.solve(prior_x.covariance_matrix, Y)
        S = prior_t.covariance_matrix - X_tk @ torch.linalg.solve(prior_x.covariance_matrix, X_tk.T)
        return MultivariateNormal(mu.T, S)

non_texas = np.delete(np.arange(50), texix)

X_no_texas = torch.from_numpy(data[non_texas, 7]).float()

y_no_texas = torch.from_numpy(data[non_texas,:,0]).float()

X_texas = torch.from_numpy(data[None,texix, 7]).float()

predictions = predict(X_no_texas, X_texas, y_no_texas)
lower, upper = predictions.confidence_region()

plt.fill_between(years, lower[:,0].numpy(), upper[:,0].numpy(), alpha=0.5)
plt.plot(years, data[texix,:,0]);
plt.axvline(x=1993, c='red');

post_93 = torch.from_numpy(data[:,8:,0]).float()

state_probs = []
for i in range(50):
    ixs = np.delete(np.arange(50), i)
    post_prob = predict(X[ixs], X[i:i+1], post_93[ixs]).log_prob(post_93[i:i+1].T)
    state_probs.append(post_prob.sum())
state_probs = torch.stack(state_probs, axis=0)

(list(torch.argsort(state_probs)).index(texix) + 1) / len(state_probs)

0.02

def state_contrib(model):
    X_kk = model.covar_module.forward(X_no_texas, X_no_texas)
    X_kt = model.covar_module.forward(X_no_texas, X_texas)
    return torch.linalg.solve(X_kk, X_kt)[:,0]

cs = state_contrib(model)

ixs = torch.argsort(-cs)[:3]

list(zip(states[non_texas][ixs], cs[ixs].detach()))

[('South Dakota', tensor(2.1369)),
 ('Virginia', tensor(1.6360)),
 ('Missouri', tensor(1.5237))]

similar_states = data[non_texas][ixs,:,0]

for r in similar_states:
    plt.plot(years, r, color="C1", alpha=0.3)
plt.fill_between(years, lower[:,0].numpy(), upper[:,0].numpy(), alpha=0.5)
plt.plot(years, data[texix,:,0]);
plt.axvline(x=1993, c='red');

results = []
for i in range(49):
    ixs = np.delete(np.arange(49), i)
    post = predict(X_no_texas[ixs], X_no_texas[i:i+1], y_no_texas[ixs]).sample(torch.Size([20]))
    results.append(post)
results = torch.concat(results, axis=-1)

for i in range(20):
    sns.kdeplot(results[i].ravel(), color='C0', alpha=0.2)
sns.kdeplot(y_no_texas.ravel(), color='C1');

fig, axs = plt.subplots(4, 2)
for (dist, obs, ax) in zip(results.permute((1, 0, 2)), y_no_texas[:,8:].T, axs.ravel()):
    for i in range(20):
        sns.kdeplot(dist[i], color='C0', alpha=0.2, ax=ax)
    sns.kdeplot(obs, color='C1', ax=ax);
plt.tight_layout()

def to_univariate(post):
    return Normal(post.mean, post.covariance_matrix.ravel())

results = []
for i in range(49):
    ixs = np.delete(np.arange(49), i)
    post = predict(X_no_texas[ixs], X_no_texas[i:i+1], y_no_texas[ixs])
    results.append(to_univariate(post).cdf(y_no_texas[i:i+1]))
results = torch.concat(results, axis=-1)

sns.displot(results.ravel());

Synthetic Controls in Texas Prison Data¶