Julia Pemasyarakatan bias seleksi, Bagian 1

Seleksi Bias muncul ketika sampel data tidak imbang acak dari populasi yang seharusnya untuk mewakili. Hal ini terutama bermasalah ketika probabilitas bahwa individu tertentu muncul dalam sampel tergantung pada variabel yang mempengaruhi hubungan yang ingin belajar. Koreksi bias seleksi didasarkan pada model perilaku ekonomi diluncurkan oleh ekonom James J. Heckman di seminal 1979 makalahnya.

Untuk contoh bias seleksi, saya pikir kita ingin mempelajari efektivitas pengobatan (obat baru untuk pasien dengan penyakit tertentu, kurikulum untuk wajah anak-anak TK kelemahan tertentu dll). Sebuah sampel acak diambil dari populasi bunga, dan pengobatan secara acak ditugaskan untuk subset dari sampel, dengan bagian yang tersisa menggunakan kelompok yang tidak diobati (“Control”). Jika subset mengikuti petunjuk dan data yang diperoleh akan menjadi imbang untuk proses menghasilkan data yang kita ingin belajar.

Namun, saya pikir pengobatan dan kelompok kontrol yang tidak kompatibel dengan tugasnya. Secara khusus, jika hanya sebagian dari pegangan pengiriman pengobatan, sementara yang lain benar-benar dirugikan oleh pengobatan, sehingga kita bisa mengharapkan orang meragukan untuk meninggalkan penelitian. Jika kami telah menerima data menunjukkan proses pembuatan data imbang, tampak bahwa pengobatan jauh lebih berhasil daripada sebenarnya; orang yang manfaat paling mungkin untuk hadir dalam folder itu sia-sia.

Di sisi lain, jika pengobatan ini sangat membantu, dan beberapa individu dalam kelompok kontrol tidak bisa menemukan cara untuk mendapatkan pengobatan, mungkin tanpa sepengetahuan kami. Manfaat yang diterima oleh pemantauan akan menunjukkan bahwa pengobatan ini kurang menguntungkan daripada sebenarnya; menerima perlakuan tidak acak.

Dalam tutorial ini, saya menyajikan beberapa contoh parametrik bias seleksi. Kemudian saya hadir contoh parametrik koreksi bias seleksi, dan mengevaluasi efektivitas pengembalian mengolah data generasi mereka. Dalam perjalanan, saya menunjukkan penggunaan paket GLM Julia. Tutorial berikutnya menunjukkan bias seleksi dari koreksi non-parametrik


Contoh 1:. Memilih distribusi normal diverifikasi

Saya pikir kita ingin mempelajari pengaruh variabel jelas  x_ {i} di  . Proses pembuatan data disediakan oleh

+ = x_i y_i beta_0 beta_1 + epsilon_i

mana dan  s0.wp.com/latex.php?latex=%5Cepsilon_i&amp ; amp; bg = FFFFFF & amp; amp; fg = 333333 & amp; amp; s = 0 ~~ epsilon_i poss adalah alasan populasi independen kemerdekaan ini, biasa kuadrat estimator kehendak. tidak memihak apakah data umumnya adalah fungsi . Misalnya,

Untuk Hom (Big mathcal {S} | x_i, epsilon_i kanan) = 1 'title =' Untuk Hom (Big mathcal {S} | x_i, epsilon_i kanan) = 1 jika  x_i & amp; amp; gt;

dan probabilitas adalah nol sebaliknya. Aturan seleksi ini memastikan bahwa, di antara individu-individu dalam data ( di  mathcal {S} ), kovarians antara akan positif, bahkan jika kovarians populasi adalah nol. Ketika KETERKAITANNYA positif dengan  , estimasi OLS dari  beta_1 bias ke atas, yaitu, evaluasi MCO konvergen pada nilai yang lebih besar dari  .

Untuk melihat masalah, mempertimbangkan simulasi berikut dari proses di atas di mana judul dan diambil sebagai variabel independen standar acak yang normal:

 srand (2) N = 1000 X = rand (N) = epsilon RAND (N) = 0 beta_0 beta_1 = 1 + Y = beta_0 beta_1. * X + = epsilon populationData dataframe (Y = Y, X = X = Epsilon Epsilon) yang dipilih = X & amp; amp; gt; SampleData dataframe epsilon = (Y = Y [pilih], X = X [karena] = Epsilon Epsilon [pilih]) 

Ada 1000 orang dalam populasi data, tapi 492 dari mereka dipilih untuk ‘Data dimasukkan dalam sampel kovarians antara X dan epsilon pada data dari populasi adalah

 cov (populationData [X ] populationData [Epsilon]) 0,00861456704877879 

yang kira-kira nol, tetapi data sampel, itu adalah

 cov (SampleData [X] SampleData [Epsilon]) 0,32121357192108513 

yaitu sekitar 0,32

Sekarang kita mundur di s0.wp.com/latex.php?latex=%5Cbeta_0%3D0%2C%5Cbeta_1%3D1&bg=ffffff&fg=333333&s=0~~poss beta_0 = 0 = 1 beta_1 , tidak tercakup oleh estimator sampel


Koreksi 1:. Heckman (1979)

Pelajaran utama Heckman (1979), adalah bahwa hubungan antara  X dan  dapat direpresentasikan sebagai diabaikan variabel yang mampu waktu MCO

mathbb {e} meninggalkan [Big y_i | x_i, yang mathcal kanan {s}] = {e} mathbb meninggalkan [+ beta_0 beta_1X_i Big epsilon_i + | x_i Saya MathCal {S} kanan] = + beta_0 beta_1X_i + mathbb {e} meninggalkan [Big epsilon_i | x_i, yang mathcal {s} kanan]

Selain itu, dengan menggunakan standar kerapatan bersyarat terdistribusi normal  epsilon

mathbb{E}left[epsilon_iBig|X_i,iinmathcal{S}right]=mathbb{E}left[epsilon_iBig|X_i,X_i>epsilon_iright]=frac{-phileft(X_iright)}{Phileft(X_iright)}.

disebut kebalikan dari rasio Mills, di mana  phi dan mathbb {e} meninggalkan [Big y_i | x_i, yang mathcal kanan {s}] = + beta_0 beta_1X_i frac {+ - kiri phi (x_i kanan) {} kiri Phi (x_i kanan)} mengandung variabel dan aturan seleksi

+ delta_1 delta_0 delta_2 x_2 x_1 + + + delta_K x_k ldots & amp; amp; gt; adalah d pertama dievaluasi oleh regresi indikasi s0.wp.com/latex.php?latex=i+%5Cin+%5Cmathcal%7BS%7D&bg=ffffff&fg=333333&s=0~~ poss dari mathcal {s} di untuk regresi probit ditutupi dalam konteks yang sedikit berbeda di bawah

Sebagai soal terminologi, proses evaluasi  delta telah disebut “langkah pertama” dan memuji perkiraan Bersyarat s0.wp.com/latex.php? Lateks 5Cdelta% = & amp; amp; bg = FFFFFF & amp; amp; fg = 333333 & amp; amp; disebut “tahap kedua”. Ketika koefisien kebalikan Mills rasio positif, itu menyatakan bahwa “pilihan positif” berlangsung, dengan “seleksi negatif” sebaliknya. Seleksi positif berarti bahwa, tanpa koreksi, evaluasi  beta_1 "title =" beta_1 akan lebih-sisi hasil seleksi dan negatif pada catatan turun terhadap. Akhirnya, karena pemilihan aturan didorong oleh variabel teramati title Ini adalah kasus “seleksi pada teramati”. Pada bagian berikutnya, kita mempertimbangkan kasus “seleksi pada diamati”


Contoh 2:. Pengamatan Probit Seleksi

Saya pikir kita ingin mengetahui rata-rata dan varians penduduk. Namun, sampel kami menderita bias seleksi Secara khusus, ada seperti probabilitas mengamati tergantung  X Di bawah

Untuk Hom (Big mathcal {S} | x_i kanan) F = Hom (x_i kanan) 'title =' Untuk Hom (Big mathcal {S} | x_i kanan) F = Hom (x_i tepat )

mana  [0,1] Catatan Catatan bahwa jika dan judul' yang, maka sampel independen yang dihasilkan dari distribusi akan menjadi imbang acak antara populasi (distribusi marginal) untuk . Sebaliknya, kita asumsikan mathrm {Cov} Hom (X, Y kanan) IEC 0

Dalam rata populasi simulasi ini dihitung dan konflik adalah 1,002 dan -0,022, dan kovarians antara dan Catatan regresi probit jika  d_i = 0 dievaluasi rata dan konflik dalam data sampel adalah 0.275 (yang besar) dan 0,862 (yang sangat kecil)


Koreksi 2 Berat:. probabilitas terbalik

Perkiraan bias alasan mean dan varians pada Contoh 2 adalah pilihan dari sampel Secara khusus, beberapa nilai yang lebih terwakili karena hubungan mereka dengan . Probabilitas inverse koefisien, adalah cara untuk memperbaiki lebih-representasi dari jenis tertentu individu, di mana “jenis” ditangkap oleh probabilitas yang termasuk dalam sampel

Dalam simulasi di atas , kontingen diterbitkan dalam populasi, probabilitas bahwa jenis individu  = 1 termasuk dalam sampel adalah 0,841 Pada. Jika tidak, kemungkinan bahwa jenis individu termasuk dalam sampel adalah 0,5, kemudian tekan x_i = 1 di menghitung mean dan varians dari dengan faktor 1682, kami akan mengubah keseimbangan spesies dalam sampel untuk mencocokkan keseimbangan spesies dalam populasi. Probabilitas berat terbalik generalizes logika ini untuk mengevaluasi dampak dari masing-masing individu dengan kebalikan dari kemungkinan bahwa individu ini muncul dalam sampel.

Sebelum kita bisa tepat, pertama kita harus menilai kemungkinan dari sampel partisipasi. Hal ini dapat dilakukan dengan memasang sebuah kotak regresi kuadrat dari probit. Untuk ini kita menggunakan GLM paket Julia, yang dapat diinstal dengan cara biasa dengan Pkg.add (“GLM”)

menggunakan GLM GLM probit = (D ~ X, SampleData, binomial () ProbitLink ()) {DataFrameRegressionModel GeneralizedLinearModel, Float64}: Koefisien: Mr. Std.Error perkiraan nilai Pr (& amp; amp; gt ; | z |) (Intercept) 0,114665 0,148809 0,770554 0,21813 5,26414 0,4410 pertama X-1,14826 estProb 6 = memprediksi (Probit) berat = 1 / estProb [D. == 1] / kuantitas (1 / estProb [D. == 1])

bobot probabilitas inverse yang diperlukan untuk memenuhi distribusi distribusi populasi sampel.

Sekarang, kita menggunakan berat probabilitas inverse untuk memperbaiki mean dan varians estimasi , karena banyak koefisien ditambahkan ke logika regresi probit meluas ke bentuk lain dari fungsional , misalnya, bagian dari Probit untuk logit diperoleh dengan mengganti em> ProbitLink <() LogitLink () GLM () Penilaian


<> Contoh Kuat 3: Generalized Model Roy

Sebagai contoh, akhir tutorial ini, kita mempertimbangkan model yang memungkinkan untuk melakukan kaya, realistis ekonomis. Dalam kata-kata Roy Ekonomi Model representasi umum dari sebuah dunia di mana setiap individu harus memilih antara dua pilihan, setiap pilihan memiliki kelebihan, dan salah satu pilihan biaya lebih dari yang lain. Dalam notasi matematika, pilihan pertama, catatan  = 1 karakteristik individu terlihat, dengan

Y_ {1, i} = mu_1 kiri (x_i kanan) + U_ {1, i} 'title =' Y_ {1, i} = mu_1 kiri (x_i kanan) + U_ {1, i} 'class = .

Demikian pula, opsi kedua, ditandai  dilaporkan .

Nilai y_i = D_iY_ {1, i} + (1-d_i) Y_ {0, i}.

Akhirnya, dipilih oleh individu  i di bawah

 = 1

mana mathbb{E}left[D_iBig|X_i,Z_iright]=Prleft(mu_Dleft(X_i,Z_iright)&amp;gt;U_{D,i}Big|X_i,Z_iright)=Phileft(mu_Dleft(X_i,Z_iright)right)

Leave a Reply

Your email address will not be published. Required fields are marked *