Adjustment for Covariate Measurement Errors in Complex Surveys: A Simulation study of Three Competing Methods
Tiivistelmä
Väitöskirjassa tarkastellaan mittausvirheitä. Epätarkat mittaukset ja niistä johtuvat mittausvirheet ovat tutkimuksessa yleisiä. Jos mittauksen epävarmuus jätetään huomioimatta, voidaan päätyä harhaisiin tuloksiin ja näin ollen virhepäätelmiin.
Väitöskirjan alkuosassa käsitellään mittausvirheisiin liittyvää teoriaa ja loppuosassa on kolme simulointikoetta. Työssä tutkitaan ja vertaillaan kolmen menetelmän toimivuutta mittausvirheiden huomioimiseksi. Tarkasteltavat menetelmät ovat regressiokalibrointi, moni-imputointi ja suurimman uskottavuuden menetelmä. Menetelmien käyttämiseksi tarvitaan lisätietoa mittausvirheestä. Lisätieto saadaan validointidatasta. Menetelmien toimivuutta tarkastellaan simulointikokeissa. Ensimmäisessä simulointikokeessa havaintojen oletetaan olevan riippumattomia ja kahdessa jälkimmäisessä simulointikokeessa havainnot ovat sisäkorreloituneita.
Mittausvirheitä tarkastellaan logistisen mallin ja logistisen sekamallin yhteydessä. Vastemuuttuja oletetaan kaksiarvoikseksi ja sen ei oleteta sisältävän mittausvirhettä. Osa mallin selittäjistä sisältää mittausvirhettä, mutta mallissa voi myös olla selittäjiä, joissa ei ole mittausvirhettä. Oletetaan, että ainakin osalle havainnoista on saatavissa tarkasti mitatut vastineet. Erityisesti mielenkiinnon kohteena on tilanne, jossa mallinnettava aineisto on sisäkorreloitunut. Tällainen on tyypillistä mm. kotitalousaineistoissa, joissa poimintatapa tuottaa sisäkorreloituneisuutta aineistoon. Tavoitteena kaiken kaikkiaan on estimoida malli niin hyvin kuin mahdollista.
Kaksi ensimmäistä simulointikoetta on malliperusteisia ja aineisto on muodostettu tilastollisella mallilla. Tämä mahdollistaa menetelmien tilastollisten ominaisuuksien vertailun täysin kontroloidussa asetelmassa. Kolmas simulointikoe on asetelmaperusteinen ja aineistona käytetään ECHP-aineistoa (European Community Household Panel). Menetelmien vertailuun käytetään ARB % (absolute relative bias percentages) ja RRMSE % (relative root mean-squared error percentages) lukuja.
Ensimmäisen simulointikokeen mukaan moni-imputointi ja regressiokalibrointi olivat laskennallisesti helppoja taasen suurimman uskottavuuden menetelmä osoittautui laskennallisesti työlääksi. Kahdessa jälkimmäisessä simulointikokeessa vertailtiin moni-imputointia ja regressiokalibrointia. Simulointikokeiden mukaan validointidatan sisältämän lisätiedon hyödyntäminen parantaa tuloksia niin riippumattomien havaintojen tilanteessa kuin sisäkorreloituneen aineiston yhteydessä.
Lue koko julkaisu (helda.helsinki.fi)
Tekijä
Maria Valaste
Lisätietoja julkaisusta
- Vertaisarvioitu: ei.
- Avoin saatavuus: kyllä.
- Koko viite: Valaste, M. (2015). Adjustment for Covariate Measurement Errors in Complex Surveys: A Simulation study of Three Competing Methods [väitöskirja, Helsingin yliopisto]. Helda. http://urn.fi/URN:ISBN:978-951-51-0846-3