www.uhasselt.be
DSpace

Document Server@UHasselt >
Research >
Research publications >

Please use this identifier to cite or link to this item: http://hdl.handle.net/1942/20732

Title: Modeling Complex Data with Spatial Correlation, Zero-inflation and Overdispersion: the Combined Modeling Approach
Authors: Neyens, Thomas
Advisors: Faes, Christel
Molenberghs, Geert
Issue Date: 2015
Abstract: This thesis was built around the combined model, which is a GLMM that specifically models uncorrelated and correlated extra-variance by combining overdispersion models that exploit the conjugacy characteristic and normal random effects that take the structural aspects in the data into account. I focused on binomial and count data types. This thesis has shown that the combined model is very useful in most cases.
In deze verhandeling werd een oplossing gezocht voor scenario’s waarin een te grote mate van variabiliteit voorkomt en waarbij dus de assumptie omtrent variatie wordt geschonden. Er werd specifiek gekeken naar gegroepeerde binaire data en data verkregen door tellingen, waarbij gegroepeerde binaire data via de binomiale verdeling worden geanalyseerd, terwijl bij tellingen de Poisson-verdeling typisch wordt gebruikt. Centraal in dit onderzoek stond het zogenaamde combined model (Molenberghs et al., 2010). Dit is een model dat ontwikkeld werd voor meerdere datatypes en dat letterlijk twee soorten modellen, nl. overdispersiemodellen en GLMM’s, combineert: (1) een overdispersiemodel tracht via een dispersieparameter met een specifieke achterliggende (conjugate) verdeling extravariatie toe te laten, terwijl (2) een GLMM typisch een normaal verdeeld random effect gebruikt om structurele aspecten in de data in rekening te brengen. Het combined model voegt op een slimme manier beide modellen samen tot één model met enerzijds een conjugaat random effect en anderzijds één of meerdere normaal verdeelde random effecten. Op deze manier kan extravariatie, veroorzaakt door respectievelijk onbekende verklarende variabelen en structuur in de data, toegelaten worden. Binnen de context van het combined model keek ik in eerste instantie naar het gebruik ervan binnen verschillende statistische schattingsmethodes. Het combined model werd namelijk ontwikkeld binnen de likelihood-methodologie. De Bayesiaanse schattingsmethode daarentegen heeft als groot voordeel in staat te zijn complexere datastructuren te analyseren. In Hoofdstuk 4 en 5 toonde ik aan dat parameterschattingen nagenoeg hetzelfde zijn wanneer in de likelihood- of in de Bayesiaanse setting wordt gewerkt. Echter, een belangrijk nadeel van de Bayesiaanse statistiek is dat de meest gebruikte methode, MCMC, gebaseerd is op Gibbs sampling, een methode die gebruik maakt van simulaties die erg lang kan duren. Enkele snelle methodes werden ontwikkeld, maar zijn door hun benaderende aard meestal minder goed wat betreft de kwaliteit van parameterschatten. Ik onderzocht in Hoofdstuk 5 (en deels in Hoofdstuk 6) ook de werking van zo’n methode, met name INLA, maar besloot dat vooral parameterschattingen van de variantieschatters voor de random effecten matig tot slecht waren. Verder deed ik onderzoek naar het gebruik van het combined model in een aantal settings. Zo onderzocht ik zijn toegevoegde waarde in longitudinale data analyse voor binaire data (Hoofdstuk 4) en vergeleek ik de resultaten met resultaten verkregen uit de traditionele modellen: het combined model deed het in de meeste gevallen beter. Dit kan verklaard worden door het feit dat het combined model een goed onderscheid kan maken tussen extravariatie komende van structuur in de data enerzijds en niet-gestructureerde variabiliteit anderzijds. Dit heeft als gevolg dat de effecten van de verklarende variabelen ook correcter worden geschat. Wanneer ik het combined model toepaste op teldata, was dit meestal binnen de spatiale setting, m.a.w. de setting waarin de datastructuur plaatsgebonden is. In Hoofdstuk 6 werkte ik het combined model uit voor spatiale teldata en vergeleek deze met traditionele modellen binnen die niche. Een belangrijke conclusie was dat het combined model erg goede resultaten opleverde, vooral wanneer er veel ongestructureerde variabiliteit aanwezig was. Juist in deze situatie gaf het combined model betere resultaten dan het populaire en slechts licht verschillende CAR-convolutiemodel. Naast het voorkomen van onbekende verklarende factoren en een datastructuur, kan ook het disproportioneel voorkomen van nul-observaties in teldata leiden tot schendingen van de variabiliteitassumpties. Daarom onderzocht ik extensies van het combined model in deze setting voor longitudinale en spatiale data. Vermits deze modellen een grote hoeveelheid informatie trachten te destilleren uit data die dat niet altijd hebben, bleken deze modellen erg goed te werken bij de analyse van grote datasets. Wanneer datasets kleiner werden, onstonden er problemen tijdens het schattingsproces. Een interesante onderzoekspiste is daarom ook het kwantificeren van de grens in termen van steekproefgroottes waarop een model voor extra nullen nuttig wordt. Ook onderzocht ik in Hoofdstuk 8 de mogelijkheid tot uitbreiding van het combined model in de spatiale setting wanneer men twee i.p.v. één uitkomstvariabele wil modelleren, waarbij een bivariate gamma-verdeelde dispersiefactor kan worden gebruikt. Hoewel de complexiteit van deze analyses soms computationele problemen met zich meebrengt, geeft dit zogenaamde bivariate combined model erg goede resultaten die in veel gevallen superieur zijn t.o.v. de bestaande methodes. Het is ook in deze richting dat veel wetenschappelijke mogelijkheden liggen: het simultaan analyseren van meerdere uitkomstvariabelen wanneer rekening wordt gehouden met zowel een spatiale als een longitudinale structuur. Een uitbreiding van het combined model naar deze setting lijkt logisch vermits het via de vooruitgang in computationele technieken mogelijk wordt om erg complexe datastructuren te analyseren.
URI: http://hdl.handle.net/1942/20732
Category: T1
Type: Theses and Dissertations
Appears in Collections: PhD theses
Research publications

Files in This Item:

Description SizeFormat
N/A2.08 MBAdobe PDF

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.