www.uhasselt.be
DSpace

Document Server@UHasselt >
Research >
Research publications >

Please use this identifier to cite or link to this item: http://hdl.handle.net/1942/16438

Title: Missing data treatment: Overview of possible solutions
Authors: WILMOTS, Brenda
SHEN, Yongjun
HERMANS, Elke
RUAN, Da
Issue Date: 2011
Publisher: Steunpunt Mobiliteit & Openbare Werken – Spoor Verkeersveiligheid
Series/Report: RA-MOW-2011-002
Abstract: Datasets met werkelijke informatie gaan bijna altijd gepaard met ontbrekende gegevens omwille van verschillende onzekerheden. Dit beperkt onderzoekers in grote mate om klassieke analyses uit te voeren die volledige datamatrices vereisen in de meeste gevallen. Om dit veelvoorkomend probleem in data-analyse op te lossen,werden een aantal alternatieve methodes ontwikkeld gedurende de laatste vijf decennia. Een eenvoudige en veelgebruikte strategie om ontbrekende informatie te behandelen, is het weglaten van cases die ontbrekende waarden bevatten en vervolgens de analyse uit te voeren op de overblijvende data. Ondanks het feit dat dit eenvoudig uit te voeren is en de standaardoptie is bij de grote statistische pakketten, heeft deze benadering toch ernstige beperkingen in termen van het elimineren van bruikbare informatie in de data en het resulteren in vertekening wanneer de gegevens niet volledig willekeurig ontbreken (i.e., not missing completely at random). Later verschoof de interesse naar het uitvoeren van data-imputatie, het proces waarbij ontbrekende waarden in een dataset geschat worden door berekende waarden en waarbij dus een volledige dataset gecreëerd wordt. Enkele voorbeelden van deze werkwijze, gekend als traditionele enkelvoudige imputatie, zijn: onvoorwaardelijk gemiddelde imputatie, regressieimputatie, de indicatormethode, enz. Echter, zelfs wanneer de ontbrekende waarden op die manier worden geïmputeerd of ingevuld, blijft het probleem bestaan dat de onzekerheid die verbonden is aan ontbrekende data niet in rekening wordt gebracht. Daarom is vanaf de jaren 70 er sterke vooruitgang geboekt in het ontwikkelen van statistische procedures voor ontbrekende data en de twee belangrijkste benaderingen, i.e., maximum likelihood schatting en meervoudige imputatie, zijn beschikbaar geworden als bruikbare opties in de belangrijkste softwarepakketten. Meer recent, met de ontwikkeling van computerwetenschap en technologie, zijn enkele artificiële intelligentie technieken ontstaan met betrekking tot het omgaan met ontbrekende informatie, zoals beslissingsbomen, neurale netwerken, fuzzy logic systemen, rough sets enzovoort, dewelke het onderzoek naar ontbrekende data naar een nieuwe fase brengen. In dit rapport worden de belangrijkste ideeën van al deze benaderingen besproken evenals de sterktes en beperkingen van elke benadering. Verder staan we stil bij de beschikbare softwareprogramma’s en wordt er informatie geboden omtrent het selecteren van een bepaalde benadering in de praktijk.
Real world data sets are almost always accompanied by missing data due to various uncertainties, which to a great extent restrict researchers from performing classical analyses as complete data matrices are required in most cases. To solve this pervasive problem in data analysis, a number of alternative methods have been developed during the last five decades. Specifically, a simple and common strategy for handling missingness is to delete cases containing any missing values, and the analysis is then carried out on the data that remain. Although simple to implement and being the default for the major statistical packages, this approach has serious drawbacks in terms of elimination of useful information in the data and resulting in serious biases if data are not missing completely at random (MCAR). Later, interest has centered on performing data imputation, the process by which missing values in a data set are estimated by appropriately computed values, thus constructing a complete data set. Unconditional mean imputation, regression imputation, the indicator method and so on are all related to this strategy, known as traditional single imputation. However, even if the missing values could be imputed in such a way, they still have a problem in accounting for missing data uncertainty. Therefore, from the late 70’s on, substantial progress has been made in developing statistical procedures for missing data, and two most important approaches, i.e., maximum likelihood estimation and multiple imputation, have become available, and are being included as useful options in the mainstream software programs. More recently, with the development of computer science and technology, some artificial intelligence and machine learning techniques have arisen in the area of missing data treatment, such as decision trees, neural networks, fuzzy logic systems, rough sets, and so on, which push the missing data research forward to a new stage. In this report, we outline the key ideas of all these approaches, address their main strengths and limitations, discuss the software programs currently available, and provide guidance on how to select such approaches in practice.
URI: http://hdl.handle.net/1942/16438
Category: R2
Type: Research Report
Appears in Collections: Research publications

Files in This Item:

Description SizeFormat
N/A480.91 kBAdobe PDF

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.