www.uhasselt.be
DSpace

Document Server@UHasselt >
Education >
School for Information Technology >
Master theses >

Please use this identifier to cite or link to this item: http://hdl.handle.net/1942/3731

Title: Automatic opinion extraction and classification from text
Authors: VAN HERTUM, Bert
Advisors: NEVEN, F.
Issue Date: 2007
Abstract: Een opkomend domein binnen datamining is het domein van tekstclassificatie. Met de opkomst van het Internet is de hoeveelheid van mogelijk interessante teksten voor dit doeleinde enorm toegenomen, en daarmee het belang van en de interesse in tekstclassificatie. Een belangrijk onderdeel ervan, en dat vooral voor commerciĆ«le doeleinden, is het subdomein van opinion classification. Er zijn forums, blogs, en speciaal daarvoor bedoelde reviewsites waar iedereen zijn mening kan geven over een bepaald onderwerp; vaak zijn deze meningen commercieel interessant voor de fabrikant of producent van het product waarover de mening wordt geuit. Het probleem is echter dat menselijke analyse hiervan kostelijk is, omwille van het aantal besprekingen, het ontbreken van elke vorm van samenvatting, en de verspreiding van de gegevens. Hierdoor is er interesse ontstaan in automatische standpuntclassificatie: een programma dat, gegeven een tekst over een bepaald onderwerp, kan beslissen of deze tekst een positieve of negatieve mening over dit onderwerp beschrijft. Een goed bestudeerde vorm van teksten voor opinion classification zijn filmreviews. Deze zijn interessant voor testdoeleinden vanwege twee grote redenen: ten eerste zijn er grote en gecentraliseerde testcorpora voorhanden op het Internet; sites zoals het bekende IMDb beschikken over grote collecties van reviews over vele soorten films. Anderzijds is er het ook erg belangrijke voordeel dat reviews vaak met een samenvattende score komen die de algemene indruk van de auteur over de film weergeeft, welke testprocedures nodig hebben als een kwaliteitscontrole van het gebruikte algoritme. In deze thesis ga ik dan ook een overzicht geven van veel voorkomende methodes, ga ik deze aan een serie tests onderwerpen, en uitzoeken welke methode in het algemeen de beste resultaten oplevert. Ook zal ik onderzoeken of sommige methoden nog aangescherpt of verbeterd kunnen worden, door o.a. bestaande methoden met elkaar te combineren.
Notes: Master in de Informatica - Databases
URI: http://hdl.handle.net/1942/3731
Category: T2
Type: Theses and Dissertations
Appears in Collections: Master theses

Files in This Item:

Description SizeFormat
N/A976.79 kBAdobe PDF

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.