Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Knowledge-based CoreferenceResolution in Swedish
Stockholm University, Faculty of Humanities, Department of Linguistics, Computational Linguistics.
2012 (English)Independent thesis Basic level (degree of Bachelor), 10 credits / 15 HE creditsStudent thesisAlternative title
Regelbaserad koreferensresolution på svenska (English)
Abstract [en]

Automatic coreference resolution is the automatic identification of expressions with the same referents. The state of the art systems are data driven and based on machine learning algorithms. Data drivenapproaches to coreference resolution require big amounts of annotated data, which is time consumingand expensive to obtain. Haghigi and Klein [1] present a knowledge based approach where coreference is resolved with heuristics using rich syntactic and semantic features. Haghigi and Klein’s system isinteresting because its performance is in line with data-driven systems and the requirements of annotateddata is low. In the present study a knowledge based system for coreference resolution in Swedish was implementedand its performance evaluated. The system is based on the system of Haghigi and Klein. To be able to evaluate and implement the algorithm, a database annotated with coreferential chains is needed. Asthere is no freely available resource with data annotated with coreference in Swedish, the annotation ofthe gold standard part of SUC 2.0 is also described. Results from the evaluation of the implementation show that the syntactic and semantic filters implemented did not improve baseline results. The filters falsely allow or constrain coreference as insufficient linguistic information is available. It is argued thatfocusing on rich syntactic and semantic features improves future work on knowledge-based coreferenceresolution in Swedish.

Abstract [sv]

Koreferensresolution innebär automatisk igenkänning av uttryck med gemensamma referenter. Dagens system är i regel data-drivna. Datadrivna system kräver stora mängder annoterad data vilket är kostsamt och tidskrävande att framställa. Haghigi och Klein [1] presenterar ett regelbaserat system för koreferensbestämningmed resultat jämförbara med de bästa datadrivna systemen. Haghigi and Kleins system är attraktivt eftersom ett sådant regelbaserat system kräver små mängder annoterad data. I denna studie beskrivs skapandet av ett svenskt regelbaserat system för koreferensbestämning baseratpå Haghigi and Kleins system. Systemet bygger huvudsakligen på ett syntaktiskt och ett semantiskt filteri vilka koreferensrelationer mellan nominalfraser förbjuds eller tillåts baserat på lingvistisk kunskap. Förutveckling och evaluering av ett sådant system behövs en datamängd uppmärkt med koreferensrelationer. Eftersom en sådan vad vi vet inte existerar idag, beskrivs här också koreferensannoteringen av den fritttillgängliga SUC 2.0-guldstandarden. Resultaten från utvärderingen av systemet visar att implementeringen av det syntaktiska och det semantiskafiltret bara marginellt förbättrar eller till och med försämrar systemets prestanda. Försämringen kan bero på att filtren agerar med alldeles för begränsad lingvistisk kunskap. Framtida studier bör använda sig av en grundlig syntaktisk och semantisk analys för att på ett framgångsrikt sätt utföra koreferensresolutionpå svenska.

Place, publisher, year, edition, pages
2012. , 26 p.
Keyword [en]
Computational linguistics, coreference resolution, knowledge-based, Swedish
National Category
Specific Languages
Identifiers
URN: urn:nbn:se:su:diva-77513OAI: oai:DiVA.org:su-77513DiVA: diva2:533388
Uppsok
Humanities, Theology
Supervisors
Examiners
Available from: 2012-06-15 Created: 2012-06-13 Last updated: 2014-06-02Bibliographically approved

Open Access in DiVA

No full text

Search in DiVA

By author/editor
Byström, Emil
By organisation
Computational Linguistics
Specific Languages

Search outside of DiVA

GoogleGoogle Scholar

urn-nbn

Altmetric score

urn-nbn
Total: 334 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf