Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Automatisk citatidentifiering för nyhetstext på svenska
Stockholm University, Faculty of Humanities, Department of Linguistics, Computational Linguistics.
2015 (Swedish)Independent thesis Basic level (degree of Bachelor), 10 credits / 15 HE creditsStudent thesisAlternative title
Automatic quotation identification in Swedish news text (English)
Abstract [sv]

Svenskans strategier för att markera citat skiljer sig från många av de övriga europeiska språkens. Eftersom de flesta system för automatisk citatidentifiering är utvecklade för engelska, var det angeläget att utveckla ett system speciellt anpassat för svensk text. En manuellt annoterad guldstandard bestående av 100 citat från SUC 3.0 och 206 citat från rå webbnyhetstext sammanställdes för att analysera citatens syntaktiska struktur och markeringsmönster. Markeringsmönstren användes sedan för att utveckla ett regelbaserat system för citatextrahering. Systemet uppnådde en F-score på 0,79 för partiella matchningar i den oredigerade nyhetstext som innehöll guldstandardcitaten. 13 av 19 markeringsmönster identifierades helt eller delvis av reglerna. Dock kunde systemet inte avgöra om citaten fortsatte efter anföringsfrasen eller ej, då nytt stycke inte fanns utmärkt i den råa textdatan.

Abstract [en]

The strategies for marking quotations in Swedish differ from most other European languages. Since most systems for quotation identification are developed for English, there was a need for a quotation identification system specifically adapted for Swedish. A gold standard of 100 quotes from SUC 3.0 and 206 quotes from unformatted, web crawled news data was compiled to analyse the syntactic structures and marking patterns of Swedish quotation. A rule based system for quotation identification based on the patterns was developed. It achieved an F-score of 0.79 for the raw news data that contained the gold standard quotes and was able to identify 13 of 19 marking patterns. It could not determine whether the quotes ended after the reporting phrase or not, since the raw text data lacked formatting for most common way to mark the end of a quote in Swedish.

Place, publisher, year, edition, pages
2015.
National Category
General Language Studies and Linguistics
Identifiers
URN: urn:nbn:se:su:diva-120919OAI: oai:DiVA.org:su-120919DiVA: diva2:855008
External cooperation
Gavagai
Supervisors
Examiners
Available from: 2015-09-18 Created: 2015-09-18 Last updated: 2015-09-18Bibliographically approved

Open Access in DiVA

No full text

Search in DiVA

By author/editor
Eklås Tejman, Claudia
By organisation
Computational Linguistics
General Language Studies and Linguistics

Search outside of DiVA

GoogleGoogle Scholar

urn-nbn

Altmetric score

urn-nbn
Total: 384 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf