Endre søk
RefereraExporteraLink to record
Permanent link

Direct link
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annet format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annet språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf
Automatisk citatidentifiering för nyhetstext på svenska
Stockholms universitet, Humanistiska fakulteten, Institutionen för lingvistik, Avdelningen för datorlingvistik.
2015 (svensk)Independent thesis Basic level (degree of Bachelor), 10 poäng / 15 hpOppgaveAlternativ tittel
Automatic quotation identification in Swedish news text (engelsk)
Abstract [sv]

Svenskans strategier för att markera citat skiljer sig från många av de övriga europeiska språkens. Eftersom de flesta system för automatisk citatidentifiering är utvecklade för engelska, var det angeläget att utveckla ett system speciellt anpassat för svensk text. En manuellt annoterad guldstandard bestående av 100 citat från SUC 3.0 och 206 citat från rå webbnyhetstext sammanställdes för att analysera citatens syntaktiska struktur och markeringsmönster. Markeringsmönstren användes sedan för att utveckla ett regelbaserat system för citatextrahering. Systemet uppnådde en F-score på 0,79 för partiella matchningar i den oredigerade nyhetstext som innehöll guldstandardcitaten. 13 av 19 markeringsmönster identifierades helt eller delvis av reglerna. Dock kunde systemet inte avgöra om citaten fortsatte efter anföringsfrasen eller ej, då nytt stycke inte fanns utmärkt i den råa textdatan.

Abstract [en]

The strategies for marking quotations in Swedish differ from most other European languages. Since most systems for quotation identification are developed for English, there was a need for a quotation identification system specifically adapted for Swedish. A gold standard of 100 quotes from SUC 3.0 and 206 quotes from unformatted, web crawled news data was compiled to analyse the syntactic structures and marking patterns of Swedish quotation. A rule based system for quotation identification based on the patterns was developed. It achieved an F-score of 0.79 for the raw news data that contained the gold standard quotes and was able to identify 13 of 19 marking patterns. It could not determine whether the quotes ended after the reporting phrase or not, since the raw text data lacked formatting for most common way to mark the end of a quote in Swedish.

sted, utgiver, år, opplag, sider
2015.
HSV kategori
Identifikatorer
URN: urn:nbn:se:su:diva-120919OAI: oai:DiVA.org:su-120919DiVA, id: diva2:855008
Eksternt samarbeid
Gavagai
Veileder
Examiner
Tilgjengelig fra: 2015-09-18 Laget: 2015-09-18 Sist oppdatert: 2018-01-11bibliografisk kontrollert

Open Access i DiVA

Fulltekst mangler i DiVA

Søk i DiVA

Av forfatter/redaktør
Eklås Tejman, Claudia
Av organisasjonen

Søk utenfor DiVA

GoogleGoogle Scholar

urn-nbn

Altmetric

urn-nbn
Totalt: 743 treff
RefereraExporteraLink to record
Permanent link

Direct link
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annet format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annet språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf