Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Övervakad namntaggning med domänspecifik träningsdata
Stockholm University, Faculty of Humanities, Department of Linguistics.
2016 (Swedish)Independent thesis Basic level (degree of Bachelor), 10 credits / 15 HE creditsStudent thesisAlternative title
Supervised named-entity recognition with domain-specific training data (English)
Abstract [sv]

Övervakad maskininlärning har gett goda resultat för automatisk namntaggning. Detta kräver dock manuellt annoterad träningsdata, vilket är krävande att ta fram. Studier har visat att likhet mellan träningsdata och testdata är viktigt för att uppnå bra resultat, men normalt sett tränas system alltid med så mycket data som möjligt, utan hänsyn till dess relevans. Syftet med denna studie är att undersöka om bättre namntaggning kan uppnås genom att utesluta de delar av träningsdatan som inte tillhör samma textdomän som testdatan. För att genomföra detta konstrueras ett system med multinomial logistisk regression som tränas och testas på Stockholm-Umeå Corpus enligt både traditionell och föreslagen metod. Undersökningen visar en liten men signifikant försämring vid användning av enbart domänspecifik träningsdata, ett resultat som dock inte är genomgående för alla delar av undersökningen. Den stora fördelen av att reducera träningsdatan är dock att det ökar maskininlärningens hastighet. För att kunna utnyttja detta föreslås att namntaggning föregås av textklassificering.

Place, publisher, year, edition, pages
2016.
Keyword [sv]
Namntaggning, övervakad maskininlärning, multinomial logistisk regression, domänspecifik träningsdata
National Category
General Language Studies and Linguistics
Identifiers
URN: urn:nbn:se:su:diva-130904OAI: oai:DiVA.org:su-130904DiVA: diva2:934145
Supervisors
Examiners
Available from: 2016-06-08 Created: 2016-06-08 Last updated: 2016-06-08Bibliographically approved

Open Access in DiVA

Övervakad namntaggning med domänspecifik träningsdata(391 kB)62 downloads
File information
File name FULLTEXT01.pdfFile size 391 kBChecksum SHA-512
b6bee4a99efd8b51ae1c91d3ac1bcced81bd3fd233b71ae1ad76eb0b0260ccc150e47ee93807e90c4a75952bc69d6a8185bdcfcf87094cf08d350d724fead0de
Type fulltextMimetype application/pdf

Search in DiVA

By author/editor
Persson, Adam
By organisation
Department of Linguistics
General Language Studies and Linguistics

Search outside of DiVA

GoogleGoogle Scholar
Total: 62 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 134 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf