Change search
ReferencesLink to record
Permanent link

Direct link
Inverkan av segmentering på maskinöversättning för kinesiska
Stockholm University, Faculty of Humanities, Department of Linguistics.
2016 (Swedish)Independent thesis Basic level (degree of Bachelor), 10 credits / 15 HE creditsStudent thesis
Abstract [sv]

Många studier av kinesiska inom språkteknologi börjar med segmentering. Vilken typ av segmentering som är mest passande beror på den specifika uppgiften. Inom maskinöversättning av kinesiska, finns det inga tydliga ledtrådar som bekräftar vilken typ av segmentering som är bäst. I denna studie tillämpas tre typer av segmenteringar, nämligen teckensegmentering, ordsegmentering och hybridsegmentering, på utvunna engelsk-kinesiska parallellmeningar från två korpusar, MultiUN och OpenSubtitles2016, för att skapa ett översättningsprogram som baseras på neuronnätverk. Resultatet visar att ordsegmentering och hybridsegmentering är bättre än teckensegmentering och att översättningsriktning påverkar vilken typ av segmentering som fungerar bäst i den givna uppgiften.

Abstract [en]

Many studies on natural language processing for Chinese begin with segmentation. Which kind of segmentation is the most suitable depends on the specific task. In machine translation as one of the fields where segmentation for Chinese is applied there has not been clear evidence of which kind of segmentation is the most suitable. This study provides a case where three kinds of segmentations, character-based, word-based, and hybrid-based segmentation, are applied on extracted English-Chinese parallel sentences from the corpora, MultiUN and OpenSubtitles2016, to build a translation program based on neural networks. The results show that word-based segmentation or hybrid-based segmentation is better than character-based segmentation and that translation direction is one factor to influence which kind of segmentation works best in the given task. 

Place, publisher, year, edition, pages
2016. , 31 p.
Keyword [en]
Segmentation, machine translation, Chinese, neural network, computational linguistics
Keyword [sv]
Segmentering, maskinöversättning, kinesiska, neuronnätverk, datorlingvistik
National Category
Languages and Literature
Identifiers
URN: urn:nbn:se:su:diva-133287OAI: oai:DiVA.org:su-133287DiVA: diva2:958059
Supervisors
Examiners
Available from: 2016-09-06 Created: 2016-09-06 Last updated: 2016-09-06Bibliographically approved

Open Access in DiVA

No full text

Search in DiVA

By author/editor
Ruan, Rex
By organisation
Department of Linguistics
Languages and Literature

Search outside of DiVA

GoogleGoogle Scholar
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

Total: 4 hits
ReferencesLink to record
Permanent link

Direct link