Endre søk
RefereraExporteraLink to record
Permanent link

Direct link
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annet format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annet språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf
Noisy Parallel Corpus Filtering through Projected Word Embeddings
Stockholms universitet, Humanistiska fakulteten, Institutionen för lingvistik, Avdelningen för datorlingvistik.
Stockholms universitet, Humanistiska fakulteten, Institutionen för lingvistik, Avdelningen för datorlingvistik.ORCID-id: 0000-0002-6027-4156
2019 (engelsk)Inngår i: Proceedings of the Fourth Conference on Machine Translation (WMT), Association for Computational Linguistics, 2019, Vol. 3, s. 279-283Konferansepaper, Publicerat paper (Fagfellevurdert)
Abstract [en]

We present a very simple method for parallel text cleaning of low-resource languages, based on projection of word embeddings trained on large monolingual corpora in high-resource languages. In spite of its simplicity, we approach the strong baseline system in the downstream machine translation evaluation.

sted, utgiver, år, opplag, sider
Association for Computational Linguistics, 2019. Vol. 3, s. 279-283
HSV kategori
Identifikatorer
URN: urn:nbn:se:su:diva-172783OAI: oai:DiVA.org:su-172783DiVA, id: diva2:1349750
Konferanse
Fourth Conference on Machine Translation (WMT19), Florence, Italy, August 1-2, 2019
Tilgjengelig fra: 2019-09-09 Laget: 2019-09-09 Sist oppdatert: 2019-12-17bibliografisk kontrollert

Open Access i DiVA

Fulltekst mangler i DiVA

Andre lenker

Free full text

Søk i DiVA

Av forfatter/redaktør
Kurfali, MurathanÖstling, Robert
Av organisasjonen

Søk utenfor DiVA

GoogleGoogle Scholar

urn-nbn

Altmetric

urn-nbn
Totalt: 82 treff
RefereraExporteraLink to record
Permanent link

Direct link
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annet format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annet språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf