Change search
ReferencesLink to record
Permanent link

Direct link
Automatic extraction and translation of the patients smoking status from free text using natural language processing,
Stockholm University / Karolinska Institutet, , .
IMS Health, , .
Stockholm University, Faculty of Social Sciences, Department of Computer and Systems Sciences.
IMS Health/Karolinska Institutet, , .
2016 (English)In: ISPOR International Society For Pharmacoeconomics and Outcomes Research, ISPOR, Elsevier , 2016Conference paper (Refereed)
Abstract [en]

Background:) Despite) that) smoking) prevalence) has) declined) in) many) western) societies,) the) total) number) of) smokers) worldwide) has) increased) steadily) since) 1980,) still) making) it) a) leading) cause) of) death.) Nevertheless,) smoking) status) is) difficult) to) capture) in) real) world) data) (RWD)) such) as) healthcare) registers) and) databases.) Although) smoking) habits) are) often) mentioned) in) Electronic) Medical)Records)(EMR),)there)are)few)examples)of)methods)to)assess)smoking)status)in)EMRs. Objective:)To)develop)and)test)a)textXmining)method)using)machine)learning)algorithms)that)enables) an) automatic) classification) of) smoker) status) (smoker,) exXsmoker,) nonXsmoker) and) unknown) status)) using) data) extracted) from) Swedish) EMRs.) The) model) performance) in) terms) of) presence) of) misclassification)and)sensitivity/specificity)was)compared)with)a)semiXautomatic)ruleXbased)model. Methods:) 32) predictive) models) were) created) with) a) machine) learning) software) (Weka) version) 3.9),) tweaking)sentence)frequency,)classifier)type,)tokenization)and)attribute)selection)using)a)database)of) 80,000)classified)terms.)The)models)were)evaluated)using)FXScore,)ROC)Area)and)Accuracy.)The)rate) of) misclassification) of) these) models) was) calculated) and) the) best) performing) model) was) compared) with)the)ruleXbased)model.)The)error)weight)matrix)was)used)to)select)the)best)model. Results:) The) top) two) performance) measures) were) the) Support) Vector) Machine) (SVM)) Sequential) Minimal)Optimization)(SMO))and)Nearest)Neighbor)(NN))algorithms.)The)best)performing)model)was) created)adopting)the)SMO)classifier)and)combinations)of)unigrams)and)bigrams)as)tokens.)Sentence) frequency) and) attributes) selection) did) not) improve) the) model.) With) data) not) used) during) the) algorithm)development,)SMO)achieved)98.12%)accuracy)and)0.981)FXScore)versus)79.32%)and)0.756) for)the)ruleXbased)model.) Conclusions:) A) model) using) machine) learning) algorithms) to) automatically) classify) patients) smoking) status) was) successfully) developed,) enabling) extraction) of) smoking) variables) directly) from) EMRs) without) extracting) complete) case) notes.) This) opens) for) using) smoking) status) in) retrospective) research)without)manual)reading)and)classifying)of)freeXtext)fields)in)EMRs.

Place, publisher, year, edition, pages
Elsevier , 2016.
National Category
Information Systems
Research subject
Computer and Systems Sciences
URN: urn:nbn:se:su:diva-136579DOI: diva2:1055443
Available from: 2016-12-12 Created: 2016-12-12

Open Access in DiVA

No full text

Other links

Publisher's full text
By organisation
Department of Computer and Systems Sciences
Information Systems

Search outside of DiVA

GoogleGoogle Scholar

Altmetric score

Total: 7 hits
ReferencesLink to record
Permanent link

Direct link