Change search
ReferencesLink to record
Permanent link

Direct link
Empirical evaluation of sparse classification boundaries and HC-feature thresholding in high-dimensional data
Stockholm University, Faculty of Social Sciences, Department of Statistics.
2013 (English)Report (Other academic)
Abstract [en]

The analysis of high-throughput data commonly used in modern applications poses many statistical  challenges, one of which is the  selection  of a small subset of features that are likely to be informative for a specific project. This issue is crucial for success of supervised classification in very high-dimensional setting with  sparsity patterns.   In this paper, we  derive an asymptotic framework that represents sparse and weak blocks model and suggest a technique for block-wise feature selection by thresholding.  Our procedure extends the standard Higher Criticism (HC) thresholding to the case where dependence structure underlying the data can be taken into account and  is shown to be optimally adaptive,  i. e. performs well without knowledge of the sparsity and weakness  parameters.   We empirically investigate the detection boundary of our HC procedure and  performance properties of some estimators of  sparsity parameter. The relevance and benefits of our approach in high-dimensional  classification is demonstrated using both simulation and real data.

Place, publisher, year, edition, pages
2013. , 37 p.
Research Report / Department of Statistics, Stockholm University, ISSN 0280-7564 ; 2013:5
Keyword [en]
Higher criticism, detection boundary, high dimensionality, supervised classification, separation strength
National Category
Probability Theory and Statistics
Research subject
URN: urn:nbn:se:su:diva-95263OAI: diva2:659225
Available from: 2013-10-24 Created: 2013-10-24 Last updated: 2013-11-01Bibliographically approved
In thesis
1. Classification models for high-dimensional data with sparsity patterns
Open this publication in new window or tab >>Classification models for high-dimensional data with sparsity patterns
2013 (English)Doctoral thesis, comprehensive summary (Other academic)
Abstract [en]

Today's high-throughput data collection devices, e.g. spectrometers and gene chips, create information in abundance. However, this poses serious statistical challenges, as the number of features is usually much larger than the number of observed units.  Further, in this high-dimensional setting, only a small fraction of the features are likely to be informative for any specific project. In this thesis, three different approaches to the two-class supervised classification in this high-dimensional, low sample setting are considered.

There are classifiers that are known to mitigate the issues of high-dimensionality, e.g. distance-based classifiers such as Naive Bayes. However, these classifiers are often computationally intensive and therefore less time-consuming for discrete data. Hence, continuous features are often transformed into discrete features. In the first paper, a discretization algorithm suitable for high-dimensional data is suggested and compared with other discretization approaches. Further, the effect of discretization on misclassification probability in high-dimensional setting is evaluated.  

Linear classifiers are more stable which motivate adjusting the linear discriminant procedure to high-dimensional setting. In the second paper, a two-stage estimation procedure of the inverse covariance matrix, applying Lasso-based regularization and Cuthill-McKee ordering is suggested. The estimation gives a block-diagonal approximation of the covariance matrix which in turn leads to an additive classifier. In the third paper, an asymptotic framework that represents sparse and weak block models is derived and a technique for block-wise feature selection is proposed.     

Probabilistic classifiers have the advantage of providing the probability of membership in each class for new observations rather than simply assigning to a class. In the fourth paper, a method is developed for constructing a Bayesian predictive classifier. Given the block-diagonal covariance matrix, the resulting Bayesian predictive and marginal classifier provides an efficient solution to the high-dimensional problem by splitting it into smaller tractable problems.

The relevance and benefits of the proposed methods are illustrated using both simulated and real data.

Abstract [sv]

Med dagens teknik, till exempel spektrometer och genchips, alstras data i stora mängder. Detta överflöd av data är inte bara till fördel utan orsakar även vissa problem, vanligtvis är antalet variabler (p) betydligt fler än antalet observation (n). Detta ger så kallat högdimensionella data vilket kräver nya statistiska metoder, då de traditionella metoderna är utvecklade för den omvända situationen (p<n).  Dessutom är det vanligtvis väldigt få av alla dessa variabler som är relevanta för något givet projekt och styrkan på informationen hos de relevanta variablerna är ofta svag. Därav brukar denna typ av data benämnas som gles och svag (sparse and weak). Vanligtvis brukar identifiering av de relevanta variablerna liknas vid att hitta en nål i en höstack.

Denna avhandling tar upp tre olika sätt att klassificera i denna typ av högdimensionella data.  Där klassificera innebär, att genom ha tillgång till ett dataset med både förklaringsvariabler och en utfallsvariabel, lära en funktion eller algoritm hur den skall kunna förutspå utfallsvariabeln baserat på endast förklaringsvariablerna. Den typ av riktiga data som används i avhandlingen är microarrays, det är cellprov som visar aktivitet hos generna i cellen. Målet med klassificeringen är att med hjälp av variationen i aktivitet hos de tusentals gener (förklaringsvariablerna) avgöra huruvida cellprovet kommer från cancervävnad eller normalvävnad (utfallsvariabeln).

Det finns klassificeringsmetoder som kan hantera högdimensionella data men dessa är ofta beräkningsintensiva, därav fungera de ofta bättre för diskreta data. Genom att transformera kontinuerliga variabler till diskreta (diskretisera) kan beräkningstiden reduceras och göra klassificeringen mer effektiv. I avhandlingen studeras huruvida av diskretisering påverkar klassificeringens prediceringsnoggrannhet och en mycket effektiv diskretiseringsmetod för högdimensionella data föreslås.

Linjära klassificeringsmetoder har fördelen att vara stabila. Nackdelen är att de kräver en inverterbar kovariansmatris och vilket kovariansmatrisen inte är för högdimensionella data. I avhandlingen föreslås ett sätt att skatta inversen för glesa kovariansmatriser med blockdiagonalmatris. Denna matris har dessutom fördelen att det leder till additiv klassificering vilket möjliggör att välja hela block av relevanta variabler. I avhandlingen presenteras även en metod för att identifiera och välja ut blocken.

Det finns också probabilistiska klassificeringsmetoder som har fördelen att ge sannolikheten att tillhöra vardera av de möjliga utfallen för en observation, inte som de flesta andra klassificeringsmetoder som bara predicerar utfallet. I avhandlingen förslås en sådan Bayesiansk metod, givet den blockdiagonala matrisen och normalfördelade utfallsklasser.

De i avhandlingen förslagna metodernas relevans och fördelar är visade genom att tillämpa dem på simulerade och riktiga högdimensionella data.     

Place, publisher, year, edition, pages
Stockholm: Department of Statistics, Stockholm University, 2013. 17 p.
High-dimensionality, supervised classification, classification accuracy, sparse, block-diagonal covariance structure, graphical Lasso, separation strength, discretization
National Category
Research subject
urn:nbn:se:su:diva-95664 (URN)978-91-7447-772-6 (ISBN)
Public defence
2013-12-05, hörsal 2, hus A, Universitetsvägen 10 A, Stockholm, 10:00 (English)
Available from: 2013-11-13 Created: 2013-10-31 Last updated: 2013-11-04Bibliographically approved

Open Access in DiVA

No full text

Search in DiVA

By author/editor
Tillander, Annika
By organisation
Department of Statistics
Probability Theory and Statistics

Search outside of DiVA

GoogleGoogle Scholar
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

Total: 156 hits
ReferencesLink to record
Permanent link

Direct link