Martin-Luther-Universität Halle-Wittenberg

Weiteres

Login für Redakteure

Dr. Steffen Liebscher

Dr. Steffen Liebscher

Dr. Steffen Liebscher

Kontakt

über den Lehrstuhl für Statistik ()

Persönliche Daten

  • 09/2016 Lehr- und Forschungsaufenthalt an der Universität Cassino, Italien
  • 02/2016 Lehr- und Forschungsaufenthalt an der Universität Cassino, Italien
  • 09/2015 Lehr- und Forschungsaufenthalt an der Universität Cassino, Italien
  • 03/2008 - 04/2017 wissenschaftlicher Mitarbeiter am Lehrstuhl für Statistik
  • Jahrgang 1982

Forschungsschwerpunkt

Robuste Statistische Verfahren

Gegenstand und Ziele

Gegenstand des Forschungsprojektes ist die Entwicklung neuer statistischer Verfahren zur Identifikation von Ausreißern und - darauf aufbauend - die Konstruktion robuster, multivariater Lage- und Streuungsschätzer insbesondere in verteilungsfreien Situationen.

Kurzdarstellung

Kennzahlen zur Quantifizierung der Lage und Streuung von Daten sind nicht nur für deskriptive Analysen von Bedeutung, sondern bilden den Grundstein für eine Vielzahl erweiterter statistischer Verfahren (beispielsweise Varianzanalyse, Faktorenanalyse). Sowohl für die Lage als auch für die Streuung existieren bereits eine Vielzahl von Schätzern, darunter die wohlbekanntesten: das arithmetische Mittel (univariat) bzw. der arithmetische Mittelwertvektor (multivariat) sowie die Varianz (univariat) bzw. die Kovarianzmatrix (multivariat). Die oben genannten Schätzer (und viele Andere mehr) haben allerdings ein Problem: einzelne extreme Beobachtungen (sog. Ausreißer) in der empirischen Datenreihe können die Schätzung beliebig verzerren (etwas formaler: die oben genannten Schätzer haben einen finite-sample-Bruchpunkt von 1/n, d.h. eine einzige, willkürlich veränderte Beobachtung genügt, um den Schätzwert beliebig weit vom "wahren" Parameter wegwandern zu lassen). Dieses Problem wird durch sog. robuste Schätzer adressiert. Dabei handelt es sich um Verfahren, die trotz eines deutlichen Anteils an extremen Beobachtungen (Ausreißern) nicht zusammenbrechen. Für die oben beschriebene Aufgabe der Lage- und Streuungsschätzung sind die bekanntesten und am weitesten verbreiteten robusten Schätzer der Minimum Covariance Determinant Estimator (MCD), der Minimum Volume Ellipsoid Estimator (MVE) und der Minimum Volume Zonoid Estimator (MZE). Die grundsätzliche Funktionsweise dieser robusten Schätzer (wie auch vieler anderer robuster Schätzer) ist dabei nahezu identisch: die "guten" von den "schlechten" Punkten trennen und auf Basis des ausreißerbereinigten Subsamples die gesuchten Parameter schätzen. Aber wie soll diese Trennung stattfinden? Wie soll entschieden werden, welches "gute" und welches "schlechte" Punkte sind? Die zentrale Herausforderung und die eigentliche Schwierigkeit besteht in der adäquaten Identifikation der Ausreißer! Dieser Umstand wird auch durch die Ausreißerdefinition selbst verdeutlicht, die sinngemäß meist in folgender Form angeführt wird: "Ein Ausreißer ist ein Punkt, der weit von der Masse der Daten entfernt liegt." Aber was ist weit? Und zwischen welchen Objekten wird gemessen? Welches Distanzmaß wird verwendet? Diese Fragen können in unterschiedlichster Form beantwortet werden, was dazu führt, dass ein Punkt mal zum Ausreißer wird und mal nicht. M.a.W.: Es existiert nicht der Ausreißer. Welcher Punkt ein Ausreißer ist, wird nicht zuletzt durch das verwendete Identifikationsverfahren bestimmt. An dieser Stelle knüpft dieses Forschungsprojekt an. Das Ziel besteht darin, neue Ansätze zur Identifikation von Ausreißern zu entwickeln und - darauf aufbauend - robuste, multivariate Lage- und Streuungsschätzer zu konstruieren. Der Schwerpunkt der Arbeit liegt dabei auf der Überführung von Konzepten und Methoden aus anderen Disziplinen:

  • Künstliche Neuronale Netze, insbesondere Self-Organizing-Maps (Informatik)
  • Graphen- und Baumbasierte Ansätze (Operations Research)
  • Dimensionsreduzierende Verfahren (Statistik)

Über das Problem der Definition und Identifikation von Ausreißern hinaus besteht in der Anwendungssituation ein weiteres Problem: I.d.R. führt ein sukzessives Vorgehen bei der Auswahl bzw. Abwahl der Ausreißer zu deutlich schlechteren Ergebnissen als eine "globale Optimierung" in einem Schritt. Insbesondere die oben genannten MCD-, MVE- und MZE-Schätzer verwenden ein einstufiges Vorgehen, in welchem das relevante Subsample bestimmt wird. Unabhängig vom verwendeten Optimierungskriterium (z.B. bei MCD: die Determinante der empirischen Kovarianzmatrix; MVE: das Volumen eines Ellipsoids; MZE: das Volumen eines Zonoids) ist ein derartiges Vorgehen rechentechnisch ausgesprochen schwer, da die Anzahl der möglichen Subsamples  mit wachsendem Stichprobenumfang  exponentiell wächst. Die Probleme gehören zur Klasse NP und große, praxisrelevante Anwendungsbeispiele lassen sich nur noch näherungsweise durch Heuristiken lösen. Der zweite Schwerpunkt des Forschungsprojektes besteht darin, gerade diesem Umstand Rechnung zu tragen. Die zu entwickelnden Verfahren sollen nicht nur die Forderung nach hoher Robustheit (nach einem hohen Bruchpunkt) erfüllen, sondern eben auch gute algorithmische Eigenschaften (in Hinblick auf Laufzeit und Speicherbedarf) besitzen.


Wissenschaftliche Arbeiten

Beiträge

  • Kloss, M./Kirschstein, T./Liebscher, S./Petrick M. (2019): "Robust Productivity Analysis: An application to German FADN data", arXiv, 1902.00678   .
  • Kirschstein, T./Liebscher, S. (2018): "Assessing the market values of soccer players - A robust analysis of data from German 1. and 2. Bundesliga", Journal of Applied Statistics, DOI: 10.1080/02664763.2018.1540689   .
  • Kirschstein, T./Liebscher, S./Pandolfo, G./Porzio, G./Ragozini, G. (2018): "On finite-sample robustness of directional location estimators", Computational Statistics & Data Analysis, DOI: 10.1016/j.csda.2018.08.028   .
  • Liebscher, S./Kirschstein, T. (2017): "Predicting the outcome of professional darts tournaments", International Journal of Performance Analysis in Sport, DOI: 10.1080/24748668.2017.1372162   .
  • Kirschstein, T./Liebscher, S./Pandolfo, G./Porzio, G./Ragozini, G. (2016): "A robust estimator for the mean direction of the von Mises-Fisher distribution", Proceedings of the 48th scientific meeting of the Italian Statistical  Society, ISBN: 9788861970618.
  • Kirschstein, T./Liebscher, S./Porzio, G./Ragozini, G. (2016): "Minimum volume peeling: A robust nonparametric estimator of the multivariate mode", Computational Statistics and Data Analysis, 93, 456-468, DOI: 10.1016/j.csda.2015.04.012   .
  • Liebscher, S./Kirschstein, T. (2015): "Knot deletion for robust penalized spline regression", Proceedings of the 60th ISI World Statistics Congress, 2452-2457, Rio de Janeiro.
  • Liebscher, S./Kirschstein, T. (2015): "Efficiency of the pMST and RDELA Location and Scatter Estimators", Advances in Statistical Analysis, 99(1), 63-82, DOI: 10.1007/s10182-014-0231-7   .
  • Liebscher, S./Kirschstein, T./Becker, C. (2013): "RDELA - A Delaunay-Triangulation-based, Location and Covariance Estimator with High Breakdown Point", Statistics and Computing, 23(6), 677-688, DOI: 10.1007/s11222-012-9337-5   . Erratum.
  • Kirschstein, T./Liebscher, S./Becker, C. (2013): "Robust estimation of location and scatter by pruning the minimum spanning tree", Journal of Multivariate Analysis, 120, 173-184, DOI: 10.1016/j.jmva.2013.05.004   .
  • Becker, C./Liebscher, S./Kirschstein, T. (2013): "Multivariate outlier identification based on robust estimators of location and scatter", In Becker, C./Fried, R./Kuhnt, S. (Eds.), Robustness and Complex Data Structures - Festschrift in Honour of Ursula Gather, 103-115, Springer, DOI: 10.1007/978-3-642-35494-6_7   .
  • Liebscher, S./Kirschstein, T. (2012): "Identification of unbalanced warship designs using multivariate outlier detection procedures", Military Operations Research, 17(1), 31-43, DOI: 10.5711/1082598317131   .
  • Liebscher, S./Kirschstein, T./Becker, C. (2012): "The Flood Algorithm - A Multivariate, Self-Organizing-Map-based, Robust Location and Covariance Estimator", Statistics and Computing, 22(1), 325-336, DOI: 10.1007/s11222-011-9250-3   .

Vorträge (Auswahl)

  • Liebscher, S./Kirschstein, T./Becker, C.: Finding the bad ones - Identifying unsuccessful warship designs; JSM2011 - Joint Statistical Meetings, Miami, 04.08.2011.
  • Liebscher, S./Kirschstein, T./Becker, C.: RDELA - A Delaunay-Triangulation-based, Location and Covariance Estimator with High Breakdown Point; ICORS2011 - International Conference on Robust Statistics, Valladolid, 30.06.2011.
  • Liebscher, S./Kirschstein, T./Becker, C.: The Flood  Algorithm - A Multivariate, Self-Organizing-Map-based,  Robust  Location and Covariance Estimator; ICORS2010 - International Conference on Robust Statistics, Prag, 29.06.2010.

R Pakete

Tagungsorganisation


Zum Seitenanfang