Bedeutung von Unüberwachtem Lernen (Unsupervised Learning) bei der Vorverarbeitung von Daten

Unter diesen Begriff fallen sämtliche Arten von maschinellem Lernen, bei denen das Ergebnis unbekannt ist und es keinen Lehrer zum Trainieren des Algorithmus gibt. Beim unüberwachtem Lernen erhält der Lernalgorithmus lediglich die Eingabedaten und wird damit beauftragt, Wissen aus diesen Daten zu extrahieren.

Es gibt grundsätzlich zwei Arten von unüberwachtem Lernen:

  1. Transformation von Datensätzen
  2. Clusterverfahren

Unüberwachte Transformation

Dabei handelt es sich um Algorithmen die eine neue Repräsentation der Daten erzeugen, die für Menschen oder andere maschinelle Lernalgorithmen besser verständlich ist als deren ursprüngliche Darstellung. Eine häufige Anwendung der unüberwachten Transformation ist die Dimensionsreduktion, mit der sich aus einer höher dimensionierten Repräsentation der Daten mit vielen Merkmalen eine zusammengefasste Repräsentation weniger zentraler Merkmale ermitteln lässt. Ein verbreitetes Anwendungsbeispiel der Dimensionsreduktion ist die Projektion auf zwei Dimensionen, um Daten besser visualisieren zu können und somit auch besser verstehen zu können.

Eine weitere wichtige und nützliche Anwendung für unüberwachte Transformation ist das Finden von Teilen oder Komponenten, die den Kern der Daten darstellen. Ein Beispiel hierfür ist das Finden von Themen in einer Sammlung von Textdokumenten. Die Aufgabe besteht darin, unbekannte Themen zu finden, die in allen Dokumenten erwähnt werden. Hierbei versucht man zu erfahren welche Themen in allen Dokumenten vorkommen. Solche Verfahren können zum Beispiel nützlich sein um Diskussionen zu Themen wie Wahlen, Gesetze und Popstars zu verfolgen.

Clusterverfahren

Clusterverfahren dagegen teilen Datensätze in separate Gruppen mit ähnlichen Elementen ein. Betrachten wir als Beispiel das Hochladen von Bildern in ein soziales Netzwerk. Um ihre Bilder zu sortieren, könnte die Webseite versuchen, Bilder mit der gleichen Person nebeneinanderzustellen. Allerdings weiß die Webseite nicht, wer auf welchem Bild zu sehen ist und wie viele unterschiedliche Personen in ihrer Fotosammlung vertreten sind. Ein sinnvoller Ansatz wäre, alle Gesichter zu extrahieren und Gruppen mit ähnlichen Gesichtern zu bilden.

Herausforderungen beim unüberwachten Lernen

Das Hauptproblem beim unüberwachten Lernen ist, auszuwerten, ob der Algorithmus etwas Nützliches gelernt hat. Für gewöhnlich werden Algorithmen zum unüberwachten Lernen auf nicht verschlagwortete (labeled) Daten angewendet, sodass wir nicht wissen, wie die korrekte Ausgabe aussehen soll. Deshalb ist es so schwer zu entscheiden, ob ein Modell richtig liegt.

Deshalb werden unüberwachte Algorithmen häufig in der Erkundungsphase eingesetzt, in der ein Data Scientist die Daten besser verstehen möchte und weniger als Teil eines großen automatisierten Systems.

Eine weitere häufige Anwendung von unüberwachten Algorithmen ist die Vorverarbeitung für überwachte Algorithmen. Eine neue Repräsentation der Daten erhöht die Lerngenauigkeit des überwachten Algorithmus oder reduziert den Speicher- und Zeitaufwand.

Es gibt zwei Arten von Algorithmen die häufig beim Unüberwachten Lernen eingesetzt werden:

k-Means

Ein k-Means-Algorithmus ist ein Verfahren zur Vektorquantisierung, das auch zur Clusteranalyse verwendet wird. Dabei wird aus einer Menge von ähnlichen Objekten eine vorher bekannte Anzahl von k Gruppen gebildet. Der Algorithmus ist eine der am häufigsten verwendeten Techniken zur Gruppierung von Objekten, da er schnell die Zentren der Cluster findet. Dabei bevorzugt der Algorithmus Gruppen mit geringer Varianz, und ähnlicher Größe. (Quelle: wikipedia)

(Beispiel 3 Cluster – Quelle: sciki-learn)

Apriori

Der Apriori-Algorithmus ist ein Verfahren zur Assoziationsanalyse, einem Bereich des Data-Mining. Er dient der Auffindung von sinnvollen und nützlichen Zusammenhängen in transaktionsbasierten Datenbasen, die in Form von sogenannten Assoziationsregeln dargestellt werden. Eine häufige Anwendung des Apriori-Algorithmus ist die Warenkorbanalyse. Items sind hierbei angebotene Produkte und ein Einkauf stellt eine Transaktion dar, welche die gekauften Items enthält. Der Algorithmus bestimmt nun Korrelationen der Form:

„Wenn Shampoo und Rasierwasser gekauft wurden, wurde in 90 % der Fälle auch Rasierschaum gekauft.“ (Quelle: wikipedia)

(Einfaches Apriori Bespiel – Quelle: wikipedia)

Zusammenfassung

Unüberwachtes Lernen kann sehr nützlich sein, wenn man zu Beginn nicht genau weiß was man mit den zur Verfügung gestellten Daten anfangen soll bzw. in welche Richtung die Analyse gehen soll. Es bietet somit dem Data-Scientist die Möglichkeit ein bisschen Licht ins Dunkle zu bringen.