XGBoost: Eine Visualisierung der fundamentalen Unterschiede zwischen den beiden Boostern gbtree and gblinear

XGBoost: Eine Visualisierung der fundamentalen Unterschiede zwischen den beiden Boostern gbtree and gblinear

Hintergrund

Das XGBoost-Framework hat sich zu einem sehr leistungsfähigen und sehr populären Werkzeug im Bereich des maschinellen Lernens entwickelt. Diese Bibliothek enthält eine Vielzahl von Algorithmen, die jeweils mit einem eigenen Satz von Hyperparametern ausgestattet sind. Dies erlaubt es, viele Algorithmen in einem Paket zu kombinieren. Man kann verschiedene Klassifikations-, Regressions- oder Rankingaufgaben modellieren, indem Bäume bzw. lineare Funktionen verwendet werden, indem verschiedene Regularisierungsschemata angewendet werden oder indem viele andere Aspekte der einzelnen Algorithmen angepasst werden können.

Diese Optionen werden durch Hyperparameter gesteuert. Sie können in zwei Klassen unterteilt werden: Parameter, die die Eigenschaften eines Modells festlegen, und Parameter, die das Verhalten eines Modells anpassen. Ein Beispiel für den ersten Typ ist die Art der Zielvariable (objective). Offensichtlich wird eine binäre Klassifikationsaufgabe eine andere Zielvariable haben als eine numerische Vorhersage. Der zweite Satz von Parametern verwaltet den Trainingsprozess. Die Lernrate, normalerweise eta genannt, passt beispielsweise den Informationsgewinn für jeden Lernschritt an und verhindert so eine Überanpassung des Algorithmus auf die Trainingsdaten.

Dieser Artikel konzentriert sich auf zwei spezifische Parameter, die sich scheinbar sehr stark ähneln und dadurch eine gewisse Verwirrung verursachen können: die Art der Zielvariable (objective) und der Booster.

Für weitere Informationen zum vollständigen Satz an Parametern sei auf die offizielle XGBoost Dokumentation verwiesen.

 

Kleiner Überblick über die zwei XGBoost Parameter: booster und objective

  • Der Booster-Parameter legt den Typ des „Learners“ fest, also das Grundkonzept des Algorithmus. Normalerweise ist dies entweder ein Entscheidungsbaum oder eine lineare Funktion. Da XGBoost mehrere Varianten des Learners kombiniert, besteht das Modell im Falle von Entscheidungsbäumen aus einem geboosteten Ensemble von Bäumen. Für den linearen Booster ist es eine gewichtete Summe von linearen Funktionen.
  • Das Lernziel (objective) bestimmt den Typ der Zielvariable. Die verfügbaren Optionen umfassen Regression, logistische Regression, Binär- und Multiklassifikation und Rang. Diese Option erlaubt es, XGBoost-Modelle auf verschiedene Arten von Anwendungsfällen anzuwenden. Der Standardwert ist „reg:squarederror“ (früher „reg:linear“ genannt, was verwirrend war und deshalb umbenannt wurde (siehe Details)).

Dabei ist zu beachten, dass das Lernziel unabhängig vom Booster ist. Entscheidungsbäume sind nicht nur in der Lage, Klassifikationsaufgaben durchzuführen, sondern können auch kontinuierliche Variablen mit einer gewissen Granularität für den im Training verwendeten Datenbereich vorhersagen.

Das Ziel wird also immer von der jeweiligen Modellierungsaufgabe bestimmt, während die beiden Standardbooster für das gleiche Problem gültig sein können.

Visualisierung beider Booster

Um die Unterschiede zwischen den beiden Hauptvarianten des XGBoost-Boosters zu verdeutlichen, wird ein einfaches Beispiel verwendet, bei dem der lineare und der tree Booster für eine Regressionsaufgabe verwendet werden. Die Analyse wird in R mit der „xgboost“-Bibliothek für R durchgeführt.

In diesem Beispiel wird eine kontinuierliche Zielvariable vorhergesagt. Das richtige Lernziel ist also „reg:squarederror“. Die beiden wichtigsten Booster-Optionen, gbtree und gblinear, werden verglichen.

Der Datensatz ist einfach aufgebaut. Der Eingangsparameter x ist eine kontinuierliche Variable, die von 0 bis 10 reicht. Es wird kein Rauschen hinzugefügt, um die Aufgabe einfach zu halten. Die Zielvariable wird aus dem Eingangsparameter generiert:

y=x+   

Die Trainingsdaten werden als Teilmenge des vollständigen Datensatzes ausgewählt, indem zwei Teilbereiche, [1:4] und [6:9], ausgewählt werden. Dies ist in der Abbildung unten dargestellt (gelbe Datenpunkte). Dadurch kann getestet werden, wie gut sich das Modell auf ungesehenen Daten verhält.

 

Mit diesen Trainingsdaten werden zwei XGBoost-Modelle generiert, m1_gbtree mit dem gbtree-Booster und m2_gblinear mit dem gblinear-Booster. Mit den trainierten Modelle werden dann Vorhersagen für den gesamten Datensatz generiert.

With this training data, two XGBoost models are generated, m1_gbtree with the gbtree booster and m2_gblinear with the gblinear booster. The trained models are then used to generate predictions for the whole data set.

 

model
RMSE (full data)
MAE (full data)
RMSE (train data)
MAE (train data)
m1_gbtree 4.91 2.35 0.05 0.03
m2_gblinear 7.74 6.39 4.50 3.89

Die Vorhersagen für den gesamten Datensatz sind in der obigen Grafik zusammen mit dem vollständigen Datensatz dargestellt. Das erste Modell, das Entscheidungsbäume verwendet, sagt die Trainingsdaten in den Regionen, in denen das Modell mit Trainingsdaten versorgt wurde, gut voraus. Allerdings treten sowohl in den äußeren Regionen (x<1 und x>9) als auch in der zentralen Region (4<x<6) Diskrepanzen auf. Das baumbasierte Modell repliziert die Vorhersage des nächstgelegenen bekannten Datenpunktes und erzeugt so horizontale Linien. Dies ist immer dann der Fall, wenn Bäume für kontinuierliche Vorhersagen verwendet werden. Es wird keine Formel gelernt, die eine Inter- oder Extrapolation erlaubt.

Das zweite Modell verwendet eine lineare Funktion für jeden Learner im gradient Boosting Prozess. Die gewichtete Kombination dieser Learner ist immer noch eine lineare Funktion. Dies erklärt das Verhalten des Modells: Die Vorhersagen folgen einer linearen Kurve und nicht dem nichtlinearen Verhalten der Daten.

Wenn man sich die Metriken für den vollständigen Datensatz ansieht, zeigt das baumbasierte Modell einen niedrigeren RMSE (4,9 gegenüber 7,7) und MAE (2,4 gegenüber 6,4) als das lineare Modell. Es ist zu beachten, dass die anderen Hyperparameter der Modelle nicht feinjustiert wurden und daher diese Zahlen nicht unbedingt das Optimum widerspiegeln. Dennoch zeigen sie, wie schlecht die Modelle auf dem gesamten Datensatz abschneiden. Die Metriken, die nur Trainingsdaten berücksichtigen, verdeutlichen die Unterschiede in der Modellierung. Das baumbasierte Modell stellt die Trainingsdaten gut dar, während das lineare Modell dies nicht tut. Dies ist darauf zurückzuführen, dass die Abhängigkeit der Zielvariablen von der Eingangsvariablen nicht linear ist.

Können die Modelle verbessert werden, wenn eine nichtlineare Variable im Training zur Verfügung gestellt wird? Als Test wird jedes Modell auf modifizierten Eingangsdaten trainiert, die sowohl auf der ursprünglichen Eingangsvariablen x als auch auf einer neuen Variablen x_int=x^2 basieren. Die neue Variable enthält den Interaktionsterm, der das nichtlineare Verhalten überhaupt erst verursacht.

Zusätzlich wird ein einfaches lineares Regressionsmodell (nicht XGBoost) zum Vergleich hinzugefügt, einmal mit und einmal ohne Interaktionsterm.

model
RMSE (full data)
MAE (full data)
RMSE (train data)
 
m1_gbtree 4.91 2.35 0.05  
m6_gbtree_int 4.91 2.35 0.05  
m2_gblinear 7.74 6.39 4.50  
m3_gblinear_int 0.00 0.00 0.00  
m4_lin_reg 7.74 6.39 4.50  
m5_lin_reg_int 0.00 0.00 0.00  

Daraus können wir ein paar Dinge lernen:

Erstens: Der Interaktionsterm verbessert die linearen Modelle erheblich. Sie zeigen jetzt eine perfekte Übereinstimmung mit dem vollständigen Datensatz. Hier modelliert die Regressionsfunktion exakt das wahre Verhältnis zwischen Eingangs- und Zielgröße. Darüber hinaus erlaubt die trainierte Funktion eine gute Extrapolation auf ungesehene Daten.

Zweitens hat sich das Modell mit Entscheidungsbaum durch die Einbeziehung des Interaktionsterms nicht verbessert. Dies lässt sich erklären, wenn man sich nochmals vor Augen führt, wie Bäume für eine Regressionsaufgabe funktionieren. Ein Baum teilt den die Trainingsdaten in feine Unterbereiche auf, die durch die Blätter (leaves) repräsentiert werden. Für jedes Blatt wird ein Vorhersagewert von der Zielvariablen gelernt. Dadurch wird die Zielvariable diskretisiert. Das Hinzufügen von weiteren Eingabevariablen verfeinert die Aufteilung des Inputraumes. In diesem Beispiel reicht die ursprüngliche Eingangsvariable x jedoch schon aus, um eine gute Aufteilung zu erzeugen, und durch das Hinzufügen der neuen Eingangsvariablen wird keine neue Information gewonnen.

Schließlich zeigt der lineare Booster der XGBoost-Familie das gleiche Verhalten wie eine lineare Standardregression, mit und ohne Interaktionsterm. Dies mag nicht überraschen, da beide Modelle eine Verlustfunktion für eine lineare Regression optimieren, d.h. den quadratischen Fehler reduzieren. Beide Modelle sollten zum optimalen Ergebnis konvergieren, das identisch sein sollte (wenn auch vielleicht nicht in jeder letzten Stelle). Dieser Vergleich ist natürlich nur gültig, wenn das objektive „reg:squarederror“ für das XGBoost-Modell verwendet wird.

 

Zusammenfassung

In diesem Artikel wurden die beiden Hauptbooster gblinear und gbtree der XGBoost-Familie mit nichtlinearen und nicht kontinuierlichen Daten getestet. Beide Booster zeigten konzeptionelle Grenzen hinsichtlich ihrer Fähigkeit, Nichtlinearität zu extrapolieren oder zu behandeln. Baumbasierte Modelle erlauben es, alle Arten von nichtlinearen Daten gut darzustellen, da keine Formel benötigt wird, die die Beziehung zwischen Ziel- und Eingangsgrößen beschreibt. Dies ist ein enormer Vorteil, wenn diese Beziehungen und Wechselwirkungen unbekannt sind. Lineare Modelle hingegen können keine anderen Beziehungen lernen als rein lineare. Wenn diese zusätzlichen Wechselwirkungen aber bekannt sind, werden lineare Modelle ziemlich mächtig.

Der zweite Aspekt berücksichtigt die Tatsache, dass die Trainingsdaten nicht immer den gesamten Datenbereich des Anwendungsfalles abdecken. Hier muss das Modell von bekannten Datenpunkten auf die neuen Regionen inter- oder extrapolieren. Im Falle von Bäumen steht keine Formel zur Verfügung, die es erlauben würde, für diese Bereiche aussagekräftige Vorhersagewerte zu liefern. Im Gegensatz dazu ist dies der Hauptvorteil von linearen Regressionsmodellen – wenn die gleichen Annahmen auf die neuen Daten angewendet werden können. Mit anderen Worten, wenn sich die neuen Daten in gleicher Weise verhalten.

Haben Sie weitere Fragen? Wir beraten Sie gerne: marketing@avato.net

Impressum: 
Datum: Dezember 2019
Autor: Verena Baussenwein
Kontakt: marketing@avato.net
www.avato-consulting.com
© 2019 avato consulting ag
All Rights Reserved.

Die Schattenseite von Machine Learning aus der Black Box

Die Schattenseite von Machine Learning aus der Black Box

Heutzutage ist künstliche Intelligenz allgegenwärtig. Die verschiedenen Algorithmen des maschinellen Lernens werden für die unterschiedlichsten Anwendungen eingesetzt: In der klassischen prädiktiven Analyse, in Bild- und Spracherkennung, bei Spielen wie Jeopardy!, Go oder World of Warcraft oder für autonom fahrende Autos, die maßgeblich auf maschinellem Lernen beruhen.

Mittlerweile sind viele verschiedene Arten von Modellen verfügbar, von der einfachen linearen Regression bis hin zu geboosteten Entscheidungsbäumen und diverse Arten von neuronalen Netzen. Einige der Modelle sind auf eine bestimmte Aufgabe spezialisiert, z.B. word2vec für Textverarbeitung, während andere leicht auf alle Arten von Problemen angewendet werden können, wie z.B. geboostete Entscheidungsbäume.

Der große Erfolg von künstlicher Intelligenz hat dazu beigetragen, dass die Algorithmen des maschinellen Lernens mittlerweile nicht nur innerhalb der Data Science Community verwendet werden, sondern dass sie mittlerweile in fast jedem anderen Kontext Einzug gehalten haben, der irgendetwas mit Daten zu tun hat. Ein Teil dieses Erfolges ist auf die Tatsache zurückzuführen, dass maschinelles Lernen vergleichsweise einfach anzuwenden ist. Die Algorithmen sind in der Regel öffentlich zugänglich und für die grundlegenden Aufgaben wird vergleichsweise wenig Rechenleistung benötigt. Daher reicht ein Datensatz, ein normales Notebook und ein speziellen Toolkit wie R oder Python aus, um einen eigenen Algorithmus mit künstlicher Intelligenz zu generieren.

Die Algorithmen selbst sind in dezidierten Bibliotheken gekapselt und mit einem einfachen Funktionsaufruf zugreifbar. Zusätzlich gibt es viele Möglichkeiten, die verschiedenen Schritte des Trainings zu automatisieren. Dies hat den gesamten Prozess stark vereinfacht. Es werden nur noch wenige Zeilen Code benötigt, und es entsteht ein ausgeklügeltes Modell. Die Algorithmen und manchmal sogar die Datenaufbereitung und die Anwendung selbst sind zu einer Black Box geworden, die uns dazu verleitet, die Methoden ohne viel nachzudenken anzuwenden.

Darüber hinaus wird die Güte eines Modells in der Regel durch bestimmte Metriken wie den RMSE (Root Mean Square Error, mittlere quadratische Abweichung) bewertet, die die Vorhersagequalität auf einige wenige Zahlen herunterkochen. Diese Metriken sind modellunabhängig und die Daten selbst sind in der Regel recht komplex. Daraus resultiert, dass das vollständige Verständnis und die Bewertung des Modellergebnisses zur Herausforderung werden.

Es passiert schnell, dass einfach das Modell mit den besten Metriken ausgewählt wird und es in der vorgesehenen Anwendung eingesetzt wird. Auf neue Daten angewendet stellt sich schnell heraus, dass die Prognosen jedoch nicht so gut sind wie erwartet. Wie ist das passiert?

Die folgenden Beispiele zeigen, wie es zu diesem Szenario kommen kann.

 

Unzureichende Trainingsdaten

Beginnen wir mit einem offensichtlichen Beispiel aus der Bildklassifikation, um das vorliegende Problem zu verdeutlichen. Ein Algorithmus zu Bildverarbeitung wurde trainiert, um Fotografien mit Tieren zu erkennen und die abgebildeten Tiere zu klassifizieren. Die Trainingsdaten bestanden jedoch nur aus Bildern von Katzen und Hunden. Die vollständigen Daten werden auch andere Tiere wie Vögel oder Fische enthalten, die ebenfalls identifiziert werden sollen. Es ist ganz klar, dass der Algorithmus nicht gut funktionieren wird, da der Bereich der Testdaten den Bereich der Trainingsdaten bei weitem übersteigt.

In den meisten Fällen ist die Diskrepanz zwischen den Trainingsdaten und den neuen Daten jedoch weniger offensichtlich. Für ein konkretes Beispiel nehmen wir einen numerischen Datensatz mit zwei Variablen, einer Eingangsvariable (x) und einer Zielvariable (y). Dabei soll die lineare Abhängigkeit der beiden Variablen modelliert werden, indem der Wert von y für ein gegebenes x vorhergesagt wird. Der Datensatz besteht aus Datenpunkten in einem Bereich von x zwischen 10 und 40 und zwischen 60 und 80 (siehe untenstehende Grafik, gelbe Datenpunkte).

Wie verhält sich das Modell, das für diese Daten trainiert wurde und nun für neue Daten angewendet wird, die in die Lücke von 40 bis 60 fallen? Das Ergebnis hängt stark vom Modell ab. Einige Modelle sind vielleicht in der Lage, gut zu interpolieren, andere werden sinnlose Vorhersagen liefern. Beispielsweise lernt ein Regressionsmodell eine Formel, die angewendet wird. Falls die Formel in unbekannten Datenbereich gültig ist, kann das Modell gute Vorhersagen machen. Ein Entscheidungsbaum hingegen hat nichts über das Verhalten außerhalb des Bereichs der Trainingsdaten gelernt und sagt einfach den Wert des Datenpunktes voraus, der dem neuen Datenpunkt am nächsten liegt. Leider geben die Modelle standardmäßig nicht an, wie zuverlässig die einzelnen Vorhersagen sind. Ein erster Schritt wäre z.B. die Angabe, ob ein Datenpunkt im Bereich der Trainingsdaten liegt oder außerhalb.

 

Unzureichende Datenqualität

Das zweite Beispiel ist eine Aufgabe zur Klassifizierung von seltenen Ereignissen. Ein Klassifizierungsalgorithmus wird darauf trainiert, zwischen zwei Klassen, A und B, zu unterscheiden. Die Klasse A kommt sehr häufig vor, während die andere, B, recht selten ist. Dieses Beispiel könnte aus der Erkennung von Kreditkartenbetrug stammen, bei dem einige wenige illegale Transaktionen (hier Klasse B) in Daten eingebettet sind, die meistens normal sind (Klasse A). Nehmen wir an, dass 2% aller Ereignisse Betrug sind.

Ein entsprechendes Modell wurde auf diese Art von Daten trainiert und wird auf ungesehene Daten angewendet. Es ist sehr gut in der Lage, neue Ereignisse vom Typ A zu klassifizieren. Allerdings erkennt es kein einziges Ereignis der Klasse B. Stattdessen werden sie fälschlicherweise ebenfalls als Klasse A betrachtet. Das Modell zeigt eine Genauigkeit von 98%, was zunächst sehr gut klingt. Allerdings ist die Vorhersagewahrscheinlich für Ereignisse der Klasse B bei 0, da keines dieser Ereignisse korrekt gekennzeichnet wurde. Das Modell hat somit seinen Zweck vollständig verfehlt.

Einer der Gründe dafür könnte in der Qualität der Trainingsdaten liegen, die möglicherweise nicht gut genug ist. Dies kann der Fall sein, wenn die Daten besonders verrauscht und asymmetrisch sind. Das zugrundeliegende Muster, das es erlaubt, die wenigen seltenen Ereignisse der Klasse B von der großen Menge der Ereignisse aus Klasse A zu unterscheiden, ist innerhalb des allgemeinen Rauschens nicht sichtbar. Das bedeutet, dass die vorliegenden Trainingsdaten für die Fragestellung nicht repräsentativ sind. Eine Verbesserung der Datenqualität könnte hier helfen, indem z.B. besser unterscheidbare Ereignissen gesammelt werden oder durch Bereinigung der Daten oder Rauschreduktion.

 

Irreführende Kennzahlen

Die üblichen Metriken, die zur Beurteilung der Modellgüte berechnet werden, sind der RMSE (mittlerer quadratischer Fehler) und der MAE (mittlerer absoluter Fehler):

bezeichnet die Anzahl der Datenpunkte, y die Zielvariable und  die Vorhersage.

Im folgenden Beispiel werden zwei Modelle mit einem kleinen Set an Datenpunkten verglichen, bei dem die Zielvariable y um Null schwankt (s. Abbildung). Das erste Modell sagt den Mittelwert aller Datenpunkte voraus, der 0 ist. Das zweite Modell stellt eine Sinuskurve dar.

Für beide Modelle ist der entsprechende RMSE 1 und MAE 0, die Modelle sind jedoch bei weitem nicht identisch. Welches Modell beschreibt die Daten korrekt? Ohne weitere Informationen über die Daten ist dies nicht klar. Wenn die Daten aus einem bestimmten Grund schwanken, wie z.B. die Lufttemperatur, die einmal am Tag und einmal in der Nacht gemessen wird, dann erfasst das erste Modell dies nicht. Wenn die Schwankungen völlig zufällig sind, dann hat das zweite Modell die Daten deutlich überinterpretiert.

 

Fazit

Diese Beispiele zeigen nur einige der Fallstricke auf, die bei naiver Entwicklung von Black-Box Modellen auftreten können. Offensichtlich gibt es noch viele weitere, z.B. die manchmal große Menge an Hyperparametern, die für die meisten Modellen notwendigt sind, da sie den Algorithmus steuern und kalibrieren. Die Parameter auf die passenden Werte zu setzen ist jedoch nicht intuitiv.

Abschließend soll der folgende Leitfaden dabei helfen, einige Stolpersteine bei der Modellierung zu umgehen.

  1. Abdeckung der Trainingsdaten: Die Trainingsdaten sollten den gesamten für den Anwendungsfall zu erwartenden Datenbereich abdecken. Andernfalls sollte das Modell in der Lage sein, gut auf die unbekannten Regionen zu extrapolieren oder zu interpolieren.
  2. Datenqualität: Modelle, die auf verrauschten und/oder asymmetrischen Daten trainiert werden sollen, können durch eine vorangestellte Bereinigung der Daten deutlich verbessert werden. Dabei sind die Methoden aus der Ausreißererkennung, Glättung (Rauschen) oder Resampling (asymmetrische Daten) hilfreich.
  3. Wahl des Modells: Bei der Auswahl des Modelltyps sollten die grundlegenden Annahmen des Modells berücksichtigt werden. So ist z.B. ein lineares Modell, wie die Regression, nur gültig, um eine lineare Abhängigkeit zwischen Eingangs- und Zielvariable zu modellieren. Wechselwirkungen zwischen verschiedenen Eingangsvariablen werden dabei nicht berücksichtigt.
  4. Hyperparametertuning: Die Hyperparameter des Modells können die Leistung erheblich beeinflussen. Beispielsweise kann Overfitting, also eine zu detaillierte Anpassung an die Trainingsdaten, durch die Anpassung bestimmter Hyperparameter verhindert werden. Leider erfordert diese Aufgabe eine Menge Wissen über die Hyperparameter und viel Rechenleistung und Zeit, um möglichst viele Kombinationen von Hyperparametern zu testen.
  5. Validierung der Ergebnisse: Es ist entscheidend, sich nicht nur auf die wichtigsten Performance-Metriken zu verlassen, sondern auch einen Blick auf die Vorhersagen selbst zu werfen. Residuen- und Zeitreihendarstellungen bei temporalen Daten können immens hilfreich sein.

Und wie immer ist ein sorgfältiger und skeptischer Blick auf alles eine guter Anfang.

Haben Sie weitere Fragen? Wir beraten Sie gerne: marketing@avato.net

Impressum: 
Datum: Dezember 2019
Autor: Verena Baussenwein
Kontakt: marketing@avato.net
www.avato-consulting.com
© 2019 avato consulting ag
All Rights Reserved.

avato Smart Data Methode – Ein Leitfaden für Smart Data Projekte (Whitepaper)

avato Smart Data Methode – Ein Leitfaden für Smart Data Projekte (Whitepaper)

 Warum Smart Data?

Big Data, Advanced Analytics, Industrie 4.0, Internet der Dinge, selbstlernende Maschi­nen – offensichtlich liefern diese Themen den Stoff für viele faszinierende Ideen. Das können effizientere Prozesse, neue und optimierte Produkte sowie Dienstleistungen, oder sogar komplett neue Geschäftsmodelle sein.

Der Einsatz dieser neuen Werkzeuge und Technologien liegt – in unterschiedlichsten Formen – inzwischen für die meisten Unternehmen fast jeder Größe und in den meis­ten Branchen im Bereich des Möglichen oder sogar Notwendigen.

avato Leistungsangebot

Unter der Überschrift Smart Data bietet avato Kunden ein umfassendes Leistungsan­gebot, um aus verfügbaren Daten Innovation und relevante geschäftliche Resultate zu machen. Einzelheiten hierzu sowie Beispielprojekte sind in diesem White Paper beschrieben. Das vorliegende White Paper beschreibt ein Vorgehensmodell, wie Smart Data Projek­te angegangen werden können und gibt Hinweise auf wichtige Erfolgsfaktoren und in der Praxis beobachtete Problemfelder.

Smart Data Projekte gibt es in vielen Facetten

Smart Data Projekte gibt es in einem sehr breiten Spektrum. Auslöser reichen von kon­kreten Einzelproblemen, die datenbasiert gelöst werden sollen, bis hin zu strategi­schen Initiativen unter der Überschrift „Industrie 4.0“, Big Data, Einsatz von Künstlicher Intelligenz etc. Auch die Ziele variieren von der Entwicklung von Ideen für den Smart Data Einsatz und strategischer Roadmaps, über Prototypen oder Produktivsetzung einzelner Use Cases bis zum Aufbau umfassender Smart Data und IT-Architekturen ein­schließlich entsprechender Aufbau- und Ablauforganisationen. Unabhängig vom kon­kreten Auslöser, der Zielsetzung und des vorgesehenen Umfangs des einzelnen Smart Data Projektes ist allen eines gemeinsam: Um erfolgreich zu sein, bedarf es eines struk­turierten und systematischen Vorgehens.

Das avato Smart Data Vorgehensmodell

Die üblicherweise eingesetzten Methoden für Projekte rund um Big Data, Advanced Analytics, Data Science etc. konzentrieren sich fast alle auf den Datenanalyseprozess selbst und basieren meist auf dem CRISP-DM Modell. Dieses Vorgehensmodell ist für den eigentlichen Datenanalyseprozess entworfen und hierfür auch gut geeignet. Ein praxisgerechtes und strukturiertes Vorgehen muss weitere erfolgsrelevante Aspekte berücksichtigen. Dazu zählen insbesondere neben den datenanalytischen Aspekten die geschäftlichen Aspekte, die IT-Aspekte, Data Governance und Security sowie ein angemessenes Projektmanagement und Changemanagement. Dies alles ist vor dem Hintergrund des „Smart Data Reifegrades“ des Unternehmens und der hohen Dynamik im gesamten Markt zu betrachten. avato hat ein Smart Data Vorgehensmodell entwickelt, das diese Aspekte integriert berücksichtigt. Es liefert einen strukturierten Rahmen, der abhängig von der Ausgangs­situation, den Projektzielen und verschiedenen Rahmenbedingungen auf die Kunden- und Projektsituation angepasst und in einen Projektplan übersetzt wird.

Wir empfehlen in folgenden logischen Phasen vorzugehen:

Am Beginn steht die strukturierte Entwicklung eines Plans (Alignment & Discovery), es folgen die Implementierung eines oder mehrerer Anwendungsszenarien – häufig auch nach Machbarkeitsprüfungen oder Prototypen (Proof-of-Concept) – mit der Überfüh­rung in die produktive Umgebung (Deployment) und der anschließenden Betriebs- und Optimierungsphase. Wesentlich ist auch ein adäquates Projekt- und Veränderungsma­nagement von Beginn an. Die Erfahrung zeigt, dass Smart Data Projekte oft zunächst unerwartete Herausforderungen bringen. Sie erfordern die enge Zusammenarbeit von Menschen aus Bereichen, die traditionell nicht oder nur wenig miteinander gearbeitet haben und teilweise sehr unterschiedliche Arbeitsweisen und „Sprachen“ gewohnt sind. Auch sind die Ängste der Belegschaft vor weitreichenden Veränderungen durch diese Projekte nicht zu unterschätzen.

Erfolgskritische Fachdomänen und Projektrollen

Smart Data Projekte sind Teamarbeit. Geschäfts- und Prozessexpertise, Data Science-und Datenmanagement-Expertise, IT-Expertise für die vorhandene Unternehmens-IT und spezielle Advanced Analytics IT-Themen müssen zusammenkommen. Wie immer in Projekten mit interdisziplinären Teams und einer gewissen Komplexität werden auch Projektmanager gebraucht, die strukturiert durch das Projekt führen und das Team motivieren können. Je nach Zielsetzung und Umfeld können auch zusätzlich speziali­sierte Changemanagement Experten eine wichtige Rolle spielen.

avato bietet Ihnen die für Smart Data Projekte erforderliche fachliche Expertise:

Data Engineers und Data Scientists sind zentrale Profile, aber auch Busi­ness Consultants, IT-Architekten, Entwickler und selbst Projektmanager brauchen spe­zielle Expertise in Smart Data Projekten. Physiker, Informatiker und Wirtschaftsinfor­matiker bilden den Kern unseres avato Smart Data Teams. Wir erwarten von unseren Kunden neben einem Projektsponsor aus dem Führungskreis einen verantwortlichen Ansprechpartner (Projektleiter) und die Bereitstellung der fachlichen Expertise im jeweiligen Geschäfts- oder Fertigungsprozess sowie die Mitarbeit der relevanten inter­nen IT-Experten. Wir stellen dann projekt- und aufgabenbezogen in Absprache mit Ih­nen das avato Team zusammen, um die erforderlichen Projektrollen in hoher Qualität zu besetzen. Die Seniorität unserer Berater hält dabei das Team klein und erhöht gleichzeitig Effektivität und Effizienz­

Organisatorische Aspekte

Wir finden bei unseren Kunden sehr unterschiedliche Situationen vor, wie Verantwort­lichkeiten und Prozesse rund um Stammdaten, Datensicherheit, Datenschutz, Daten­qualität usw. organisatorisch gehandhabt werden. Mit Smart Data wird die Bedeutung dieser Themen weiter zunehmen und erfordert zumindest mittelfristig organisatori­sche Anpassungen.

Ein Proof-of-Concept für einige Predictive Analytics Anwendungsszenarien erfordert sicher nicht gleich eine organisatorische Änderung der Datenorganisation im Unter­nehmen. Bei strategischeren Initiativen und zunehmendem Einsatz von Big und Smart Data ist allerdings eine frühzeitige Auseinandersetzung mit der Frage geboten, wie sich ein Unternehmen organisatorisch auf die weiter wachsende Bedeutung von Daten und die damit verbundenen internen und externen Anforderungen einstellt.

Auch neue fachliche Rollen wie Data Engineers und Data Scientists müssen so in die Organisation eingebaut werden, dass sie ihren Mehrwert effizient erbringen können. Nicht zuletzt kommen auf die IT-Organisation neue Aufgaben zu – insbesondere im Be­trieb neuer Smart Data Applikationen.

Wir helfen Ihnen, auf Ihre Situation zugeschnittene Antworten auf diese Fragen zu fin­den.

avato Smart Data – Ein Leitfaden für Smart Data Projekte  (PDF)
Das avato Smart Data Vorgehensmodell. Für die vollständige Version des White Papers laden Sie bitte das PDF herunter.

Haben Sie weitere Fragen? Wir beraten Sie gerne: marketing@avato.net

Impressum: 
Datum: November 2019
Autoren: Wolfgang Ries
Kontakt: marketing@avato.net
www.avato-consulting.com
© 2019 avato consulting ag
All Rights Reserved.

avato Smart Data – Innovationen aus Daten (Whitepaper)

avato Smart Data – Innovationen aus Daten (Whitepaper)

Von der Idee zu Resultaten

 

Warum Smart Data?

Big Data, Advanced Analytics, Industrie 4.0, Internet der Dinge – kaum eine Führungskraft wird diese Themen als irrelevant für die eigene Branche und das eigene Unternehmen abtun. Offensichtlich liefern Big Data Analytics, Vernetzung, immer leistungsfähigere Algorithmen und selbstlernende Maschinen oder autonome Fahrzeuge den Stoff für viele faszinierende Ideen. Das können effizientere Prozesse, neue und optimierte Produkte oder Dienstleistungen, oder sogar komplett neue Geschäftsmodelle sein.
Der Einsatz dieser neuen Werkzeuge und Technologien liegt – in unterschiedlichsten Formen – inzwischen für die meisten Unternehmen fast jeder Größe und in den meisten Branchen im Bereich des Möglichen oder sogar Notwendigen.

Herausforderungen

  • Wie können Unternehmen diese Themen angehen?
  • Welche konkreten Ergebnisse können erzielt werden?
  • Welche zusätzliche Fachexpertise wird benötigt?
  • Welche Investitionen sind erforderlich?
  • Was ist die beste Vorgehensmethodik?
  • Welche Tools sind erforderlich?
  • Müssen große Investitionen in die IT-Landschaft oder Maschinen als Vorleistung getätigt werden?

avato Leistungsangebot in der Übersicht

Wir von avato helfen Ihnen Antworten auf Ihre Fragen zu finden und aus Ideen Resul­tate zu erzielen. Wir arbeiten leidenschaftlich mit Ihnen gemeinsam daran, Ihre Daten in verwertbares Wissen und schließlich echte Innovationen mit Mehrwert zu überfüh­ren. Unter der Überschrift Smart Data haben wir hierfür auf der Basis unserer beste­henden Kernkompetenzen rund um Technologien, Organisation, Betrieb und Optimie­rung großer IT-Umgebungen und technologiebasierte Transformationsprojekte ein umfassendes Leistungsangebot entwickelt.

 Unser Leistungsangebot umfasst:

  • Data Analytics Strategie 

Ausgehend von Ihren unternehmerischen Zielsetzungen ent­wickeln wir mit Ihnen gemeinsam einen geeigneten Projekt­ansatz. Wir nutzen unser avato Smart Data Vorgehensmodell als methodischen Rahmen, um in enger Zusammenarbeit mit Ihnen alle relevanten Aspekte Ihrer Strategie zu beschreiben.

  • Data Lab 

Wir bieten Ihnen mit unserem Data Lab die Möglichkeit, Ihre Daten ohne große Vorabinves­titionen mit modernsten Mitteln zu visualisieren, zu analysieren und die Möglichkeiten zu erkunden, wie diese Daten z.B. mit Verfahren des maschinellen Lernens für Ihre Use Cases nutzbar gemacht werden können.

  • Smart Data Engineering

Bevor Daten analysiert und zu Modellen verarbeitet werden können, müssen sie zunächst aus den unter­schiedlichen Quellen beschafft, überprüft, aufbereitet und angereichert werden, so dass die nachfolgenden Analyse- und Modellierungsschritte sinnvoll durchge­führt werden können. Unsere Spezialisten beraten und unterstützen Sie hierzu oder übernehmen auf Wunsch diese Data Engineering Aktivitäten für Sie.

  • Smart Data Lösungen 

avato stimmt die einzusetzenden Technologien und Soft­ware-Produkte mit dem Kunden ab, um eine größtmögliche Kompatibilität mit Kundenstandards sicher­zustellen, vorhandenes Know-how zu nutzen und die Gesamtkosten zu minimieren. Dabei setzen wir be­vorzugt auf vorhandene kommerzielle Produkte namhafter Hersteller oder etablierte Open Source Produkte. Lücken in den Lösungsarchitekturen schließen wir mit eigenen Lösungskompo­nenten. Diese können zur Beschleunigung des Projekfortschritts sowie zur Senkung der Projektkosten in Ihre Projekte eingebracht und nach Bedarf an­gepasst werden.

  • Data Science-as-a-service

avato hat in den letzten Jahren ein Team von Data Engineers und Data Scientists aufgebaut, die mit Ih­nen gemeinsam Ihre Daten analysieren und geeignete Analyse- und Data Science Methoden für Ihre Anwendungsszenarien auswählen und anwenden. avato unterstützt Ihre Projekte mit erfahrenen IT-Experten, die sich mit den speziellen Anforderungen von Smart Data Projekten, Smart Data Architektu­ren und vielen bei unseren Kunden typisch vorhandenen IT-Systemen ausken­nen.

  • System Integration 

Der Einsatz moderner KI- und ML-Verfahren wird nur eine dauerhaft positive Wirkung entfalten, wenn diese Metho­den in die Produktions- und Geschäftsprozesse integriert und für die betroffenen Mitarbeiter einfach nutzbar ge­macht werden. Das avato Smart Data Framework ist durch die modulare und serviceorientierte Archi­tektur konsequent auf diese Anforderungen ausgelegt. Verschiedene technische An­sätze unterstützen eine für Smart Data Projekte besonders wichtige iterative Vorge­hensweise, die schnelle Implementierungs- und Optimierungszyklen und einen hohen Automatisierungsgrad optimal unterstützt.

Zusammenfassung

Unsere Beraterinnen und Berater bieten Seniorität und Erfahrung in allen relevanten Disziplinen: Business, Data Science, Daten und IT-Architekturen, Softwareentwick­lung, Projekt- und Changemanagement. Unser Anspruch ist es, Sie mit kleinen Teams und minimalem Abstimmungsaufwand mit allen relevanten Services aus einer Hand zu bedienen. Wir sind anbieterneutral und insbesondere unabhängig von Software-Anbietern.

Wir investieren kontinuierlich in die Weiterentwicklung unserer Berater und unserer Smart Data Lösungskomponenten. So helfen wir Ihnen nutzbare Lösungen schnell verfügbar zu machen.

avato Smart Data: Innovationen aus Daten – von der Idee zu Resultaten (PDF)

Das avato Smart Data Profil. Laden Sie hier die vollständige Version des Whitepapers herunter.

Haben Sie weitere Fragen? Wir beraten Sie gerne: marketing@avato.net

Impressum: 
Datum: November 2019
Autoren: Wolfgang Ries
Kontakt: marketing@avato.net
www.avato-consulting.com
© 2019 avato consulting ag
All Rights Reserved.