Big Data Analytics - Methodisches Training in Data Science

Datum: 
Montag, 2. November bis Mittwoch, 4. November 2020 in Hamburg

Trainer: 
Prof. Dr. Diego Kuonen, CStat PStat CSci von Statoo Consulting

Detaillierte Beschreibung des Trainings: 

Es steht außer Frage, dass "Big Data" (der einfache, aber scheinbar revolutionäre Glaube, dass Daten wertvoll sind) und "maschinelles Lernen" (einfach ausgedrückt, ein Bereich fortgeschrittener Statistik, der für die Welt der "Big Data" konzipiert wurde) in Wirtschaft, Industrie, Hochschulen, Ingenieurwesen und der Regierung Einzug gehalten haben. Die Nachfrage nach Fähigkeiten bezüglich Data Science ist besonders in solchen Sektoren beispiellos, in denen Wert, Wettbewerbsfähigkeit und Effizienz durch Daten bestimmt werden. 
Heutzutage wird dies durch die digitale Transformation und die damit verbundene Datenrevolution noch verstärkt.

Data Science Technologien und Methodiken werden angewandt, um verschiedene Prozesse in Wirtschaft und Industrie, im akademischen Bereich, im Ingenieurwesen und in der Regierung zu verstehen und zu optimieren. Es wird weithin angenommen, dass Data Science einen tiefgreifenden Einfluss auf unsere Gesellschaft haben wird und einen wirklichen Nutzen bringen kann. Aber wie kann Data Science zur Erreichung operationeller Exzellenz beitragen? Ist Data Science die Mühe wert oder ist sie eher ein "statistisches Déjà-vu"?

Dieses dreitägige Training gibt Ihnen einen Überblick über das Potenzial und die Grenzen von Data Science und bietet eine gründliche methodische, praktische und vor allem softwareherstellerunabhängige Abdeckung der modernsten Techniken von Data Science (z.B. aus der fortgeschrittenen Statistik, dem maschinellen Lernen und der künstlichen Intelligenz). Er hebt die Anwendbarkeit auf die gesammelten Daten hervor und ermöglicht es Ihnen, die vorgestellte Methodik und die ihr zugrunde liegende Philosophie auf Benchmark Daten oder Ihren eigenen Daten anzuwenden.

Trainingsinhalte: 
Diese Schulung bietet Ihnen eine gründliche methodische und praktische Abdeckung modernster Data Science Techniken (z.B. aus der fortgeschrittenen Statistik, dem maschinellen Lernen und der künstlichen Intelligenz), um unerwartete Muster, Strukturen, Modelle oder Trends in den Daten identifizieren und wichtige Entscheidungen treffen zu können. Dieses Training vermittelt Ihnen praktische Erfahrungen im Bereich Data Science und während des gesamten Trainings werden die Konzepte und Methoden veranschaulicht. Darüber hinaus können Sie das Gelernte innerhalb einer hochmodernen Data Science workbench anhand von Benchmark Daten oder eigenen Daten anwenden.

Ziel des Trainings:

Die naive und blinde "Black-Box"-Nutzung von Data Science Softwarepaketen hat ihre offensichtlichen Fallstricke und kann (wahrscheinlich auch oft) zu praktisch wertlosen Ergebnissen und irreführenden Schlussfolgerungen führen. Es ist nämlich sehr einfach, auf schlechte Weise Data Science zu betreiben. Daher ist es wichtig, die Merkmale der zugrundeliegenden Data Science Methoden (sowohl ihre Vorteile als auch ihre Fallstricke) ausreichend zu verstehen, um eine fundierte Entscheidung darüber treffen zu können, welche Methoden verwendet werden sollen und um die eigenen Ergebnisse und die anderer kritisch zu beurteilen. In diesem Training werden wir eine "White-Box"-Methode anwenden, die das Verständnis der algorithmischen und statistischen Modellstrukturen, die der "Black-Box"-Software zugrunde liegen, in den Vordergrund stellt.

Überblick über die Data-Mining-Methodik:

  • Einführung
  • Entmystifizierung des "Big Data"-Hypes
  • Entmystifizierung des Hype "Internet der Dinge".
  • Anwendbarkeit von Data Science
  • Was ist Data Science?
    • Ist Data Science "statistical déjà vu"?
    • Was unterscheidet Data Science von Statistiken?
  • Entmystifizierung des "Data Science"-Hypes
  • Entmystifizierung des Hype "Machine Learning".
  • Ein Prozessmodell für Data Science
  • Daten und Datenvorverarbeitung
    • Datenquellen
    • Warum Datenvorverarbeitung?
    • Hauptaufgaben in der Datenvorverarbeitung (z.B. Datenintegration, Datenbereinigung, Datentransformation, Datenreduktion,  Datendiskretisierung)
  • Data Science Techniken und Aufgaben
  • Beschreibung und Visualisierung
  • Charakterisierung multivariater Daten
  • Unterschiedlichkeit und Abstandsmaße
  • Unüberwachte Methoden ("Class Discovery")
    • Hauptkomponentenanalyse
    • Mehrdimensionale Skalierung
    • Analyse der Korrespondenz
    • Clusteranalyse (z.B. hierarchische Algorithmen, Partitionsalgorithmen, Einsatz von Clustering in der Praxis)
    • Kohonen's selbstorganisierende Karten
    • Regeln für Affinitätsgruppierung oder Assoziation
    • Ein Blick nach vorne
  • Überwachte Methoden ("Klassenvorhersage")
    • Einführung (z.B. induktive Bias- und Modellkomplexität, Score-Funktionen, interne Validierung, externe Validierung)
    • Klassifikationsmodellierung (z.B. Diskriminanzanalyse, Support-Vektormaschinen, Nearest-Neighbour-Klassifikation, naiver Bayes-Klassifikator)
    • Regressionsmodellierung (z.B. mehrere lineare Modelle, verallgemeinerte lineare Modelle, nichtparametrische Regressionsmodelle, verallgemeinerte additive Modelle, multivariate adaptive Regressionssplines)
    • Neuronale Netzwerke
    • Baumbasierte Methoden (z.B. CART, C4.5 und C5.0, CHAID)
    • Ensemble-Lernen (z.B. Bagging, Subagging, Random Forest, Arcing, Boosting, Stochastic Gradient Tree Boosting)
    • Der Fluch der Dimensionalität (z.B. Merkmalsextraktion, Auswahl von Teilmengen von Merkmalen: Filter, Wrapper, eingebettete Methoden)
    • Bewertung und Vergleich von Klassifikatoren
    • Vergleich von Regressionsmodellen
    • Ein Blick nach vorn
    • Vergleich ausgewählter überwachter Lernmethoden
    • Jüngste Lektionen - was wurde gelernt?
  • Kriterien für potenzielle Data Science Erfolge
  • Schlussfolgerung
  • Referenzen und Ressourcen

Präsentation:
Die Vorlesung wird in Deutsch gehalten. Während des Kurses können Fragen in Englisch, Französisch oder Deutsch gestellt werden. Die Trainingsunterlagen werden alle in englischer Sprache verfasst. Alle Teilnehmer erhalten eine gedruckte Version der Dokumentation ausschließlich für den persönlichen Gebrauch. Erfahren Sie mehr über den Referenten Prof. Dr. Diego Kuonen

Ort: 
Termin im November - Hamburg
(Änderungen vorbehalten)

Voraussetzungen:
Die Teilnehmer sollten mit grundlegenden Statistiken, einschließlich der multiplen linearen Regression, vertraut sein.
Die TIBCO Statistica-Kurslizenz (Download), die 30 Tage läuft, wird gestellt. Wir werden Ihnen die Details vor Kursbeginn mitteilen.

Kursgebühr und Rabatte:
Kursgebühr    EUR 2.500 (in Hamburg)

Akademischer Rabatt    30% Rabatt auf die Kursgebühr. Es gelten keine weiteren Rabatte.

Gruppenrabatt                 Gruppenrabatte sind möglich, wenn sich zwei oder mehr Personen derselben Organisation gemeinsam und zur gleichen Zeit anmelden.
                                           Für weitere Informationen stehen wir Ihnen gerne zur Verfügung. Es gelten keine weiteren Rabatte.

Frühbucherrabatt            10% Rabatt auf die Kursgebühr, wenn Sie sich 6 Wochen vor Kursbeginn anmelden. Es gelten keine weiteren Rabatte.

Die Preise verstehen sich inklusive gedruckter Dokumentation für den persönlichen Gebrauch, Kaffeepausen und Mittagessen und exklusive der gesetzlichen MwSt. Alle Teilnehmer erhalten eine Teilnahmebestätigung.
 

  • Dauer: 3 Tage            Zeit: 9:00 - 17:00 Uhr            Preis: EUR 2.500 (in Hamburg) (zzgl. MwSt.) je Teilnehmer
     

Anmelden

zur Kursübersicht