Data Science in Zeiten der Pandemie: Learning by doing

Methoden aus den Bereichen Machine Learning und Data Science nehmen in den vergangenen Jahren eine zunehmend bedeutendere Rolle ein. Kaum ein Berufszweig bleibt von dieser Entwicklung unbeeinflusst, sei es die Ärztin, die bei einer Diagnose unterstützt wird, eine Anwältin, die bei der Durchsicht von Dokumenten Hilfe von einer künstlichen Intelligenz erhält, oder bei der Wettervorhersage. In Zeiten einer zunehmenden Digitalisierung werden täglich immer größere Datenmengen aufgenommen und genau hier kann mithilfe von Data Science Ordnung in die Daten gebracht werden.

 

Wie man mit großen Datenmengen umgeht und daraus Entscheidungen ableitet, lernst du bei uns bei TechAcademy. Doch wie geht man dabei vor und welche Tools nutzt man dabei?

 

Die meisten werden dabei vermutlich zunächst mal an Software wie Excel denken, und tatsächlich kann man damit auch schon einiges anstellen und Analysen durchführen. Doch sobald es an größere Datenmengen geht, Dinge automatisiert werden sollen oder fortgeschrittenere Methoden angewendet werden sollten, kommt man um Programmiersprachen wie R oder Python nicht herum.

 

Also muss ich programmieren lernen?

 

Bei uns hast du die Möglichkeiten die Grundlagen in einer dieser beiden Programmiersprachen zu lernen, um damit sicher umgehen zu können. Darauf aufbauend lernst du dann wie diese Sprachen genutzt werden können, um Daten zu analysieren.

 

Dafür nutzen wir die Plattform „Datacamp“, dort kannst du bequem an deinem Laptop, in deinem Tempo, wann immer du dafür Zeit hast verschiedene Kurse absolvieren, um dir das nötige Wissen anzueignen. Wir haben ein Curriculum an Kursen für dich zusammengestellt welches dich möglichst effizient an den Stoff heranführt. Diese Kurse behandeln jeweils ein bestimmtes Thema und haben einen Umfang von etwa vier Stunden. Die musst du natürlich nicht am Stück abschließen, sondern du kannst dir die Zeit  so einteilen wie es dir passt. Zunächst bekommst du dabei neuen Input in Form eines Videos oder eines kurzen Textes. Im Anschluss kannst du dann dein neu erlerntes Wissen direkt in kleinen Programmieraufgaben anwenden. Doch keine Angst, wenn du mal nicht weiter weißt. Meistens hilft es das Problem zu googlen und nach möglichen Lösungen zu suchen. Sollte das nicht zielführend sein, kannst du dir auf Datacamp Hinweise anzeigen lassen, welche dich in die richtige Richtung lenken werden oder auch die Lösung anzeigen lassen, falls du mal auf dem Schlauch stehen solltest.

 

Die Datacamp Kurse sollen aber hauptsächlich dazu dienen, dich für dein erstes Data Science Projekt vorzubereiten. Jedes Semester bekommen die Teilnehmer ein von uns erstelltes  Projekt, welches es über das Semester hinweg in kleinen Teams zu bearbeiten gilt. Wir stellen euch einen Datensatz und einen Projektleitfaden zur Verfügung, in welchem euch erklärt wird was zu tun ist und wie ihr dabei am besten vorgeht.

 

Und was haben die COVID-19 Daten damit zu tun?

 

Im vergangenen Semester haben wir beispielsweise das Thema Coronavirus behandelt.

 

Eine Größe, die häufig in den Medien vertreten ist, ist die Anzahl an Infektionen pro Land. Wir schauen uns dabei an wie du mithilfe einer der oben genannten Programmiersprachen einen Datensatz aufbereitest und damit aussagekräftige Visualisierungen erstellen kannst. So können zum Beispiel unterschiedliche Länder miteinander verglichen werden und es kann analysiert werden, wie gut die Länder mit der Pandemie umgehen können. Wichtig ist hierbei, dass du dein zuvor erlerntes Wissen in der Praxis anwendest. Das musst du nicht allein tun, sondern du arbeitest in kleinen Teams zusammen mit Leuten, die auf dem gleichen Kenntnisstand sind wie du. Gemeinsam an solchen Projekten zu arbeiten macht nicht nur mehr Spaß, sondern ist häufig deutlich effektiver, da sich die einzelnen Teammitglieder gegenseitig unterstützen können und man leichter zusammen auf Lösungsansätze kommen kann. Viermal im Semester finden dann auch die Coding-Meetups statt. Diese Meetups dienen dazu, dass ihr in eurem Team zusammenarbeiten könnt und zusätzlich Hilfe von unseren erfahrenen Mentoren erhalten könnt.

 

Aber wie genau sehen mögliche Aufgaben aus?

 

Im folgenden Bild siehst du einen Ausschnitt aus dem verwendeten Datensatz. Hier ist der Name des Landes, die geographische Lage des Landes sowie ein Datum und die bis zu diesem Datum bestätigten Corona Infektionen dargestellt. Eine einfache Aufgabe könnte sein, den Verlauf der Infektionszahlen für Deutschland darzustellen. Im Datensatz selbst sind aber auch die Angaben für alle weiteren Länder vorhanden. Man könnte beispielsweise den weltweiten Infektionsverlauf darstellen indem man die Anzahl an Infektionen pro Tag über alle Länder aufsummiert und anschließend visuell darstellt. Klingt kompliziert? Ist mit den Tools, die du bei uns kennen lernst total einfach und wird für dich schnell von der Hand gehen wenn du es mal selbst versucht hast.

 

 

Aufbauend auf dem weltweiten Infektionsverlauf kann man auch beispielsweise eine Grafik wie die folgende erstellen. Hier sieht man die Anzahl an Infektionen pro Tag, zudem ist aber auch ersichtlich welches Land welchen Anteil an Infektionen beiträgt.

 

 

Solche Grafiken wirst auch du erstellen können, wenn du unser Programm durchlaufen hast. Außerdem wirst du ein besseres Verständnis für solche Visualisierungen entwickeln. Dir wird es auch im Alltag leichter fallen statistische Grafiken zu lesen, zu erkennen was diese aussagen und vor allem auch zu erkennen was der Ersteller der Grafik dir damit sagen möchte. Vor allem wirst du aber auch kritischer mit solchen Plots umgehen können und erkennen, ob dir die Grafik eine gewisse Meinung aufzwingen möchte und die Daten tatsächlich vielleicht etwas ganz anderes aussagen.

 

Kann ich nach dem Programm eine künstliche Intelligenz programmieren, die meine Hausarbeiten schreibt?

 

Das wird im Rahmen eines Semesters vermutlich schwierig. Allerdings werden wir im Programm für Fortgeschrittene auch Grundlagen in Machine Learning behandeln, die dann auf die Projektdaten angewendet werden sollen. Dies sind dann Methoden wie eine Lineare Regression welche Zusammenhänge in den Daten nutzen soll, um Vorhersagen machen zu können. Aber auch fortgeschrittenere Themen wie Neuronale Netze können hier Anwendung finden.

 

Wie solche Neuronalen Netze dann Hausarbeiten schreiben können erklären wir vielleicht in einem anderen Blogeintrag.

Scroll to Top