Data Science

Im Jahr 2010 entstanden noch 1200 Exabyte, wobei ein Exabyte einer Milliarde Gigabyte entspricht. Im Jahr 2020 sollen es der International Data Corporation (IDC) zufolge 40 Zettabyte sein. Das wären dann 40.000 Exabyte. Sprich: 40 Billionen Gigabyte.

Igor Markov, Professor an der Michigan EECS, hat unter anderem diese „Hot Topics“ für das Jahr 2015 im Bereich Big Data benannt:

1. Big Data-Apps, Algorithmen und Architekturen

Dazu gehören Data Mining, Machine Learning und Hardware Architekturen, die mehr Daten hervorbringen, als wir es heute für möglich halten.

2. Künstliche Intelligenz und Robotik

Die menschliche Vorstellungskraft in Bezug auf Datenmasse stößt langsam an ihre Grenzen. Hier ist es an der Zeit Maschinen effizienter zu gestalten. Bisher wurden Maschinen für eine bestimmte Aufgabe gebaut. Ab sofort wird es anders sein, denn wir brauchen effiziente Algorithmen, statistische Modelle und neue Rechnerkapazitäten.

3. Bio-Informatik und Nutzung von Computer Science in Biomedizin, Medizin und Medizinischem Ingenieurswesen

Es besteht eine große Lücke zwischen dem, was man heute über das menschliche Gehirn weiß, und den funktionellen Möglichkeiten des lebenden Gehirns. Die Schließung dieser Lücke ist eine der größten Herausforderungen moderner Wissenschaft. DNA- und genetische Analysen sind heutzutage computerbasiert; und auch biomedizinische Tools, mit denen zum Beispiel Microprozessoren lebensrettende Substanzen im Körper freilassen können, gehören in einigen Teilen unserer Welt zum Alltag. Die Menge an Daten, die hieraus geschöpft werden kann, führt zu neuen Erkenntnissen und kann die medizinische Behandlungen um ein vielfaches verbessern.

In Deutschland entwickeln sich Startups aus diesen Bereichen zwar langsamer als in den USA oder Israel, doch es scheint so als wäre der Data Science Hype nun auch in Deutschland angekommen.

Das Kölner Unternehmen ArangoDB spielt im Bereich NoSQL in der oberen Liga mit. Und ParStream (ebenfalls aus Köln), die sich mit der Datenverarbeitung aus IoT-Anwendungen beschäftigen, wurden im November von CISCO gekauft.

Immer mehr Unternehmen sind auf der Suche nach einem Data Scientist und möchten ihre Datensammlungen sinnvoll nutzen. Dabei gestaltet sich die Siche nach qualifizierten Leuten schwierig. Denn der moderne Data Scientist ist in der Lage unstrukturierte Daten zu nehmen, relevante Information zu extrahieren, strukturiert abzulegen und aus den strukturierten Daten (interaktive) Visualisierungen, Reports und Ad-hoc-Analysen zu erstellen und diesen ganzen Prozess am besten auch zu automatisieren und zu dokumentieren. Somit braucht ein Data Scientist Kenntnisse in Skriptsprachen, Visualisierungsframeworks, Webtechnologie, sowie Datenbanken (SQL, NoSQL, Big Data), und muss mit dem Umgang mit Standard-Entwicklertools wie bash, Linux, git, docker, regex, etc. vertraut sein. Kurzum braucht es einen Experten der das Thema Daten komplett, von der Datensammlung bis zum Endprodukt, also der konkreten Handlungsempfehlung auf Basis der Daten, überschauen kann. Dafür muss ein Data Scientist besser programmieren können als ein Statistiker und besser Statistik beherrschen als ein Programmierer. Idealerweise fängt seine Arbeit an, bevor Daten überhaupt gesammelt werden.

Es bleibt sehr spannend, in welche Richtung sich deutsche Unternehmen entwickeln. Denn gerade Themen, wie Datenschutz und Rechtssicherheit, die in Deutschland eine besonders große Rolle spielen, werden dem ein oder anderen Vorhaben womöglich (leider) einen Strich durch die Rechnung machen.

Umso mehr möchten wir Vorhaben aus dem Bereich der Data Science unterstützen und Data Scientists eine Plattform für den Austausch bieten. Deshalb haben wir das Data Science Meetup Cologne ins Leben gerufen. Alle Infos zum Meetup findet ihr hier.


Big Data Konferenz STARTPLATZ

Am 9. Juni findet unsere dritte Big Data Konferenz mit dem Schwerpunkt Data Science statt.

Das Programm und die Tickets gibt es hier


Quellen: https://www.quora.com/What-are-currently-the-hot-topics-in-computer-science-research

STARTPLATZ Wiki