Infos
16:45 - 17:45
Calgary
Beschreibung
Das Konzept des Data Lake ist heute in aller Munde. Die Idee, alle im Unternehmen anfallenden Daten an einer zentralen Stelle abzuspeichern und verfügbar zu machen, klingt fürs Erste natürlich sehr interessant. Der Data Lake kann sich jedoch schnell vom klaren, schönen Bergsee in einen riesigen Tümpel verwandeln, insbesondere dann, wenn man ihm unbedarft sämtliche Quellendatenformate anvertraut, die heute in den Unternehmen gängig sind, wie z. B. XML, JSON, CSV oder unstrukturierte Textdaten. Wer hat hier nach geraumer Zeit noch die Übersicht, welche Daten welches Format haben und wie sich diese über verschiedene Versionen weiterentwickelt haben? Jeder, der sich aus dem Data Lake bedienen will, muss sich immer wieder dieselben Fragen stellen: Welche Informationen werden zur Verfügung gestellt, welche Datentypen haben sie und wie hat sich der Inhalt über die Zeit verändert? Abhilfe schaffen können Datenserialisierungsframeworks wie z. B. Apache Avro und Google Protocol Buffer (protobuf), die eine plattformunabhängige Datenmodellierung und -speicherung ermöglichen. Dieser Vortrag geht auf die Möglichkeiten von Avro und Protobuf ein und zeigt, wie man diese im Kontext eines Data Lakes einsetzen und welche Vorteile man damit erzielen kann. Die Unterstützung von Avro und protobuf durch Big-Data- und Fast-Data-Plattformen ist dabei ebenfalls ein Thema.

