<img src="//salesviewer.org/LE-002231-001.gif" style="visibility:hidden;">

 

Mit Specific-Group in die

Snowflake Data Cloud

Die Snowflake Data Cloud lohnt sich! Wer profitiert in Ihrem Unternehmen?

Wir sind ein Snowflake-zertifiziertes SELECT-Level Partnerunternehmen aus Wien, Österreich.
Wir bieten Ihnen erstklassige Leistungen in der Implementierung sowie Beratung von Snowflake Lösungen an.

Als Teil der Specific-Group verfügen unser Data Teams über Snowflake-zertifizierte Kolleg:innen in Österreich, Polen, Litauen und Ungarn, die Sie gerne bei sämtlichen Data Engineering Vorhaben end-to-end unterstützt.
Snowflake Inc. ist Ende 2020 mit dem Börsengang als die größte Software IPO in die Geschichte gegangen.

Besuchen Sie den kostenlosen Snowflake Data for Breakfast in Wien am 20. April 2023, wo Specific-Group als Snowflake Partner vertreten sind!

 
         Ihr Snowflake Beratungstermin

Snowflake – alle Benefits im Überblick

Speziell für die Public Cloud entwickelt: Snowflake ist eine Datenplattform, mit der sowohl weltweit große Finanz-, Pharma- und Industrieunternehmen, als auch schnell wachsende Start-ups unterstützt werden können. Die Snowflake Cloud Data Plattform läuft nativ auf allen großen Cloud-Provider: Microsoft Azure, Amazon Web Services & Google Cloud. Das pay-as-you-go Modell, die Trennung von Speicher und Rechenleistung, sowie die near-zero Maintenance, ermöglichen Sie Ihre Data Engineering und Data Analytics Workloads unglaublich effizient zu gestalten im Vergleich zu den komplexen DWH und Big Data Plattformen der vorherigen Generationen. 

In wenigen Worten: Sie können mehr aus Ihren Daten realisieren und zwar mit weniger Aufwand!


Die Snowflake Data Cloud lohnt sich! Wer profitiert in Ihrem Unternehmen?

Analysten bekommen einen zentralen Zugriffspunkt für die Daten im gesamten Unternehmen. Vorteil: Sie müssen nicht wissen, wie oder wo die Daten im Backend gespeichert sind. Über Snowflake greifen sie einfach mit SQL darauf zu. Sie möchten zusätzlichen Komfort in der Analytik? Snowsight© macht es möglich. 

Data Engineers erhalten eine Cloudübergreifende Plattform. Diese kann mit einer Instanz auf mehreren Clouds zeitgleich ausgeführt werden. Wichtig: Sind die Daten in Azure Blob Storage, AWS EC3 oder Google Cloud Storage gespeichert, kann Snowflake damit umgehen. Kafka Streams, JSON, XML, CSV, Parquet, Avro, … es funktioniert. Dank „Zero Copy Cloning" ist keine Datenduplizierung nötig. Dadurch können Sie bedenkenlos im Backend Cloud und Tools Ihrer Wahl nutzen. Komfort beim Laden von Daten können Sie sich zusätzlich durch Snowpipe© sichern. 

Data Scientists profitieren von einer skalierbaren Cloud, mit der sie umfangreiche rechenintensive Experimente durchführen können. Ohne Einbußen bei der User Experience. Schnell und einfach: Mit Snowpark © sind serverseitige Ausführung erweiterter Transformationen einfach zu händeln – ob als Abfrage in Python/Java/JavaScript User Defined Functions (UDFs). Sparen Sie sich teures Datenladen! Snowflake bringt Ihnen Rechenleistung zu den Daten. Zehn Experimente parallel durchführen? Kein Problem.

Operations Engineers können sich auf ein nahezu wartungsfreies Produkt freuen. Schluss mit Bedenken wegen der zukünftigen Skalierbarkeit. 

Controller erlangen vollständige Kostentransparenz! Durch verbrauchsorientierte Abrechnung ist die Kostenüberwachung direkt integriert. Zudem sinken die Gesamtausgaben im Vergleich zum Betrieb eines klassischen Data Warehouse vor Ort enorm. Allein das Entladen historischer Daten, die unnötig im täglichen Betrieb sind, senkt die Kosten. Gleichzeitig verbessert es die Leistung vorhandener On-Premise-Datenbanken erheblich.

Security Engineers genießen einen rollenbasierten Zugriff, umfassenden Datenschutz und dynamische Datenmaskierung. Die Daten bleiben in Ihrem Cloud-Abonnement, die DSGVO-Konformität ist integriert.

Operative Risk Manager gewinnen eine Cloudübergreifende Lösung. Für kritische Dienste kann Snowflake gleichzeitig auf Azure, AWS und Google Cloud ausgeführt werden. Das ist erstklassige Redundanz.

Klingt großartig, oder? Damit Sie die Vorteile auch in die Praxis umsetzen und nutzen können, kommen wir als Specific-Group Data ins Spiel!



Unsere Teams: Gemeinsam zur geeigneten Cloud-Lösung 

Data Engineer Workstream
Am Anfang steht die Entscheidung für Ihre Datenbankarchitektur. Welche wird in Ihrem Anwendungsfall benötigt? Wie werden die Daten am besten in Snowflake geladen. Snapshots, Delta-Laden oder Online-Laden (Stream)? Gemeinsam finden wir die passende Lösung. Anschließend richten wir Ihnen die Datenpipelines ein.

 

Datenanalyse Workstream
Zeitgleich dokumentieren Datenanalysten die Geschäftsprozesse und starten mit der Automatisierung. Die Prozessverantwortlichen bleiben dabei immer auf dem Laufenden. 

 

Sind die Data Engineers fertig, werden die neuen automatisierten Berichte und Prozesse getestet, vom Prozessverantwortlichen abgenommen und in Produktion gesetzt. Überzeugen Sie sich vom Erfolg! Meist nach zwei bis drei Monaten zeigt sich, was Ihre Experten alles erreichen können, wenn sie sich nur noch auf die wesentlichen Probleme konzentrieren. Schluss mit unnötiger Ablenkung aus dem tägliche Betrieb.

Machen wir den ersten Schritt auf unserer Reise!

Entwicklung eines modernen Reporting Systems: So gehen wir das Projekt an

Wie funktioniert eine Service-Transformation? Wir zeigen es Ihnen anhand eines realen Beispiels. 
Basis für das Berichtssystem: Snowflake (Daten), Python (Geschäftslogik), Airflow (Scheduling) und PowerBI. Für das Beispiel haben wir uns auf Berichte konzentriert, die in regelmäßigen Abständen (hier: an bestimmten Tagen) aktualisiert werden müssen.

Projektablauf:

1. Verschieben der Daten aus bestehenden Systemen nach Snowflake.
2. Scheduling mit Airflow zur Überprüfung der Vollständigkeit und Aktualität aller erforderlichen Daten.
3. Automatische Benachrichtigung per E-Mail an die relevanten Stakeholder bei fehlenden Daten.
4. Wenn alle Daten vorhanden sind, werden die PowerBI Berichte automatsch aktualisiert. Oder es werden E-Mails mit Excel Berichten versendet.

Mit unserem Setup lösen wir diese Probleme:

1. Große Datenmengen müssen aus der Datenbank gelesen werden

Snowflake skaliert dynamisch entsprechend dem Rechenbedarf. Daher aktivieren wir ein passend großes Warehouse und laden die Daten. Ohne Auswirkungen auf andere Jobs auf Snowflake oder den laufenden Betrieb. Dazu gehört der Aufbau von Datenexport- und Aufnahmepipelines, um die Daten aus den Datenquellen nach Snowflake zu laden. Bei der Verwendung von UDFs müssen deutlich weniger Daten geladen werden, da wir die Berechnung direkt zu den Daten bringen.

2. Viele Berechnungen müssen durchgeführt werden

Einfache Berechnungen werden direkt in Snowflake mit SQL- und Python/JavaScript-UDFs durchgeführt. Für komplexere Berechnungen muss dagegen mithilfe von Airflow ein Docker-Container hochgefahren werden. Dieser besitzt ein Bewertungsdienst in einem Kubernetes-Cluster in dem Airflow bereits vorhanden ist. Alternativ werden Azure/Lambda-Funktionen verwendet. Diese Architektur ermöglicht die kostengünstige Nutzung hochspezialisierter Hardware (GPUs, TPUs etc.) in der Cloud. Zudem werden erheblich Kosten und Zeit für umfangreiche Berechnungen reduziert, da wir sie bei Bedarf in der Cloud nutzen können. Achtung: Es wird eine gewisse Komplexität hinzufügt, die sich nur in bestimmten Fällen lohnt.

3. Große Datenmengen müssen in die Datenbank geschrieben werden (Siehe 1) 

4. Kosten- und Betriebsrisiko, wenn MitarbeiterInnen Berichte manuell aktualisieren. Berichte werden zum selben Zeitpunkt aktualisiert. Mitarbeiter können sich dadurch auf andere Aufgaben konzentrieren.

5. Eingeschränkte Datenkontrolle, wenn Excel-Berichte per E-Mail geteilt werden. Die rollenbasierte Zugriffskontrolle (RBAC) wird von PowerBI und Snowflake sichergestellt.
Jeder Teil der Berichtspipeline ist völlig unabhängig. Wenn Sie statt PowerBI lieber MetaBase oder Tableau bevorzugen - kein Problem! Beides können wir gerne für Sie einsetzen.
Der Übergang von einem Legacy-System zu diesem Setup kann agil erfolgen. Weniger Belastung für Ihre Organisation. Mehr Kostenersparnis bei jedem Schritt.



Kundensegmentierung mit Machine Learning und Snowflake

Kundenverhalten verstehen? Für jedes Unternehmen immens wichtig. Dafür eignet sich zum Beispiel die Erstellung eines Modells zur Kundensegmentierung. Wir erklären, was dahintersteckt!

Für ein optimales Ergebnis läuft die Berechnung des Features für JEDEN Kunden. Natürlich branchen- und unternehmensspezifisch. Als Grundlage dienen dafür vorhandene Daten. Außerdem werden mehrere Modelle trainiert, validiert und am Ende das beste in die Produktion ausgeliefert. 

Die Modellierungs-, Test- und Validierungsphase erfordern mehrfache Wiederholungen. Das Resultat: Große Bedarfsspitzen an Rechenleistung und Bandbreite. Eine hohe Belastung entsteht somit durch Feature-Engineering für traditionelle Datenbanken. Zum einen durch die Berechnung in der Datenbank und zum anderen durch den Export großer Datenmengen in eine Data-Science-Umgebung. Je nach verwendeten Features und Modellen ist der Prozess also sehr rechen- und damit kostenintensiv. 

Am Ende des Modellierungsprozesses erhalten wir eine gut funktionierende Kundensegmentierungspipeline (Feature-Engine und Segmentierungsmodell). Nun werden die erforderlichen Merkmale für jeden Kunden berechnet. Zudem kann das Label (Segment) mithilfe unseres neuen Kundensegmentierungsmodells abgeleitet werden.

In Snowflake können wir Python oder Java als benutzerdefinierte Funktionen (UDFs) verwenden, um die Inferenzpipeline effizient auf Snowflake auszuführen. Ohne Daten zu verschieben. Kein zusätzliches Setup, Betrieb eines Spark-Clusters oder ähnliches ist erforderlich.
Das reduziert die Kosten und den Zeitaufwand für die Inferenz enorm. Außerdem ermöglicht es den Kundenstamm häufiger neu zu bewerten.

Weiteres Plus: Genauigkeit und Leistung von Marketingkampagnen werden extrem gesteigert!m Anfang steht die Entscheidung für Ihre Datenbankarchitektur. Welche wird in Ihrem Anwendungsfall benötigt? Wie werden die Daten am besten in Snowflake geladen. Snapshots, Delta-Laden oder Online-Laden (Stream)? Gemeinsam finden wir die passende Lösung. Anschließend richten wir Ihnen die Datenpipelines ein.