Categories: CloudData & Storage

AWS re:Invent: Redshift auf Steroiden

Bei der diesjährigen AWS re:Invent Konferenz in Las Vegas hat CEO Andy Jassy umfangreiche neue Features für die hauseigenen Data Warehouse Lösung AWS Redshift bekanntgegeben. Gilt Redshift bereits als cloudoptimiertes, performantes Data Warehouse, so drehen sich die neuen Features alle um noch höhere Skalierbarkeit sowie gesteigerte Performance. Zudem soll Redshift auch noch mehr in Amazons Lösungen für Data Lakes integriert werden.

Eine bessere automatische Skalierbarkeit hat Redshift bereits mit der Einführung von Concurrency Scaling im März dieses Jahres ermöglicht, das in Sekundenschnelle dem Cluster weitere Ressourcen bei schwankenden Read-Queries hinzufügt beziehungsweise wieder entfernt.

Mit der Neueinführung von Materialized Views greift Redshift auf einen im Data Warehouse-Bereich altbewährten Ansatz zur Beschleunigung von Queries zurück – nämlich der Voraggregierung und Caching von häufigen Anfragen. Fortschritte macht Redshift auch bei datenbankübergreifenden Queries mit Redshift Federated Query und treibt damit die Integration in die Data Lake-Welt voran. Die Idee, Daten auch außerhalb von Redshift abfragbar zu machen ist nicht neu.

So bietet Redshift bereits mit Redshift Spectrum (jetzt Teil von Lake House) die Möglichkeit, Queries mit Daten aus Amazons Object Storage und Data Lake-Storage-Dienst S3 zu verknüpfen. Neu ist jetzt die Möglichkeit auch Daten in relationalen Datenbanken, die in Amazons gemanagten relationalen Datenbankdienst RDS gehostet werden, anzuzapfen. Allerdings werden zum jetzigen Zeitpunkt nur Amazon RDS for PostgreSQL und Amazon Aurora PostgreSQL unterstützt. Dies ist nicht weiter überraschend, sind denn auch die Wurzeln von Redshift teilweise bei PostgreSQL zu finden.

Es bleibt abzuwarten, ob und wann AWS die Unterstützung auf weitere relationale Datenbanken in RDS oder auch auf nicht RDS-basierte relationale Datenbanken ausweitet.

Damit ist die Integration in die Data Lake-Welt aber noch nicht zu Ende. Mit der Einführung von Data Lake Export ist es jetzt möglich, die Ergebnisse von Redshift Queries im Parquet-Format auf S3 zu exportieren. Parquet ist ein spaltenorientiertes Format mit effizienter Komprimierung, welches sehr populär für analytische Abfragen ist. Parquet-Daten können zum Beispiel direkt von S3 mit Amazon Athena analysiert werden. Brian Hall, Vice President für Product Marketing bei AWS, hat im Interview mit ZDNet betont, dass „die Kunden die starke Integration in S3 schätzen, da somit auch die Möglichkeit gegeben ist, leicht andere Analysewerkzeuge zu verwenden, die für den Einzelfall besser geeignet sind“.

Was traditionelle Data Warehouses auch mehr und mehr zu schaffen macht, sind die immer größer werdenden Datenmengen und damit auch die Skalierbarkeit des Storage Tiers. AWS geht diese Herausforderung mit dem neuen Amazon RA3 with Managed Storage-Instanztyp an, welcher eine Entkopplung von Compute und Storage-Skalierbarkeit verspricht. Die größte Variante ra3.16xlarge weist dabei 48 CPUs, 384 GiB Arbeitsspeicher sowie bis zu 64 TB Storage auf. Grundsätzlich verfügen RA3 Instanzen über sehr schnelle lokale SSD-Festplatten. Die Verwendung von SSDs ist erst mal keine Besonderheit, allerdings zahlt der Kunde nur für die verwendetet Kapazität der lokalen SSDs.

Die eigentliche entkoppelte Storage-Skalierbarkeit wird aber von einem anderen Feature erfüllt. RA3 – Instanzen lagern nämlich Daten welche selten abgefragt werden, automatisch auf S3 aus. Durch die Verwendung der AWS-Nitro-Hypervisor-Architektur wird die dafür notwendige Bandbreite zum Kopieren der Daten zu S3 und zurück bereitgestellt. Trotzdem ist die Übertragung von Daten auch bei großen Bandbreiten oft der Flaschenhals.

Ein weiterer Flaschenhals bei Hochleistungs-Data Warehouses liegt heutzutage auch darin, dass der SSD-Durchsatz mittlerweile so schnell wächst, dass die CPU häufig nicht mehr mit der Berechnung von Daten im Arbeitsspeicher hinterherkommt. Um die genannten Problem anzugehen, beschreitet AWS architekturell innovative Wege: Mit der Ankündigung von AQUA (Advanced Query Accelerator) für Mitte 2020 verspricht AWS bis zu 10-fach höhere Abfragegeschwindigkeiten. Dies soll erreicht werden durch einen hardwarebeschleunigten Cache der oberhalb von S3 angesiedelt ist. AWS will damit Computing-Kapazitäten nahe an die Rohdaten bringen, somit müssen Daten nicht aufwändig über das Netzwerk kopiert werden. Für bestehende Redshift-Kunden solle es außerdem einen Migrationspfad geben.

WEBINAR

Webinar: Auf zu neuen Höhen mit SkySQL, der ultimativen MariaDB Cloud

In diesem Webinar stellen wir Ihnen SkySQL vor, erläutern die Architektur und gehen auf die Unterschiede zu anderen Systemen wie Amazon RDS ein. Darüber hinaus erhalten Sie einen Einblick in die Produkt-Roadmap, eine Live-Demo und erfahren, wie Sie SkySQL innerhalb von nur wenigen Minuten in Betrieb nehmen können.

Anja Schmoll-Trautmann

Anja Schmoll-Trautmann berichtet über aktuelle Entwicklungen im Bereich Consumer Electronics, Mobile und Peripherie. Sie arbeitet mit Windows in allen Varianten, OS X, iOS und Android.

Recent Posts

Vereinte Nationen: Elektronik-Schrott erreicht 2019 Rekordvolumen von 53,6 Millionen Tonnen

In fünf Jahren erhöht sich das jährliche Aufkommen um 9,2 Millionen Tonnen. Die UN kritisiert…

22 Stunden ago

Studie: 16 Facebook-Apps geben unerlaubt Daten an Dritte weiter

Forscher entwickeln ein auf Honeytokens basierendes Tool. Es stellt speziell gestaltete Daten zur Verfügung, deren…

24 Stunden ago

Britische Kartellwächter untersuchen Suchabkommen zwischen Apple und Google

Es soll eine "erhebliche" Einschränkung für den Suchmarkt darstellen. Die Kartellbehörde CMA leitet dies aus…

1 Tag ago

Ransomware EKANS nimmt Industriekontrollsysteme ins Visier

Die Schadsoftware funktioniert trotz zahlreicher Programmierfehler. Eine neue Variante verschlüsselt nicht nur Dateien, sie verändert…

1 Tag ago

Facebook gibt versehentlich Nutzerdaten an App-Entwickler weiter

Eine nach dem Cambridge-Analytica-Skandal eingeführte Sicherheitsmaßnahme greift bei 5000 Apps nicht. Sie erhalten auch nach…

1 Tag ago

EncroChat: Ermittler knacken verschlüsselte Nachrichten und verhaften 746 Verdächtige

Sie ermitteln vier Jahre lang gegen die Betreiber der EncroChat-Plattform. Zwei Monate lang hören sie…

1 Tag ago