Categories: CloudData & Storage

AWS re:Invent: Redshift auf Steroiden

Bei der diesjährigen AWS re:Invent Konferenz in Las Vegas hat CEO Andy Jassy umfangreiche neue Features für die hauseigenen Data Warehouse Lösung AWS Redshift bekanntgegeben. Gilt Redshift bereits als cloudoptimiertes, performantes Data Warehouse, so drehen sich die neuen Features alle um noch höhere Skalierbarkeit sowie gesteigerte Performance. Zudem soll Redshift auch noch mehr in Amazons Lösungen für Data Lakes integriert werden.

Eine bessere automatische Skalierbarkeit hat Redshift bereits mit der Einführung von Concurrency Scaling im März dieses Jahres ermöglicht, das in Sekundenschnelle dem Cluster weitere Ressourcen bei schwankenden Read-Queries hinzufügt beziehungsweise wieder entfernt.

Mit der Neueinführung von Materialized Views greift Redshift auf einen im Data Warehouse-Bereich altbewährten Ansatz zur Beschleunigung von Queries zurück – nämlich der Voraggregierung und Caching von häufigen Anfragen. Fortschritte macht Redshift auch bei datenbankübergreifenden Queries mit Redshift Federated Query und treibt damit die Integration in die Data Lake-Welt voran. Die Idee, Daten auch außerhalb von Redshift abfragbar zu machen ist nicht neu.

So bietet Redshift bereits mit Redshift Spectrum (jetzt Teil von Lake House) die Möglichkeit, Queries mit Daten aus Amazons Object Storage und Data Lake-Storage-Dienst S3 zu verknüpfen. Neu ist jetzt die Möglichkeit auch Daten in relationalen Datenbanken, die in Amazons gemanagten relationalen Datenbankdienst RDS gehostet werden, anzuzapfen. Allerdings werden zum jetzigen Zeitpunkt nur Amazon RDS for PostgreSQL und Amazon Aurora PostgreSQL unterstützt. Dies ist nicht weiter überraschend, sind denn auch die Wurzeln von Redshift teilweise bei PostgreSQL zu finden.

Es bleibt abzuwarten, ob und wann AWS die Unterstützung auf weitere relationale Datenbanken in RDS oder auch auf nicht RDS-basierte relationale Datenbanken ausweitet.

Damit ist die Integration in die Data Lake-Welt aber noch nicht zu Ende. Mit der Einführung von Data Lake Export ist es jetzt möglich, die Ergebnisse von Redshift Queries im Parquet-Format auf S3 zu exportieren. Parquet ist ein spaltenorientiertes Format mit effizienter Komprimierung, welches sehr populär für analytische Abfragen ist. Parquet-Daten können zum Beispiel direkt von S3 mit Amazon Athena analysiert werden. Brian Hall, Vice President für Product Marketing bei AWS, hat im Interview mit ZDNet betont, dass „die Kunden die starke Integration in S3 schätzen, da somit auch die Möglichkeit gegeben ist, leicht andere Analysewerkzeuge zu verwenden, die für den Einzelfall besser geeignet sind“.

Was traditionelle Data Warehouses auch mehr und mehr zu schaffen macht, sind die immer größer werdenden Datenmengen und damit auch die Skalierbarkeit des Storage Tiers. AWS geht diese Herausforderung mit dem neuen Amazon RA3 with Managed Storage-Instanztyp an, welcher eine Entkopplung von Compute und Storage-Skalierbarkeit verspricht. Die größte Variante ra3.16xlarge weist dabei 48 CPUs, 384 GiB Arbeitsspeicher sowie bis zu 64 TB Storage auf. Grundsätzlich verfügen RA3 Instanzen über sehr schnelle lokale SSD-Festplatten. Die Verwendung von SSDs ist erst mal keine Besonderheit, allerdings zahlt der Kunde nur für die verwendetet Kapazität der lokalen SSDs.

Die eigentliche entkoppelte Storage-Skalierbarkeit wird aber von einem anderen Feature erfüllt. RA3 – Instanzen lagern nämlich Daten welche selten abgefragt werden, automatisch auf S3 aus. Durch die Verwendung der AWS-Nitro-Hypervisor-Architektur wird die dafür notwendige Bandbreite zum Kopieren der Daten zu S3 und zurück bereitgestellt. Trotzdem ist die Übertragung von Daten auch bei großen Bandbreiten oft der Flaschenhals.

Ein weiterer Flaschenhals bei Hochleistungs-Data Warehouses liegt heutzutage auch darin, dass der SSD-Durchsatz mittlerweile so schnell wächst, dass die CPU häufig nicht mehr mit der Berechnung von Daten im Arbeitsspeicher hinterherkommt. Um die genannten Problem anzugehen, beschreitet AWS architekturell innovative Wege: Mit der Ankündigung von AQUA (Advanced Query Accelerator) für Mitte 2020 verspricht AWS bis zu 10-fach höhere Abfragegeschwindigkeiten. Dies soll erreicht werden durch einen hardwarebeschleunigten Cache der oberhalb von S3 angesiedelt ist. AWS will damit Computing-Kapazitäten nahe an die Rohdaten bringen, somit müssen Daten nicht aufwändig über das Netzwerk kopiert werden. Für bestehende Redshift-Kunden solle es außerdem einen Migrationspfad geben.

Auf zu neuen Höhen mit SkySQL, der ultimativen MariaDB Cloud

In diesem Online-Seminar stellen wir Ihnen SkySQL vor, erläutern die Architektur und gehen auf die Unterschiede zu anderen Systemen wie Amazon RDS ein. Darüber hinaus erhalten Sie einen Einblick in die Produkt-Roadmap, eine Live-Demo und erfahren, wie Sie SkySQL innerhalb von nur wenigen Minuten in Betrieb nehmen können.

Jetzt registrieren und Aufzeichnung ansehen.

ZDNet.de Redaktion