Categories: CloudData & Storage

AWS re:Invent: Redshift auf Steroiden

Bei der diesjährigen AWS re:Invent Konferenz in Las Vegas hat CEO Andy Jassy umfangreiche neue Features für die hauseigenen Data Warehouse Lösung AWS Redshift bekanntgegeben. Gilt Redshift bereits als cloudoptimiertes, performantes Data Warehouse, so drehen sich die neuen Features alle um noch höhere Skalierbarkeit sowie gesteigerte Performance. Zudem soll Redshift auch noch mehr in Amazons Lösungen für Data Lakes integriert werden.

Eine bessere automatische Skalierbarkeit hat Redshift bereits mit der Einführung von Concurrency Scaling im März dieses Jahres ermöglicht, das in Sekundenschnelle dem Cluster weitere Ressourcen bei schwankenden Read-Queries hinzufügt beziehungsweise wieder entfernt.

Mit der Neueinführung von Materialized Views greift Redshift auf einen im Data Warehouse-Bereich altbewährten Ansatz zur Beschleunigung von Queries zurück – nämlich der Voraggregierung und Caching von häufigen Anfragen. Fortschritte macht Redshift auch bei datenbankübergreifenden Queries mit Redshift Federated Query und treibt damit die Integration in die Data Lake-Welt voran. Die Idee, Daten auch außerhalb von Redshift abfragbar zu machen ist nicht neu.

So bietet Redshift bereits mit Redshift Spectrum (jetzt Teil von Lake House) die Möglichkeit, Queries mit Daten aus Amazons Object Storage und Data Lake-Storage-Dienst S3 zu verknüpfen. Neu ist jetzt die Möglichkeit auch Daten in relationalen Datenbanken, die in Amazons gemanagten relationalen Datenbankdienst RDS gehostet werden, anzuzapfen. Allerdings werden zum jetzigen Zeitpunkt nur Amazon RDS for PostgreSQL und Amazon Aurora PostgreSQL unterstützt. Dies ist nicht weiter überraschend, sind denn auch die Wurzeln von Redshift teilweise bei PostgreSQL zu finden.

Es bleibt abzuwarten, ob und wann AWS die Unterstützung auf weitere relationale Datenbanken in RDS oder auch auf nicht RDS-basierte relationale Datenbanken ausweitet.

Damit ist die Integration in die Data Lake-Welt aber noch nicht zu Ende. Mit der Einführung von Data Lake Export ist es jetzt möglich, die Ergebnisse von Redshift Queries im Parquet-Format auf S3 zu exportieren. Parquet ist ein spaltenorientiertes Format mit effizienter Komprimierung, welches sehr populär für analytische Abfragen ist. Parquet-Daten können zum Beispiel direkt von S3 mit Amazon Athena analysiert werden. Brian Hall, Vice President für Product Marketing bei AWS, hat im Interview mit ZDNet betont, dass „die Kunden die starke Integration in S3 schätzen, da somit auch die Möglichkeit gegeben ist, leicht andere Analysewerkzeuge zu verwenden, die für den Einzelfall besser geeignet sind“.

Was traditionelle Data Warehouses auch mehr und mehr zu schaffen macht, sind die immer größer werdenden Datenmengen und damit auch die Skalierbarkeit des Storage Tiers. AWS geht diese Herausforderung mit dem neuen Amazon RA3 with Managed Storage-Instanztyp an, welcher eine Entkopplung von Compute und Storage-Skalierbarkeit verspricht. Die größte Variante ra3.16xlarge weist dabei 48 CPUs, 384 GiB Arbeitsspeicher sowie bis zu 64 TB Storage auf. Grundsätzlich verfügen RA3 Instanzen über sehr schnelle lokale SSD-Festplatten. Die Verwendung von SSDs ist erst mal keine Besonderheit, allerdings zahlt der Kunde nur für die verwendetet Kapazität der lokalen SSDs.

Die eigentliche entkoppelte Storage-Skalierbarkeit wird aber von einem anderen Feature erfüllt. RA3 – Instanzen lagern nämlich Daten welche selten abgefragt werden, automatisch auf S3 aus. Durch die Verwendung der AWS-Nitro-Hypervisor-Architektur wird die dafür notwendige Bandbreite zum Kopieren der Daten zu S3 und zurück bereitgestellt. Trotzdem ist die Übertragung von Daten auch bei großen Bandbreiten oft der Flaschenhals.

Ein weiterer Flaschenhals bei Hochleistungs-Data Warehouses liegt heutzutage auch darin, dass der SSD-Durchsatz mittlerweile so schnell wächst, dass die CPU häufig nicht mehr mit der Berechnung von Daten im Arbeitsspeicher hinterherkommt. Um die genannten Problem anzugehen, beschreitet AWS architekturell innovative Wege: Mit der Ankündigung von AQUA (Advanced Query Accelerator) für Mitte 2020 verspricht AWS bis zu 10-fach höhere Abfragegeschwindigkeiten. Dies soll erreicht werden durch einen hardwarebeschleunigten Cache der oberhalb von S3 angesiedelt ist. AWS will damit Computing-Kapazitäten nahe an die Rohdaten bringen, somit müssen Daten nicht aufwändig über das Netzwerk kopiert werden. Für bestehende Redshift-Kunden solle es außerdem einen Migrationspfad geben.

WEBINAR

Webinar-Aufzeichnung: Zugangsdaten unter Kontrolle behalten

Sicherheit beginnt bei Identitäten, hört aber nicht dort auf. Wie Identity Management, Active Directory und Privileged Access Management (PAM) zusammenpassen, erfahren Sie in diesem Webinar.

Anja Schmoll-Trautmann @Anja_NME

Anja Schmoll-Trautmann berichtet über aktuelle Entwicklungen im Bereich Consumer Electronics, Mobile und Peripherie. Sie arbeitet mit Windows in allen Varianten, OS X, iOS und Android.

Recent Posts

Supercomputer Hawk mit 11.260 AMD-Prozessoren geht in Betrieb

Das Höchstleistungsrechenzentrum in Stuttgart (HLRS) hat heute offiziell den Supercomputer Hawk in Betrieb genommen. Der Großrechner stammt von Hewlett Packard…

7 Stunden ago

BlackBerry: Automobilindustrie und Einzelhandel sollten sich auf mehr Bedrohungen einstellen

Der Anstieg von Angriffen in der Automobilindustrie werde durch die fortschreitende Vernetzung der PKWs begünstigt. Das ist das Ergebnis des…

8 Stunden ago

Telekom blickt auf ein Rekordjahr zurück

Der Konzern erzielt 2019 einen Umsatz von 80,5 Milliarden Euro, was einem Anstieg gegenüber dem Vorjahr um 6.4 Prozent entspricht.…

9 Stunden ago

Dell will RSA Security an Symphony Technology Group verkaufen

Dieser Schritt soll das Portfolio von Dell vereinfachen und der RSA ermöglichen, sich auf ihre Kernaufgabe im Bereich Sicherheit zu…

15 Stunden ago

Webinar: BlackBerry Intelligent Security – Flexible Sicherheitsrichtlinien für mobiles Arbeiten

Die meisten Unified Endpoint Management Produkte platzieren Richtlinien auf einem Gerät oder in einer Anwendung nach eng umrissenen Vorgaben. Entscheidend…

16 Stunden ago

Deutschland vor Hybrid-Cloud-Welle

Interessant sind die Ergebnisse des Enterprise Cloud Index 2019 für Deutschland. Denn die hiesigen Entwicklungen zeigen: Nicht jede App soll…

17 Stunden ago