10 Milliarden Dateien in 43 Minuten: IBM Forscher erzielen neue
Spitzenleistung bei Dateisystem für Big-Data-Anwendungen
IBM General Parallel File System (GPFS) verbessert bestehenden Rekordwert
um das 37-fache / wichtiger Schritt auf dem Weg hin zur Handhabung extrem
großer Datenbestände
San Jose, CA/Stuttgart-Ehningen, 25. Juli 2011: Forscher von IBM (NYSE:
IBM) haben einen weiteren Schritt hin zu künftigen Speichersystemen mit
extrem großem Datenbestand getan. In einem Versuch konnten 10 Milliarden
Dateien auf einem einzigen System in nur 43 Minuten gescannt und erfasst
werden. Damit wurde der bestehende Rekord - eine Milliarde Dateien in drei
Stunden - um den Faktor 37 verbessert.
Erstmals im Jahr 1998 haben IBM Forscher das hochskalierbarer geclusterte
parallele Dateisystem mit dem Namen General Parallel File System (GPFS)
vorgestellt. Dies wurde ständig weiterentwickelt, um den jetzigen
Durchbruch zu ermöglichen. GPFS ist ein wichtiger Schritt für das weitere
Wachstum von Speicherleistung und -kapazität, während die
Administrationskosten nicht weiter steigen sollen.
Mit dieser Verbesserung können Organisationen besser mit dem
explosionsartigen Datenwachstum durch eine Vielzahl von Transaktionen und
digitalen Sensoren und anderen datenliefernden Geräten fertigwerden, die
in heutigen intelligenten Infrastrukturen entstehen. Damit ist dieses
Werkzeug besonders geeignet für Anwendungen, die sehr schnellen Zugang zu
großen und größten Datenmengen benötigen, wie etwas Data Mining-Lösungen,
um etwas Kundenkaufverhalten besser erkennen zu können. Auch in Bereichen
wie Risikomanagement, Finanzanalyse, Seismik, Wettermodellierung und
vielen anderen wissenschaftlichen Forschungsgebieten kann das Werkzeug zum
Einsatz kommen.
Mit Blick auf das extrem hohe Datenwachstum in fast allen Branchen wurden
die Daten hier auf einer einzigen Speicherplattform konsolidert. Dies
vermindert den hohen Verwaltungsaufwand, der bei separater Datenhaltung
auf verteilten Plattformen entsteht. Damit können Datenmanagement-Aufgaben
dramatisch vereinfacht und verringert werden. Somit können mehr
Informationen unter einer einheitlichen Technologie gespeichert werden,
anstelle mehr und mehr zusätzlichen Speicher zu beschaffen.
Speicherleistung erreicht ein neues Niveau
Die jetzige Spitzenleistung wurde mit GPFS und einem Cluster von 10
Achtkern-Serversystemen mit SSD-Speicher erreicht. Der GPFS-Algorithmus
ermöglicht die komplette Ausnutzung aller Prozessorkerne in allen
Maschinen und allen Aufgabenphasen - Daten lesen, sortieren und Anwenden
der Datenmanagement-Vorgaberegeln. GPFS konnte die eingesetzte
SSD-Appliance mit nur 6,8 Terabyte an Kapazität bei hervorragender
Random-Leistung und hohen Datentransferraten ausnützen, um die
Speicher-Metadaten abzulegen. Die Appliance konnte bei gleichmäßig hoher
Leistung hunderte von Millionen an Daten-I/O-Operationen ausführen,
während GPFS unter den 10 Milliarden Dateien auf dem System den richtigen,
gewünschten Satz an Dateien identifizierte, auswählte und sortierte.
"Der Nachweist der GPFS-Skalierbarkeit eröffnet den Weg für neue Produkte,
die die Anforderungen einer Multi-Zettabyte-Welt adressieren", sagt Doug
Balog, Vice President, IBM Speichersysteme. "Diese Innovation hat das
Potential, sehr große Datenumgebungen auf einer einzigen Plattform zu
vereinen, und dabei die Datenmanagementaufgaben dramatisch zu vereinfachen
und zu reduzieren - wie Datenablage, Migration und Backup individueller
Dateien."
Der vorherige Rekord - eine Milliarde Dateien in drei Stunden scannen -
wurde erst im Jahr 2007 von IBM Forschern bei einer Konferenz in Reno,
Nevada, aufgestellt.
"Unternehmen jeder Branche sorgen sich um die Zukunft von Daten und
Datenmanagement, da sie alle sich einem Kernproblem gegenübersehen - der
Verwaltung riesiger Datenmengen, die täglich zusätzlich entstehen", sagt
Bruce Hillsberg, Direktor Speichersysteme, IBM Research, Almaden. "Ob
durch Bankensysteme, medizinische Analysegeräte oder Verkehrssensoren
erzeugt - unser aller tägliches Leben wird von Daten umströmt. Aber diese
sind nur sinnvoll, wenn sie effektiv gespeichert, analysiert und
angewendet werden können. Unternehmen und Behörden benötigen daher
intelligente Systeme als Werkzeug, um den konstanten Strom an Daten in
sinnvolle Einsichten verwandeln zu können."
Die IBM Forschung entwickelt dabei fortlaufend innovative neue
Speichertechnologien, die Kunden bei der Bewältigung der Datenmengen und
ihrer sinnvollen Nutzung helfen. Allein im vergangenen Jahr sind
bedeutende Speicherinnovationen aus der IBM Forschung in fünf wichtige
Produkte eingeflossen, IBM Easy Tier, Storwize V7000, Scale-out Network
Attached Storage (SONAS), IBM Information Archive und das IBM Long Term
File System (LTFS).
Die Menge digitaler Daten ist um 47 Prozent im vergangenen Jahr gewachsen.
Dies heißt, daß Unternehmen unter enormem Druck sind, Daten schnell in
umsetzbare Handlungsempfehlungen zu übersetzen. Allein die Speicherung von
und der Umgang mit Daten stößt hier bereits an seine Grenzen. Im gleichen
Zug, wie neue speicherhungrige Anwendungen in fast allen Branchen
entstehen, verlieren traditionelle Datenmangementsysteme zunehmend ihre
Fähigkeit, übliche, aber wichtige Speicherverwaltungsaufgaben zu leisten.
Dies setzt Organisationen jeder Art der Verlustmöglichkeit wichtiger und
kritischer Daten aus. Diese Entwicklungen wurden von IBM Forschern bereits
vor vielen Jahren antizipiert. Aus diesem Grund hat IBM GPFS entwickelt,
das Unternehmen dabei helfen kann, mit dem extrem hohen Datenwachstum
besser fertig zu werden. GPFS wird bereits häufig für Aufgaben wie Backup,
ILM, Disaster Recovery und Content-Verteilung eingesetzt. Durch die
Kombination aus der Multi-System-Parallelisierung und schnellem Zugang zu
den Metadaten des Dateisystems (auf SSD) kann diese Technologie auch die
Herausforderung der Verwaltung extrem großer Datenmengen bewältigen.
Zusätzliche Informationen in der US-Presseinformation anbei und unter
diesem Link: http://www-03.ibm.com/systems/software/gpfs/
Keine Kommentare:
Kommentar veröffentlichen