Una crescita dei dati non controllata porta spesso a un rapido esaurimento della capienza di storage. Questo fa sì che i team IT continuino ad aggiungere hardware, con conseguenti costi ed eccesso di risorse non necessarie. I data set duplicati sono un elemento chiave del problema. Alcuni di essi possono potenzialmente essere compressi, ma vengono invece memorizzati con le dimensioni originali occupando più spazio su disco. Un'efficace ottimizzazione della capienza di storage può aiutare a vincere queste sfide.
Il software-defined storage DataCore SANsymphony mette a disposizione due tecniche di riduzione dei dati per ottimizzare la capienza. La deduplica nello storage elimina i dati ridondati. La compressione riduce lo spazio richiesto per la loro memorizzazione. Entrambe le tecniche prevengono perdite dei dati mantenendone intatta l'integrità.
Che cosa sono deduplica & compressione?
La deduplica analizza i blocchi di dati e crea un hash univoco per ognuno di essi. Se un nuovo blocco scritto su disco presenta un hash con lo stesso valore di un blocco esistente, verrà sostituito da un identificatore che si limita a puntare al blocco di dati già presente.
Più copie ridondanti dei dati possono essere sostituite con riferimenti a una singola copia, riducendo così la capienza necessaria.
La deduplica offre i vantaggi maggiori quando ci sono più blocchi degli stessi dati, creati per esempio dalla ridondanza delle snapshot o delle immagini VDI.
La compressione è un processo algoritmico che riduce le dimensioni dei dati identificando prima le sequenze identiche che compaiono in una riga, poi salvando solo la prima sequenza e sostituendo quelle successive identiche con le informazioni sul numero di volte in cui appaiono in una riga.
Poiché solo la prima sequenza di dati viene memorizzata così com'è, per rappresentare nuovamente le stesse informazioni serve meno spazio su disco. Il livello di compressione dipende in genere dalla natura del data set stesso, che deve essere comprimibile almeno parzialmente.
I benefici di deduplica e compressione
- Requisiti di spazio su disco ridotti che portano a un'allocazione ottimizzata dello storage
- Maggiori risparmi sui costi IT e aumento del ROI
- Minore ingombro dell'hardware, con una riduzione di spazio occupato e requisiti energetici più contenuti
- Maggiore efficienza dello storage
Due approcci a deduplica e compressione dei dati
DataCore SANsymphony mette a disposizione due approcci per realizzare la deduplica e la compressione sullo storage. È possibile scegliere l'approccio appropriato in base ai requisiti aziendali e IT.
Deduplica e compressione inline: in questo caso, la riduzione dei dati avviene prima che questi vengano scritti sul disco. SANsymphony esegue scansioni e analisi dei dati in entrata alla ricerca di potenziali opportunità di ottimizzazione ed esegue deduplica e compressione. L'elaborazione in linea riduce i requisiti di capienza del disco poiché i dati vengono deduplicati e compressi prima di essere memorizzati. Quando vengono eseguite frequenti operazioni di backup e la quantità di dati ridondati generata è elevata, si consiglia l'approccio dell'elaborazione inline, in quanto riduce le dimensioni dei dati prima di memorizzare il backup.
La deduplica e la compressione inline sono supportate solo dall'edizione EN di SANsymphony e possono essere abilitate singolarmente o insieme (duplica, compressione o entrambe) in base alle esigenze.
Deduplica e compressione post-process: in questo caso, la riduzione dei dati avviene dopo che questi sono stati scritti sul disco. SANsymphony prima memorizza i dati grezzi nel dispositivo di storage di destinazione. Poi questi dati vengono scansionati e analizzati per individuare le possibilità di ottimizzazione. I dati deduplicati e compressi vengono riscritti sul dispositivo di storage che ora offre più capienza disponibile rispetto a prima. Va notato che con la post-elaborazione l'allocazione iniziale della capienza sul dispositivo target deve essere più elevata, poiché i dati non elaborati vengono memorizzati così come sono prima di essere sottoposti a riduzione. La post-elaborazione consente di pianificare l'ottimizzazione della capienza nelle ore non di punta, riducendo così l'impatto in termini di IOPS durante le ore di maggior utilizzo.
La deduplica e la compressione post-elaborazione sono supportate dalle edizioni EN, ST e LS di SANsymphony. Compara le edizioni di SANsymphony.
Esistono molti fattori che svolgono un ruolo nel determinare efficienza e output di deduplica e compressione: tipologia di dati, quantità di modifiche apportate, frequenza di accesso, numero di backup e così via. Alcuni workload eseguono intrinsecamente un certo livello di eliminazione della ridondanza a livello applicativo, con conseguente riduzione dei rapporti di deduplica e compressione. Inoltre, esistono altri workload, come quelli della VDI con più copie dello stesso sistema operativo, che quando vengono sottoposti a backup producono rapporti di deduplica e compressione più elevati. I file che più facilmente traggono vantaggio da deduplica e compressione sono quelli che contengono blocchi di dati ripetuti, con contenuti relativamente statici e a cui si accede raramente. Le tecniche di ottimizzazione della capienza inline e post-process consentono ai team IT di risparmiare sulle CAPEX. I risparmi effettivi dipendono dall'efficienza delle operazioni di deduplica e compressione e dai loro rapporti di ottimizzazione della capienza individuale.