Grote back-up maken? Maak een goede afweging!

Enige tijd geleden schreven we in onze blog over precision medicine¸ medicatie die op basis van big data precies kan worden afgestemd op de individuele patiënt. We vertelden toen dat het in dit geval goed is om een onderscheid te maken tussen actieve data en de grote bulk passieve data. Maar dit onderscheid is toe te passen op veel meer werkgebieden. In deze blog vertellen we er meer over.

Om maar met een voorbeeld te beginnen: ook in de pathologie, ter beoordeling en bestrijding van kanker, worden data van onder meer röntgenfoto’s en laboratoriumuitslagen met ondersteuning van kunstmatige intelligentie (AI) beoordeeld. AI kan een afwijking snel herkennen en minstens een signaal aan de arts geven om het met extra belangstelling te bekijken. Let wel: deze methode werkt alleen als de kunstmatige intelligentie lerend kan zijn en daarvoor is een grote hoeveelheid data nodig, die snel toegankelijk moet zijn. Deze data moeten lang bewaard kunnen worden, en moeten naar behoefte bewerkt worden. En als ze inderdaad bewerkt worden, moeten ze ook snel zijn. Ook hier moeten we dus een onderscheid maken tussen snel toegankelijke actieve data en min of meer rustende data die niet supersnel hoeven te zijn.

IJsberg

Vergelijk het eens met een ijsberg. Het kleine stukje van de ijsberg dat boven water uitsteekt, is de primaire data. Maar de grote bulk van data onder de zeespiegel kunnen we ook nog eens onderverdelen in actieve en rustende data. Deze onderverdeling kunnen we ook maken bij allerlei grootschalige back-up omgevingen. Als je meer data voor de back-up hebt, kom je in de situatie dat deze data voor een deel heel belangrijk zijn en snel teruggezet moeten kunnen worden als je ze nodig hebt. Maar een groot deel heb je hoogstwaarschijnlijk alleen nodig als er in het geval van een calamiteit data teruggezet moeten worden.

Andere situatie

Dat alles zorgt ervoor dat we steeds meer toegaan naar een situatie waarin we anders tegen onze data, back-up en de waarde daarvan aankijken. Voorheen was een back-up vooral bedoeld om een reserve te hebben als je per ongeluk een bestand kwijtraakte. Het geval dat je een complete omgeving terug moest zetten of in het geval van een hardwareprobleem zelfs je hele server opnieuw moest inrichten, was eigenlijk een zeldzame aangelegenheid. Maar de tijden zijn veranderd. We maken een back-up niet meer om bepaalde bestanden terug te halen, maar feitelijk als dataprotectie en om infrastructuur heel snel terug te kunnen zetten. Dat is mede ingegeven door cyberaanvallen die complete servers platleggen, iets wat tien jaar geleden een zeldzaamheid was. Een flink deel van de back-up moet snel zijn, vooral in een restore omdat de meeste bedrijven en organisaties het zich niet kunnen veroorloven om dagen plat te liggen voordat honderden terabytes aan data terug is. Dat moet à la minute gaan. Daaronder zit dan nog de grotere bulk van oudere data die óók geback-upt moet worden en zonodig teruggezet, maar die iets minder urgentie.

Performance versus capaciteit

En dat vraagt weer om een zorgvuldige afweging tussen performance versus capaciteit. Welke data heb je in het geval van een restore supersnel nodig en vragen daarmee om een hoge en relatief dure performance? Voor welke data gelden andere afwegingen en zijn meer rustend? Deze afwegingen spelen dus niet alleen in wereld van AI, maar feitelijk bij elk bedrijf en organisatie met veel data en afwegingen omtrent back-uppen. Zeker, je kunt je back-up volledig stallen op een systeem met hoge performance. Dat is duurder en als het om een beperkte hoeveelheid data gaat, is dat financieel te overwegen. Maar vaak wordt het anders data werkelijk grote vormen aan gaat nemen. Dan kan de overweging voor een back-up met hoge performance versus capaciteit een kwestie van miljoenen euro’s zijn.

Schrijf in voor tips en info

Wij schrijven regelmatig blogs over actuele onderwerpen uit de wereld van digitale opslagtechnologie. Meld je hier aan om over nieuwe blogs geïnformeerd te worden.