Videó: Big Data & Hadoop Full Course - Learn Hadoop In 10 Hours | Hadoop Tutorial For Beginners | Edureka (November 2024)
Sokat írtunk az adatok szerepéről a modern vállalkozásokban. Az induló vállalkozásoktól kezdve a kis- és közepes méretű vállalkozásokig (SMB-k) a nagyvállalatokig az adatok betekintése és elemzése mindenféle méretű vállalkozás számára hozzáférhetőbb, mint valaha. Ez részben az önkiszolgáló üzleti intelligencia (BI) és az adatmegjelenítő eszközök megjelenésének köszönhető.
Bár a BI-eszközök használata vagy prediktív elemzések futtatása előtt egy adatkészletre számos tényezőt kell elválasztani. Egyszerűen annak megértésével kezdődik, hogy mi a Big Data, mi nem (tipp: nem egy kristálygömb), és hogyan kell kezelni az adattárolást, a szervezést, az engedélyeket és a biztonságot a vállalati adat architektúrán belül. Itt jön be az adatkezelés. Azok a folyamatok, amelyekkel vállalkozáson belül biztosítják a kormányzást, attól függően, hogy kivel beszélnek. De az adatkezelés magában foglalja az adatok bizalmát és elszámoltathatóságát, átfogó adatbiztonsági bevált gyakorlatokkal párosítva.
Beszéltem a Hortonworks-kel és a MapR-rel, a piac két legnagyobb vállalkozási Hadoop szállítójával. Scott Gnau, a Hortonworks technológiai igazgatója és Jack Norris, a MapR Data and Applications alelnöke mindegyikük elmagyarázta, hogy mit jelent az adatkezelés szervezetük számára. Megvitatták, hogyan lehetne kezelni az adatkezelés biztosításának komplex kihívását egy nagyvállalat komplex adatszerkezetén és szervezeti hierarchiáján belül.
Mi is pontosan? Adatkezelés és miért van rá szükség?
A kormányzás azt jelenti, hogy a vállalati adatok engedélyezése, szervezése és engedélyezése egy adatbázisban legyen a lehető legkevesebb hibával, a magánélet és a biztonság megőrzése mellett. Nem könnyű egyensúlyt elérni, különösen akkor, ha az adatok tárolásának és feldolgozásának valósága folyamatosan változik. A MapR Norris elmagyarázta, hogy miért kell a vállalkozásoknak magasabb szintű adatkezelést vizsgálniuk, és a nagyobb, folyamatban lévő adatcsatornára kell összpontosítaniuk.
"Amikor elkezdi méretezni a Big Data változatosságát és sebességét, amellyel foglalkozunk, akkor rendelkeznie kell az adatkezeléssel, de ebben a tágabb kontextusban. Mi az adata van, ki fér hozzá, és hogy vagy az adatok származási vonalának kezelése idővel? " - mondta Norris. "Adatkezelési szempontból a rendszerben létező adatoknak különböző szakaszai lehetnek, amelyek pillanatfelvételeket készíthetnek, így bármikor visszatérhetnek a folyamatban lévő folyamathoz. Arról szól, hogy megteremtsük az auditálhatóságot és a hozzáférési ellenőrzést az adatplatformra, hogy az adatok felfedezése és az analitika átlátható legyen, akár üzleti menedzser, akár pénzügyi adatkészleteket keres, akár adatkezelő, aki nyers upstream adatokkal dolgozik."
Forrás: Rimes. Kattintson a képre a teljes nézethez.
Hortonworks Gnau hasonló kérdésre hangzott be. Akár adatraktárral, akár adattó-architektúrával foglalkozik, az adatkezelés az ellenkező erők kiegyensúlyozásáról szól. A korlátlan adathozzáférésről szól, hogy ösztönözze az innovációt, és betekintést nyerjen, valamint a részletezett engedélyekről és az adatvédelemről az adatok egyidejű védelme érdekében szolgáljon.
"Hasonlítsa össze és hasonlítsa össze a tradicionális kormányzás régi világát az adatterületen; egy kicsit könnyebb volt" - mondta Gnau. "Az adatokat a munkakör vagy az alkalmazás jól definiálta. Az új világban akkor kapja a legnagyobb értéket, amikor az adattudósok a lehető legtöbb adathoz férnek hozzá, és amikor megállapítják, hogy a boldog médium nagyon fontos.
"Ez egy teljesen új paradigmát vezet az irányítás megközelítésében" - tette hozzá Gnau. "Ebben az új világban olyan kormányzási és biztonsági témákat gondolok, amelyeket együttesen kell lefedni. Sok vállalat továbbra is küzd annak érdekében, hogy adattudósai hatékonyan megtalálják az új felhasználási eseteket, ugyanakkor, a biztonság, a magánélet és a kormányzás kezelésének megértése - mindazok a dolgok, amelyek fontosak az alsó sorban és a vállalati hírnév szempontjából is."
Hogyan állíthatja be a vállalati adatkezelési terv az összes ellentétes erőt és kielégíti azokat? Az egyes követelmények módszeres kezelésével, lépésről lépésre.
Hogyan állítsunk össze adatkezelési tervet
A Hortonworks, a MapR és a Cloudera a három legnagyobb független szereplő a Hadoop térben. A társaságoknak megvan a saját befolyási körük az adatkezelés terén. A MapR számos fehér könyvet kiadott a témáról és az adatkezelést építette ki a Konvergált Adatplatform alatt, míg a Hortonworks rendelkezik saját adatbiztonsági és irányítási megoldással, és 2015-ben társalapítója volt az Adatkezelési Kezdeményezésnek (DGI). Ez vezetett a nyílt - Apache Atlas projekt, amely nyílt adatkezelési keretet biztosít a Hadoop számára.
De amikor az egyes gyártók átfogó adatkezelési és biztonsági stratégiákat készítenek, Gnau és Norris hasonlóképpen beszélt. Az alábbiakban bemutatjuk azokat a kombinált lépéseket, amelyeket a Hortonworks és a MapR javasolja a vállalkozásoknak, hogy tartsák szem előtt az adatkezelési terv kidolgozásakor.
A legnagyobb: granulált adathozzáférés és engedélyeztetés
Mindkét vállalat egyetért abban, hogy granulált ellenőrzések nélkül nem lehet hatékony adatkezelés. A MapR ezt elsősorban az Access Control Expressions (ACE) segítségével valósítja meg. Amint Norris kifejtette, az ACE-k csoportosítást és logikai logikát használnak a rugalmas adathozzáférés és engedélyeztetés vezérlésére, szerepkör-alapú engedélyekkel és láthatósági beállításokkal.
Azt mondta, hogy úgy gondolja, mint egy Gartner modell. Az Y tengely alsó végén a szigorú irányítás és az alacsony agilitás van, az X tengelyen a felső végén pedig a nagyobb agilitás és kevesebb irányítás.
"Alacsony szinten védi az érzékeny adatokat azáltal, hogy eltakarja azokat. A tetején bizalmas szerződések vannak az adattudósok és a BI elemzők számára" - mondta Norris. "Ezt általában maszkoló képességekkel és különféle nézetekkel teszjük, ahol a lehető legjobban lezárjuk a nyers adatokat, és fokozatosan több hozzáférést biztosítunk, amíg a felső végén szélesebb körű láthatóságot nem ad az adminisztrátoroknak. De hogyan adsz? hozzáférés a megfelelő emberekhez?
"Ha ma megnézzük a hozzáférés-ellenőrzési listát, akkor azt mondjuk:" a mérnöki munka mindenki hozzáférhet ehhez "- tette hozzá Norris. "De ha azt szeretné, hogy néhány kiválasztott igazgató hozzáférjen egy IT-n belüli projekthez, vagy bárki, kivéve a személyeket, hozzáférjen, akkor külön csoportot kell létrehoznia. Ez egy túlságosan bonyolult és átgondolt módszer a hozzáférésre.
Norris szerint itt jön be a hozzáférési jogok megadása a különböző szintek és csoportok számára. "Az ACE-ket egyesítettük az adatokhoz való hozzáférés különféle módjaival - fájlok, táblák, adatfolyamok stb. Útján -, és nézeteket valósítottunk meg az adatok különálló másolatai nélkül. Tehát ugyanazon a nyers adatokon és a Nézetek nézetet biztosítunk. különböző szintű hozzáféréssel rendelkezhet. Ez integráltabb biztonságot nyújt, amely közvetlen."
A Hortonworks a granulált hozzáférést hasonló módon kezeli. Az Apache Atlas és a Apache Ranger integrálásával Gnau azt mondta, hogy a vállalat egyetlen üvegtáblán keresztül kezeli az engedélyezést vállalati szinten. A kulcs - mondta - az a képesség, hogy kontextuálisan hozzáférést biztosítsanak az adatbázishoz és a meghatározott metaadat-címkékhez címke-alapú házirendek segítségével.
"Ha valaki az adatbázisban van, arról szól, hogy átvezesse őket azokon az adatokon, amelyekhez releváns hozzáféréssel kell rendelkezniük" - mondta Gnau. "A Ranger objektumszintű, finom szemcséjű és mindenütt jelen lévő biztonsági politikája kezelni tudja ezt. A biztonságnak a kormányzásba történő kötésekor a dolgok igazán érdekesek.
"A nagy szervezetekben történő lépték érdekében ezeket a szerepeket integrálnia kell a kormányzásba és a metaadat-címkézésbe" - tette hozzá Gnau. "Ha Szingapúrból jelentkezek be, talán vannak más szabályok, amelyek a helyi adatvédelmi törvényeken vagy a vállalati stratégián alapulnak. Ha egy vállalat meghatározza, beállítja és megérti ezeket a szabályokat holisztikus felülről lefelé nézve, akkor a hozzáférést elválaszthatja a speciális szabályokat állít be, miközben mindent végrehajt a központi platformon belül."
Forrás: az IBM Big Data & Analytics Hub. Kattintson a képre a teljes nézethez.
2. Kerületi biztonság, adatvédelem és integrált hitelesítés
A kormányzás nem történik végpontbiztonság nélkül. Gnau elmondta, hogy fontos egy jó perimet és tűzfalat építeni az adatok körül, amelyek integrálódnak a meglévő hitelesítési rendszerekhez és szabványokhoz. Norris egyetértett abban, hogy amikor a hitelesítésről van szó, a vállalkozások számára fontos, hogy szinkronizáljon a kipróbált és bevált rendszerekkel.
"A hitelesítés során arról szól, hogyan lehet integrálni az LDAP, az Active Directory és a harmadik féltől származó címtárszolgáltatásokkal" - mondta Norris. "Támogatjuk a Kerberos felhasználóneveket és jelszavakat is. A lényeg nem az, hogy egy egész különálló infrastruktúrát hozzunk létre, hanem hogy hogyan integrálódjunk a meglévő struktúrához és tőkeáttételi rendszerekhez, mint például a Kerberos."
3. Adat titkosítás és tokenizálás
A következő lépés a kerület biztosítása és az általad megadott granulált adathozzáférés hitelesítése után: Győződjön meg arról, hogy a fájlok és a személyes azonosításra alkalmas adatok (PII) titkosítva vannak és tokenizáltak az adatcsővezeték végétől a végéig. Gnau megvitatta, hogyan védi a Hortonworks a PII-adatokat.
"Miután átkerült a kerületbe, és hozzáféréssel rendelkezik a rendszerhez, rendkívül fontos a személyes adatok védelme" - mondta Gnau. "Titkosítania és tokenizálnia kell ezeket az adatokat, így függetlenül attól, hogy kihez férnek hozzá, futtathatják a szükséges elemzést anélkül, hogy a PII-adatok bármelyikét a vonal mentén kiteszik volna."
Ami a titkosított adatok biztonságos elérését mozgásban és nyugalomban egyaránt tartalmazza, a MapR Norris elmondta, hogy fontos szem előtt tartani az olyan esetek használatát is, mint a biztonsági mentés és a katasztrófa utáni helyreállítás (DR). Megbeszélte a MapR úgynevezett logikai kötetek koncepcióját, amely alkalmazhatja az irányítási politikákat a növekvő fájlok és könyvtárak csoportjaira.
"A legalacsonyabb szinten a MapR tervezte a WAN replikációját a DR számára, és időkonzisztens pillanatfelvételeket készített az összes adatból, amelyet különböző frekvenciákon lehet beállítani könyvtárak vagy kötetek szerint" - mondta Norris. "Ez szélesebb körű, mint az adatkezelés. Fizikai fürt is lehet könyvtárakkal, és akkor a logikai kötetkoncepció egy igazán érdekes kezelőegység, és módja a dolgok csoportosításának, miközben ellenőrzi az adatvédelmet és a frekvenciát. Ez egy másik nyíl az IT adminisztrátorok adataiban. kormányzási remegés."
4. Állandó ellenőrzés és elemzés
A szélesebb körű irányítási képet tekintve mind a Hortonworks, mind a MapR azt mondta, hogy a stratégia nem működik ellenőrzés nélkül. A folyamat minden lépésében a valóságosság és az elszámoltathatóság e szintje lehetővé teszi az IT számára, hogy az adatokat ténylegesen "irányítsa", szemben a házirendek és a hozzáférés-vezérlés egyszerű meghatározásával, és a legjobb reményével. Ez azt is megmutatja, hogyan tudják a vállalkozások naprakészen tartani stratégiáikat egy olyan környezetben, amelyben az adatok látása, valamint az azok kezelésére és elemzésére használt technológiák minden nap változnak.
"A modern irányítási stratégia utolsó része a naplózás és a követés" - mondta Gnau. "A Big Data és az IoT gyerekcipőben áll, és kritikus fontosságú, hogy nyomon tudja követni az adatokhoz való hozzáférést és felismerni azokat, így mivel a stratégiát frissíteni kell, a görbe előtt állunk."
Norris szerint az auditálás és elemzés olyan egyszerű lehet, mint a JavaScript Object Notation (JSON) fájlok nyomon követése. Nem minden adat érdemes nyomon követni és elemezni, de vállalkozása soha nem fogja tudni, hogy melyik - amíg nem azonosítja a játékot megváltoztató betekintést vagy válság nem történik meg, és meg kell futtatnia egy ellenőrzési nyomkövetést.
"Minden JSON naplófájl elemzésre nyitva van, és van Apache Drill a JSON fájlok lekérdezésére a sémákkal, tehát ez nem kézi informatikai lépés a metaadat elemzés beállításához" - mondta Norris. "Ha az összes adathozzáférési eseményt és minden adminisztratív műveletet felveszi, az analitika széles skálája lehetséges."
5. Egységes adat architektúra
Végül a vállalati adatkezelési stratégiát felügyelő technológiai tisztviselőnek vagy IT adminisztrátornak gondolkodnia kell a granulált hozzáférés, a hitelesítés, a biztonság, a titkosítás és az ellenőrzés sajátosságairól. De a technológiai tisztviselőnek vagy az informatikai adminisztrátornak nem szabad megállnia; inkább arra a személyre is gondolkodnia kellene, hogy ezek az összetevők hogyan jutnak be a nagyobb adat-architektúrába. Arra is gondolkodnia kell, hogy ennek az infrastruktúrának méretezhetőnek és biztonságosnak kell lennie - az adatgyűjtéstől és -tárolástól kezdve egészen a BI-ig, az elemzésig és a harmadik fél által nyújtott szolgáltatásokig. Gnau szerint az adatkezelés annyira a stratégia és végrehajtás átgondolásáról szól, mint magáról a technológiáról.
" Ez meghaladja az egyetlen üvegtáblát vagy a biztonsági szabályok gyűjteményét" - mondta Gnau. "Ez egy egységes architektúra, ahol ezeket a szerepeket hozza létre, és szinkronizálják az egész platformon és az összes eszközben, amelyet beleadnak. A biztonságosan kezelt infrastruktúra szépsége az új módszerek létrehozásának rugalmassága. Minden platformon vagy akár a hibrid felhőkörnyezet, egyetlen referenciaponttal rendelkezik, hogy megértse, hogyan hajtotta végre a szabályait. Minden adat áthalad a biztonsági és irányítási ezen rétegen."