Videó: Hogyan gyűjtsd az adatokat? Miért jobb egy nagy adatbázis, mint a sok külön táblázat? [ExcelTitok] (December 2024)
Az egyik dolog, amely benyomást tett a tegnapi Bloomberg vállalati technológiai csúcstalálkozón, az volt, hogy összpontosítson az adatok új módszereire, vagyis azokra a kérdésekre, amelyeket gyakran „nagy adatoknak” hívnak.
Néhány beszélgetés a nagy adatok értékéről és arról, hogy ez valóban "billió dolláros lehetőség" volt-e, míg mások a különféle szervezetek és az ipar egészének sajátos kihívásaival foglalkoztak ezen új technikák szélesebb körű alkalmazásában.
Gerard Francis, a Bloomberg vállalati megoldások globális vezetője, a Bloomberg LP azzal kezdte a napot, hogy azt sugallja, hogy a vállalatok legfontosabb dolga az, hogy "kihasználják az adatok értékét az adatok felhasználásával", és összpontosítva az adatok hozzáférésére, minőségére és áramlására. adatok egy szervezeten belül. A későbbi panelekben sokat beszélt az adatokkal foglalkozó új eszközökről, valamint az adatok tárolására, kezelésére és az emberek kezelésére szolgáló emberek megtalálásának speciális kérdéseiről.
A vállalati trendekkel foglalkozó általános testületben Dwight Merriman, a MongoDB elnöke és társalapítója elmondta, hogy az alkalmazáspálya adatrétege "a legnagyobb zavar és változás, amelyet 25 év alatt látottunk". Azt mondta, hogy a vállalatok legalább 25 éve használják a relációs adatbázisokat, ez pedig a verem legrégebbi technológiája. De most történnek dolgok a fájl-alapú tárolással, például a Hadoop-nal és az új adatbázis-technológiákkal, amelyek gyakran "NoSQL" -ként vannak csoportosítva. Rámutatott arra, hogy a Big Data nem "nagy" -ról szól, hanem inkább az adatok alakjáról, az adattípusokról és a valósidejű adatok kezelésének irányába mozdul el.
Benjamin Fried, a Google információs vezérigazgatója egyetértett abban, hogy a legtöbb vállalkozásnak nincsenek „nagy adat” problémái. A legtöbb adathalmaz - például a HR-adatokkal és a pénzügyi adatokkal - nem olyan nagy, mondta. Fontos az az rugalmasság, amelyre szükség van az adatok megfelelő kezeléséhez.
Mi egyébként a Big Data?
Ezt a koncepciót - ez a rugalmasság ugyanolyan fontos, mint az adatok mérete - a nap későbbi szakaszában egy másik panelen visszhangzották. A résztvevők egyetértettek abban, hogy a vállalatok már régóta foglalkoznak az adatsúlyos alkalmazásokkal, ám a lépték a közelmúltban megváltozott. Például Mark F. Bregman, a Neustar alelnöke és technológiai vezérigazgatója megjegyezte, hogy egyes vállalatok most "mindent tárolnak" abban a reményben, hogy az értékesnek bizonyul.
"Gary Bloom, a MarkLogic vezérigazgatója és elnöke szerint" a nagyot jobban definiálják, mint a bonyolultságot. " Megjegyezte, hogy sok úgynevezett "big data" alkalmazás sok különféle adatot tartalmaz, de nem az a mennyiség, amelyről általában a "big data" alkalmazásokban hallanak.
Hivatkozott egy olyan légiforgalmi példára, amely ötvözi az időjárási adatokat, a repülőtéri adatokat, a térinformatikai adatokat, a repülési adatokat, a légitársaságok foglalási adatait és a társadalmi adatokat. Megjegyezte, hogy a heterogén adatokkal való foglalkozás valójában nehéz a tradicionális relációs adatbázisokkal, megismételve a MongoDB Merriman korábbi kommentárjait, miszerint ez volt az "első generációs generációs váltás az adatbázisban 25 év alatt", mivel a mainframe-ről a relációs adatbázisok korszakára költöztünk.
Megjegyezte, hogy sokan a közösségi média adatairól beszélnek, de ezeket valóban más adatokkal kell kombinálni annak érdekében, hogy valóban legyen valami, amelyből profitálhat. Ezen adatok kombinálása "a valós érték".
Természetesen egyes alkalmazások sok információval járnak, és Bregman szerint a heterogenitás csak egy tényező. Megemlítette a DNS-adatokat, amelyek könnyen napi 8TB információt tudnak előállítani, és az ilyen dolgok tárolásának szükségességét a Hadoop-ban. Bregman és a többiek megjegyezték, hogy amikor az "adat nagybetűvel" történik, a valódi érték nem a nyers adatokban szerepel, hanem az elemzésben, amikor az felhasználhatóvá válik. A testület többi tagja egyetértett.
A Streambase vezérigazgatója, Mark Palmer elmondta, hogy sok alkalmazásban fontos volt nagy mennyiségű adat kombinálása az adatfolyam-elemzéssel; és beszélt arról a többletértékről, amelyet a hagyományos és a valós idejű elemzés kombinálásával lehet létrehozni.
De egyetértett azzal, hogy az adatok bonyolultsága kérdés. Megemlítette, hogy Vivek Ranadivé, aki a Tibcot (amely jelenleg a Streambase tulajdonosa) vezette, részben vásárolt egy kosárlabdacsapatot, hogy kitalálja, hogyan javíthatja a technológia a rajongók tapasztalatait. Újra beszélt a "különféle típusú adatok tömörítéséről", egy Twitter adatfolyamtól kezdve, de más típusú adatok kihasználásával is.
Bloom megjegyezte, hogy minden az alkalmazástól függ, mondván, hogy "a késés a szemlélő szemében van." Egyes alkalmazásoknak elemezniük kell az adatokat a vezetéken, még mielőtt az elérné az adatbázist, míg másoknak nem.
Bregman felvetette azt a kérdést, hogy ahelyett, hogy nehéz kiszámítani a számítási erőforrásokat, most az adatok mozgatása sokkal nehezebbé válik. Megjegyezte, hogy sok alkalmazás esetében a "lock-in" az adatok helye. Ha egyszer tárolja adatait egy nyilvános felhőben, nagyon nehéz azokat áthelyezni. Ennek eredményeként, elmondása szerint, sok szervezet óriási mennyiségű adatot kíván tárolni a saját helyén, majd más szolgáltatókhoz költözhet a számítási funkciók érdekében. Kölcsönözve egy kifejezést a MarkLogic's Bloom-ból, beszélt arról, hogy a szervezeteknek hogyan lehet szükség "adatközpontú adatközpontra", mint olyan helyre, ahol hatalmas mennyiségű adatot tárolnak.
A Big Data „billió dollár esély?”
Porter Bibb, a MediaTech Capital partnerek, Cloudera Doug Cutting, Snaplogic Gaurav Dhillon és Bloomberg Link Jason KellyEgy másik panel megvitatta a nagy adatok által kínált lehetőségeket és kihívásokat, tükrözve a MediaTech Capital Partners ügyvezetõ partnere, Porter Bibb megjegyzését. Bibb elmondta, hogy valójában több mint billió dollár előnyök származnak az új technikákat alkalmazó vállalatok számára. A mai napig, azt mondta: "még csak nem kezdtük meg kiaknázni a technológia által kínált lehetőségeket."
Bibb beszélt arról, hogy milyen fontos a szervezetek számára, hogy adatszolgáltatási stratégiájukat összehangolják az üzleti stratégiával, és aggódott amiatt, hogy a legtöbb vállalati és kormányzati rendszer rosszul van igazítva.
Az első ülésen, Scott Weiss, az Andreessen Horowitz, azt mondta, hogy "a Hadoop olyan, mint a kriogén tárolás", így Jason Kelly, a Bloomberg Link moderátora megkérdezte a Cloudera főépítészét, Doug Cuttingot, aki elsősorban a Hadoop alkotója volt, hogyan nézte meg. hogy.
A Hadoop kivágása lehetővé teszi az emberek számára, hogy több adattal dolgozzanak. Azt mondta, a szervezetek eltávolítják az adatokat a szalagról, ehelyett online és használhatóvá teszik. Az ügyfelek a 90 napos adatkezelésből az aktív archívumban öt vagy tíz éves adatokig dolgoznak.
Ezen a panelen ismételten felmerült az összes adat kezelésével kapcsolatos konkrét kérdés. A Snaplogic vezérigazgatója, Gaurav Dhillon az "adat gravitációról" beszélt, mondván, hogy nincs értelme a Hadoop helyszíni adatait venni, és azokat a felhőbe helyezni. Ugyanakkor, ha vannak olyan adatok a felhőben, mint például a kattintásáram elemzése, akkor nincs értelme ezeket a helyszínen áthelyezni. Ennek eredményeként - mondta - nagyon kevés „határokon átnyúló lehetőséget” látott az adatok áthelyezésében.
Cutting azt mondta, hogy nem hiszi, hogy valóban hiányzik az adattudósok száma. Ehelyett azt mondta, hogy nagyon sok ember megérti a matematikát és az üzletet, de egyszerűen nem rendelkeznek az eszközökkel. Meg lehet tanulni az eszközök alapjait és azt, hogy mit csinálnak néhány hét alatt - mondta, de vállalkozásának megértése évekig tart. De nagyon sok ember megérti ezt.
Dhillon tükrözte a jogszabályokkal kapcsolatos aggodalmakat is, amelyek arról szólnak, hogy hol tárolható információ. Azt mondta, hogy egyes vertikális piacok megkövetelik az információk helyszíni tárolását, de aggódik olyan dolgok miatt, mint például az adatok származási országból való kivitele elkerülésének követelményei. Ennek nagy része túlzott reagálás olyan dolgokra, mint például a Snowden-felfedezések és az adatok megsértése - mondta. Megjegyezve, hogy "a jogalkotás sietése soha nem jó".
Arra a kérdésre, hogy aggódik-e amiatt, hogy a Snowden és a Target jogsértések félnek az ügyfelektől az adatok miatt, Cutting azt mondta, hogy aggódik, hogy sok ember aggódik. Azt mondta, hogy sok embert fél a technológia, és az iparág kudarcot vallott arra, hogy az ügyfelek kényelmesebbé váljanak abban a gondolatban, hogy adataikat nem használják. "Nem kell hátborzongató" - mondta.
A végén sok vita folyt az értékelésekről, Bibb szerint a közelmúltbeli Intel beruházás a Cloudera-ba "nagy ügy" volt, mivel igazolja, hogy mit csinál a cég. Azt mondta, hogy más nagyvállalatok, mint például az Oracle, az IBM, a Microsoft és az Amazon, a prediktív elemző cégek körül mozognak. "Az arany rohanás csak most kezdődik."
Dhillon szerint az értékelések tükrözik, amit a vízvezeték-társaságok hoznak a nagy adatpiacra. Azt mondta, hogy örömmel látja, hogy az ilyen "válogatás és lapátok" srácok jó értékelést kapnak, de azt mondta, hogy fél egy kicsit attól, hogy az értékelések megelőzik a piacot.
Bibb azt mondta, hogy azt gondolja, hogy a nagyméretű adatok túlexponáltak lehetnek a médiában, de az alulexponált a "c-suite" -ben (azaz a vezérigazgatók, a CFO-k és más felső vezetők.) Azt mondta, hogy "hatalmas gazdasági potenciállal rendelkezik, amelyet még fel kell fedezni..”