Tartalomjegyzék:
Videó: Hi vọng mn sẽ xem (November 2024)
Az adatok és az üzleti intelligencia (BI) ugyanazon érme két oldala. A tárolás, a feldolgozás és az elemzés terén elért haladás olyan mértékben demokratizálta az adatokat, hogy nem kell adatbázis szakembernek vagy adattudósnak lennie, hogy hatalmas adatkészletekkel dolgozzon és betekintést nyerjen. Még mindig van egy tanulási görbe, de az önkiszolgáló BI és az adatmegjelenítő eszközök újradefiniálják azt a módot, ahogyan a vállalkozások az összes összegyűjtött adatot felhasználhatóan elemzik. Különbség van azonban a fejlett elemzést végző BI vagy adatbázis-társaság és a mesterséges intelligencia (AI) adatbázis között, amelyet célzottan építettek a gépi tanulásra (ML), és a mély tanulási modelleket.
Az ML algoritmusokat beillesztik a mai szoftver nagy részébe. A fogyasztói tapasztalatok az AI-vel virtuális asszisztenseken keresztül alakulnak, és az üzleti szoftverekben vannak olyan példák, mint például a Salesforce Einstein, amelyek intelligens rétegként működnek a vállalat teljes ügyfélkapcsolat-kezelési (CRM) portfóliója alatt. A technológiai óriások, köztük a Google és a Microsoft, tovább tolják az intelligens jövőnket, nemcsak kutatással, hanem azáltal is, hogy átírják, hogyan fejlõdik techjük az AI-vel.
Az edzőgép és a mélyreható tanulási modellek egyik kihívása a puszta adatmennyiség és a feldolgozási teljesítmény, amelyre szükség van egy ideghálózat kiképzéséhez, például komplex mintázatfelismeréshez olyan területeken, mint például a kép osztályozása vagy a természetes nyelv feldolgozása (NLP). Ezért az AI adatbázisok megjelennek a piacon, hogy optimalizálják az AI tanulási és képzési folyamatát a vállalkozások számára. Beszéltünk a GPU gyorsított relációs adatbázis szolgáltatóval, Kineticával, amely saját AI adatbázist épített, és a PCMag rezidens BI-jével és adatbázis-szakértőjével, Pam Bakerrel, hogy meghatározzuk, mi az AI adatbázis és hogyan működik a hagyományos adatbázisokkal összehasonlítva. Ennél is fontosabb, hogy segítségükre kértük a hype és a marketing beszéd átgondolását annak megállapítása érdekében, hogy ennek a feltörekvő technológiának van-e valódi üzleti értéke.
Mik az AI adatbázisok?
Az AI tér gyorsan változó jellege megnehezítheti a terminológia kialakítását. Gyakran hallanak olyan kifejezéseket, mint az ML, a mély tanulás és az AI, amelyeket felváltva használnak, amikor valójában még mindig fejlesztenek technikákat az AI nagyobb égisze alatt. Mint ilyen, Baker azt mondta, hogy két rendkívül eltérő definíció létezik arra, hogy mi az AI adatbázis, attól függően, hogy kivel beszélgettek: az egyik gyakorlati, a másik pedig az égbolton.
"Az iparágban egyfajta lazán konszenzus van abban, hogy az AI adatbázis olyan, amely teljesen kizárja a természetes nyelvi lekérdezéseket. A felhasználói felület olyan legyen, hogy nem kell támaszkodnia keresési kifejezésekre és kulcsfontosságú kifejezésekre az a szükséges információ, amely lehetővé teszi a felhasználó számára az adatkészletek összehívását az NLP-vel "- mondta Baker. "Nagyon korlátozott érveléssel élhet, hogy az IBM Watson természetes nyelvi kérdéseket tehet fel a rendszer számára, de ehhez már csatlakoznia kell az adatokhoz, és saját magának kell kiválasztania az adatokat. Tehát jelenleg ez a meghatározás szakasz."
A gyakorlatibb meghatározás és a magyarázat tárgya lényegében egy célra épített adatbázis használata az ML modellképzés felgyorsításához. Számos technológiai vállalat már kifejlesztett dedikált Ai-chipeket fejleszt az új hardvertermékek nagy feldolgozási terhelésének enyhítésére, mivel a gyártók több AI-alapú funkciót vezetnek be, amelyek jelentős számítási teljesítményt igényelnek. Az adatok oldalán egy AI adatbázis használata segíthet jobban megbirkózni az ML képzésével és a mélyreható tanulási modellekkel kapcsolatos, az időmegtakarítás és az erőforrások optimalizálása során felmerülő adatmenedzsment és -kezelési kihívások között.
Kép jóváírása: Todd Jaquith a Futurism.com oldalon. Kattintson a teljes infographic kibontásához
"Jelenleg sok erőfeszítés történik az ML edzésének felgyorsítása érdekében, különféle taktikákkal" - magyarázta Baker. "Az egyik az, hogy elkülönítsük az infrastruktúrát a kódolást végző AI kutatóktól, hogy az automatizált funkciók kezeljék az infrastruktúrát és kiképzzék az ML modellt. Tehát ahelyett, hogy három hónapot költene, 30 napot vagy 30 percet vesz igénybe."
A Kinetica ezt az ötletet az ML és a mély tanulás modellezésére optimalizált integrált adatbázis-platformmá osztja. Az AI-adatbázis egyesíti az adattárolást, a fejlett elemzést és a megjelenített képeket a memóriában lévő adatbázisban. Mate Radalj, a Kinetica Advanced Technology Group alelnöke és szoftvermérnöke elmondta, hogy az AI-adatbázisnak képesnek kell lennie arra, hogy egyidejűleg millisekundumokon belül begyűjtse, feltárja, elemezze és megjelenítse a gyorsan mozgó, összetett adatokat. A cél a költségek csökkentése, új bevételek generálása és az ML-modellek integrálása, hogy a vállalkozások hatékonyabb, adatközpontú döntéseket hozzanak.
"Az AI-adatbázis az általános adatbázis részhalmaza" - mondta Radalj. "Jelenleg az AI-adatbázisok nagyon népszerűek. De sok megoldás elosztott összetevőket használ. A Spark, MapReduce és HDFS mindig előre-hátra forog, nem pedig a memóriában. Ezeknek nem vannak olyan tényezőinek összefolyása, mint az adatbázisunk, amely Az alapoktól kezdve épültek fel szorosan integrált CPU-kkal és GPU-kkal egyetlen platformon. A magas szintű előny számunkra a gyorsabb kiszolgálás és a modell-alapú képzés alacsonyabb hardveres lábnyoma, a gyors fordulat és az analitika ugyanabba a platformba integrálva."
Hogyan működik az AI adatbázis?
Számos példa található az AI-adatbázisokra a gyakorlatban. A Microsoft Batch AI felhőalapú infrastruktúrát kínál a mély tanulás és az ML modellek képzéséhez a Microsoft Azure GPU-ken. A vállalat rendelkezik az Azure Data Lake termékkel is, hogy megkönnyítse a vállalkozások és az adattudósok számára az adatok feldolgozását és elemzését egy elosztott architektúrán keresztül.
Egy másik példa a Google AutoML megközelítése, amely alapvetően átalakítja az ML modellek képzésének módját. A Google AutoML automatizálja az ML modelltervezést új neurális hálózati architektúrák generálására, meghatározott adatkészletek alapján, majd ezeket a több ezer alkalommal teszteli és iterálja a jobb rendszerek kódolása érdekében. Valójában a Google AI most már jobb modelleket hozhat létre, mint az emberi kutatók.
"Nézze meg a Google AutoML-et: ML írja az ML kódot, így nem is kell emberekre." - mondta Baker. "Ez képet ad arról, hogy milyen szélsőséges különbség van az eladó között. Egyesek megpróbálják továbbadni a fejlett elemzést mint ML - és nem az. És mások olyan fejlett szinten végeznek ML-t, amely meghaladja a legtöbb a vállalkozások megérthetik a pillanatot."
Akkor ott van Kinetica. A San Francisco-i induló vállalkozás, amely 63 millió dollárt gyűjtött kockázati tőke (VC) finanszírozást, nagyteljesítményű SQL adatbázist biztosít, amely a gyors adatfelvételhez és elemzéshez lett optimalizálva. A Kinetica az, amit Radalj egy tömegesen párhuzamos feldolgozású (MPP) elosztott adatbázis és számítási platformnak nevezett, amelyben minden csomópont rendelkezik a memóriában található adatokkal, a CPU-val és a GPU-val.
Radalj kifejtette, hogy az AI-adatbázis különbözik a hagyományos adatbázisoktól, három alapvető elemre vezethető vissza:
- Gyorsított adatbevitel,
- A memóriában lévő adatok együttes elhelyezkedése (párhuzamos feldolgozás az adatbázis csomópontjai között), és
- Közös platform az adattudósok, a szoftvermérnökök és az adatbázis-adminisztrátorok számára, hogy gyorsabban modellezzék és teszteljék a modelleket, és az eredményeket közvetlenül az elemzésre alkalmazzák.
Az összes, az adatbázishoz nem tartozó és az AI modell képzésével foglalkozó szakember számára, Radalj lebontotta mind a három alapvető elemet, és elmagyarázta, hogy az AI adatbázis hogyan kapcsolódik a kézzelfogható üzleti értékhez. Az adatok elérhetősége és az adatok befogadása kulcsfontosságú, mondta. Mivel a valós idejű adatfolyam-feldolgozási képesség lehetővé teszi a vállalkozások számára, hogy gyorsan cselekedjenek az AI-vezérelt betekintés alapján.
"Van egy olyan lakossági ügyfelünk, aki öt percenként szeretné nyomon követni az eladási árfolyamokat üzlet szerint" - mondta Radalj. "Az AI-vel azt akartuk megjósolni, hogy az elmúlt néhány órában a történeti adatok alapján ki kellene-e tölteni a készleteket, és optimalizálni kell-e ezt a folyamatot. De ahhoz, hogy ezt a gépi vezérelt készlet-feltöltést elvégezzük, másodpercenként 600-1200 lekérdezést kell támogatniuk. "SQL adatbázis és AI adatbázis, tehát ilyen sebességgel tudunk adatokat beszerezni. Az üzleti küldetésnek való megfelelés eredményeként olyan alkalmazás jött létre, amely több megtérülést eredményez."
Baker egyetértett abban, hogy az ML hatalmas mennyiségű adatot igényel, így az AI adatbázishoz nagyon fontos lenne a gyors bevitel. A második tényező, a „memóriában lévő adatok együttes lokalitása” fogalma kissé magyarázatot ad. A memóriában lévő adatbázis az adatokat a fő memóriában tárolja, nem pedig külön lemeztárolóban. Ez a lekérdezések gyorsabb feldolgozása érdekében történik, különösen az elemzésben és a BI adatbázisokban. A közös helységgel Radalj elmagyarázta, hogy a Kinetica nem választja el a CPU és a GPU számítási csomópontokat a tároló csomópontokkal szemben.
Ennek eredményeként az AI adatbázis támogatja a párhuzamos feldolgozást - amely utánozza az emberi agy képességét arra, hogy több ingert feldolgozzon -, miközben a skálázható adatbázis-infrastruktúrán is eloszlik. Ez megakadályozza a nagyobb hardveres lábnyomot, amely abból származik, amit Radalj az "adatátvitelnek" hívott, vagy az, hogy az adatokat külön-külön kell továbbítani az adatbázis-összetevők között.
"Néhány megoldás olyan zenekar, mint az IBM Symphony, a különféle komponensek közötti munka ütemezésére, míg a Kinetica hangsúlyozza a funkcionális szállítást a közös helyiségekhez viszonyítva, fejlett optimalizálással az adatátvitel minimalizálása érdekében" - mondta Radalj. "Ez a közös helység kiváló teljesítményt és átviteli képességet jelent, különösen a nagy adatkészletek erősen párhuzamos nehéz lekérdezésekor."
A tényleges adatbázis-hardver szempontjából a Kinetica az Nvidia-val partneri kapcsolatban áll, amely bővíti az AI GPU-k felépítését és feltárja az Intel lehetőségeit. Radalj szerint a vállalat figyelemmel kíséri a kialakuló AI hardvereket és a felhőalapú infrastruktúrákat, például a Google Tensor Processing Units (TPU).
Végül ott van az egységes modell-képzési folyamat ötlete. Az AI-adatbázis csak akkor hatékony, ha a gyorsabb bejuttatás és feldolgozás előnyei nagyobb, üzleti-orientált célokat szolgálnak a vállalat ML és mélyreható tanulási erőfeszítései számára. Radalj hivatkozik a Kinetica AI adatbázisára, mint „modell-csővezeték-platformon”, amely adattudomány-alapú modell-tárolást hajt végre.
Mindez lehetővé teszi a gyorsabb tesztelést és iterációt a pontosabb ML modellek fejlesztése érdekében. Ebben a kérdésben Baker azt mondta, hogy az egységes módon történő együttműködés elősegítheti az ML vagy a mély tanulási modell kiképzésében dolgozó mérnökök és kutatók gyorsabb iterációját azáltal, hogy összekapcsolják a működő képességeket, szemben a képzési folyamat minden lépésének folyamatos feltalálásával. Radalj szerint a cél egy olyan munkafolyamat létrehozása, amelyben a kötegek gyorsabb beolvasása, streamingje és lekérdezése olyan modellt eredményez, amely azonnal alkalmazható a BI-n.
"Az adattudósok, a szoftvermérnökök és az adatbázis-adminisztrátorok egyetlen platformon rendelkeznek, ahol a munka tisztán meghatározható magában az adattudományban, a szoftverprogramok írásában, valamint az SQL adatmodellekben és lekérdezésekben" - mondta Radalj. "Az emberek sokkal tisztábban működnek együtt azokban a különböző területeken, amikor ez egy közös platform. A ML futtatásával és a mélyreható tanulással többnyire a cél az, hogy ennek eredményeit - a társhatásokat és a változókat - az elemzéssel összekapcsolva használják., és használja a kimenetet például pontozáshoz vagy valami hasznos előrejelzéséhez."
Hype vagy a valóság?
Az AI-adatbázis alsó értéke - legalábbis a Kinetica meghatározásánál - a számítási és az adatbázis-erőforrások optimalizálása. Ez viszont lehetővé teszi jobb ML és mélyreható tanulási modellek létrehozását, gyorsabb és hatékonyabb képzését, valamint átfogó vonal fenntartását az AI alkalmazásának az üzleti vállalkozásában.
Radalj példát mutatott egy flottakezelő vagy teherfuvarozó társaságra. Ebben az esetben egy AI-adatbázis nagy mennyiségű valós idejű információt képes feldolgozni a járműparkból. Ezután a térinformatikai adatok modellezésével és az elemzéssel való kombinálásával az adatbázis dinamikusan tovább tudja irányítani a teherautókat és optimalizálhatja az útvonalakat.
"Könnyebb a gyors elkészítés, a prototípus és a tesztelés. Az AI-ben a 'modellezés' szó szóba kerül, de az egész a különböző megközelítésekben történő kerékpározásra vonatkozik - minél több adat, annál jobb -, hogy újra és újra futtassa őket, tesztelje, hasonlítsa össze és a legjobb modellek megjelenésével "- mondta Radalj. "A neurális hálózatoknak azért adtak életet, mert több adat van, mint valaha. És megtanuljuk, hogy képesek legyenek rajta kiszámolni."
Végső soron a Kinetica közös helyén található adatbázis és a csővezeték-platform csupán egy megközelítés egy térben, amely sok különféle dolgot jelenthet attól függően, hogy ki kérdezi. Baker szerint a piacon, amely még fejlődik és kísérleti, a vevő számára kihívás az, hogy pontosan kitaláljuk, mi az AI adatbázis gyártója.
"Mint üzleti koncepció, a mélyreható tanulás, az ML, és mindez szilárd koncepció. Dolgozzunk ki olyan technikai kérdésekkel, amelyek megoldhatók, még ha még nem oldottuk meg őket” - mondta Baker. "Ez nem azt jelenti, hogy ez egy érett hely, mert határozottan nem. Azt mondanám, hogy„ vásárló vigyázzon ”, mert valami olyan, mint az ML lehet, vagy nem. Lehet, hogy csak kert-fajta fejlett elemzés.”
Annak kérdésében, hogy az AI-adatbázisok jelenleg mind hype-eak, vagy fontos tendenciát jelentenek-e az üzleti élet irányában, Baker szerint kicsit mindkettő. Azt mondta, hogy a Big Data, mint marketing kifejezés, jelenleg nem részesül előnyben. Baker szerint a piaci fejlõdés, az adatközpontú elemzés és a valódi ML és mély tanulási algoritmusok között némi piaci összeférhetetlenség van. Függetlenül attól, hogy az ML modellezésére szolgáló adatbázisról vagy a popkultúra által álmodott öntudatos AI-ről beszél, az adatokkal kezdődik és végződik.
"Az adatokat addig fogják felhasználni az üzleti életben, amíg az idő nem lesz; ez csak annyiban fontos az üzleti életben" - mondta Baker. "Amikor tudományos fantasztikus értelemben beszél, az AI egy önmegvalósított intelligencia. Ekkor kezd el beszélni a szingularitásokról és a világot átvevő robotokról. Akár történik, akár nem, nem tudom. Elmegyek ezt Stephen Hawkingnek."