why[1]

Analitikához adatbázis – melyiket válasszam?

Az analitikai megoldások – az adatbányászattól, a rendszeres, idősoros és állapotjelentő riportokig bezárólag – sokféle adatbázis-szervezési architektúrán képzelhetők el. Tartsuk szem előtt, hogy a forrásrendszerre az alábbiak mindenképpen kell, hogy teljesüljenek, különben az analitikai megoldásunk hasznavehetetlen lesz:

  • pontos legyen (naprakész legyen, minden kapcsolódó, rendelkezésre álló információt tartalmazzon)
  • konzisztens (azaz ne tartalmazzon ellentmondó állításokat)
  • tiszta (minden személy/tárgy/tényadatnak egy és csak reprezentációja legyen)
  • világos (jól dokumentált, áttekinthető és lehetőség szerint egyszerű)
  • és biztonságos (az adatok hozzáférés adatbázisok, adatok szintjén védett és/vagy auditált legyen),
  • valamint az összes adatot tartalmazza (a szervezet által elérhető adatot egységes formában tegye elérhetővé, összekapcsolhatóvá).

Minden mást a felhasználási környezet, a pénztárcánk és a konkrétan elérendő célok határoznak meg. Az alábbi összeállítás egy kis segítség, hogy mikor mit (nem) érdemes választani.

Nagyvállalati adattárház

  • Jellemzői: Kifejezetten nagy vállalatok számára készül ilyen, jellemzően a nagyvállalat működéshez kapcsolódó adatait tartalmazza. A nagyvállalatoknál tipikus 1db adattárház van, különböző, nagyon eltérő profilok esetében szervezetenként 1-1db
  • Használat: Mindenre használható. Jellemzően erre épül minden informatikai alrendszer a számlázástól a hibakezelésen át az ügyfélérték-elemzésig.
  • Motiváció: Nagy számú konkurens lekérdezés, megbízhatóság és az átfogó kép igénye, terheléselosztás.

Magyarországon ez a leginkább előforduló adatelemzést támogató adatforrás-típus. Idehaza jellemzően Oracle alapokon, kisebb részt IBM DB/2, Microsoft SQL Server és Teradata támogatásával. A megoldások eltérő módon terhelhetőek, így különböző iparágakra más-más megoldás lehet javasolt. Bevezetése jellemzően jóval a 100 milliós érték felett van.

Adatpiac

  • Jellemzői: Egy-egy szakterület, ágazat számára készült az operatív működést és döntéstámogatást biztosító adatokat tartalmazza.
  • Használat: Jellemzően üzleti intelligencia rendszer alapja, illetve gyakran ágazati elemzés, kutatás, költségcsökkentés támogatója
  • Motiváció: Nagy teljesítmény, konkurens lekérdezések támogatása, szakterületi ad hoc lekérdezések támogatása.

Az adatpiacot az adattárházak mellett is létre lehet hozni, de az a költséghatékonyság szempontjából kifejezetten rossz; jellemzően a belső szervezeti erőviszonyok szokták kierőszakolni az adattárház melletti adatpiac létrehozását. Adatpiac létrehozását már egy közepes vállalat is megengedheti magának, bevezetése többnyire az üzleti intelligencia rendszerrel együtt szokott járni. Jellemző költsége Magyarországon 10-70MFt között van, attól függően, hogy hány különböző adatforrást kell egységesíteni és integrálni a rendszerbe, illetve milyen megbízhatóságú adatbázis-kezelőt képzelünk a rendszer mögé.

Adatpiac lehet saját kézben is, illetve ma már lehetőség van külső, szolgáltatás alapon (SaaS – Software as a Service) is igénybe venni. Utóbbi esetben az üzemeltetési költség, a megfelelő szoftverválasztás, és nem utolsó sorban a szervezeti ellenállás – minden van egy Kolléga, aki ragaszkodik egy-egy termékhez, akár kell, akár nem – és időveszteség “megspórolható”. Mivel a legtöbb vállalkozás fél az adatainak kiadásán, nem egy elterjedt forma. Magyarországon mi csak hirdetési vagy webes adatok “kiadásáról” tudunk, a nyugati világban az ügyfél-értékelési rendszer sem ritka, hogy külső adatpiacra kerül.

Evolúciós adatpiac

  • Jellemzői: Egy-egy szakterület, ágazat számára készült az előzetes elgondolás és módszeres felépítés hiányát tükröző, tipikusan egy-egy analitikus kolléga egyéni projekt-kezdeményezéséből kinőtt vállalati adatforrás.
  • Használat: Csak elemzésre használható.
  • Motiváció: Olcsó architektúra, nagy performancia, próbálkozások és eredmények felmutatására esetleg anonimizált adatok kiadására.

Ez a leggyakoribb magyarországi adatforrás. Két fejlődési irányból szokott születni.

1.) A legtöbb vállalkozásban – beleértve a nagyvállalatokat is – akad egy-egy olyan munkatárs, aki többet hallott az üzleti intelligenciában rejlő lehetőségekről, mint a többiek, és megunva a bizonytalan kezdeteket, önerőből, munkaidőn kívül felépített egy kezdeti projektet, ami a saját munkáját megkönnyíti. Aztán bemutatva másoknak ez szimpatikussá válik, de továbbra is a munkatárs szerkeszti, módosítja, kézre adja, majd de facto adatforrássá és alkalmazássá válik.

2.) A munkatársak különböző Excel-táblázatokban dolgoznak addig, amíg eljön a pillanat, amikor a menedzsment felismeri, hogy semmire nincs rálátása. Létrejön egy adatforrás-konszolidáció, jobb esetben a meglevő Excel-táblázatok forrásainak adatbázisba töltésével, és az Excelek előállításával, rossz esetben a legbefolyásosabb munkatárs Excel táblázata kerül a többiek asztalára is, mint “etalon” formátum. A munkatársak pedig ezekből dolgozhatnak.

A megoldás egyszerűsége és olcsó létrehozása rövid távú előnyöket jelent. Testre szabott – az adott pillanatra nézve – gyors, egyszerű. Hosszú távon sem az adatbiztonság, a fejleszthetőség, és általában a céggel való szerves együttélése sem tartható fenn, lehetőség szerint csak az analitikus kollégák kiszolgálására. Ezért kizárólag elemzési célra érdemes használni, illetve ilyet létrehozni. Sok esetben a hosszan tartó, folyamatos analitikával való együttműködés során, az adatpiac adatainak anonimizálásával keletkező adatforrás is evolúciós tüneteket mutat, ami az adott helyzetben inkább előny, mint hátrány. Tipikus megoldások MySQL, NoSQL, Microsoft SQL vagy Excel/Access alapokon valósulnak meg.

Archívumok

  • Jellemzői: Jól strukturált, funkciónként egységes szerkezetű naplóállományok sokasága.
  • Használat: Archiválásra, biztonsági elemzésre, megfelelőségi elemzésre (compliance), auditálásra, ügyfélmegértésre.
  • Motiváció: Olcsó tárolási architektúra, adattömörítés, nagy terhelhetőség, skálázhatóság.

A legrégebbi és adatelemzés szempontjából legkevésbé támogatott adatforrás. Magyarországon főleg a webes tevékenységek (átkattintás, nézettség, reklám- vagy tartalomfogyasztás és -ajánlás), valamint a különféle ügyfélszolgálati vagy más jellegű hívásadatbázisok (CDR – call detail record) elemzésére használatosak. A fő kihívás a nagyon nagy mennyiségű adatoknak a lekérdezhetősége és hatékony (időt álló és helytakarékos) tárolása. Nem ismerünk olyan terméket vagy termékcsaládot, amely ezen problémákat együttesen tudná kezelni.

Szoftverkimenetek

  • Jellemzői: Gazdag és változatos adatstruktúra, heterogén alkalmazások üzeneteinek és kimeneteinek naplóállományai.
  • Használat: Adatforrás-konszolidáció, adatkinyerés.
  • Motiváció: Programkimenetek mint értékes információforrás bekapcsolása az adattárház/adatpiac rendszerbe.

Egyre növekszik a gépek által generált adatok mennyisége, amelyek jellemzőket hordoznak, nem csak az ügymenetünkre, hanem a termékeink használatára, a viselkedés, sőt, sokszor a hangulat, érzelmi állapot és kötődés megállapítására. Például több funkciós szenzorhálózatok (vö. idősek távfelügyelete) adatkimenetének feldolgozása lehet ilyen feladat, ott az eszközök, formátumok és jelzések is nagyon eltérőek, ugyanakkor döntést kell hozni a jelzések alapján. Jelenleg Magyarországon a tipikus használók a web- és mobilalkalmazások (pl. Tomcat vagy iPhone/Android) egyedi naplóit veszik célba folyamatosan módosítva a programkódokon. A cél minden esetben az, hogy a heterogén környezetben keletkezett adatok egységesen és rendezetten kerüljenek az adattárházba vagy más, jól strukturált adatbázisba a későbbi feldolgozás céljára. Nem ismerünk olyan terméket, amely a programkimenetek betöltését vagy elemzését közvetlenül támogatnák.

Operatív rendszerek

  • Jellemzői: Valósidejű, döntést előkészítő és -támogató rendszerek.
  • Használat: Célterület szerint – biztonságtechnika, kockázatkezelés, ajánló és felügyeleti rendszerek.
  • Motiváció: Megbízhatóság, nagy terhelhetőség, kiváló performancia.

A gépek által generált adatok mellett folyamatosan növekszik azon rendszereknek is a száma, amelyek gépi vagy géppel erősen támogatott döntést támogatnak. Magyarországon a leggyakrabban a közösségi hálókon (ismerőskeresés) és tartalomajánlókban (IPTV, web – pl. Origo, HVG -, reklám – pl. AdVerticum), valamint a pénzügyi intézményekben (pl. Basel 2 és 3 kockázatkezelés) találkozhatunk ilyen rendszerekkel. Egyre gyakoribb a biztonságtechnikai alkalmazása az ilyen fajta megoldásoknak is, pl. betörésvédelem, elesés detekció, elhagyott tárgyak jelzése esetében. Mindegyiknek a központi eleme, hogy kritikus döntéseket kell hozni, viszonylag rövid időn belül. Idehaza a Binergy rendelkezik nagy tapasztalatokkal a valósidejű adatpiacok létrehozásában és kialakításában. Termékszállítók oldalán a MapReduce/NoSQL megoldások, pénzügyi körökben a Teradata és Oracle infrastruktúra használható a célra ideálisan.

Médiatárak

  • Jellemzői: Nem strukturált adatok.
  • Használat: Elemzés, archiválás, megjelenés-kiszolgálás.
  • Motiváció: Olcsó tárolási architektúra, adattömörítés, nagy terhelhetőség, skálázhatóság, valósidejűség.

A legtöbb adatforrás valamely informatikai rendszer vagy alrendszer melléktermékeként kerül hozzánk. Az emberek által létrehozott tartalom azonban sokszor több, értékesebb információkat hordoz, amit egyre több döntéshozó és informatikai szállító ismer fel. Jelenleg a legfelkapottabb téma az érzelemkutatás, amelynek során szövegek, ritkábban videotartalom alapján az emberek hozzáállását, elkötelezettségét, hangulatát. A tartalomkeresést leszámítva lényegében piacilag lényegében teljesen lefedetlen a nem strukturált adatok bekapcsolása a hagyományos döntéstámogatási folyamatokba. A tartalomkeresés tekintetében szövegben az Autonomy IDOL, Oracle Text, IBM OmniFind és hasonló termékei, valamint az Apache Lucéne használható. Képek és videók kiszolgálására már nem ilyen széles a paletta, ezeket főleg szolgáltatások mögé, így pl. a Picasa, Flickr stb. mögé szeretik rejteni, telepíthető, jó minőségű megoldásról mi nem tudunk.

Posted in Egyéb.