why[1]

Analitikához adatbázis – melyiket válasszam?

Az analitikai megoldások – az adatbányászattól, a rendszeres, idősoros és állapotjelentő riportokig bezárólag – sokféle adatbázis-szervezési architektúrán képzelhetők el. Tartsuk szem előtt, hogy a forrásrendszerre az alábbiak mindenképpen kell, hogy teljesüljenek, különben az analitikai megoldásunk hasznavehetetlen lesz:

  • pontos legyen (naprakész legyen, minden kapcsolódó, rendelkezésre álló információt tartalmazzon)
  • konzisztens (azaz ne tartalmazzon ellentmondó állításokat)
  • tiszta (minden személy/tárgy/tényadatnak egy és csak reprezentációja legyen)
  • világos (jól dokumentált, áttekinthető és lehetőség szerint egyszerű)
  • és biztonságos (az adatok hozzáférés adatbázisok, adatok szintjén védett és/vagy auditált legyen),
  • valamint az összes adatot tartalmazza (a szervezet által elérhető adatot egységes formában tegye elérhetővé, összekapcsolhatóvá).

Minden mást a felhasználási környezet, a pénztárcánk és a konkrétan elérendő célok határoznak meg. Az alábbi összeállítás egy kis segítség, hogy mikor mit (nem) érdemes választani.

Nagyvállalati adattárház

  • Jellemzői: Kifejezetten nagy vállalatok számára készül ilyen, jellemzően a nagyvállalat működéshez kapcsolódó adatait tartalmazza. A nagyvállalatoknál tipikus 1db adattárház van, különböző, nagyon eltérő profilok esetében szervezetenként 1-1db
  • Használat: Mindenre használható. Jellemzően erre épül minden informatikai alrendszer a számlázástól a hibakezelésen át az ügyfélérték-elemzésig.
  • Motiváció: Nagy számú konkurens lekérdezés, megbízhatóság és az átfogó kép igénye, terheléselosztás.

Magyarországon ez a leginkább előforduló adatelemzést támogató adatforrás-típus. Idehaza jellemzően Oracle alapokon, kisebb részt IBM DB/2, Microsoft SQL Server és Teradata támogatásával. A megoldások eltérő módon terhelhetőek, így különböző iparágakra más-más megoldás lehet javasolt. Bevezetése jellemzően jóval a 100 milliós érték felett van.

Adatpiac

  • Jellemzői: Egy-egy szakterület, ágazat számára készült az operatív működést és döntéstámogatást biztosító adatokat tartalmazza.
  • Használat: Jellemzően üzleti intelligencia rendszer alapja, illetve gyakran ágazati elemzés, kutatás, költségcsökkentés támogatója
  • Motiváció: Nagy teljesítmény, konkurens lekérdezések támogatása, szakterületi ad hoc lekérdezések támogatása.

Az adatpiacot az adattárházak mellett is létre lehet hozni, de az a költséghatékonyság szempontjából kifejezetten rossz; jellemzően a belső szervezeti erőviszonyok szokták kierőszakolni az adattárház melletti adatpiac létrehozását. Adatpiac létrehozását már egy közepes vállalat is megengedheti magának, bevezetése többnyire az üzleti intelligencia rendszerrel együtt szokott járni. Jellemző költsége Magyarországon 10-70MFt között van, attól függően, hogy hány különböző adatforrást kell egységesíteni és integrálni a rendszerbe, illetve milyen megbízhatóságú adatbázis-kezelőt képzelünk a rendszer mögé.

Adatpiac lehet saját kézben is, illetve ma már lehetőség van külső, szolgáltatás alapon (SaaS – Software as a Service) is igénybe venni. Utóbbi esetben az üzemeltetési költség, a megfelelő szoftverválasztás, és nem utolsó sorban a szervezeti ellenállás – minden van egy Kolléga, aki ragaszkodik egy-egy termékhez, akár kell, akár nem – és időveszteség “megspórolható”. Mivel a legtöbb vállalkozás fél az adatainak kiadásán, nem egy elterjedt forma. Magyarországon mi csak hirdetési vagy webes adatok “kiadásáról” tudunk, a nyugati világban az ügyfél-értékelési rendszer sem ritka, hogy külső adatpiacra kerül.

Evolúciós adatpiac

  • Jellemzői: Egy-egy szakterület, ágazat számára készült az előzetes elgondolás és módszeres felépítés hiányát tükröző, tipikusan egy-egy analitikus kolléga egyéni projekt-kezdeményezéséből kinőtt vállalati adatforrás.
  • Használat: Csak elemzésre használható.
  • Motiváció: Olcsó architektúra, nagy performancia, próbálkozások és eredmények felmutatására esetleg anonimizált adatok kiadására.

Ez a leggyakoribb magyarországi adatforrás. Két fejlődési irányból szokott születni.

1.) A legtöbb vállalkozásban – beleértve a nagyvállalatokat is – akad egy-egy olyan munkatárs, aki többet hallott az üzleti intelligenciában rejlő lehetőségekről, mint a többiek, és megunva a bizonytalan kezdeteket, önerőből, munkaidőn kívül felépített egy kezdeti projektet, ami a saját munkáját megkönnyíti. Aztán bemutatva másoknak ez szimpatikussá válik, de továbbra is a munkatárs szerkeszti, módosítja, kézre adja, majd de facto adatforrássá és alkalmazássá válik.

2.) A munkatársak különböző Excel-táblázatokban dolgoznak addig, amíg eljön a pillanat, amikor a menedzsment felismeri, hogy semmire nincs rálátása. Létrejön egy adatforrás-konszolidáció, jobb esetben a meglevő Excel-táblázatok forrásainak adatbázisba töltésével, és az Excelek előállításával, rossz esetben a legbefolyásosabb munkatárs Excel táblázata kerül a többiek asztalára is, mint “etalon” formátum. A munkatársak pedig ezekből dolgozhatnak.

A megoldás egyszerűsége és olcsó létrehozása rövid távú előnyöket jelent. Testre szabott – az adott pillanatra nézve – gyors, egyszerű. Hosszú távon sem az adatbiztonság, a fejleszthetőség, és általában a céggel való szerves együttélése sem tartható fenn, lehetőség szerint csak az analitikus kollégák kiszolgálására. Ezért kizárólag elemzési célra érdemes használni, illetve ilyet létrehozni. Sok esetben a hosszan tartó, folyamatos analitikával való együttműködés során, az adatpiac adatainak anonimizálásával keletkező adatforrás is evolúciós tüneteket mutat, ami az adott helyzetben inkább előny, mint hátrány. Tipikus megoldások MySQL, NoSQL, Microsoft SQL vagy Excel/Access alapokon valósulnak meg.

Archívumok

  • Jellemzői: Jól strukturált, funkciónként egységes szerkezetű naplóállományok sokasága.
  • Használat: Archiválásra, biztonsági elemzésre, megfelelőségi elemzésre (compliance), auditálásra, ügyfélmegértésre.
  • Motiváció: Olcsó tárolási architektúra, adattömörítés, nagy terhelhetőség, skálázhatóság.

A legrégebbi és adatelemzés szempontjából legkevésbé támogatott adatforrás. Magyarországon főleg a webes tevékenységek (átkattintás, nézettség, reklám- vagy tartalomfogyasztás és -ajánlás), valamint a különféle ügyfélszolgálati vagy más jellegű hívásadatbázisok (CDR – call detail record) elemzésére használatosak. A fő kihívás a nagyon nagy mennyiségű adatoknak a lekérdezhetősége és hatékony (időt álló és helytakarékos) tárolása. Nem ismerünk olyan terméket vagy termékcsaládot, amely ezen problémákat együttesen tudná kezelni.

Szoftverkimenetek

  • Jellemzői: Gazdag és változatos adatstruktúra, heterogén alkalmazások üzeneteinek és kimeneteinek naplóállományai.
  • Használat: Adatforrás-konszolidáció, adatkinyerés.
  • Motiváció: Programkimenetek mint értékes információforrás bekapcsolása az adattárház/adatpiac rendszerbe.

Egyre növekszik a gépek által generált adatok mennyisége, amelyek jellemzőket hordoznak, nem csak az ügymenetünkre, hanem a termékeink használatára, a viselkedés, sőt, sokszor a hangulat, érzelmi állapot és kötődés megállapítására. Például több funkciós szenzorhálózatok (vö. idősek távfelügyelete) adatkimenetének feldolgozása lehet ilyen feladat, ott az eszközök, formátumok és jelzések is nagyon eltérőek, ugyanakkor döntést kell hozni a jelzések alapján. Jelenleg Magyarországon a tipikus használók a web- és mobilalkalmazások (pl. Tomcat vagy iPhone/Android) egyedi naplóit veszik célba folyamatosan módosítva a programkódokon. A cél minden esetben az, hogy a heterogén környezetben keletkezett adatok egységesen és rendezetten kerüljenek az adattárházba vagy más, jól strukturált adatbázisba a későbbi feldolgozás céljára. Nem ismerünk olyan terméket, amely a programkimenetek betöltését vagy elemzését közvetlenül támogatnák.

Operatív rendszerek

  • Jellemzői: Valósidejű, döntést előkészítő és -támogató rendszerek.
  • Használat: Célterület szerint – biztonságtechnika, kockázatkezelés, ajánló és felügyeleti rendszerek.
  • Motiváció: Megbízhatóság, nagy terhelhetőség, kiváló performancia.

A gépek által generált adatok mellett folyamatosan növekszik azon rendszereknek is a száma, amelyek gépi vagy géppel erősen támogatott döntést támogatnak. Magyarországon a leggyakrabban a közösségi hálókon (ismerőskeresés) és tartalomajánlókban (IPTV, web – pl. Origo, HVG -, reklám – pl. AdVerticum), valamint a pénzügyi intézményekben (pl. Basel 2 és 3 kockázatkezelés) találkozhatunk ilyen rendszerekkel. Egyre gyakoribb a biztonságtechnikai alkalmazása az ilyen fajta megoldásoknak is, pl. betörésvédelem, elesés detekció, elhagyott tárgyak jelzése esetében. Mindegyiknek a központi eleme, hogy kritikus döntéseket kell hozni, viszonylag rövid időn belül. Idehaza a Binergy rendelkezik nagy tapasztalatokkal a valósidejű adatpiacok létrehozásában és kialakításában. Termékszállítók oldalán a MapReduce/NoSQL megoldások, pénzügyi körökben a Teradata és Oracle infrastruktúra használható a célra ideálisan.

Médiatárak

  • Jellemzői: Nem strukturált adatok.
  • Használat: Elemzés, archiválás, megjelenés-kiszolgálás.
  • Motiváció: Olcsó tárolási architektúra, adattömörítés, nagy terhelhetőség, skálázhatóság, valósidejűség.

A legtöbb adatforrás valamely informatikai rendszer vagy alrendszer melléktermékeként kerül hozzánk. Az emberek által létrehozott tartalom azonban sokszor több, értékesebb információkat hordoz, amit egyre több döntéshozó és informatikai szállító ismer fel. Jelenleg a legfelkapottabb téma az érzelemkutatás, amelynek során szövegek, ritkábban videotartalom alapján az emberek hozzáállását, elkötelezettségét, hangulatát. A tartalomkeresést leszámítva lényegében piacilag lényegében teljesen lefedetlen a nem strukturált adatok bekapcsolása a hagyományos döntéstámogatási folyamatokba. A tartalomkeresés tekintetében szövegben az Autonomy IDOL, Oracle Text, IBM OmniFind és hasonló termékei, valamint az Apache Lucéne használható. Képek és videók kiszolgálására már nem ilyen széles a paletta, ezeket főleg szolgáltatások mögé, így pl. a Picasa, Flickr stb. mögé szeretik rejteni, telepíthető, jó minőségű megoldásról mi nem tudunk.

lovesme[1]

Üzleti intelligencia — nem működik

Nemrég olvastam a National Computing Centre felmérését arról, hogy mik a tapasztalatok a nemzetközi üzleti intelligencia (BI) megoldásokkal kapcsolatosan. Azt vizsgáltuk közben, hogy mennyire problémásak a fejlett nyugati kultúrákban tapasztaltak idehaza. Nálunk egyelőre még az üzleti intelligencia Kánaán időszaka van, ugyanakkor nem árt egy kicsit messzebb látni, nehogy minket is a csalódás árnya vegyen végül körül. Miért? Mert a felmérés azt mutatja, hogy bár a válaszadó 61%-a intenzívebbé tenné a BI rendszerének használatát, ugyanakkor 53%-ban semmilyen érdemi változást nem hozott a BI bevezetésre, miközben csak 6%, akik nagyon és 13%, akik általában elégedettek. Hogy jöhetett létre ez az ellentmondás?!

Névmágia

Üzleti intelligencia alatt sokan, sokfélét értenek. Kimball szerint üzleti intelligencia az adattárház egy másik megnevezése, a SAS szerint a prediktív adatbányászat az üzleti intelligencia. A legtöbbször azonban az üzleti intelligencia szoftverek táblázatok és grafikonok sokaságát jelentik. Ez, természetesen, a problémák egyik forrása – hiszen eladható termékcsoportot jelent az “üzleti intelligencia”, egy brand, amire marketinget, eladást lehet tervezni, a gyanútlan felhasználó pedig arra gondol, hogy a szoftver majd megoldja a jelenlegi üzleti problémákat. A problémát célszerű onnan megragadni, hogy mire való… Üzleti intelligenciát alkalmazunk arra, hogy nagy méretű, idősoros és időfüggetlen adatok egyszerű, gyors értelmezését vizualizáció segítségével támogassuk, a vállalat minden szintjén egységes adatforrásokat és felületeket felhasználva az üzleti működés szempontjából meghatározó mutatókat, trendeket és (kontra)indikátorokat kiszámítsuk, felderítsük és megjelenítsük.

A helyzet hasonlatos ahhoz, mint a CRM (Customer Relationship Management) szoftverek esetében tapasztaltuk. Sokan azt gondolták, hogy a CRM bevezetésével majd vevőközpontú vállalatot alakítanak ki – és beruháztak egy méregdrága CRM megoldásra. Valójában azonban a legtöbb vállalkozásnak egy ügyféladatbázisra volt szükségük, amely keresztül a direkt marketing és sales tevékenységet lehetett erőltetni. Pontosan legyünk tisztában azzal, hogy mit és miért akarunk bevezetni – és nem utolsó sorban tudjuk előre, hogy a rendszer bevezetése teljes gondolkodásbeli, végül szervezeti váltást kell maga után vonjon, ha sikereket remélünk a bevezetéséből.

Jó üzleti intelligencia rendszer segít nekünk abban, hogy kiszámítható működés mellett minden figyelmeztető vagy jelző eseményt már a korai szakaszban észrevegyünk, a mutatóink alapján a megfelelő döntéseket hozzuk, függetlenül attól, hogy a hierarchia melyik szintjén állunk. Azok a vállalatok, akik az üzleti intelligencia rendszer bevezetése után nem terveznek belső értékelési rendszer kialakítását, nem követi a bevezetését egy Balanced Scorecard-hoz hasonló indikátor rendszer kidolgozása, vagy nem kötik a mért értékeket teljesítményekhez (és ezen keresztül döntésekhez), jó eséllyel nem azért vágtak bele a bevezetésbe, mint amire használni kellene a rendszert – végül sok pénzt költenek, jellemzően “semmire”.

Adatforrás-mérgezés

Sokszor az üzleti intelligencia rendszer bevezetése előkészítés nélkül, a korábbi, több asztalon megvalósuló Excel-varázslások felváltására hivatott. Mielőtt valaki úgy gondolná, hogy ez ritka dolog, jelezzük, hogy Magyarországon is(!) ez a tipikus – az informatikai kőkorból az emberek hirtelen a high-tech megoldásra szeretnek átállni. Az így keletkezet bemeneti adatok forrása, időzítése, pontossága megbízhatatlan, így a különböző minőségű adatok integrációja összességében is legfeljebb hasonló, de inkább csak rossz és rosszabb minőségű lehet. Márpedig ahogy a szakirodalom is mondja: “garbage in, garbage out”, azaz a jól megtervezett, felépített mutatóink, indikátoraink is jellemzően szemétmutatók és szemétindikátorok lesznek egy ilyen környezetben.

Az üzleti intelligencia rendszer bevezetését meg kell előzze – vagy része kell legyen – egy alapos és átgondolt adatforrás-konszolidáció, szélsőséges, de sokszor ideális esetben egy adattárház-építés. Az adatforrás-konszolidáció során térképezzük fel, hogy milyen adatok hol, hogyan és mikor(!!) keletkeznek (egyáltalán van-e adatunk egy-egy metrikához?!), hozzuk ezeket közös nevezőre a többi forrásadattal, majd ezeket együttesen és lehetőség szerint automatizáltan dolgozzuk fel és be egy központi adatbázisba, adatpiacba.

Két szélsőséges magyar tünet az elmúlt évekből az adatforrás-konszolidáció amúgy is égető támogatására. Az adatforrásban szereplő származtatott mutatókat néhány tizedesjeggyel kézzel átírták az Excel-táblázatban, hogy munkatársakat, eredményeket “szebb” vagy “rosszabb” színben tüntessenek fel, így “támogatva” a vezetőséget a kívánt döntés elérésében. Egy másik rendszerben angol és magyar forrásrendszerek keveredésnek eredményeképpen egy döntést előkészítő, nemfüggő probléma során derült ki, hogy három nemű lett az ügyfélkör: F, M, N jelölésekkel – Male/Female, Férfi/Nő jelentéseket rövidítve – az F esetében mindenkire rábízzuk, hogy milyen nemet választ…

Szakértői ismeretek hiánya

Felhívjuk a figyelmet arra a tipikus hibára is, hogy üzleti intelligencia rendszerük esetében sokan arra helyezik a hangsúlyt, hogy hogyan kell kezelni a felhasználói felületet, ugyanakkor az egyik legfontosabb mind a mai napig annak megértése, hogy a felhasználók által látott grafikonok, adatsorok hogyan keletkeznek, és ezáltal mit (nem) mutatnak. Mindkettő probléma, és egyben ez a leginkább szűk keresztmetszet az üzleti intelligencia rendszerek használatában is. Ugyanis a jelenlegi, hagyományosnak tekinthető üzleti intelligencia megoldások részben nagyon drágák, 3-7 vagy több napos képzéseket igényelnek, ugyanakkor az előállított információtartalmat csak a folyamatot teljes mértékben átlátni képes területi és/vagy informatikai szakértők tudják megfelelően értelmezni.

A megfelelő tevékenységhez a megfelelő megoldást válasszuk, de legalábbis gondoljuk végig a képzési rendszerünket, hogy megfelel-e a szervezet a működési kívánalmaknak. Ha nem, akkor egy átfogó képzési programot kell felépíteni az üzleti intelligencia rendszer bevezetése mellett. Azt már csak a magunk részéről tesszük hozzá, hogy ha egy ad-hoc elemző lekérdezés előállítására komolyabb képzésre, esetleg önálló üzleti folyamatra van szükség, akkor a termék nem tudhatja kielégíteni az eredeti célkitűzéseinket – nem fogunk nagyon gyorsan reagálni a hirtelen fellépő változásokra.

Általános tanulságok, konklúziók a sikeres bevezetéshez

  • Minden üzleti intelligencia megoldást előzzön meg egy alapos adatvagyon felmérés és adatforrás-konszolidáció.
  • Megfelelő folyamatok és minőségbiztosítás mentén hozzuk létre az üzleti intelligencia rendszer számára fontos adatokat és mutatókat, amely mindenki számára világos és érthető módon jön létre, minden szinten jól használható.
  • A szervezeti szintünkhöz, vállalati kultúránkhoz leginkább igazodó rendszert vezessük be.
  • Az üzleti intelligencia bevezetése csak a folyamat egy része, ne álljunk meg az első lépésnél – vagy ne lépjük meg az első lépést se. Vízióban, irányban gondolkodjunk, a belső működésünk átvilágításának, számszerűsítésének, akár új mutatók és szempontok feltárásának, a szervezeti és gondolkodásmód változtatásának igényével vezessük be az üzleti intelligencia rendszerünket.

Ellenkező esetben az üzleti intelligencia rendszerre elköltött pénz sosem fog megtérülni – kidobott tőke lesz belőle.

sentiment

Sentiment elemzés – érzelmi háló

Ki gondolná, hogy az emberi érzelmek keresése és gépi feltárása már több, mint 20 éves kutatási múltra tekint vissza?! Történetileg nézve az első cikkek és kutatások arról szóltak, hogy mit írunk egy-egy filmről, milyen érzelmeket vált ki belőlünk, illetve hogyan viszonyulunk egy-egy szereplőhöz, történethez, karakterhez, azaz hogyan fejezzünk ki magunkat, érzelmeinket mások számára. Nem véletlen, hogy a téma öregjei, pl. a Pang & Lee páros, úgy definiálják az érzelmek gépi elemzése nem más, mint a felhasználó által létrehozott adatok, szövegek bányászata (azaz user generated content mining). A világ sokat változott 20 év alatt. Az érzelmek ma már nem csak verbálisan, de akár szenzorok segítségével pl. vércukor szint ingadozás, pulzusváltozás, EKG görbe változás, izzadás (igen-igen a hazugságvizsgálatok gyöngye), vagy viszonylag olcsó EEG eszközökkel még az agyhullámok formájában is detektálhatóak. Na, meg a Lightman Group megbízásával (vö. Lie to me… Hazudj, ha tudsz!). Azért ezek még nem az igazi, széleskörűen terjedő piaci megoldások.

Vagy mégis?! Gombamód szaporodnak ugyanis az érzelmi keresők. Ugyan az általunk ismert, általános elérhető 20+ kereső mindegyike elég halovány eredményeket tud felmutatni, de pusztán azzal, hogy az elmúlt évben négyszeresére nőtt a témával foglalkozó publikációk és adatbázisok száma, már látható, hogy beindult valami. Nem véletlen: a szövegbányászat, az adatbányászat is válságot élt át az elmúlt két évben, olyan területeket kellett találni és olyan eredményeket kell felmutatni, hogy a befektetett pénz bizonyíthatóan megtérül (ROI is king). Márpedig, ha mint vevő tisztában vagyok az ügyfeleim, lehetséges vevőim érzelmi állapotával, vágyaival, és ehhez adaptálódunk – azaz együtt sírunk, együtt nevetünk – akkor a termék- vagy szolgáltatás eladása, piacon tartása igazán könnyű, az erős érzelmi kötődés ugyanis nagyon gyakran felülírja a racionalitást. Már csak azért is, mert egy számunkra kedves dolog “tévelygéseit” rengeteg racionális érvvel tudjuk magunk számára is elfogadhatóvá tenni. De ha mást nem is, hát a piackutatásra szánt pénzeket megspórolhatjuk – egyszeri költséget alkotva a rendszeres működési költségekből. Sőt, ha tudom, hogy hogyan hatnak a kommunikációs csatornákon kibocsátott üzenetek az ügyfélkörre, akkor még akár befolyásolhatóvá válnak maguk a történések is.

Persze, ehhez két dolgot kell tudni:

  1. az emberek mély interjúztatása nélkül meg kell tudni állapítani, hogy mit gondolnak egy konkrét témáról,
  2. illetve azt, hogy hogyan terjednek a vélemények az ügyfélkörben (tipikus fókuszcsoportos mérés).

Nem véletlen, hogy a TWitter, a Facebook, és más hasonló közösségi oldalakon végzik az érzelmi keresések döntő többségét. Nem az ügyfélszám a meghatározó – ehhez elég lenne pl. egy népszerű fórumot figyelni -, kifejezetten fontos a vélemény terjedése is. Az érzelemkifejezés gépi feltárásához elemzéséhez szükséges két követelmény közül az elsőt a nyelvtechnológia és a szövegbányászat, míg a második a hálózatkutatás és egy viszonylag új adatbányászati terület, a mozgó (időben változó) klaszterek által vizsgált téma lett – az egyes területek közötti átmenetek nélkül.

Mit gondolunk? Annak kiderítésére, hogy valaki pozitívan vagy negatívan nyilatkozik valamiről, a következőket kell kiderítenünk:

    • Azonosítanunk kell, hogy miről is beszél: kell egy névelem-felismerő. A névelemek kapcsán, persze, sokan a tulajdonnevekre asszociálnak, és általában a névelem-felismerők erre vannak kihegyezve, de a kettő nem egy és ugyanaz. Például az “adatbányászati piac”, vagy a “The New York Times sport rovata” például lehet egy-egy névelem, de egyik sem tulajdonnév. Bár a névelem-felismerés a legegyszerűbb része az érzelem-detekciónak, mégis, itt is számtalan problémával találkozhatunk. Pl. vannak speciális tulajdonnevek, amelyek felismerése nem könnyű: iPhone (kiskezdőbetű), e.On, Jeopardy! (írásjelek), Jeanne d’Arc = Szent Johanna = Orleans-i szűz (azonosság), Szentgothárd (elírás), “The New York Times sport rovata” (igen összetett, sok csapdát tartalmazó névelem), …Kovács Tamás Barna Viktor kocsiját… (hol a vége?!), ájfon, Vén Rúni (tolvajnyelv/gúny), David Villa… A spanyol ék…(hivatkozás, anafora).
    • Meg kell határozni, mi az (érzelmi feldolgozás szempontjából fontos) állítás. Tipikus hibás kezdés: csak a jelzőket figyeljük. A jelző nagyon fontos eleme a nyelvnek, valamiféle kötődést, viszonyt, megkülönböztetést tudunk vele kifejezni – de ezek gyakran objektív szempontok. Megint máskor az érzelmi hatást az eseményleírásokban találjuk meg. “a csóri vindózer szép kis lehalást okozott” (fél)mondatot tartalmazó fórumbejegyzésben jól látszik, hogy a rokonszenvezőnek tűnő jelzőt gúnnyá silányítja az esemény maga, és ez korántsem ritka. Második próba: figyeljük az igét. Magyarban ez nem rossz ötlet – létigés mondatokat, persze, átalusszuk -, de pl. angolban öngyilkosság. Harmadik próba: használjunk mondattani elemzőt. Kollégák ilyenkor jelzik nekünk, hogy először építeni kellene egyet, mert nincs ilyen iparilag jól használható változatban. Már a tagadások hatókörét (mit is tagadunk!) sem könnyű megmondani algoritmusok segítségével – sőt, ezt a témát a kutatók nagy ívben kerülik, annyira nehéz. A kettős (többes) tagadásról nem is beszélve. Nagy sóhaj… OK, oldjuk akkor meg “intuitívan”; ilyen a megoldások döntő többsége.
    • Mondjuk meg, hogy mennyire pozitív vagy negatív az érzelmi kötődésünk egy-egy mondat alapján! A probléma itt igen összetett. Egyrészt egy-egy szó, kifejezés, állítás bármit jelenthet érzelmileg, akár jót is, rosszat is – hiszen kifejezhet iróniát, szarkazmust, finomkodást, túlzást, hasonlatot stb. Másrészt a szleng időnként átértelmezi a szavakat, és az új jelentésében akár valami különlegeset, szerethetőt vagy éppen elítélendőt jelenthet. Jó példa erre Magyarországon a “liberális” szó használata a rendszerváltás után – a jelentéstartalom talán keveset, de az érzelmi töltése jelentőset változott az alapján, hogy az adott esetben, időpillanatban milyen gondolatokat, helyzeteket társítunk éppen mellé. A tipikus megoldás, hogy bízzuk ezt a nagy számok törvényére: súlyozzuk intuitív függvények alapján a szavakat, hogy mennyire pozitívak vagy negatívak és nézzük meg, egy mondatban milyen jellegű az eredmény. A megoldás igazából annak a bevallása: fogalmunk sincs, hogy hogyan csináljuk. Nagyjából ennyire szokott jól is működni – mégis, ez a best practice.
    • Bizonyos érzelmi viszony felderítésekor még fontos lehet, hogy ki mondta a véleményt – ezt is célszerű lehet meghatározni. Nem ugyanolyan súllyal esik latba, ha egy elítélt gyilkos nyilatkozik negatívan a bíráskodás állapotairól, vagy egy frissen kinevezett bíró. Ahogy a vizsgálat szempontjából pl. lehet pozitív, ha a konkurens cég egyik munkatársa nyilatkozik elítélően a piaci növekedésünkről. A beszélő jellemzőinek felderítését ma döntően kontrollált formában végzik – pl. a Facebook azonosító alapján -, de sok esetben van lehetőség a tanultságra, a származási helyre, vagy éppen a korosztályra következtetni a szóhasználat, a nyelvi fordulatok, vagy a használati idők alapján. Jelenleg ez 2001. óta egy sokat kutatott terület lett.

      Hogyan terjednek a vélemények? Ehhez csak úgy tudunk megfelelő vizsgálatokat végezni, ha hozzáférünk egy közösségi háló, vagy általában egy kommunikációs hálózat csomópontjaihoz, pl. vállalati rendszergazdaként. Éppen ezért szeretik a kutatások a Twittert használni: látszik a tweet (csirip), a re-tweet, ami – elvben – egy korábbi üzenet átvétele, átemelése, illetve látszanak a válaszok is, ráadásul az egész gyorsan pörög, figyelhető, ellenőrizhető. Ennyi az egész?! Nem egészen… A hírek, gondolatok sokféleképpen terjednek, csak kis formája explicit módon követhető. Azért van pár problémás rész is, itt álljon most csak néhány, amit kiemelnék:

      • Válaszok esetében közvetlenül egy üzenetre válaszolunk, azonban annak tartalma megváltozott, valójában másról beszélünk, egy apropó (ami akár az is lehet, hogy ismerőst láttunk aktivizálódni) kapcsán.
      • Vannak azonban olyan válaszok is, amelyek formailag nem azok, ugyanakkor reflexiók mások által elmondottakra. Például egy üzenőfalon nem feltétlenül látszik a “hivatkozási alap”, intuitív módon kell azt olykor felfedezni az eredeti állítást, vagy a célszemélyek érzik magukat benne közvetlenül megszólítva – ami a szövegben explicit módon akár nem is jelölt. Többszörös üzenőfal áttételeken keresztül ez már problémásabb felderítést jelent.
      • A rejtett átvételek külön problémakört jelentenek. Egy-egy gondolat, vélemény nem csak a vizsgált közegen belül, hanem annak határait átlépve is terjed – pl. egy szobában többen beszélnek valamiről, telefont is használnak stb. Mivel a terjedést nem látjuk, így a belépési pontokat, az “újrafeltalálást” kell elkapnunk. A csatorna zajos, azaz a jel némiképp torzulhat közben, így a felismerés más szempontból is problémás. A trükk itt általában a problémás, sajátos szavak terjedésével vizsgálható, ami jó eséllyel nem változik. Természetesen, rejtett terjedésnél nem tudhatjuk, hogy ki van hatással kire, így a rendszerben látható források azonosítása csak nehezen megvalósítható.
      • Az információterjedés több fázisú. A tapasztalat azt mondatja velünk, hogy az információk nagyjából 1-2 napi, 2 hetes, 1 hónapos, 3 hónapos hullámokban terjed, ritkán ennél is nagyobb kilengés lehet – attól függően, hogy az emberek mikor találkoznak másokkal, illetve mennyire jó az emberek rövidtávú, “közösségi társalgást támogató” memóriája. Ez jelenleg nagyjából két hét. Természetesen vannak elévülési idők is, amelyek talán nem meglepő módon az információ terjedési sebességének fordítottjával arányos. Minél gyorsabban terjed egy hír, annál gyorsabban évül el (nyilván, ha mindenki tud róla, akkor nincs információértéke).

      Könnyű érzelmi keresőket építeni?! Nem. A problémákat látva csak az erős idegzetűek állnak neki egy ilyen projektnek, sok előkészítést és tudást igényel, nem utolsó sorban szöveg- ÉS adatbányászati ÉS hálózatkutatási ismereteket. Nem véletlen, hogy még a nagy kereső óriások sem rendelkeznek ilyennel. Igaz, kettőről tudunk, hogy fejleszt ilyet – de ki tudja, mikor lesznek kész vele. Lehetséges egyáltalán jót csinálni?! Erre csak azt tudom mondani: láttunk már ígéretesen jól működő rendszert…

      hardwork

      Egy tender tanulságai

      Egy ajánlásos tender mindig izgalmas vállalkozás még akkor is, ha az ember nem nyer. Hát még akkor, ha nyer. Volt szerencsém nem olyan régen úgy részt venni egy tender pályázati anyagának elkészítésében, hogy részben belülről, részben viszont kívülről láthattam a folyamatokat, és ez további érdekességekkel, megfigyelésekkel gyarapította a tudástárunkat. Az alábbi gondolatsor csak azért született, hogy megosszam másokkal is a tapasztalatainkat – tanulságképpen. Bár, ahogy a mondás tartja, a jótanáccsal csak egy dolgot lehet tenni: továbbadni.

      Ismerd meg a Megrendelőt! Minden kapcsolatfelvétel során az ember elemzi a másikat üzletileg, anyagilag, jogilag, illetve szervezeti-szakmai fejlettségét tekintve. Fontossá lett a tender során még egy tudás: hol tart a gondolkodásban az ügyfél, hogyan gondolkodik egy-egy problémáról, hogyan viszonyul új(szerű) dolgokhoz, mit gondolnak/várnak az eredményektől, illetve mi a fő (ismétlem: fő!) motivációja.

      A megrendelőnek a vágyait, és nem az igényeit kell kielégíteni. A legtöbb megrendelő hallott valami különleges dologról, de nem ismeri, ezért gyakran azért írnak ki tenderpályázatot, hogy viszonylag olcsón jussanak tudás és – szerencsés esetben – megoldás birtokába. A pályázati anyag igényeket támaszt, ami adott esetben nem fedi le a tényleges elvárásokat, sőt, sok esetben olyan igények vannak beállítva, amelyeknek pontosan nulla hasznosságuk vagy érdekességük van a mindennapi működés során. A Megrendelő tipikusan nem szakértő, így a megfogalmazásai, elvárásai is homályosak, félrevezetőek, mert közben mindent megtesz azért, hogy szakszerűnek tűnjön. Fókuszálj tehát a vágyakra, értsd meg az ügyfelet.

      Az ügyféllel való beszélgetés előnyei. Ha az ügyfél úgy gondolja, hogy egy hónapig zavarhatjuk a tenderkiírás miatt, akkor legyünk bátrak zavarni (ha a megismerés során nem azt tapasztaljuk, hogy ez zavarja őt). Minél többször beszélünk vele, annál világosabbak a fogalmai, koncepciója – és annál jobban meg fog érteni minket a pályázati anyagban. Mire meglátja a kész anyagot, már ismerősként öleli keblére. Arról nem is beszélve, hogy így érzi csak igazán, hogy mennyire szeretnénk megnyerni a kegyét, illetve mennyire fontos is nekünk a véleménye. A hiúság erejét sosem szabad alábecsülni.

      Férfival férfi, nővel nő beszéljen. Bár nincs előítélet és rasszizmus az üzletben – szokták mondani -, a tapasztalat, különösen ez a mostani kifejezetten azt mondatja velem, hogy igenis van. Élmény volt figyelni, hogy két fél, ha más nemű, mennyire összetud “veszni” apróságokon, de az azonos neműek közötti kommunikációban a durva torzítás, elbeszélés, pontatlanság is megengedhető volt. Ha az okokat keresném, akkor azt mondanám, hogy van egyfajta empátia van az azonos neműek között, illetve a hasonlóan gondolkodás képessége áthidalja az egyéb különbségeket. A különböző gondolkodásmód – a többlet erőfeszítés igénye miatt – talán éppen a személyes gátlásokat oldja fel.

      Ne akarj eladni kőkorszaki csapatnak titániumötvözetet hegesztéshez, se űrutazónak kőbaltát. Meg lehet próbálni, persze, de reménytelen – legalább másnak kell tűnjön a számára, mint ami valójában; ha ez etikus. A megismerés során meg kell azt is értenünk a másikról, hogy mit képes befogadni. Hiába élünk ugyanabban a korban, hiába képezték a feleket a leginkább haladó szellemű egyetemeken, vannak akik ma már ultrakonzervatívnak tartott megoldásokat szeretik, és vannak akiknek csak futurisztikus megoldás a nyerő – legyen az akár teljesen használhatatlan.

      “Mindenki csak azt szereti olvasni, amit már némileg megszokott előtte; az ismertet kívánja más alakban.” Az idézet Goethe-től származik, és úgy látszik, hogy ez a döntő érv/szempont még ma is. Ne erőltesd a másikra a saját gondolkodási elveidet – hacsak kifejezetten ezt igényli -, hanem a Megrendelő logikája mentén célszerű felépíteni az anyagot még akkor is, ha az teljesen idegen. Utóbbi esetben Te nem, de Ő meg fogja érteni a saját anyagodat. Másik oldalról pedig, a Megrendelő önigazolást keres – azaz fontos számára, hogy a gondolatokkal, elvekkel már akkor is egyetértsen, amikor elkezdi az anyag vagy előadás áttekintését.

      Összefoglalva: gondolkodj a megrendelő fejével – bármennyire nehéz, vagy nem szimpatikus is megérteni a gondolkodását.

      DogDoctor

      Mondja, kedves Watson…!

      A X. SPSS adatbányászati konferenciának egyik kiemelt témája az IBM Watson Jeopardy! című vetélkedő játékban elért sikere volt, ami kimondva kimondatlanul, mégiscsak a természetes nyelvű feldolgozás és nyelvértés egy újabb állomása volt. Sok érdekes háttéradatot láttunk, illetve volt szerencsénk a demonstrációra kiállított darabot tesztelni, ennek során szerzett tapasztalatainkat az alábbiakban összegezzük.

      Mindenekelőtt említsünk meg, hogy bár IBM Watson-ról beszélünk (az IBM Watson Research Centre a fejlesztés helye), az alkotók több elismerést és említést is érdemelnek. Az IBM a Nuance segítségével építette meg a DeepQA motort, amely a Watson alapja; ehhez pedig az MIT Research (teljes nevén: MIT Computer Science and Artificial Intelligence Laboratory) is hozzájárult. Az egész motorjának az IBM főnökét, Charles Lickelt (ötletgazda, szponzor), és a kutatás vezetőjét, David Ferruccit tartják a nemzetközi blogok, leírások (sőt, ma már Wiki) alapján. Tegyük hozzá, hogy szakértőként olyan jeles számítógépes nyelvészt is megnyertek maguknak, mint pl. Boris Katz – korunk egyik legzseniálisabb elemzőjét, az interaktív válaszkereső rendszerek (angolul: Question Answering Systems vagy QA) meghatározó alakját.

      Röviden a játékról, csak hogy értsük a körülményeket: a Jeopardy! (magyar licenszben: Mindent vagy semmit!) egy 1964 óta, kisebb-nagyobb megszakításokkal futó játék, ami 2010-ben már a 27. évadnál tart. Az angol változatban a meghatározás a válasz, és a kérdést kell feltenni – pl. “A vállalatot Nagy Kéknek is szokás nevezni” a meghatározás, erre a válasz nem az, hogy IBM, hanem az, hogy “Mi az IBM?”. A játékban a meghatározások egy-egy főcím vagy más néven témakör köré csoportosulnak, ezekből választanak a játékosok. A témakör lehet mondjuk a “Beatles emberek”, ami a játék nevéből is adódóan, nem a 4 tojásfejűről, hanem hozzájuk köthető valamennyi valós vagy fiktív emberről szólhat, pl. Lady Madonna, Desmond, Jude. Még egy csavarás van a játékban: az mondhatja meg a választ – és így szerezhet vagy veszíthet pénzt -, aki előbb nyomja meg a gombot – csak akkor vetélkednek a többiek, ha az első elhibázta. Mikor nyomhat gombot? Ha a kérdés elhangzik (vagy helytelen volt az előző válasz) és egy fehér lámpa jelez a stúdióban.

      A Watson-féle Jeopardy! játék néhány háttérinformációja. A játékban – bár úgy tűnik – a Watson fülel és megérti az emberi beszédet, a valóság az, hogy erre nem készítették fel; a szabályok szerint egy a Jeopardy! munkatársai közül a képernyőre kerülő kérdést szöveges(!) formában továbbítja a Watson felé. Ezt már abból is gyanítottuk, hogy az IBM nem rendelkezik beszéd-szöveg (speech-to-text) technológiával, a Nuance pedig nem ennyire jó, ahogy a hazai szakértőktől hallottuk – nem is használták a képességeit. Miután a kérdés (meghatározás) elhangzik, a Watsonnak egy robotkart kell vezérelnie, hogy lenyomja a játékban használt gombot – ebben segítséget nem kapott. A felvillanó fehér fényt a Watson egy fotoszenzor segítségével érzékeli, és “erre ugrik”.

      Ezekből az információkból az első észrevételek és megállapítások: (1) a Watsonnak annyi ideje van többletként, hogy a kérdés elhangzása során már folyamatosan dolgozhat, miközben az emberi résztvevők még javában csak a kérdést értelmezik. (2) Ráadásul a reakcióideje is gyorsabb, hiszen egy átlagos embernek 0,3-0,7s kell ahhoz, hogy lereagáljon egy viszonylag egyszerű jelenséget (lásd KRESZ-könyv), míg a fotószenzor + robotkar vezérlő ez idő alatt akár egy E betűt is le tudna írni (lásd autógyár). Tehát ha a kérdés elég rövid és összetett, akkor az embereknek van esélyük – ez látható is a felvételeken. Ha a kérdés “túl könnyű” vagy nagyon hosszú, akkor esélyük sincs. Ezt támasztja alá az is, hogy egy diplomaták számára tartott rendezvényen egy fizikus le is győzte a Watsont azon egyszerű trükkel, hogy nem gondolkodott azon, hogy tudja-e a választ, elég volt “éreznie” a nevek, a kontextus alapján, hogy erről hallott-e már; csak jelzett és azután gondolkodott. (3) A válasz mindig egyszerű, így bonyolult nyelvgenerálási problémákkal nem kell megküzdjön – márpedig ez ma az egyik legkevésbé megoldott terület a számítógépes nyelvtechnológiában. (4) Rengeteg tanuló minta áll rendelkezésre (27 évad játékai!), ami azért – adatbányász fejjel mondva – így sem túl sok.

      Hogyan lehet elérni egy ennyire gyors feldolgozási sebességet a természetes nyelvű szövegértésben? Lássuk csak: 750 szerver, 2880 processzormag állt rendelkezésre, 16TB memóriával. A háttértáron meg az operációs rendszer malmozott. Még ha egy viszonylag nagy (100.000+) vonzatkerettárat képzelünk mögé nyelvi indexelésnek, amely tudomásunk szerint exponenciális elszállású számítási idővel bír a magyar nyelvre nézve, de polinom az angolra (hja, kérem, az nem flektál, nem agglutinál, szórend is merevebb), akkor is viszonylag gyorsan végez ez az architektúra. De vajon ezt csinálja?!

      A válasz az, hogy nem – pedig tehetné. Ismerve Ferrucci és Katz korábbi munkáit, illetve a fejlesztők témában adott nyilatkozatait; azt kell sejtsük, hogy statisztikai valószínűségeket keres a szövegekben, kontextus alapján. Rendben van, de hogyan!? – kérdezzük. Amennyire a kérdésekből és a tévedésekből látszik, neveket és jellemzően alanyi esetű főnévi kifejezéseket keres, és ezek gyakorisági előfordulásai alapján egy indexben keresi meg a témakörnek megfelelő, gyakori előfordulási nevet vagy fogalmat (ennek is alanyi esetűnek kell lenni, mert különben téveszt – lásd Voldemort esetét; igaz erre a jelenségre más magyarázatot is találtunk). Az adatbányászati konferencián bemutatott SPSS Text Analytics példája is mutatja, hogy ez működhet, sőt, ha a kérdéseket beadjuk a Google-nek, akkor is a jó válaszokat tartalmazó oldalak felül lesznek – már “csak” (hmm…) a szövegből kell kihámozni a választ. Miben téveszt jellemzően:

      1. a birtokos kifejezések értelmezésében – erről a legtöbbet éppen az U1 Research tudna mondani,
      2. a meghatározások értelmezésében (láthatóan nem érti a kifejezéseket, a leíró mondatokat nem is próbálja értelmezni),
      3. az időterek (pl. 1950-es évek) és általában az absztrakt kategóriák értelmezésében, azonosításában,
      4. végül a (rész)tagadást tartalmazó mondatokban.

      Azaz az utolsó három területen továbbra sincs meg a várva várt áttörés, ez egy picit csalódás. De vajon hogyan generálta a rímekben adott válaszokat?!

      Összefoglalóan az alábbiakat mondhatjuk el a magunk részéről. Az eredmény csodálatos, és el kell ismerni – akár marketing, akár szakmai, akár IT oldalról nézve egy zseniális húzás volt a játékban való részvétel. Nagyon jó volt látni, hallani, és élő demonstrációban bizonyítani (bizonyítva látni), hogy tart már itt a számítógépes nyelvészet. Másik oldalról azonban jelenleg úgy tűnik, hogy jelentős (szakmai) újdonságot a DeepQA nem fog hozni a természetes nyelvű szövegértésben, hacsak a felhők (clouds) mindenkinek nem adnak 80kWh fogyasztású gigaszerverparkokat, hogy megkeressék a rossz helyre tett kulcsukat. Szomorúnak tartjuk, hogy a zöld IT korszakában még vannak olyan projektek, amelyek ekkora pazarlás mellett bizonyítják egy-egy technológia életképességét; és bár egyesek szerint remek ez a szervererő-demonstráció, de a XXI. században ez inkább már visszalépésnek tekinthető. Csúnyán fogalmazva: ez egy elég izomagyú (vö. brute force) algoritmus, ha ennyi erőforrás kell hozzá. Ugyanakkor, ha a Moore-törvény még mintegy 20-30 évig kitart (az Intel és az Oracle szerint 14 évig valószínű az asztali számítógépek piacán – de hol vannak a tabletek ehhez képest!?), akkor talán húsz-huszonöt év múlva lehet egy zsebre rakható dobozba zárt Watson nálunk. Kis képzavarral, a beszélő gépet unokáink látni fogják…

      DigitalWorld

      A digitális mosógép

      Az elérhető digitális tartalom 10%-a szöveges adat, a többi jelenleg nem strukturált adat – főleg videó, kép és kisebb részt hanganyag. A keresések, adatrendezés jelentős része azonban nem ad megoldás ezekre a problémákra, így új szemlélet és új termékportfóliók kialakítására lenne szükség. Ráadásul eközben a szövegelemzés területén elért eredmények is csak lassan jutnak egy a Gartner szerint a mindennapi alkalmazások (“productivity phase on hype cycle”) körébe. A kihívás pedig az, hogy akár egy digitális mosógépben, a különféle adatforrásokat össze kellene keverni, minden forrásból kellene tudást, információt kinyerni. Ez csak egy üzenet volt azok közül, ami a X. SPSS adatbányászati konferencián elhangzott.

      Az előadások egy része az IBM Watson körüli eseményekkel, megoldásokkal és fogásokkal foglalkozott; ezekről később még fogunk írni. Figyelemre méltó volt Kovács Gyula előadása az első hallásra furcsa “etikus CRM” témában, aki egyebek mellett arra hívta fel a figyelmet, hogy a kampányok, a targetálások és általában az adatbányászati modellek sok esetben azokat “az áldozatokat” preferálják, akik bár valóban (régi-)új ügyfelek, vásárlók lehetnek, de ennek nem modellbeli sajátossága van, hanem jellemző emberi gyengeség. Ebből is kiemelkednek azok, akik nem tudnak nemet mondani egy megkeresésnek, nem tudnak valamiről lemondani, vagy nem képeseket magukat megtartóztatni (mániákus fogyasztók), továbbá akik nem mérik fel vagy nem mérlegelik megfelelően a vásárlás/fogyasztás egyes aspektusait. A szűrés egyszerű is lehetne: nézni kellene, hogy a megcélzott személynek nem értékesítünk-e túl – és valljuk be, ez jelenleg nem jellemző. Pedig, a profitra nagyon is negatívan hat, ha egy-egy ilyen ügyfél “bedől”, “csődöt jelent” – márpedig éppen mi hajszoljuk ide a fogyasztóinkat.

      Jó volt hallgatni Vada Gergely színes és tartalmas előadását a munkahelyi stressz méréséről. A stressz mérésre egy okos megoldással fiziológiai jellemzőket mértek munkatársakon, akik önbevallásos alapon számot adtak arról, hogy az adott nap, adott szakaszában mivel foglalatoskodtak. A méréssel párhuzamos egy személyiségi teszt segítségével megállapították a résztvevők fontosabb személyiségi jegyet. A biometriai adatok feldolgozásával azt vizsgálták, hogy az emberek hogyan reagálnak a napi rutin során ért hatásokra, illetve hogyan engedik ki a napi stresszt maguktól – és ezek hogyan illeszkednek a személyiségi jegyekhez. Bár a minta nem volt reprezentatív, bizonyos személyiségi vonások és bizonyos munkakörben eltöltött stressztűrő képesség között világos kapcsolatot sikerült “kiadatbányászkodni”, pl. egy adatbányászati szakértő akkor érzi jól magát a munkakörében, ha kreatív és kitartó.

      A számmisztika és a horoszkóp esete a biztosítási eseményekkel ugyancsak izgalmas előadás volt, amelynek a legfőbb üzenet adatbányászat szempontjából: kerüld az úton a “barbie” színű (rózsaszín, ciklámen, lila, pink, stb.) autókat. És a bakok nem mennek az Aegon biztosítóhoz, de legalább döntően ők az áldozatok a közlekedésben. Az előadás szerint bár a legtöbben szeptemberben születnek (szeretet ünnepe, ugye), meg márciusban (hjaj, az a nyaralás) – nem értettük, hogy november 7. miért ünnep (ha már április 4. vagy február 23. nem volt az), Húsvét és Pünkösd meg még munkaszüneti napnak sem volt jelölve – de főleg tavasszal születik. De lényeg, hogy ennek ellenére a legtöbb ember január 1. napján születik (erre azért hümmögtünk egy páran), és döntően télen hal meg, azaz követjük a naptárakat és az évszakokat.

      Cseh Zoltán egy új radiológiai eljárásról az FLT-PET képek diagnosztikai célú alkalmazásáról beszélt – és bár a téma igazán érdekes volt, az egyetlen dolog, ami megragadta a képzeletünket, hogy a kis mintás képfeldolgozást pixelenként vett idősorokkal kompenzálták. Azaz, 7 beteg felvételéből 7x képméretnyi (PET miatt szeleteket is hozzá lehet venni) idősort állítottak elő, amiben kihasználták, hogy a sugárzó testecskék nem fényességi szintet mérnek, így egy esetleges világításból eredő torzulás elhanyagolható – a világító pontok maguk a fotont (ilyen értelemben: fényt) kibocsátó pozitron-elektron találkozásból származnak. Az így keletkezett idősorokon végzett adatbányászat több-kevesebb sikerrel azonosította a daganatos régiókat.

      Számunkra a legfontosabb előadás a Szabó Előd nevéhez fűződik, aki az Origoban végzett legújabb eredményekről számolt be. Bár nagyon sok érdekesség elhangzott a sikeres viselkedés alapú targetálás eredményeiről, számunkra különösen kedves volt, hogy az IBM nevéhez köthető SPSS konferencián az IBM Cognost (nem mellesleg piacvezető BI termék) az Origo projektjében az azt leváltó U1 Research Dashboard alkalmazása említésre került. Hasonlóan zene volt füleinknek, hogy a viselkedés alapú targetálás után a cikkajánló kapcsán hallhattuk az U1 Research nevét – immár publikusan mint az Origo belső elemző csapat, a Scarab és a Gravity riválisaként.

      E-learning expo – egy szubjektív körkép

      Idén is megrendezték Madridban az EXPOELEARNING rendezvényt, amely a kínai után a legnagyobb e-learning kiállítás. A spanyol ajkú országok számára minden, ami tanítással, tanulással, taneszközökkel vagy tananyagokkal, képzésekkel kapcsolatos egyetlen helyen, több, mint három Papp László Sportarénában kapott helyet. A szervezés kifogástalan, a tömeg hatalmas, a kiszolgálás, tálalás remek, a kiállítók nagyon változatos programmal álltak elő.

      Az e-learning bemutatók döntő többsége a céges oktatásra fókuszált. A pénzügyi és a humán erőforrással foglalkozó vállalkozások kifejezetten a “coaching”, illetve ennek az innovatív finanszírozási lehetőségeiről tárgyaltak, a kormányzati képviselők pedig a folyamatos fejlesztés, átképzés, a munkavállalók továbbirányításának kérdéseiről és a lehetőségekről mutattak érdekes számadatokat, illetve kínáltak alternatívákat. Élő, web vagy hang alapú (döntően telefonos) kurzusok kínálata jellemzően a céges képzéseket, nyelvtanítást célozták meg – a legtöbbször éppen a menedzsment vagy más, vezetői körre koncentrálva. De akadtak szimulációs oktatások is (kettő), amelyekkel a valóshoz hasonló virtuális környezetben lehet gyakorolni, hogyan kell targoncát kezelni, melyek a betanulandó gyári, raktározási, logisztikai protokollok a vállalaton belül. Tartalom tekintetében két standdal találkoztunk, amely a közoktatást helyezte előtérbe; az egyik a nagyon sajátos, zseniális, interaktív matematika oktatást támogató TutorMates, a másik a magyar Balázs-Diák volt. Utóbbiak esetében azt kell mondanom, hogy nagyon kitettek magukért. E két vállalkozás mellett az ingyenes oktatási keretrendszereket támogató Moodle is fontos szereplője volt a kiállításnak, amely a népszerű offline web alapú oktatást népszerűsítette.

      A kiállítók meghatározó része jelenleg is a hagyományos oktatási formákat támogatja elsődlegesen. Nem sikerült eldönteni, hogy a kurzusokban elengedhetetlen tanári szerepkör a kóros tananyaghiány, vagy általában a megbízhatóság, jobb hatásfok miatt fontos. Mobil környezetben egyértelműen az előbbi a fő probléma – aki a mobil környezetben nem telefon alapú, oktató központú távoktatást valósít meg, az csak koncepció szintjén hozta el a saját megoldását. Hasonlóan jártunk a 3D technikákkal is, a kevés innovatív vállalkozásnak jellemzően csak demonstrációs célú, egyébként nem tesztelhető alkalmazásai voltak láthatóak.

      Az általunk látott megoldások filozófiájukat tekintve két nagyobb csoportot alkottak: vannak az offline, önálló feldolgozást igénylő, tesztorientált tanulást támogató rendszerek (kérdések esetében levelet kell írni), továbbá az online, tanárközpontú, jellemzően elérhető elektronikus tananyag nélküli alkalmazások, keretrendszerek. Sajnálatos módon a kettőt ötvöző, a szabad ritmust, gyorsabb/lassabb haladást és szabad időbeosztást támogató, ugyanakkor az oktatási módszereket váltani képes szoftvermegoldás továbbra is várat magára. A számonkérési rendszerek tekintetében ugyanakkor az alkalmazások egységesen tesztekre helyezik a hangsúlyt, ami a szimulációs megoldásokat leszámítva garantáltan nem fogja segíteni a tanulni vágyót a hosszú távú, tartós, átlátóképességet is feltételező tudás megszerzésében. Márpedig ezen változtatni kellene…

      Érdekességképpen megemlítjük, hogy egyetlen egy kiállítónál sem láttunk a Magyarországon 1-3 éve népszerűsített, a TÁMOP keretében több, mint 2 milliárd forintért kidolgozott és elterjesztett kooperatív oktatási technikákat kiszolgáló e-learning eszközt. Ennek részben technikai korlátai vannak, pl. az egyes órák csoportképzése egyáltalán nem támogatott egy telefon alapú oktatás esetében, részben tananyaghiánnyal, részben pedig a pedagógiai elkötelezettség hiányával is magyarázható.

      Szoftver- és tartalomszolgáltatások autóban

      A 80-as években az autók felépítése – némi túlzással élve – nem állt másból, mint egy belsőégésű motorból, 4 kerékből, váltóból és kormányból. Az elmúlt 30 évben az autó fokozatosan átváltozott egy tisztán mechanikus eszközből számítógép vezérelt “hardverré”. A belső számítógépek kontrollálják és monitorozzák szinte az autó utolsó csavarját is. Egy tipikus felső középkategóriás autóban 50-70 független miniszámítógép kommunikál egy vagy több megosztott buszon. Logikusnak tűnik, hogy az autót ne csak mint közlekedési eszközt, hanem hordozható számítógépként fogjuk fel – ennek minden előnyével és hátrányával -, új szolgáltatások fejlesszünk az autókra/autókba. Az alábbiakban csokorba gyűjtjük azokat a megoldásokat, amelyek már ismertek a piacon.

    1. Médiát az autóba. A leggyakoribb elektronikus eszköz (az autóvezérlésen túl) az autórádió, amely azon kívül, hogy ténylegesen rádiót tud venni közlekedési információkra vadászik az éterben, CD-t játszik – olykor akár többet is magába fogad -, mp3 lejátszás, USB feltöltés stb. akad mellé. Ritkább ma még, de számos autó kínál tévé képernyőt DVD lejátszóval, műholdas vevő is sok helyen megtalálható – főleg lakókocsikon -, és ismerünk már autóra tervezett IPTV kialakítást is. Az összes egyben pl. a MyGIG esetében szintén elérhető – amennyire tudjuk, egyelőre csak Chrysler termékekben. A technológiák “csodák” tára azonban nem állt meg, tudunk telefonról zeneszámot lejátszatni a sokkal energikusabb autó hifi hangberendezéssel (pl. HTC, ETEN, Nokia telefonok és A2DP-képes rádiók erre is képesek – ne akard tudni, mit jelentenek a betűszavak), sőt az újabb megoldások már a telefonok kihangosítására is inkább az autó hifi berendezéseit (hangfal, mikrofon) használják, pl. a zene hallgatásának felfüggesztésével. A BMW esetében a telefonkönyv lapozása a kormányoszlopról is megoldható – magánvéleményem szerint, ha sokat használják ezt a funkciót, akkor a BMW tulajdonosok gyorsan fognak fogyni a közutakról.
    2. Mobilvezérlést az autónak. Manapság nagyon divatos kezd lenni az, hogy az autóval is telefonon beszélgessünk, pl. lekérdezve távolról, hogy hogy áll a benzin. Ki ne akarná pl., hogy úgy üljön be hideg téli napon az autójába, hogy az már indulásra készre melegedett!? Ma már ez is megoldható, pl. a Connect2Car segítségével. Esetleg a bekapcsolva felejtett lámpák miatt ne kelljen aggódni, sőt, van lehetőség arra is, hogy megnézzük, zárva hagytuk-e az autónkat. Egy-egy ilyen megoldás nem olcsó, jelenleg 200-300 ezer forintból rakható össze a rendszer, és nem is biztos, hogy a mi autónkba megy is. A legtöbb gyártó ugyanis amerikai piacon tevékenykedik (hmm…), és a népszerű nagy amerikai kocsikra tesztelik csak a rendszert. Amennyire tudjuk, pl. Suzuki Swift-re nem működik.
    3. Iszik és vezet, avagy a robotpilóta az autóban. Az elmúlt évtizedben a nagy amerikai (hadügyi) kutatásokat finanszírozó DARPA írt ki olyan feladatokat (2 millió dollár elnyerésének ígéretével / év), amelyek a vezető nélküli autók (értsd: tank, terepjáró) fejlesztését beindították, így hamarosan megjelennek ezek a járművek a mindennapokban is. 2007-ben, azaz már három éve, közúton kellett közlekedniük az autóknak, (fizetett) gyalogosok, táblák, városi viszonyok között. A cél az volt, hogy 11 órán belül érjenek el városi közeget is magában foglaló terepviszonyok között 96 kilométerre levő helyre. 11 autó teljesített szintidőre a távot. Ma 2010-t írunk. Elindult már (sőt, lassan meg is érkezik) a Pármából Shanghajba tartó vezető nélküli kisbusz, amely kifejezetten azt teszteli, hogy hol nem működőképes a jelenlegi megoldás. Nagyjából egy hónapja pedig arról lehetett olvasni (na, nem magyarul), hogy a Stanford University, a Volkswagen és az Oracle együttesen fejlesztett Audi TTS (csak, hogy magyar vonatkozása is legyen) a sebességhatártól alig valamivel elmaradva tett meg 100km utat vezető nélkül.
    4. Biztonság mindenek felett. A legtöbb autóban olyan szenzorok állnak rendelkezésre, amelyeknek segítségével a balesetekből származó sérülések, illetve egyáltalán a balesetek száma csökkenhet. Pár évvel ezelőtt még egy versenyen teszteltük a kamera alapú (36×18 pixel felbontás!!!) gyalogosfelismerő eljárásunkat a DaimlerChrysler által kiírt versenyen (a legpontosabb modell díját begyűjtöttük), és a rákövetkező évben már megjelentek a gyalogosfelismeréshez kapcsolódó előfékező rendszerek a felső kategóriás autókban. A kamera alapú megoldások emellett már figyelik a tőlünk jobbra és balra elhaladó járműveket is, és figyelmeztetnek, ha úgy sorolunk be, hogy a sávban közelben tartózkodik jármű. Sőt, kamerával manapság a sebességkorlátozó táblákat is nézik egyes autók, jelezve a vezetőnek, ha túllépik a megengedett legnagyobb sebességet. Igaz, ezek a megoldás ma még inkább zavaróak, mint használhatóak, mert nehezen (ha egyáltalán) felismerik pl. levelekkel részben takart, a kiegészítő vagy a megfakult színű, fényvisszaverő prizmákat nem tartalmazó táblákat. Két éve elérhető autókban az éjjellátó, ami nem csak az éjszaki útszakaszt képes látható formában kivetíteni – így biztonságosabbá tenni az éjjeli vezetést -, hanem ködben is jól alkalmazható. A kamera mellett már szinte mindenhol elérhető a tolatóradar, ami a parkolás segítése mellett a biztonságos táv- és sebességtartást is támogatja. Ismerünk továbbá olyan rendszereket is, amelyek a vezető magassága, súlya alapján állítja be a légzsák kilövésének erejét, szögét.
    5. Autó mint fegyver. A számítógép, mint tudjuk, nem csak eszköz, hanem fegyver is, ha rossz kezekbe kerül. Abból pedig van elég. Az Egyesült Államokban már tavasszal arról cikkeztek igen sokat, hogy bizony az autó számítógépes rendszere feltörhető, akár néhány másodpercre teljesen irányítható (vagy blokkolható) a rendszer. Ez pedig, lássuk be, alkalmas arra, hogy a városi autókból fegyverarzenált kovácsoljon egy pusztítási vággyal (és/vagy empátiával nem) rendelkező személy. A megoldásokon jelenleg is dolgoznak, mert a rendszert viszonylag egyszerűnek tervezték, ezért a hagyományos, elsősorban felhasználói interakcióra épülő védekezési módok nem igazán jönnek számításba az autók esetében.
    6. Ha ez alapján valaki azt gondolná, hogy ő most belevág újabb autós csodák gyártásába, akkor minden támogatásunk mellett felhívjuk a problémákra is a figyelmet. Az autógyártásról minden elmondható, hogy elektronikai rendszereit tekintve szabványos lenne, na, az nem. Egy-egy jármű belső, hardveres-szoftveres kialakítása akár típuson belül, gyártási hely és idő függvényében is eltérhet, és ez csak egy a kihívások között. Az általunk vizsgált autókban ötnél több kommunikációs rendszer van, amelyek amellett, hogy különböző sebességűek és eltérő helyeken lehet hozzájuk férni (bontás nélkül), igen változatos kommunikációs protokollt követnek. Megpróbáltunk ezeknek a protokolloknak a leírásához hozzájutni, de ezek egyrészt igen drágának tűntek, másrészt a jelentős összegért is csak limitált változatot kaptunk volna. Lényegében tételesen meg kellett volna mondanunk, hogy mit akarunk tudni. Egy átlagos beszállító számára ez, persze, nem okozna gondot, azonban mi felderíteni, megismerni szerettük volna ezeket a rendszereket. Ma már sokkal okosabbak vagyunk ezen a téren is, és remélhetőleg a felhalmozott tudásból létrejövő termékeink majd az autók szolgáltatáskínálataiban is láthatóak lesznek.

      A szemantikus pók

      A szemantikus web koncepciója nemrégiben ünnepelte a 11. születésnapját, amelynek köszönhetően az elmúlt évek hosszú kutatásainak összegzésére került sor a kutatói világban. Jómagam egy hazatérő, nemzetközileg is elismert magyar kutató előadásán tűnődtem el a szemantikus web jelenén és jövőjén. Már csak azért is, mert az elmúlt években mintha reneszánszát élné a “szemantikus” szó használata, egyre több kereső motor ezzel a hívószóval próbálja lepipálni a Google képességeit. Vajon lehetséges ez, vagy ez is “csak” egy álom, mint a szemantikus web?

      A szemantikus web koncepciója (Tim Berners Lee nevét mindig leírják ilyenkor, hozzá fűződik az ötlet – ezért én sem hagyhatom ki) megadja azt a vonalat, amely alapján a hagyományos mérnöki módszerekkel intelligens, megbízható és lényegében “emberi” intelligenciával bíró ún. szoftverügynökeket – ezt nevezzük most ágensnek – lehetne építeni. Bár a szemantikus web lényegi részének tárgyalása sok helyen hozzáférhető (ilyenkor mások mindig Wikipediát emlegetik, hát legyen; ott is le van írva…), én most egy sajátos, emberi nézőpontból emelem ki a rétegeit:

      1. A legalapvetőbb dolog egy univerzális, közös gépi nyelv kidolgozásánál a közös írásjelek egyeztetése, azaz legalább abban meg kell állapodni a gépeknek, hogy milyen írásjeleket hajlandók elfogadni. A kompromisszum: minden ma élő nyelv írásjegye legyen benne (csak annyit mondok: Unicode). Ez így azonban elégséges, jó lenne, ha legalább emellett még egy közös szótárral egyértelműsítenénk, hogy mi micsoda, azaz zárjuk ki a szinonima fogalmát – erre való az URI.
      2. Ha ez megvan, akkor az ágensnek meg kell mondani, hogy a mondatokat, és más mondat- vagy szövegtani egységeket formálja meg, illetve zárja egybe, azaz mondja meg, hogy a szavak, kifejezések, mondatok, bekezdések stb. hol kezdődnek és hol érnek véget. Minden ilyen egységhez, persze, fűzhet gondolatokat, megjegyzéseket, kiegészítéseket, ahogy neki tetszik. Egy megkötés van csak, a szavak, mondatok stb. sorrendje rögzített, azaz ezeket nem szabad felcserélni, mert annak más lehet a jelentése, szerepe. Ebből lett az XML.
      3. Ha már tudjuk, hogy hogyan kell a szavakat és kifejezéseket leírni, akkor az egyes fogalmak között fennálló viszonyokat, a mondanivalót, az adatokat, tényeket, a tudásbázist is valahogyan jelezni, tárolni, illetve reprezentálni kell. Szükségünk van tehát egy közös, univerzális adatbázis-szerkezetre, amelyre nincs is jobb megoldás, mint az RDF.
      4. Van közös szótárunk, adatunk, tudásbázisunk, akkor semmi nem akadályoz meg minket, hogy a világ dolgait egyetlen nagy matematikai rendszerben össze gyűjtsük – azaz a létezők tárát hozzuk létre, idegen szóval az ontológiát. Az ontológia azonban nem csak adatbázis, hanem a mondatokban rejtett mondanivalót, az értelmet, azaz a szemantikát hívatott rögzíteni; azt lehet mondani, hogy minden “gépi tudás” a világról mind-mind benne van.
      5. A gép-emberi elme azonban nem lehet csak lexikai tudással felvértezve, szükség van következtetésre (igen, ez a következtetés rétege), “észre” is, amivel bizonyos dolgokat végig lehet gondolni, és az alapján ideális (és/de nem feltétlenül morálisan helyes) döntéseket lehet hozni automatikusan. A gépi agy végülis pontosan olyan, mint azt Asimov írta: logikus, de nem ésszerű.
      6. Eddig, ugye, a gép nyelvet, testet, elmét építettük fel, most eljött az ideje, hogy az emberrel is kommunikáljon a gépünk. Na, nem akarunk valami iszonyúan bonyolult nyelvet kitalálni, csak azt akarjuk elmondani a felhasználónak, hogy így és így gondolkodtunk (gondolkodott a gép!?), ilyen és ilyen forrásokból dolgoztunk; most tessék megnézni, hogy van-e valami hiba, mi nem tetszik.
      7. Persze, a felhasználó csak egy ember, ezért feltétlenül szükség van egy olyan rétegre is, amely a bonyolult matematikai apparátussal megfogalmazható kérdéseket, illetve az eredményeket valami egyszerű eszközzel (pl. grafikon, szöveges kereső, táblázat, 3D animáció) értelmezhetővé, használhatóvá és emészthetővé teszi – azaz szükség van még a felhasználói felületre is.

      A felépítés pont olyan, mint amilyennek lennie kellett 1999-ben: világos, a maga módján egyszerű, hihető, grandiózus és sokat ígérő. Ahogy egyik barátom mondta, már a kezdeteknél látszott, hogy ez így, ebben a formában sosem fog működni, de nem is ez volt a cél. Sokkal inkább az a sok-sok milliárd euró lebegett az emberek szeme előtt, amelyet erre a területre kellett költeni, és ami tényleg hatalmas fejlődést indított be a szoftveriparban. Ne gondoljuk, hogy lennének ma 3D filmek, ha nem lett volna szemantikus web.

      A szemantikus web már a negyedik rétegnél, viszonylag korán, 2001-ben elakadt, hiszen a megjelenő matematikai korlátokat nem lehet(ett) áthidalni. Pontosabban fogalmazva: bizonyították, hogy egy egyszerű adattárolásnál alig valamivel “okosabb”, értelmes méretű ontológia használatának számítási igénye akkora, hogy nemhogy a valós időt nem fogja közelíteni, de jó, ha 10-100 év múlva választ ad egy-egy egyszerű kérdésre. Igen, jelenlegi számítástudományi tudásunk a XIX. századi matematikán alapszik, és bár sokat fejlődött főleg az 1930-as és 1960-as években, igazából meg sem közelíti az emberi agy mérhetetlenül komplex gondolkodási képességeit. No, nem a matematikában, mert nincs az a számítógép, amely lassabb lenne mondjuk egy osztás elvégzésében, mint egy matematikai zseni. Az emberi kommunikációt, a gondolatokat, mondanivalót, a matematikai formában nem, vagy csak nehezen leírható beszédet nem vagyunk képesek gépileg értelmezni (bár éppenséggel néhány ember esetében én emberileg sem), ezért az ontológia is eleve halálra volt ítélve.

      Akkor mégis miért lett a szemantikai keresés olyan nagy dolog mostanság? Erre tudok politikusi és valamivel racionálisabb választ is adni. A politikusi válasz az lenne, hogy ez a fogalom már benn van a köztudatban, így nem csak a politikusok, de a többi pénzcsapot nyitni, zárni képes ember fejében is. A racionális válaszom az lenne, hogy ténylegesen a Google ebben a kérdésben gyenge. Az első sikeres szemantikus kereső (és lényegében a mostani önjelöltek is), az Ask azt a trükköt vetette be, amit minden nyelvtanár tanít, nevezetesen: egy feltett kérdésre a válasz lényegében a kérdésben benne van, csak a szavakat kell más sorrendbe tenni. Azaz pl. a “Hol van a Nyugati pályaudvar?” kérdésre a válasz valahogy így kell, hogy hangozzék: “A Nyugati pályaudvar … van.” Következtetés: elég az ilyen mintájú szövegeket keresni, és ezzel kiszámítható a válasz. Természetesen, az indoeurópai nyelvekben az ige közvetlen a főnév (vagy névelem) mellett van, így a minta keresése még egyszerűbb, mint magyarban. A Google egy ilyen kérdésre jó esetben a Google Maps-hez irányít, rossz esetben 27 millió találatot ad, amelyben a “Nyugati pályaudvar” szerepel.

      Az összetett kérdésekben a Google messze alulmúlja a jól felépített szemantikus keresőket. A “Mikor látogatott amerikai elnök a Szovjetunióba?” (angol nyelvű) kérdésre a Google csak blöfföl, minden van, ami a Szovjetunióval vagy az amerikai elnökkel kapcsolatos, míg az Ask már az első találatával megmondja a választ, de a többi is erősen releváns. Márpedig a legtöbb kérdés hasonlóan fókuszált, azaz ha tényleg akarsz valamit keresni, célszerűnek látszik a szemantikus keresőket használni. De nem fogjuk. Egyrészt azért nem, mert a keresőkérdések döntő többsége (utolsó mérésünk szerint) egy-két szavas kifejezés. Kevesebb, mint 1% használ bonyolult szókapcsolatokat, matematikai operátorokat, vagy keresőtől függő speciális karaktereket. Azaz utálunk sokat gépelni. Másrészről a szemantikus kereső akkor boldogul jól, ha a számára érthető nyelven (és a magyar nem ilyen), viszonylag egyszerű, nyelvtanilag nagyjából helyes mondatokat mondunk neki. Ezzel pedig elvesztettük a felhasználók 97%-át. Érdekességképpen: az egyik leggyakoribb keresőkifejezés magyar oldalakon az “ájfon”, de a szemantikus keresők nem tudnak mit kezdeni a Fradi, a Vén Rúni, és még ki tudja miféle szavakkal. A magyar helyesírás ráadásul annyira komplikált, hogy kisebb csoda, ha valaki megír egy mondatot hiba nélkül, főleg, ha az átírási szabályokat is ide vesszük (pl. hányan írják így: dizájn, fájl, gadzsit?). Az egyszerűség alatt pedig tőmondatokat kell érteni, azaz a birtokos szerkezeteket (pl. Hol születtek II. Erzsébet fiai?), logikailag összekapcsolt szerkezeteket (pl. Kik születtek 1975-ben és 1976-ban? – igen, ez helyes, létezik a magyarban a “vagy” értelmű “és”), netán leíró (vagy körülíró) mondatelemeket (pl. Mi volt a II. világháború lezárásakor hivatalban levő amerikai elnök neve?) kerülni kell – helyes válaszokat csak kis eséllyel kaphatunk. Tőmondatokban pedig még a Google se rossz, feltéve, hogy a konkrétum, amit keresünk neveket tartalmaz. Így pl. “Mikor látogatott Nixon elnök a Szovjetunióba?” kérdésre már a Google is hamar jó választ talál.

      Összefoglalva: a magunk részéről egyfelől várjuk, hogy jöjjön a Nagy Szemantikus Keresők korszaka – de egyelőre erre még várhatunk. Türelemmel tesszük, mert ez a korszak el fog jönni (ha 2500 évet is kell rá várni). Addig is kell nekünk egy szemantikus pók, amely ha nem is értelmezi a kérdéseinket, legalább szemantikus rendezi majd a weben található információkat. De miért nem foglalkozik senki póktenyésztéssel?!

      Interaktív, vizualizáció alapú oktatás (vélemény)

      Nemrégiben tananyagok fejlesztésével volt szerencsénk foglalkozni, ami számos – korábban főleg az üzleti intelligencia és döntéstámogatás kapcsán alkalmazott – módszer és technológia bevezetésének lehetőségét tárta fel a mostani oktatási és képzési rendszerben. Érdekes volt, hogy az interaktív táblák terjedésével az interaktív, kép vagy videóorientált megoldások voltak a legmeghatározóbb, legvonzóbb választások – úgy is mondhatnám, erre volt most aktív kereslet.

      Számunkra az interaktív tábla (lényegében egy olyan számítógép, amelyben az ember keze az egér a projektor által kivetített képernyőnek álcázott táblán) egy új segédeszköz, korábban személyesen nem volt “szerencsénk” találkozni vele, így kíváncsian vizsgáltuk a lehetőségeket. Arról nem szeretnék határozott véleményt mondani, hogy maga technológia mennyiben segít az oktatásban, mert erre kimerítő, számokkal alátámasztott tanulmányok sora áll rendelkezésre pro és kontra is, ugyanakkor az innováció, illetve az informatika szemszögéből a személyes (erősen szubjektív) benyomásomat a jelenlegi oktatási helyzetről, illetve a tananyagok használhatóságáról megosztom e helyütt másokkal is.

      Valamikor régen, az idősebbnél is idősebb korosztály idejében a fő kommunikációs forrás a beszéd volt. Az emberek rengeteget beszéltek, meséltek, a történeteket kiszínezték, hosszasan magyaráztak az akár triviálisnak tűnő gondolatokat is. Aki az ókor vagy a skolasztika irodalomában járatos, az tapasztalhatta, hogy írásban, rengeteg példával, magyarázattal körítve, igen részletgazdagon fejtenek ki emberek egy-egy lényegi mondandót. De később, a romantika vagy a realizmus korában is hosszú-hosszú oldalakon keresztül fejtegettek olyan történeteket, amelynek cselekménytartalma nem sokkal több, mint ma egy mozielőzetesnek, igaz, akkoriban az emberek szerettek mondani is valamit. A kommunikációs technológia terjedésével a beszéd helyet egyre inkább a vizuális hatások veszik át – és itt nem csak a tévé vagy mozira gondolok, de bizony a megjelenés, a “píár”, a látszatok erősítése szintén ennek a része.

      Az oktatásban ez leginkább úgy jelentkezett először, hogy a mondanivaló átalakult: a példák szépen lassan kiszorultak a tankönyvekből, csak a nyers szöveg, általában valami diagram, ábra, koordinátarendszer vagy formalizmus, illetve egyenletek túlburjánzása (ami megint csak kép!) jelent meg a szövegben. Erre szokták azt mondani oktatók, hogy a példák kidolgozására nem szokott idő maradni (tény, ez a legnehezebb része a tankönyvírásnak), illetve a formális módszer vegytiszta, így mindenki érti mi van leírva. Azt adott korszakban ez amúgy igaz is volt, hiszen rengeteg idő ment el az alapszintű oktatásban arra, hogy a valós élet formalizálását megtapasztalhassuk. Sőt, a felsőoktatásban is volt lehetőség arra, hogy elmélyedjen valaki annyira a témában, hogy a tapasztalható dolgokat még lássa az egyenletek mögött.

      Csakhogy ez a 90-es évekre megváltozott. Részben a technológiai fejlődés és ebből kifolyólag a hirtelen tananyagkészítési elmaradottság, részben pedig a képzési rendszer átalakulása a magyarázatot kiszorította, megjelent a képletimádat: írd, helyettesítsd, számold. Tovább fokozta a problémákat, hogy a feleltetés, amely örök problémaforrás a diák és (erről kevés szó esik, de trauma) a tanár életében is, szépen lassan kiszorul az oktatásból. A kép magával ragadó, könnyű megtanulni, hiszen a vizuális memória sokszor hatékonyabb az emberi agyban, mint a fogalmi. A számonkérés egy jelentős része pedig éppen a képi jellegű információk visszakeresését támogatja (évszám, képlet, térkép, kotta, illusztrációk, nevek). Apránként egjelent egy markáns tanulóréteg, amelyik tudta, mit kell alkalmazni és mire (limitált környezetben – pl. a trigonometria témakörben nyilván nem kellett használni egy kémiai egyenletet), de már nem is vette a fáradtságot, hogy megértse a képletek vagy képek mögötti tartalmat. A jelenségnek tipikus esete, amikor valaki a példák sorát mint kliséket tanulja be, humán tárgyak esetében a szöveget betűszerint betanulja, és nem a tananyag megértésére fókuszál – így minden váratlan feladat meglepetésként éri, leblokkol, felhasználható tudása nullává válik. Az általam megkérdezett egyetemi diákok egy jelentős része ilyen módszerrel tanul, miközben a vizsgákon nem tud teljesíteni (hacsak pont ugyanazon vagy nagyon hasonló feladatokat nem kapja). Megjelent és akár felsőfokú végzettséggel is rendelkezhet ez a ma már számottevő méretű lényegében funkcionális analfabéta réteg (bár tudom, a fogalom nem pontosan fedi a leírt jelenséget).

      Az ipari vagy üzleti közeg, főleg a döntéshozók tudata, hasonlóan beszűkült, amikor az információrobbanás következtében hirtelen nagyon sok tényezőt kellett vagy kellett volna mérlegelnie, de ennek feldolgozására adott esetben képtelennek mutatkozott. Az idősebb generáció technológiai tudásának nagyon gyors leértékelődése és elmaradása pl. képzések, támpontok, nyelvismeret, források híján, a fiatal menedzserek korszakában (a 90-es évek elején), a tapasztalat, a mögöttes tudás hiánya pótcselekvést hívott elő: megjelent az ipari szintű riportolás, a grafikon és képgyártás. Ezt ma üzleti intelligenciának nevezzük, ami voltaképpen arról szól, hogy nagyon nagy (akár több terabájtos) adatokból egy fóliára megjeleníthető képi információt (grafikon, táblázat, kulcsszó halmaz) varázsoljunk. Lásd “egy kép többet ér ezer szónál”. Az igazi csavar ebben az, hogy ezek a vizualizációs megoldások nem csak a technológiai tudás hiányát tudják elfedni, de a számok mögötti valóság (ember, munka, környezet, jog, tradíció) is jelentősen, pár tényezőre egyszerűsödik, legalábbis papíron. Azaz a tudásdeficitet a képek pótolják és elfedik, ráadásul nagyon gyorsan. Sokszor viszont szépséghiba, hogy a képekbe sokszor bele lehet olyat is, ami nincs ott, ezért sok kontrollképre (riportokra) van szükség. Tapasztalatból mondhatom, hogy egy jó kommunikációs készséggel rendelkező személy egy jól összerakott riportból bármikor olyan előadást tud nyújtani, mintha értene is hozzá. Nem véletlen, hogy a legtöbb használati útmutató ma már inkább képregény, mint leírás.

      Ha az iparban megjelent, akkor a képzésben is meg kellett jelenjen, így elsőként a felsőoktatás vette át a módszert: megjelent a diakorszak (slide age). Az egyes fóliák vagy diák ma már kifejezetten a tankönyveket pótolják, nem “fárasztva” a hallgatókat azzal, hogy összefoglalják a művet. A diasorból aztán a hallgatók fogalmi hálót szerkesztenek maguknak, ahol az egyes fogalmakat összerendelik a fejükben vélt vagy valós kapcsolatok mentén. Általában nem sikerül eltalálni a valós kapcsolatot, hiszen az vagy szóban hangzik el, leírásra sosem kerül, vagy rosszabb esetben a hallgató önkényesen próbálja összerendelni a fogalmakat, amikor és ahol ennek éppen szükségét érzi. Tulajdonképpen a módszer egyfajta párosítási gyakorlattá alakul át, ahol egy-egy fogalom, ábra, képlet, vers, szöveg egy másikhoz rendelődik. A jelenség tünete, hogy az illető az érzéseire jobban hagyatkozik minden esetben, mint a logikai gondolkodásra. Olykor az is jellemzi, hogy minden olyan fogalmat leír (jellemzően rossz helyesírással), amely a tárgyhoz esetleg köthető – mondván, majd az előadó, tanár kiválogatja magának a szükséges kulcsfogalmakat. Tipikus formája e tanulásnak az is, hogy a tanult tananyag sosem áll össze egy rendszerré, a cél legtöbb esetben csak annyi, hogy a vizsga/dolgozat napjára a fogalmak valamilyen bizonytalan formában, de összeálljanak. A tanult anyag a vizsga/dolgozat után 2-3 nappal már köddé válik, a fogalmi háló helyét más, fontosabb “tákolmány” veszi át. E korszak kiforrott, letisztult utódja a Twitter is.

      Az új, korszerű elemek ma már interaktívak is. A látvány ma már teljesen kiszorítja a tartalmat, a fő jelszóvá pedig az élményszerű tanulás vált (de a tanulás helyére bármit be lehetne helyettesíteni: tévézés, vásárlás, vezetés stb.). Természetesen, értem a gondolat pozitív tartalmát is, ugyanakkor a gyakorlatban inkább azt látom, hallom, tapasztalom, hogy az élmény vizuális lenyűgözésről szól, a tartalom pedig elveszett valahol. Sikerült egy diasort egyetlen mozgó, interaktív kis valamiben összezárni, miközben a valódi tartalom soha, senkinek nem lesz kimondva, elmagyarázva, megjelenítve. Mit is csinálunk most? Lényegében készen kapott “festményeken” keresztül mutatunk be egy témát, és elvárjuk a kor tanulójától, hogy ebből megértse a keletkezés formáit, kontextusát, összefüggéseit, amit mi tömörítettünk össze jól-rosszul, miközben egyre kevesebbet beszélünk vele és egyre jobban magára hagyjuk a tanulási folyamat során. Ilyen szolgáltatási csoport ma még – a játékok világát leszámítva – nem létezik, de biztos vagyok benne, hogy ez már csak idő kérdése.

      Ez informatikai szemmel, illetve az innovációt középpontba helyezve a vázolt tendenciák elfogadhatatlanok. Egyrészt azért, mert az informatika mint tudomány, az információközlés, -értés, -feldolgozás, -továbbítás és -megjelenítés témaköreivel foglalkozik, amelyből a kommunikáció a tartó pillér. Fogalmilag pontos, tiszta világképen nyugvó kommunikáció hiányában az informatikai rendszer több bajt, mint hasznot hozhat csak. Elég, ha valaki egy gépileg fordított szoftvert használat közben, vagy egy fejlesztő vezérelt képernyőtervet megnéz. Az innováció oldaláról nézve pedig az emberi gondolkodásnak az alappillére, hogy a szöveg feldolgozása során fogalmilag jól körülhatárolt képi formák jelenjenek meg az agyunkban, és ezek között ad hoc kapcsolatok jöjjenek létre (nem összekeverendő a fenti esettel, amikor a fogalmak határai nem ismertek és a vizualizáció, a dián való megjelenés helye teremti meg a kapcsolatot közöttük). Ezek az egyedi elváltozások ösztönöznek minket új dolgok felfedezésére, pontosabban ún. fogalmi asszociációk kipróbálására más területeken (ismert, tapasztalatszerzés során tanult dolgok használata fogalmilag teljesen eltérő környezetben). A készen kapott “képek” esetében ez viszont egyszer és mindenkorra eltűnik. Jó példa erre, ahogyan gyerekek a fejből mondott és a videó alapú meséket kezelik. Előbbi esetében az élmény érzelmi vonulata, a kreatív alkotás iránti vágy fokozódik, míg az utóbbi esetben a követés, a megfelelés, a “visszamondás” lesz a fő jellemző. Előbbi gyerek – gyakori hasonló impulzusok esetén – kreatív (érzelmi intelligenciában gazdag), és társai által kirekesztett (az aktuális beszédtémát tekintve elmaradott) lesz, míg az utóbbi problémákban gazdag, közönségkedvenc gyerek lesz.

      Eljött az idő, hogy visszatérjünk az alapokhoz, de legalábbis gondoljuk újra lehetőségeket annak érdekében, hogy az X, Y vagy Z generáció esetleges “elkallódása” után, végre a kifinomult, összetett, többszempontú gondolkodás jellemezze a jövő nemzedéket.