sentiment

Sentiment elemzés – érzelmi háló

Ki gondolná, hogy az emberi érzelmek keresése és gépi feltárása már több, mint 20 éves kutatási múltra tekint vissza?! Történetileg nézve az első cikkek és kutatások arról szóltak, hogy mit írunk egy-egy filmről, milyen érzelmeket vált ki belőlünk, illetve hogyan viszonyulunk egy-egy szereplőhöz, történethez, karakterhez, azaz hogyan fejezzünk ki magunkat, érzelmeinket mások számára. Nem véletlen, hogy a téma öregjei, pl. a Pang & Lee páros, úgy definiálják az érzelmek gépi elemzése nem más, mint a felhasználó által létrehozott adatok, szövegek bányászata (azaz user generated content mining). A világ sokat változott 20 év alatt. Az érzelmek ma már nem csak verbálisan, de akár szenzorok segítségével pl. vércukor szint ingadozás, pulzusváltozás, EKG görbe változás, izzadás (igen-igen a hazugságvizsgálatok gyöngye), vagy viszonylag olcsó EEG eszközökkel még az agyhullámok formájában is detektálhatóak. Na, meg a Lightman Group megbízásával (vö. Lie to me… Hazudj, ha tudsz!). Azért ezek még nem az igazi, széleskörűen terjedő piaci megoldások.

Vagy mégis?! Gombamód szaporodnak ugyanis az érzelmi keresők. Ugyan az általunk ismert, általános elérhető 20+ kereső mindegyike elég halovány eredményeket tud felmutatni, de pusztán azzal, hogy az elmúlt évben négyszeresére nőtt a témával foglalkozó publikációk és adatbázisok száma, már látható, hogy beindult valami. Nem véletlen: a szövegbányászat, az adatbányászat is válságot élt át az elmúlt két évben, olyan területeket kellett találni és olyan eredményeket kell felmutatni, hogy a befektetett pénz bizonyíthatóan megtérül (ROI is king). Márpedig, ha mint vevő tisztában vagyok az ügyfeleim, lehetséges vevőim érzelmi állapotával, vágyaival, és ehhez adaptálódunk – azaz együtt sírunk, együtt nevetünk – akkor a termék- vagy szolgáltatás eladása, piacon tartása igazán könnyű, az erős érzelmi kötődés ugyanis nagyon gyakran felülírja a racionalitást. Már csak azért is, mert egy számunkra kedves dolog “tévelygéseit” rengeteg racionális érvvel tudjuk magunk számára is elfogadhatóvá tenni. De ha mást nem is, hát a piackutatásra szánt pénzeket megspórolhatjuk – egyszeri költséget alkotva a rendszeres működési költségekből. Sőt, ha tudom, hogy hogyan hatnak a kommunikációs csatornákon kibocsátott üzenetek az ügyfélkörre, akkor még akár befolyásolhatóvá válnak maguk a történések is.

Persze, ehhez két dolgot kell tudni:

  1. az emberek mély interjúztatása nélkül meg kell tudni állapítani, hogy mit gondolnak egy konkrét témáról,
  2. illetve azt, hogy hogyan terjednek a vélemények az ügyfélkörben (tipikus fókuszcsoportos mérés).

Nem véletlen, hogy a TWitter, a Facebook, és más hasonló közösségi oldalakon végzik az érzelmi keresések döntő többségét. Nem az ügyfélszám a meghatározó – ehhez elég lenne pl. egy népszerű fórumot figyelni -, kifejezetten fontos a vélemény terjedése is. Az érzelemkifejezés gépi feltárásához elemzéséhez szükséges két követelmény közül az elsőt a nyelvtechnológia és a szövegbányászat, míg a második a hálózatkutatás és egy viszonylag új adatbányászati terület, a mozgó (időben változó) klaszterek által vizsgált téma lett – az egyes területek közötti átmenetek nélkül.

Mit gondolunk? Annak kiderítésére, hogy valaki pozitívan vagy negatívan nyilatkozik valamiről, a következőket kell kiderítenünk:

    • Azonosítanunk kell, hogy miről is beszél: kell egy névelem-felismerő. A névelemek kapcsán, persze, sokan a tulajdonnevekre asszociálnak, és általában a névelem-felismerők erre vannak kihegyezve, de a kettő nem egy és ugyanaz. Például az “adatbányászati piac”, vagy a “The New York Times sport rovata” például lehet egy-egy névelem, de egyik sem tulajdonnév. Bár a névelem-felismerés a legegyszerűbb része az érzelem-detekciónak, mégis, itt is számtalan problémával találkozhatunk. Pl. vannak speciális tulajdonnevek, amelyek felismerése nem könnyű: iPhone (kiskezdőbetű), e.On, Jeopardy! (írásjelek), Jeanne d’Arc = Szent Johanna = Orleans-i szűz (azonosság), Szentgothárd (elírás), “The New York Times sport rovata” (igen összetett, sok csapdát tartalmazó névelem), …Kovács Tamás Barna Viktor kocsiját… (hol a vége?!), ájfon, Vén Rúni (tolvajnyelv/gúny), David Villa… A spanyol ék…(hivatkozás, anafora).
    • Meg kell határozni, mi az (érzelmi feldolgozás szempontjából fontos) állítás. Tipikus hibás kezdés: csak a jelzőket figyeljük. A jelző nagyon fontos eleme a nyelvnek, valamiféle kötődést, viszonyt, megkülönböztetést tudunk vele kifejezni – de ezek gyakran objektív szempontok. Megint máskor az érzelmi hatást az eseményleírásokban találjuk meg. “a csóri vindózer szép kis lehalást okozott” (fél)mondatot tartalmazó fórumbejegyzésben jól látszik, hogy a rokonszenvezőnek tűnő jelzőt gúnnyá silányítja az esemény maga, és ez korántsem ritka. Második próba: figyeljük az igét. Magyarban ez nem rossz ötlet – létigés mondatokat, persze, átalusszuk -, de pl. angolban öngyilkosság. Harmadik próba: használjunk mondattani elemzőt. Kollégák ilyenkor jelzik nekünk, hogy először építeni kellene egyet, mert nincs ilyen iparilag jól használható változatban. Már a tagadások hatókörét (mit is tagadunk!) sem könnyű megmondani algoritmusok segítségével – sőt, ezt a témát a kutatók nagy ívben kerülik, annyira nehéz. A kettős (többes) tagadásról nem is beszélve. Nagy sóhaj… OK, oldjuk akkor meg “intuitívan”; ilyen a megoldások döntő többsége.
    • Mondjuk meg, hogy mennyire pozitív vagy negatív az érzelmi kötődésünk egy-egy mondat alapján! A probléma itt igen összetett. Egyrészt egy-egy szó, kifejezés, állítás bármit jelenthet érzelmileg, akár jót is, rosszat is – hiszen kifejezhet iróniát, szarkazmust, finomkodást, túlzást, hasonlatot stb. Másrészt a szleng időnként átértelmezi a szavakat, és az új jelentésében akár valami különlegeset, szerethetőt vagy éppen elítélendőt jelenthet. Jó példa erre Magyarországon a “liberális” szó használata a rendszerváltás után – a jelentéstartalom talán keveset, de az érzelmi töltése jelentőset változott az alapján, hogy az adott esetben, időpillanatban milyen gondolatokat, helyzeteket társítunk éppen mellé. A tipikus megoldás, hogy bízzuk ezt a nagy számok törvényére: súlyozzuk intuitív függvények alapján a szavakat, hogy mennyire pozitívak vagy negatívak és nézzük meg, egy mondatban milyen jellegű az eredmény. A megoldás igazából annak a bevallása: fogalmunk sincs, hogy hogyan csináljuk. Nagyjából ennyire szokott jól is működni – mégis, ez a best practice.
    • Bizonyos érzelmi viszony felderítésekor még fontos lehet, hogy ki mondta a véleményt – ezt is célszerű lehet meghatározni. Nem ugyanolyan súllyal esik latba, ha egy elítélt gyilkos nyilatkozik negatívan a bíráskodás állapotairól, vagy egy frissen kinevezett bíró. Ahogy a vizsgálat szempontjából pl. lehet pozitív, ha a konkurens cég egyik munkatársa nyilatkozik elítélően a piaci növekedésünkről. A beszélő jellemzőinek felderítését ma döntően kontrollált formában végzik – pl. a Facebook azonosító alapján -, de sok esetben van lehetőség a tanultságra, a származási helyre, vagy éppen a korosztályra következtetni a szóhasználat, a nyelvi fordulatok, vagy a használati idők alapján. Jelenleg ez 2001. óta egy sokat kutatott terület lett.

      Hogyan terjednek a vélemények? Ehhez csak úgy tudunk megfelelő vizsgálatokat végezni, ha hozzáférünk egy közösségi háló, vagy általában egy kommunikációs hálózat csomópontjaihoz, pl. vállalati rendszergazdaként. Éppen ezért szeretik a kutatások a Twittert használni: látszik a tweet (csirip), a re-tweet, ami – elvben – egy korábbi üzenet átvétele, átemelése, illetve látszanak a válaszok is, ráadásul az egész gyorsan pörög, figyelhető, ellenőrizhető. Ennyi az egész?! Nem egészen… A hírek, gondolatok sokféleképpen terjednek, csak kis formája explicit módon követhető. Azért van pár problémás rész is, itt álljon most csak néhány, amit kiemelnék:

      • Válaszok esetében közvetlenül egy üzenetre válaszolunk, azonban annak tartalma megváltozott, valójában másról beszélünk, egy apropó (ami akár az is lehet, hogy ismerőst láttunk aktivizálódni) kapcsán.
      • Vannak azonban olyan válaszok is, amelyek formailag nem azok, ugyanakkor reflexiók mások által elmondottakra. Például egy üzenőfalon nem feltétlenül látszik a “hivatkozási alap”, intuitív módon kell azt olykor felfedezni az eredeti állítást, vagy a célszemélyek érzik magukat benne közvetlenül megszólítva – ami a szövegben explicit módon akár nem is jelölt. Többszörös üzenőfal áttételeken keresztül ez már problémásabb felderítést jelent.
      • A rejtett átvételek külön problémakört jelentenek. Egy-egy gondolat, vélemény nem csak a vizsgált közegen belül, hanem annak határait átlépve is terjed – pl. egy szobában többen beszélnek valamiről, telefont is használnak stb. Mivel a terjedést nem látjuk, így a belépési pontokat, az “újrafeltalálást” kell elkapnunk. A csatorna zajos, azaz a jel némiképp torzulhat közben, így a felismerés más szempontból is problémás. A trükk itt általában a problémás, sajátos szavak terjedésével vizsgálható, ami jó eséllyel nem változik. Természetesen, rejtett terjedésnél nem tudhatjuk, hogy ki van hatással kire, így a rendszerben látható források azonosítása csak nehezen megvalósítható.
      • Az információterjedés több fázisú. A tapasztalat azt mondatja velünk, hogy az információk nagyjából 1-2 napi, 2 hetes, 1 hónapos, 3 hónapos hullámokban terjed, ritkán ennél is nagyobb kilengés lehet – attól függően, hogy az emberek mikor találkoznak másokkal, illetve mennyire jó az emberek rövidtávú, “közösségi társalgást támogató” memóriája. Ez jelenleg nagyjából két hét. Természetesen vannak elévülési idők is, amelyek talán nem meglepő módon az információ terjedési sebességének fordítottjával arányos. Minél gyorsabban terjed egy hír, annál gyorsabban évül el (nyilván, ha mindenki tud róla, akkor nincs információértéke).

      Könnyű érzelmi keresőket építeni?! Nem. A problémákat látva csak az erős idegzetűek állnak neki egy ilyen projektnek, sok előkészítést és tudást igényel, nem utolsó sorban szöveg- ÉS adatbányászati ÉS hálózatkutatási ismereteket. Nem véletlen, hogy még a nagy kereső óriások sem rendelkeznek ilyennel. Igaz, kettőről tudunk, hogy fejleszt ilyet – de ki tudja, mikor lesznek kész vele. Lehetséges egyáltalán jót csinálni?! Erre csak azt tudom mondani: láttunk már ígéretesen jól működő rendszert…

      Posted in Egyéb.