07.12.2018

Sävyanalyysi on yrityksen some-palohälytin

Tietokoneiden laskentatehon kasvu on tehnyt mahdolliseksi sosiaalisessa mediassa syntyvien ja leviävien asioiden ja ilmiöiden konepohjaisen analysoinnin. Tutkimusyhtiö Gartnerin hype-käyrän mukaan sosiaalinen analytiikka ja erityisesti tunteita ja mielipiteitä ilmentävien sisältöjen automaattinen luokittelu eli sävyanalyysi on yksi nopeimmin kasvavista tietoteknologian sovellutusalueista. Sävyanalyysi on menetelmä, jonka avulla ihmisten kirjoittamien viestien sanoista ja muista tekstielementeistä tunnistetaan ja analysoidaan tunteisiin ja mielipiteisiin viittaavia piirteitä.

Sävyanalyysi hyödyntää koneoppimista. Koneoppimisella tarkoitetaan algoritmeja, jotka oppivat asioita käsittelemänsä ja analysoimansa datan avulla. Aivan kuten lapsi oppii lukemaan ja soveltamaan taitoaan eri yhteyksissä, myös konetta voidaan opettaa ”ymmärtämään” lukemaansa. Sanavaraston kasvattaminen auttaa sekä ihmistä että konetta yhdistelemään ja päättelemään asioita. Tekoäly on tehnyt koneesta aiempaa fiksumman ja ihmistä paremman muun muassa shakissa ja gossa. Koneoppiminen on arkipäivää myös hakukoneissa, osakemarkkinoinnilla ja lääketieteessä.

 

Sävyanalyysin tarve on yhteydessä digitaalisen tiedon räjähdysmäiseen kasvuun. Yksinomaan Twitterissä julkaistaan vuoden jokaisena päivänä yli puoli miljardia viestiä. Määrä on niin suuri, että sen karkeakin analysointi ilman tietokoneiden apua on mahdotonta. Edes Kiinan kaksi miljoonaa some-tarkkailijaa eivät pysty käymään läpi kuin vain osan some-viesteistä. Tietokone analysoi ihmistä huomattavasti nopeammin.

 

Täydellisyyteen pyrkiminen on hyvän vastakohta

 

Konetta voidaan opettaa monin tavoin. Sävynanalyysin yhteydessä tavanomainen ja käytetty tapa on, että kerätään esimerkkiaineisto, johon kuuluvat viestit luokitellaan manuaalisesti kolmeen luokkaan (negatiivinen, neutraali ja positiivinen). Käytännössä tämä tarkoittaa tunteita ilmentävien piirteiden etsimistä ja tunnistamista yksittäisistä sanoista, sanojen yhdistelmistä ja hymiöistä. Seuraavassa vaiheessa tunteita ilmentävät piirteet muutetaan koneen ymmärtämään muotoon. Ärsyyntymistä ja turhautumista ilmentävä ”Pidä tunkkisi!!!” on sävyltään negatiivinen viesti, jolle voidaan antaa algoritmissa arvo ”-1”. Vilpittömässä tarkoituksessa esitetty kysymys ”mitä muuten kuuluu?” on esimerkki neutraalista viestistä, joka saa arvon ”0”. ”Ihqu!” on some-kieleen pesiytynyt ilmaisu, jolla viestitään positiivista suhtautumista po. asiaan. Algoritmissa se saa arvon ”1”. Luokittelusta voi tarvittaessa tehdä myös hienosyisemmän. Esimerkiksi voimasanoja ja uhkauksia sisältäville viesteille voidaan antaa arvo ”-3”, kun taas vaikkapa myönteisiä verbejä ja adjektiiveja sisältävälle viestille voidaan antaa arvo ”2”. Yksittäisten viestien numeeriset arvot ovat raaka-ainetta, jota jalostetaan erilaisilla tilastollisilla menetelmillä. Lopputuloksena on koneen tekemä ehdotus ja päätelmä viestin sisältämästä sävystä.


Toteutimme Tekesin rahoittamassa NEMO-tutkimushankkeessa suomenkieltä ymmärtävän sävyanalyysisovelluksen. Esimerkkiaineistona käytimme 10 000 twiittiä, jotka luokiteltiin kolmeen kategoriaan kymmenen ihmisen voimin. Sovelluksemme kykenee luokittelemaan oikein sille entuudestaan tuntemattoman tekstiaineiston noin 65 prosentin osumatarkkuudella. Onko tulos hyvä vai huono, riippuu näkökulmasta. Yhtäältä 65 prosentin osumatarkkuus on merkittävästi enemmän kuin puhdas arpominen, toisaalta lähes neljä kymmenestä luokituksesta osoittautuu harhalaukaukseksi. Saavutuksemme on hyvää keskitasoa, kun sitä vertaa kansainvälisiin tutkimuksiin, jotka osoittavat, että sävyanalyysin osumatarkkuus on kaksiluokkaisessa (positiivinen–negatiivinen) analyysissa 80–90 prosenttia ja kolmeluokkaisessa (positiivinen – neutraali – negatiivinen) analyysissa 60–75 prosenttia. Suomen kieli asettaa sävyanalyysille omat haasteensa. Kielemme sanat taipuvat. Tämä tarkoittaa sitä, että eri viesteissä sanalla on lukuisia erilaisia ilmenemismuotoja, mikä tekee esimerkiksi sanojen vertaamisen positiivisia tai negatiivisia merkityksiä sisältävien sanojen sanastoihin vaikeaksi. Lisäksi suomelle on olemassa huomattavasti vähemmän tekstin analysointiin sopivia työkaluja, sanastoja ja muita voimavaroja kuin esimerkiksi englannille.


Kone oppii mutta ei osaa tulkita


Kokemuksemme sävyanalyysisovelluksen kehittämisestä puhuu sen puolesta, että ilmaisun rikkauden johdosta tietokonepohjaisen sävyanalyysin avulla ei ole mahdollista luoda virheetöntä järjestelmää. Kone oppii, mutta siltä puuttuu ihmiselle ominainen kyky tulkita ja antaa merkityksiä kirjoitetulle tekstille. Esimerkiksi sarkasmi ja ironia ovat nykyteknologialle toistaiseksi ylitsepääsemättömän vaikeita tyylilajeja.


Presidentti Niinistön uudenvuodenpuheessaan mainitsema mielensähyvittäjä on hyvä esimerkki, miten ihminen kykenee muokkaamaan kieltä tavalla, joka aiheuttaa vaikeuksia fiksullekin koneelle. Suomea taitavalle uudissana avautuu hetkessä, kun taas koneelta puuttuu keinot sen mielekkääseen tulkintaan.

Sävyanalyysi on tullut jäädäkseen


Sosiaalisen median viestien epätäydellinenkin luokittelu hyödyttää yrityksiä, sillä some on muuttanut ihmisten tapaa ilmaista mielipiteensä. Se, mikä kerrottiin aiemmin kahvipöydissä ja kassajonoissa, kerrotaan yhä useammin blogeissa, Facebookissa, Twitterissä ja muilla yhteisösivustoilla. Somesta on tullut paikka, jossa jaetut sisällöt ohjaavat ihmisten osto- ja muuta käyttäytymistä. Yrityksen huono asiakaspalvelu ei jää enää yrityksen ja asiakkaan väliseksi. Mielensä pahoittanut asiakas on tietokoneelle päästessään yritykselle potentiaalinen riski. Mukana kulkevat älypuhelimet tarkoittavat, että nämä riskit myös realisoituvat. Ei ole harvinaista, että lounaskeittoon eksyneestä kärpäsestä raportoidaan Twitterissä ennen kuin asia on ravintolan keittiön tiedossa.


Sävyanalyysi on hyvä keino seurata keskusteluja, joita yritysten tuotteista ja palveluista sosiaalisessa mediassa käydään. Sävyanalyysin arvo ei ole niinkään yksittäisten viestien analysoinnissa, vaan niiden yhdistelemiseen ja vertailemiseen perustuvassa ymmärryksessä. Erityisen hyödyllistä sävyanalyysi on tilanteissa, joissa yritys on somessa tuomiolla todellisen tai oletetun rikkeen perusteella.


Vertauskuvallisesti sävyanalyysi voidaan rinnastaa palohälyttimeksi. Palohälyttimen tapaan se ei sammuta tulipaloja, mutta antaa tarpeellista reagointiaikaa. Aivan kuten tulipalo edellyttää tehokasta sammutusoperaatiota, myös sävyanalyysi vaatii rinnalleen fiksuja toimintatapoja. Vaikka kone voidaankin opettaa tunnistamaan tunteita, se ei niitä tunne. Kone ei kykene empatiaan. Siksi myöskään turhautuneen ja vihaisen asiakkaan kohtaamista ei kannata ulkoistaa koneelle.

 

Lue lisää tunteiden hyödyntämisestä liiketoiminnassa Negatiiviset tunteet - positiivinen bisnes -kirjasta.
 

Kirjoitus on julkaistu Tietoasiantuntija-lehdessä (2-3/2016).