AfterDawn logo

Googlen kehittämä tekoäly osaa pukea kuvat sanoiksi

Matti Robinson Matti Robinson

Uusi tutkimuskohde pyrkii kehittämään tekoälyn, joka voi pukea "näkemänsä" kuvat sanoiksi. Ihmisiltä luonnollisesti syntyvä kuvaus on vaikea toteuttaa koneellisesti, mutta mahdotonta se ei ole. Google ja Stanfordin yliopisto kehittävät tekoälyä, joka osaa selittää kuvat ymmärrettävästi.

Tutkimuksen (Deep Visual-Semantic Alignments for Generating Image Descriptions) teknologia ei ole vielä valmis, mutta oppiva järjestelmä osaa jo nyt suhteellisen hyvin tuloksin tunnistaa asioita kuvasta. Virheitä vielä syntyy, kuten vaikkapa keltaisen auton luuleminen (amerikkalaiseksi) koulubussiksi. Kumppanit kuitenkin kertovat, että jo nyt teknologia on kaksi kertaa aiempaa tarkempi.

Järjestelmä koostuu kahdesta osasta, jotka ovat kuvantunnistus ja luonnollisen kielen tuotto. Näiden yhteistyöllä saadaan tuotettua kuvauksia, jotka eivät ainoastaan kerro kuvasta löytyviä asioista vaan myös niiden suhteesta. Ei siis pelkästään "mies, rummut ja taivas" vaan esimerkiksi "mies soittaa rumpuja ulkona".


Mitä hyötyä tästä sitten on? No ensinnäkin esimerkiksi sokeille ihmisille teknologia tarjoaa avustavan järjestelmän, mutta myös laajemmassa käytössä se tullaan varmasti näkemään. Google tulee soveltamaan teknologiaa omassa haussaan, jossa kuvista löytyvien asioiden hakeminen helpottuu.

Lisätietoja tutkimuksesta löytyy Googlen Research Blogista ja Stanfordin yliopiston sivuilta.

TÄMÄN UUTISEN KOMMENTOINTI ON PÄÄTTYNYT