AfterDawn logo

Tietokoneet oppivat puhumaan jo viidessä minuutissa – IBM kehitti uuden tekoälymallin

Manu Pitkänen Manu Pitkänen

Tekoäly kehittyy valtavaa tahtia ja suurin harppauksin parhaillaan, kun yritykset investoivat tekoälyn laskentakapasiteetin lisäämiseen ja kehittämiseen, mutta lisäksi tekoälyn taustalla olevat algoritmit ja mallit kehittyvät tehokkaammiksi sekä tietysti älykkäämmiksi.

Teknologiajätti IBM on esimerkiksi nyt onnistunut luomaan puhetta tekstisyötteestä tuottavan tekoälymallin, joka yltää laadukkaaseen puhesyntetisointiin vain viisi minuuttia kestävän puheen kuuntelun avulla. Tämä on suuri saavutus, sillä useimmat nykyiset puhesyntetisointimallit vaativat toimiakseen kattavan tausta-aineiston, jonka käsittely on luonnollisesti vie paljon aikaa.

IBM:n mallin nerous piilee sen modulaarisessa luonteessa. Mallissa on erikseen esimerkiksi puheen kestoa, painoa ja korkoa arvioiva komponentti, minkä lisäksi mallista löytyy muihin akustisiin piirteisiin liittyvä osa. Näiden analysointien pohjalta mallin vokooderi luo audionäytteitä. Kukin komponentti toimii keskenään ja yrittävät opettaa toinen toisiaan jotta lopputulos vastaisi mahdollisimman paljon alkuperäistä ääninäytettä.


Voit testata teknologian toimivuutta täällä (valitse ääneksi V3).

TÄMÄN UUTISEN KOMMENTOINTI ON PÄÄTTYNYT