Peršokti į pagrindinį turinį

Dirbtinis intelektas ateityje bus „įdarbintas“ garsinio vaizdavimo srityje

Dirbtinis intelektas ateityje bus „įdarbintas“ garsinio vaizdavimo srityje

„Fondazione LIA“ yra Italijoje veikianti ne pelno organizacija, kurios viena iš veiklų – konsultuoti leidyklas apie tai, kaip elektronines knygas padaryti prieinamas akliesiems ir silpnaregiams. Padėję vienai pažangiai mąstančiai leidyklai sukurti bandomąjį akliesiems pritaikytą elektroninį vadovėlį, fondo darbuotojai susimąstė, kaip būtų galima supaprastinti ir galbūt automatizuoti vaizdų aprašymo procesą, kad būtų mažiau rankinio darbo. Jie parengė Alternatyvaus vaizdų aprašymo automatinio generavimo projektą. Pagal projektą vaizdų aprašymai turėjo būti rengiami automatizuotai, naudojant dirbtinio intelekto technologijas. Projekto rezultatai buvo pristatyti 2019 m. Paryžiuje vykusioje Skaitmeninės leidybos konferencijoje.

Projekto vykdytojams pirmoji iškilusi užduotis buvo ši: automatizuotai nustatyti vaizdo kategoriją. Reikėjo, kad programinė įranga atpažintų, ar knygoje esantis atvaizdas yra nuotrauka, piešinys, brėžinys, diagrama, logotipas ir pan. Buvo išbandyta, kaip veikia „Google“ sukurtas „Cloud AutoML Vision“ įrankis. Šis įrankis teisingai atpažino 42 proc. vaizdų.

Toliau atėjo eilė pačiam atvaizdo aprašymo tekstui. Projekto dalyviai įvertino įvairias rinkoje esančias programas, jų stipriąsias puses, sąnaudas ir efektyvumą. Padarė išvadą, kad šiuo metu nėra pakankamai geros, kuri galėtų parengti kokybiškus vaizdų aprašymus visoms vaizdų kategorijoms, todėl pasirinko vieną, lyg ir geresnę – „Microsoft Computer Vision“, skirtą nuotraukoms aprašyti. Tada sukūrė komandų eilutės įrankį, kuris priima įvesties failą EPUB, ištraukia visus jame esančius vaizdus ir automatiškai jiems sukuria alternatyvųjį aprašą.

Galiausiai specialistai išbandė, kaip veikia ši sistema, su kelių leidėjų EPUB skrajutėmis, ir gavo nelabai džiuginantį rezultatą: tik 50 proc. vaizdo aprašymų buvo sugeneruoti teisingai. Projektas naudingas tuo, kad paaiškėjo, jog kol kas dar negalima automatizuotai kurti garsinio vaizdavimo aprašų, reikia palaukti, kol patobulės šiuo metu rinkoje turimi algoritmai.

Nuotraukoje – pranešimą skaitantis Gregorio Pellegrino.

Gregorio Pellegrino. Using Artificial Intelligence for Image Descriptions [interaktyvus] prieiga per: https://daisy.org/news-events/articles/using-artificial-intelligence-for-image-descriptions/ žiūrėta 2020-06-02]

Parengė Audronė Gendvilienė.

G.167

2018 © Visos teisės saugomos. Sprendimas: UAB "Fresh Media"