Две группы ученых, работающих независимо между ними, заявили о создании продвинутых алгоритмов, могущих распознавать и описывать объекты на фотографиях и видеороликах с гораздо более высокой точностью, чем когда-либо прежде. Предположительно одинакового успеха достигли инженеры Google и Работники Стэнфордского университета.
До последнего времени технологии так называемого компьютерного зрения могли " видеть" на изображении отдельные объекты, однако понимание картинки в общем для них было недоступным. Свежие алгоритмы, которые вовлекают искусственные нейронные сети, могущие к машинному обучению, ушли далеко вперед и теперь имеют возможность описывать происходящее обычным человеческим языком.
" Я думаю, что пиксельные данные в изображениях и видео — это темная материя Интернета, — заявил директор лаборатории искусственного интеллекта Стэнфордского университета Фэй-Фэй Ли, — " Теперь мы можем начать его освещать". Ученые из Стэнфорда поведали о достижениях в техническом отчете, а команда Google выложила публикацию на сайт arXiv. Org.
Результаты, полученные обеими группами, весьма похожи. Они позволят описать миллиарды изображений и видео в сети интернет (в частности, в сервисе " Картинки Google" ), которые часто плохо или вообще не документированы, и, соответственно, улучшить по ним поиск. На данный момент времени поисковые алгоритмы Google отталкиваются только от описания, которое предоставил сам пользователь, загрузивший ту или иную картинку.