Российский поисковик " Яндекс" объявил о запуске нового алгоритма поиска с именем " Палех", помогающего системе лучше понимать, о чем именно ее задают вопрос пользователи." Палех" дает возможность находить страницы, надлежащие запросу не только по ключевым словам, но и по смыслу.
Выполнены свежие возможности поискового алгоритма при помощи нейронных сетей. Они призваны улучшить выдачу " Яндекса" по уникальным и низкочастотным запросам. Среди подобных запросов, к примеру, детские, когда к поисковику обращаются как к живому собеседнику: [дорогой яндекс посоветуй пожалуйста свежие интересные игры про фей для плантика]. Или запросы от людей, ищущих фильм по запомнившемуся эпизоду: [фильм про человека который выращивал картошку на другой планете] (" Марсианин" ) Или [фильм где физики рассказывали даме про дейтерий] (" Девять дней одного года" ).
В " Яндексе" нередко представляют график частотного распределения запросов к поисковику в форме " жар-птицы", " клюв" которой соответствует наиболее частым коротким запросам ([вконтакте], [погода]), " туловище" – запросам средней частотности, а " хвост" – многочисленным редким и уникальным запросам. Так как " жар-птица" является частым мотивом палехской росписи, новый алгоритм, улучшающий качество выискивания в области " хвоста" " птицы", приняли решение назвать " Палех".
В случае с редкими запросами у поисковика весьма немного или вообще нет статистики про то, какие результаты лучше подходят для выдачи. Задача осложняется тем, что далеко не всегда на релевантной страничке встречаются слова из запроса — ведь один и тот же смысл в запросе и на странице имеет возможность быть выражен совершенно по-разному.
Чтобы решить эту задачу, нейросети " Яндекса" обучили переводить заголовки всех проиндексированных поисковиком страниц в группы из трехсот чисел каждая, по максимуму точно описывающие их смысл. Такие группы назвали " семантическим вектором". таким же образом в набор чисел можно перевести и текст поискового запроса. Чем ближе семантический вектор запроса к семантическому вектору страницы, тем лучше страница соответствует запросу.
Постепенно обучаясь, алгоритмы " Яндекса" будут все лучше находить подходящие под нестандартные запросы страницы, даже если на странице нет ни единого слова из фигурирующих в запросе.