Михаил Костин : О настоящем и будущем поисковых технологий, качестве поиска и многом другом
ТЕОРИЯ
Вы достаточно давно являетесь разработчиком поисковых систем. Как менялась эта область интернет-технологий со временем? Был ли качественный скачок, ожидаете ли вы его в ближайшем будущем?
Качественный скачок в развитии поисковых систем произошел в давние уже времена, в районе 2000 года. В моем представлении он связан не столько с какими-то новыми на тот момент технологиями (ссылочное ранжирование и индекс цитирования, группировка результатов по сайтам, сниппеты и т.д.), сколько с концептуальным пониманием поисковиками важности ранжирования и удобного для пользователя представления результатов поиска. До этого господствовало мнение, что главная задача поисковика - найти как можно больше формально соответствующих запросу документов, а уж дальше пользователь как-нибудь сам разберется.
Последующие годы характеризовались, в основном, совершенствованием появившихся технологий, особенно ссылочных, а также жестокой войной с активно набиравшим обороты спамом. Какое-то время в моде были идеи персонализации поиска, однако особого развития это направление не получило.
В последние годы идет активное развитие технологий анализа запроса и документа, которое ведет к заметному росту качества поиска. Постепенно меняется и способ представления поисковой выдачи, происходит интеграция обычного поиска со специализированными источниками информации. Мне кажется, что именно умение хорошо делать все перечисленное будет отличать поисковые системы нового поколения.
Какие проблемы развития поисковых систем, на Ваш взгляд, неразрешимы?
Я скептически отношусь к возможности решения любых проблем, требующих полноценного понимания естественного языка - даже в очень отдаленной перспективе.
От чего зависит качество поиска, и как оно измеряется?
Качество поиска зависит от очень большого количества факторов, в том числе не имеющих отношения к собственно алгоритмам ранжирования. Не существует какого-то одного главного фактора, утверждения типа "все зависит только от ссылок" не выдерживают никакой критики при серьезном анализе качества поиска в целом, а не позиции отдельного сайта по конкретному запросу.
Как его измерять - это вопрос достаточно сложный и очень важный для самих поисковиков. Недостатки, присущие традиционным методикам оценки качества поиска - это оторванность от реальных моделей поведения пользователей и от конечного результата поисковой сессии. Простого деления на навигационные и информационные запросы здесь недостаточно.
Есть ли единственно верный алгоритм ранжирования документов в Интернете, или совершенно разные методики будут давать сравнимые по эффективности результаты?
Единственно верного алгоритма нет, но и безграничной свободы тоже. Существуют объективные закономерности, им соответствуют факторы ранжирования, которые необходимо использовать. Попытки игнорировать накопленный опыт и сделать все принципиально иначе, непродуктивны.
Каковы особенности индексирования, поиска и ранжирования нетекстовых форматов – изображений, аудио, видео, архивов? Как скоро можно ожидать технологии распознавания мультимедийного контента, или его так и будут всегда ранжировать по текстовым комментариям?
Особенностей много. Очень мало, как правило, текстовой информации, относящейся к объекту поиска. Другие чем в текстовом поиске запросы, большинство из них относятся к небольшому количеству тематических групп. Другие критерии оценки качества контента. Практически полное отсутствие спама на данный момент.
А самое сложное здесь это попытки что-то «добыть» из самого мультимедийного контента, не распознавание даже, а просто извлечение хотя бы какой-то реально полезной информации. Полноценное же распознавание - это вопрос не ближайшего будущего.
Почему все так много говорят о поиске на естественном языке, но никто его так и не сделал? Каковы главные трудности? Неужели так сложно распознать вопрос на русском языке и переколдовать его в обычный запрос?
Вообще-то, пользователю не особенно нужен естественный язык сам по себе. Набрать в поисковой строке "погода москва" проще и быстрее чем "Какая погода завтра будет в Москве". И этому стилю запросов все очень быстро учатся, тут нет проблемы. Интерес для пользователя представляют как раз те конструкции естественного языка, которые плохо поддаются переформулировке в подходящий для поисковика вид, но с ними соответственно трудно что-то сделать и автоматическому переколдовщику. А решение этой задачи не на уровне модификации запроса, а на уровне поиска фактов в тексте при его индексировании, это совсем другой порядок сложности.
На данный момент, самый результативный подход - это сопоставление некоторых конструкций языка определенным типам документов или сайтов – например, понятно, что по запросу начинающемуся со "что такое" имеет смысл отдать предпочтение энциклопедиям и словарям.
Одно из недавних спорных нововведений Яндекса – автоматическое исправление опечаток. Вам нравится эта функция, или Вы считаете, что пользователь должен сам формулировать запрос?
Нравится, это обязательно надо делать. Я, кстати, думаю, что среди противников автоисправления вряд ли найдется человек, читавший хотя бы раз логи поисковика - опечатки являются причиной очень значительного процента неудачных поисковых сессий. Вообще, процент запросов, переформулируемых поисковиками по тем или иным критериям, будет в ближайшем будущем интенсивно расти. Конечно, у пользователя должна быть возможность все это отключить и поискать именно то, что он ввел в строку запроса, но необходимость в этом будет возникать очень редко.
Как Вы относитесь к семантическому поиску, который пытается вычленить смысл запроса и работать именно с ним, а не с составляющими его словами? Возможен ли вообще массовый семантический поиск, или это утопия?
Это очень сложная задача. В перспективы полноценного семантического поиска в Интернете я не верю.
С чем, по Вашему мнению, связан рост доли Google в Рунете? У них действительно поиск качественнее, чем у рунетовских систем?
Рост доли Google, без сомнения, связан с качеством, в частности с проделанной в компании работой над спецификой русскоязычного поиска. Но при этом мне совсем не кажется, что Google навсегда застолбил за собой место самого качественного поисковика в Рунете.
Существует конспирологическая теория, что владельцы поисковых систем целенаправленно сдерживают развитие качества поиска, чтобы более активно зарабатывать на контекстной рекламе. Как Вы к этой теории относитесь?
Конечно же, это не так. Выиграв у конкурентов в качестве поиска, можно заработать гораздо больше.
В чем сложности и особенности поиска по "глубокому вебу"? Собираетесь ли Вы развивать это направление в работе над GoGo.кu?
Сложность тут не только в доступе к этой информации, но и в том, что только небольшой процент "глубокого веба" содержит информацию, интересную для поисковых систем. Мы сейчас не ставим перед собой цели решить проблему индексации "deep web" в общем виде, но, возможно, будем использовать какие-то частичные решения.
Правда ли, что время традиционного полнотекстового поиска кончается? Каким будет новое поколение: тематические поисковики, вертикальный поиск, экспертный поиск с участием людей?
Мне кажется, что полнотекстовый поиск сохранит свое значение, но будет постепенно эволюционировать, интегрируя в себя в том или ином виде перечисленные в вопросе и некоторые другие тенденции.
Возможно ли в наше время бессылочное поисковое ранжирование? Некоммерческие сайты ссылаются друг на друга достаточно хаотично, а коммерческие – только за деньги. Может, более качественным был бы поиск на основе алгоритма доверия а-ля Trust Rank?
Исключать какую-то информацию из рассмотрения при ранжировании - это принципиально неверный подход. Работать со ссылками нужно обязательно. Конечно, поисковая система должна при этом учитывать существующие реалии и понимать, что не все ссылки одинаковы, и что речь идет не только о количественных (разный вес), но и о качественных различиях. Мы применяем в GoGo.Ru как ссылочное ранжирование, так и альтернативные технологии, и убеждены, что они должны дополнять друг друга.
Есть ли у GoGo.Ru шансы войти в Топ3 поисковых систем Рунета? Если да, то на чём основан Ваш оптимизм?
У нас есть очень хорошая команда разработчиков, есть понимание того, как надо совершенствовать поиск. Ну и, конечно, очень важно, что мы являемся частью компании, у которой есть огромные возможности для продвижения проекта. При этом, если говорить о суммарной доле нашей компании на поисковом рынке, то мы уже в первой тройке.
ПРАКТИКА
1. GoGo.ru
Кто целевая аудитория поиска GoGo.Ru? У вас вебдванольный дизайн с забавными глазами, лёгкие конкурсы про поп-звёзд… вы нацеливаетесь на подростков?
Прежде всего, мы стремимся сделать качественный поисковый сервис для всех категорий пользователей. Поисковые технологии в этом смысле вообще достаточно универсальны.
В то же время мы действительно стараемся быть интересными молодой активной мобильной аудитории, которую, как нам кажется, может привлечь как оригинальный дизайн GoGo, так и возможности таких наших сервисов, как поиск видео, а, может быть, и забавные конкурсы.
Это совсем не означает что в нашей маркетинговой активности мы ориентированы только на эту аудиторию, к примеру, в последнее время мы провели большую работу по пополнению нашего видеопоиска новостными материалами от ведущих информационных агентств.
2. Апорт
Почему умер Апорт – некачественный маркетинг, или отсталые технологии? Были ли предложения о покупке проекта, или какие-то другие возможности его развития? Почему они пока не используются, что будет дальше с рунетовским ветераном?
Апорт был куплен его нынешним владельцем, компанией «Голден Телеком», на пике бума доткомов в 2000-м году и вскоре, после изменения ситуации на рынке, проект был фактически заморожен. Технологии еще довольно долго оставались конкурентоспособными, но это не могло остановить падение доли рынка.
В дальнейшем долгое время позиция компании заключалась в том, чтобы сохранить собственные поисковые технологии, но не ставить перед Апортом задачу конкурировать с лидерами рынка.
Вообще, говоря как о прошлом, так и о возможных перспективах Апорта, надо принимать во внимание, что интернет-проекты не являются для его владельца основным направлением бизнеса. Про будущее - мне сложно что-то прогнозировать, но попытки серьезного продвижения проекта сейчас уже необходимо связывать не только с маркетинговыми шагами, но и с очень серьезной переработкой поискового движка, на данный момент многие из используемых там технологий морально устарели.
Как вы думаете, если бы Апорт в свое время не отказался от борьбы за долю Рунета – насколько конкурентным он бы выглядел сейчас?
В 2000 году Апорт не только занимал второе место по доле поискового трафика в Рунете, но и был на передовых позициях по своему технологическому уровню. Поэтому естественно, что если бы проект развивался, то он мог бы претендовать на совсем другое место на рынке, чем то которое он занимает сейчас.