Слайд 2
ЗАО «Поисковые технологии»
Постановка проблемы
Слайд 3
Аутизм поисковиков как главная проблема
1. Поисковик как простой
текстовый брокер
2. «Библиографическая лента» результатов поиска
3. Учёт только одной
из трёх сил в сфере поиска
4. Безудержная портализация при сохранении аутичного поиска
Слайд 4
1. Поисковик как формальный текстовый брокер
Поисковики берут текстовую
строку и возвращают её вхождения в тексты
Поисковики не знают
темы запроса и смысла запроса
Поисковики не знают типа и темы возвращаемых документов
Поисковики показывают не свои титулы и аннотации, а только то, что есть на сайте
Слайд 5
2. «Библиографическая лента»
Результат работы «яйцеголовых»:
Бесконечная лента: аналог списка
литературы в научной статье
Нечитаемость: невразумительный заголовок, аннотация, ненужные дата,
URL, размер,
Каша: разные типы информации в одной ленте
Мучения простого пользователя:
Шарада: о содержании сайта нужно догадываться по URL и нечитаемой аннотации
Метод проб и ошибок: перебор ссылок вслепую
Программирование: подбор слов и операторов
Слайд 6
3. Три силы в сфере поиска
Три силы с
разными интересами:
Разработчики поисковиков: поток пользователей и показ рекламы
Пользователи: быстро
найти нужный сайт
Сайтовладельцы: первые места, поток пользователей, реклама
Поисковики:
Дают пользователям кашу из аутичных, нечитаемых результатов
Замешивают сайты в индекс, как неживую массу (и дают по голове каждому, кто пошевелился в жёлобе этой бетономешалки).
Слайд 7
Результаты аутизма
Высокое напряжение борьбы с вебмастерами, дорвейные войны
Резкое
падение качества результатов и замусоривание Интернета в целом
Падение полноты
(разнообразия) – даже при релевантной выдаче показ только одной коммерческой категории сайтов
Рост недовольства пользователей, падение их лояльности одной поисковой машине
Слайд 8
У Интернета есть желание и деньги улучшить поиск
Каждый
месяц появляются поисковые стартапы.
Под «поиск» охотно дают деньги, а
под «поиск с социальными сетями» – ещё более охотно.
Крупные игроки резко замедлились и возятся с инфраструктурой, продажами, большими индексами, большим персоналом.
Большие поисковики ориентированы на борьбу друг с другом; доминируют бизнес-идеи, в частности, война за desktop.
Слайд 9
ЗАО «Поисковые технологии»
Как улучшить поиск?
Слайд 10
Этапы работы поисковика
1. Выбор сайтов для обхода
2. Скачивание
и индексация
3. Получение запроса от пользователя
4. Разбор запроса
5. Вычисление
запроса (собственно поиск)
6. Показ результатов поиска
Улучшить поиск можно на каждом из этих этапов, и многочисленные стартапы это уже делают
Слайд 11
1. Выбор набора сайтов
Выбор сайтов может решить проблему
мусора и генерации дорвеев:
Специальные поисковики (Dash, Аппликата, Новотека, Тындекс,
iligent, Яндекс.Блоги и пр.)
Выбор вебмастерами и пользователями (Персональный поиск Новотеки, Rollyo, пр.)
Обмен размеченными списками сайтов (Del.icio.us etc.)
Большие поисковики пока этим пользуются мало, но есть множество стартапов
Слайд 12
2. Выкачка и индексация
Распознавание типа данных на этапе
выкачки (форумы, блоги, товарные предложения, статьи, новости, описания товаров).
Распознавание
темы страницы (семантическое индексирование)
Семантический разбор текстов, выделение объектов и фактов
Разные индексы для разных типов сайтов.
Большие поисковики этим занимаются, но во вторую очередь, зато есть множество стартапов
Слайд 13
3. Получение запроса
Регистрация запросов/ответов вебмастерами
Подсказка и уточнение
запросов
Программирование и обмен запросами между пользователями (MS)
Персонализация, запоминание истории
запросов (Yahoo, Google)
Запрос на естественном языке (AskJeeves)
Ведутся активные работы в больших поисковиках, в множестве стартапов
Слайд 14
4. Разбор запроса
Распознавание темы запроса (каталог запросов)
Распознавание типа
запроса (анализ лексики)
Разбор синтаксиса и семантики запроса
Уточняющий диалог: итеративные
запросы
Работы в больших поисковиках пока идут вяло, есть соответствующие стартапы
Слайд 15
5. Поиск: вычисление запроса
Повышение релевантности (улучшение алгоритмов)
Учёт прошлых
интересов пользователя
Учёт поведения пользователей на поисковике
Почти всё уже сделано.
Активно ведутся работы в больших поисковиках, стартапам труднее – нет базы текстов и логов запросов
Слайд 16
6. Показ результатов
Здесь наивысшая плотность новых идей:
Выдача по
типам (большие поисковики, A9, Аппликата, Dash)
Тематическая кластеризация (Clusty, Нигма,
Квинтура)
Графическая выдача и навигация (Vizzy, Квинтура, Тропа, etc.)
Персонализация и настройка результатов (все)
Здесь ведутся бурные работы, ибо интерфейс – то, что в первую очередь видит и пользователь, и инвестор
Слайд 17
Отдельная история: социальные сети поверх поиска
Сообществу можно поручить
почти весь цикл настройки поисковика:
Отбор сайтов (ведение каталогов)
Создание названий
и аннотаций сайтов
Обмен индексами, группами сайтов
Регистрацию и подбор запросов
Оценку и разметку результатов поиска
Обмен результатами поиска
Слайд 18
Отдельная история: борьба за desktop
Возможно, исход борьбы за
поиск будет решён на поверхности рабочего стола
Google и Microsoft,
похоже, уже сделали на это ставку.
Здесь основным преимуществом будет не функциональность, а гладкая совместимость с ОС и офисными приложениями
Я бы поставил на выигрыш MS
Слайд 19
Перспективы развития поисковиков
Всё вскипело:
Очень много шумихи
Очень много денег
Очень
много стартапов
Условия успеха:
Удобство поиска на уровне DOS 1990 г.
Нехватка рекламных площадей
Падение качества и война с вебмастерами
Будем ждать революции. Кто даст миру «Windows для поиска»?
Слайд 20
Будущие поисковые машины
Каталоги сайтов: регистрация сайтов сообществами
Каталоги запросов:
регистрация и разметка запросов вебмастерами
Структурированная выдача: по теме и
типам документов.
Читаемость выдачи: названия, аннотации, тэги от сообществ
Понимание запроса: запросы на ЕЯ, распознавание темы, уточнение запроса
Новые виды заработка на поиске: регистрация запросов, сайтов, ранжирование, хостинг поиска
Слайд 21
У чего нет будущего
«Библиографическая лента»
Дальнейшие усилия по повышению
традиционной «релевантности»
Похвальба размером индекса
Отношение к вебмастерам, как мёртвому материалу
Ссылочное
ранжирование (PageRank) в его текущем виде
Автоматическая кластеризация результатов по темам
Персонализация и настройка пользователем
Слайд 22
О чём не сказано в этом докладе
Мобильный поиск
(борьба за смартфон)
Локальный поиск и геотаргетинг (борьба за парикмахера)
Блогопоиск
и новостные поисковики (борьба за аффтара)
Многоязыковый поиск и перевод (борьба с языковым барьером)
Национальные проекты (борьба против Гугла)
Ну и так далее .................