Поисковые системы состоят из трех основных частей

Принципы работы поисковой системы

Модуль индексирования

Spider
  • URL скаченной страницы;
  • дата, когда осуществлялось скачивание страницы;
  • заголовок http-ответа сервера;
  • html-код, «тела» страницы.
CrawlerCrawlerIndexer

Поисковый сервер

  • Запрос, который идет от пользователя подвергается морфологическому анализу. Информационное окружение любого документа, имеющегося в базе, генерируется (оно и будет в дальнейшем отображаться как сниппет, т.е. информационное поле текста соответствующего данному запросу).
  • Полученные данные передают как входные параметры специализированному модулю ранжирования. Они обрабатываются по всем документам, и в итоге для каждого такого документа рассчитывается свой рейтинг, который характеризует релевантность такого документа запросу пользователя, и иных составляющих.
  • В зависимости от условий заданных пользователем этот рейтинг вполне может быть подкорректирован дополнительными.
  • Затем генерируется сам сниппет, т.е. для любого найденного документа из соответствующей таблицы извлекают заголовок, аннотацию, наиболее отвечающую запросу, и ссылка на этот документ, при этом найденные словоформы и слова подсвечивают.
  • Результаты полученного поиска передаются осуществившему его человеку в виде страницы, на которую выдают поисковые результаты (SERP).

Видео

Перейдем к вопросу, как устроена и как работает поисковая система

Поисковая система состоит из трех основных элементов:

1. Роботы-пауки (агенты, роботы, обходящие все интернет пространство, и сканирующие сайты)

У поисковой системы существует множество роботов-агентов, каждый из них выполняет свою функцию:

  • основной работ, сканирующий сайты;
  • робот, сканирующий картинки;
  • робот, сканирующий видео;
  • робот мобильных сервисов;
  • быстроробот выполняет функцию сбора свежей информации и новостей для индексации;
  • другие роботы.

У каждого робота есть список адресов, которые он должен обойти. Этот список автоматически увеличивается, если робот находит новую ссылку и адрес сайта. Робот проверяет тип найденного документа, кодировку и язык и отправляет эти данные на дальнейшую обработку.

2. Индекс (база документов и дополнительных параметров в обработанном виде)

Индекс – это хранилище поисковой системы, где вся информация находится в обработанном и упорядоченном виде. Например, документы хранятся в очищенном от html-разметки виде, в индексе имеются данные о местоположении различных слов в документе и другая информация. Индекс обновляется постоянно.

В ряде поисковых систем имеются выраженные апдейты. В этом случае полноценное обновление поискового индекса, на основе которого формируются результаты поиска, происходит не постоянно, а через некоторое время. Апдейт – это момент обновления поисковой системы, в который результаты поиска по многим запросам серьезно меняются.

3. Поисковый алгоритм (механизм, который позволяет формировать выдачу)

Когда в поисковую систему поступает запрос, алгоритмы поисковой системы обрабатывают его. В обработанном виде он поступает дальше в систему.

Если запрос популярный, результаты поиска по нему могут кешироваться (сохраняться в поисковой системе) и в дальнейшем при поступлении такого же запроса результаты поиска поднимаются из кеша. Если запрос уникальный, то поисковые алгоритмы на основе имеющихся в них формул формируют ответ на запрос из индекса поисковой системы.

Формула, по которой формируются результаты поиска, может отличаться в зависимости от запроса, его типа (коммерческий, информационный, навигационный и т.д.), географии (формула для региональных запросов может быть проще, чем для московского региона).

Мы рассмотрели упрощенную модель поисковой системы. Реальные поисковые системы намного сложнее и включают в себя механизмы борьбы по спамом, колдунщики и множество других вещей.

Разберем поисковую систему на части

В самом начале и конце страницы поисковика — идет блок с «контекстной рекламой» — это проплаченные рекламодателями места. В данный блок можно попасть любому сайту и при этом не нужно дожидаться пока страницы сайта «продвинутся» в поисковой выдаче. Это отличный способ получить трафик молодым сайтам. Справа — выводится медийно-контекстный баннер — это тоже рекламный блок. Все, что идет под рекламным блоком — и есть естественная (органическая) выдача поисковых систем, а процесс вывода сайтов в данную выдачу называется seo-продвиженией или seo-оптимизацией сайтов.


Между естественной выдачей и рекламным блоком контекстной рекламы иногда появляются различные внутренние сервисы поисковых систем. Например, по запросу «купить квартиру недорого» — это сервис «Яндекс.Недвижимость», для запроса «купить холодильник» — это Яндекс.Маркет, для сферы услуг — Яндекс.Услуги. В данных сервисах тоже можно размещаться всем сайтам и это приносит хороший трафик.

 Хотите 1-ю позицию в поиске? Мы дадим вам её! ТолОбратите внимание также — под строкой поиска — есть дополнительные ресурсы — «Картинки», «Карты», «Кью» и т.д., куда некоторые пользователи переходят и находят информацию там. Также, поисковую систему можно настроить персонально под себя, кликнув на соответствующий пункт. Если же ее не настраивать, то выдача сайтов все-равно будет для разных людей немного отличаться.

Хотите 1-ю позицию в поиске? Мы дадим вам её! Только она будет исключительно для вас 🙂 Невозможно сейчас гарантировать какую-либо конкретную позицию для сайта, т.к. для разного типа пользователей она будет различна.Для домохозяйки — «наполеон» будет рецептом, а для историка — ссылкой из википедии.

Язык запросов

Поисковые системы – это разумный инструмент, использующий язык запросов, то есть определенные команды и символы в строке поиска, которые помогают быстрее найти нужную информацию.

Если вам необходимо найти слово или фразу в точно таком виде, как вы вводите, без всяких изменений форм и порядка слов, то заключите свой поисковый запрос в кавычки. Это часто бывает удобно для поиска фильма по его названию, текста песни по строчке или отрывка из книги.Если вам необходимо исключить из результатов поиска в Google все страницы, содержащие определенное слово, то поставьте перед этим словом в запросе знак минус (). Например, если ввести в строку поиска «вирус –компьютерный», то система выдаст документы, в которых не встречается ключевое слово «компьютерный». В Яндексе же подобная операция производится с помощью символа тильда (~), поставленного в запросе перед словом, которое нужно исключить из поиска.Оператор site: в Google позволяет осуществлять поиск на конкретном сайте. Например, если набрать в строке поиска Google «поступление site:», то система будет искать информацию о поступлении именно на сайте МГУ. В Яндексе подобная операция осуществляется с помощью оператора host:Символом звездочка (*) можно заменять в запросе неизвестные слова. Например, «буря * небо кроет».Оператор define: в Google позволяет искать определения слова, указанного в запросе.В обычном режиме Google старается найти страницы, содержащие все указанные слова. Если же вставить между словами оператор OR (заглавными буквами), то система покажет страницы, включающие в себя как минимум одно из этих слов. Например,купить квартиру в Москве OR Подмосковье. В Яндексе же подобная операция производится с помощью символа прямой слэш (|), поставленного между словами запроса, например;билеты Лондон | Париж;.Чтобы получить в выдаче Google диапазон чисел «от и до», нужно между ними поставить две точки, например, «снять квартиру $1000..$1500».Язык запросов поддерживают многие поисковые системы. Перед их использованием рекомендуется посмотреть описание в разделе помощи сайта конкретной поисковой системы, которую планируется использовать.

Теги