Принцип работы поисковых систем


Здравствуйте, друзья! Сегодня мы поговорим о поисковых системах, наверняка все о них знают, кроме разве что бабушек и дедушек, и то не всех. В любом случае если вы сюда добрались, то на 70% из поисковика. Одним холодным дождливым вечером мне стал интересен принцип работы поисковых систем и я решил его поподробнее изучить. Теперь непосредственно к делу.

Основные составляющие поисковой системы, которые нам интересны:
Поисковый робот (он же паук) — занимается выкачиванием страниц с сайта для дальнейшей обработки;
индексный робот — убирает HTML-код с выкачанных поисковым роботом страниц и оставляет только слова, располагая их в алфавитном порядке и добавляя к ним ссылки со страниц сайта.
Итак, поисковик скачал страницу с вашего сайта и передал ее индексному роботу, далее индексный робот приводит все слова к своим первоначальным словоформам, в первую очередь, для уменьшения занимаемого словами места, а также для более точного поиска (выдачи более релевантных страниц по запросу).
Раньше поисковики не запоминали местоположение слов на страницах, что весьма усложняло выдачу релевантных страниц для многословных запросов, так как поисковик не определял стоят эти слова рядом или одно вверху страницы, другое внизу. Сейчас поисковая система различает слова, стоящие рядом или через одно/два/пять слов. Более того, поисковая машина отдает предпочтение в выдаче тем страницам, ключевые слова которых расположены преимущественно в начале.
Знаки препинания и теги языка HTML поисковая система не индексирует, например если ввести в яндекс символ «,» он выдаст сообщение о синтаксической ошибке. Считаю индексировать разделители и знаки препинания для поисковой машины составит слишком большую нагрузку, более того они имеются в каждом тексте.
Раньше поисковики не индексировали также предлоги, союзы и междометия. Затем число пользователей интернет, запрашивающих информацию с этими словами, стало возрастать и поисковики стали индексировать их наравне с остальными словами. Также поисковые системы индексируют цифры и буквенно-цифровые слова.
Индексируются также гиперссылки с сайтов, они безусловно являются словами, оформленные с помощью языка HTML. Необходимо уточнить, что именно благодаря индексации ссылок поисковик повышает авторитетность того или иного ресурса. Если упрощенно, то чем больше людей говорит, что вы очень хороший, то вы и правда очень хороший. В Google этот показатель называется Pagerank, в Яндексе ТИЦ (тематический индекс цитируемости). В SEO такие ссылки называются анкорами, не все конечно ссылки, ведущие на ваш ресурс, а именно «заточенные» под поисковые запросы или семантическое ядро (подробнее о его составлении вы можете прочитать в статье статье Семантическое ядро сайта).
Очень важно при написании текста статьи не допускать ошибок, потому как поисковик проиндексирует это слово таким, какое оно есть на вашем сайте, то есть не сможет убрать окончание и привести слово к первоначальной словоформе, что может не очень хорошо сказаться на результатах выдачи. Также поисковик не будет выкачивать с вашего сайта огромное количество страниц сразу, если они у вас есть. Поисковый робот будет брать каждый раз разумное количество, чтобы перейти к следующему сайту. Не стоит делать страницы, до которых можно добраться только через 10-20 ссылок, уровень вложенности должен быть разумным.
У поисковой системы есть еще отдельный поисковый робот для более важной информации, которую требуется обновлять очень часто (это например курсы валют, прогноз погоды, новости). Для того, чтобы вас обходил этот быстрый поисковый робот (так называемый «быстробот») вам надо стать достаточно авторитетным и иметь большое количество страниц, также необходимо часто обновлять информацию, которую вы предоставляете. Думаю теперь хотя бы в общих чертах вы поняли принцип работы поисковых систем. Спасибо за внимание, желаю успехов на просторах интернета!

Вы можете оставить комментарий. Пинги запрещены. Спамеры, курите бамбук, тут вам делать нечего ;)

6 комментариев на “Принцип работы поисковых систем”

  1. Kabban пишет:

    Ну к примеру я к вам по ссылке с другого ресурса перешел)) (привет с веб20) Да и думаю у вас пока больше всего именно таких переходов, а не с ПС. Или я не прав?

  2. poru4ik пишет:

    Ну на данный момент я считаю, что у меня нет переходов вообще. Так как максимальный показатель был 11 посетителей в сутки :) Преимущественно кстати из поисковиков по НЧ-запросам.

  3. kabban пишет:

    Я удивлен, думал что по большей части прямой трафик и переходы с др. сайтов.

  4. Merfil пишет:

    а если каждую страницу под НЧ-запрос оптимизировать и таких будет несколько сотен (автоматизировать, к примеру все) — есть ли смысл?

    к примеру, я создал страницу с тэгами «домашнйи слон» и в гугле через 2 дня (без единой внешней ссылки по этому направлению) был на 1м месте. в яндексе — похуже.

    или посещений будет слишком мало?

  5. poru4ik пишет:

    Смотря какого рода сайт вы имеете ввиду, если это автонаполняемый сайт (в простонародии сплог,ГС, сателлит и т.д.), то смысла не вижу, если только у вас их всего штук 5 и вы постоянно за ними следите. А если это ресурс, к которому вы достаточно сильно прикипели, то смысл конечно есть :) Только не называют это «тэги», скорее ключи, ключевики. Оптимизировать надо всегда, если есть возможность и если проект того стоит (например интернет-магазин с маленьким бюджетом конечно лучше оптимизировать низкочастотниками).

    Если вы вылезли на 1-ю позицию без труда, большой радости от этого не будет. Как вы правильно заметили, переходов будет мало, то есть зачем вам позиция в топ-1, если у вас будет два перехода в месяц? Надо подбирать оптимальные ключевые слова/фразы.

  6. japanzone пишет:

    Просто офигительная статья. Спасибки огромные вам за ваш труд кропотливый. Респектище))

Оставить комментарий

Я не робот!