Ваше местоположение в сети:
Рубрика:
Путеводитель по интернету

Поиск в интернете

Вы когда-нибудь задумывались над тем, как работают поисковые системы (да, это опять статья не для вебмастеров и, в особенности, не для "сеошников")? Как так получается, что вы вводите интересующий вас запрос, и сразу на экране появляются ссылки действительно по теме вашего вопроса. Просто подумайте, ведь невозможно в тот момент, когда вы ввели запрос, быстренько прошерстить весь интернет и найти наиболее адекватные, "релевантные" ответы. Так что же скрывается за внешней простотой, какая работа происходит за кадром?

Я постараюсь ответить на этот вопрос и немного раскрыть историю развития поисковых систем. И, да, эта статья не научит вас "раскручивать" свой сайт, цель ее - исключительно общеобразовательная.

spider

А за кадром происходит много что. У поисковых систем разработана система индексации сайтов. Что это означает? Сначала на сайте появляется поисковый робот, так называемый паук, который скачивает все содержимое сайта. Я, конечно, сейчас немного упростил ситуацию, но думаю, у вас могли появиться несколько вопросов. Попробую их предвосхитить и дать ответы:

  • Откуда поисковый робот узнает о появлении нового сайта?
    Самый простой случай - он переходит на этот сайт по ссылке. Так же, как и вы могли бы увидеть где-то ссылку на сайт и перейти по ней, так и робот, анализируя содержание какой-то страницы, может обнаружить ссылку на новый сайт и добавить его в свой список для анализа. Кроме того, вебмастер сам может "попросить" поискового робота проанализировать его сайт, отправив запрос.
  • Робот действительно скачивает все?
    Нет, все-таки не все. Иначе сервера поисковой системы должны были бы содержать в себе весь интернет. Но, на самом деле, они скачивают очень много. То есть текстовая информация скачивается практически вся. Но все-таки текст по объему сильно меньше, чем, скажем, видео, так что это себе какой-нибудь Google может позволить.
  • Я хочу делать сайт для друзей. Могу я туда не пустить поискового робота?
    Да, можете. На сайте размещается специальный файл robots.txt с инструкциями для робота. Но это все равно не защитит от случайных посетителей, так что если ваш сайт предназначен только для друзей, стоит защитить его паролем.
  • И что, робот так все и хранит?
    В случае Google - да. И потом очень трудно заставить поисковую систему "забыть" то, что она скачала.

Но скачивание информации - это только начало. Дальше происходит "индексация" - робот анализирует скачанную страницу и формирует список слов, встречающихся в ней, подсчитывает частоту, с которой разные термины упоминаются на этой странице. В итоге формируется база данных, при помощи которой поисковая система может быстро сформировать список страниц в интернете, на которых встречается нужное слово. Но главный вопрос - как эти страницы упорядочить?

Ранжирование страниц

И вот тут включается система ранжирования страниц. Она постоянно претерпевает изменения - поисковые системы пытаются сделать так, чтобы доносить до пользователей наиболее релевантный контент, вебмастера же постоянно пытаются сделать так, чтобы именно их сайт находился на верхних позициях. И временами кто-нибудь открывает новый секрет, как поисковую систему обмануть и очень хорошо "продвинуть" свои сайты. Если подобным трюком начинают пользоваться массово, то поисковая выдача от этого портится - люди начинают "находить" в поиске сайты, не отвечающие на их запросы, но, допустим содержащие рекламу ресурсов, уже способных дать ответ. Такой посредник, в принципе, ищущему и не нужен, он бы предпочел, чтобы Google его сразу направил по месту назначения. Так что "война" поисковых систем и вебмастеров всегда продолжается. Как-нибудь я напишу о ней подробней, а пока хочу лишь осветить самые основы системы ранжирования.

Каковы принципы ранжирования? На начальной стадии развития поисковых систем использовались лишь так называемые "внутренние признаки" - поисковая система лишь анализировала страницу и смотрела, как часто в ней встречается ключевое слово, не является оно названием сайта, в какой части страницы его можно найти и.т.п. Но это как раз и было использовано в определенном круге вебмастеров, и стали создаваться специальные сайты, так называемые дорвеи, оптимизированные под заданные ключевые слова и взлетавшие вверх в поисковом ранжировании.

Внешние признаки

В связи с этим поисковым системам пришлось начать использовать также и "внешние признаки" - количество ссылок на страницу извне. У Google даже разработана система ранга страниц - каждой странице в интернете соответствует число от 0 до 10, ее ранг. Эти ранги периодически пересчитываются - во время перечсета учитывается количество страниц, ссылающихся на данную и их ранги. В интернете попадаются формулы расчета ранга - что-нибудь вроде "PR( A) = (1-d) + d(PR(t1)/C(t1) + … + PR(tn)/C(tn))".

В связи с тем, что необходимо, чтобы на ваш сайт ссылались, возникает определенный род деятельности под названием продвижение сайта (по ссылке - сайт одной из компаний, занимающихся такой деятельностью). Суть продвижения на данный момент (грубо говоря) заключается в том, чтобы на ваш сайт начинали ссылаться другие хорошие сайты. Поисковые системы борются с откровенной покупкой ссылок, но когда ссылка качественно вписана в текст, соответствует теме статьи, никто не может сказать, является она "покупной" или "естественной".

Так или иначе, теперь вы можете оценить эти объемы данных и сложности расчетов, проделываемые поисковыми системами. И все это делается для того, чтобы на каждый поисковый запрос можно было получить релевантный ответ!

Дата: 4 мая 2010 г., категория: для вебмастеров и не только.

Хотите знать все об интернете?

Введите свой адрес электронной почты чтобы подписаться на обновления!



Доставляется при помощи FeedBurner. Никакого спама. Всегда можно отписаться!

Загружается, подождите...
← Взлом WiFiСпособы заработка в интернете →

Комментарии

1#

Winx
9 мая 2010 г. 17:19:48

Спасибо за простое изложение основ поиска.
 

2#

ir mir
11 мая 2010 г. 10:57:02

Кажется, Yandex, которого я никогда не боялась, тоже хранит мно-о-ого информации. Хоть МАС меняй, что ли?
 

3#

Sander ok
11 мая 2010 г. 11:05:05

Яндекс хранит много, но поменьше Гугла.
Что касается MAC, мне кажется, его поисковики не знают. Кроме того, подменить MAC - вообще не проблема!
 

Подписаться на: комментарии к статье (rss), комментарии к статье (e-mail)

[*] Авторизоваться при помощи профиля Google (и не только)
Самые активные участники сайта:

Хотите разместить здесь свою аватарку? Авторизуйтесь, загружайте картинку и комментируйте!
Имя:

E-mail (если хотите подписаться на комментарии):

Сайт (не обязательно):

Я - робот! (снимите галочку, если это не так)
Для блоггеров: если вы хотите чтобы ваша ссылка индексировалась поисковыми системами, вам нужно авторизоваться при помощи Google Friend Connect и написать осмысленный комментарий по теме. В таком случае я переведу ваш аккаунт в разряд "trusted". Комментарии пользователей с проверенным аккаунтом не попадают на модерацию, ссылки индексируются, а рядом с ником стоит значок с зеленой галочкой. Да, модерацию могут пройти только ссылки IT-тематики! Внимание: если вы не авторизуетесь, я не смогу сделать вашу ссылку активной даже если мне понравятся ресурс и комментарий!
Комментарий:

Подписаться на  комментарии к статье (rss), комментарии к статье (e-mail)