Ваше местоположение в сети:
Рубрика:

Путеводитель по интернету

Поиск в сети интернет

Вы когда-нибудь задумывались над тем, как работают поисковые системы (да, это опять статья не для вебмастеров и, в особенности, не для "сеошников")? Как так получается, что вы вводите интересующий вас запрос, и сразу на экране появляются ссылки действительно по теме вашего вопроса. Просто подумайте, ведь невозможно в тот момент, когда вы ввели запрос, быстренько прошерстить весь интернет и найти наиболее адекватные, "релевантные" ответы. Так что же скрывается за внешней простотой, какая работа происходит за кадром?

Я постараюсь ответить на этот вопрос и немного раскрыть историю развития поисковых систем. И, да, эта статья не научит вас "раскручивать" свой сайт, цель ее - исключительно общеобразовательная.

spider

А за кадром происходит много что. Чтобы ваш поиск в сети интернет работал мгновенно, у поисковых систем разработана система индексации сайтов. Что это означает? Сначала на сайте появляется поисковый робот, так называемый паук, который скачивает все содержимое сайта. Я, конечно, сейчас немного упростил ситуацию, но думаю, у вас могли появиться несколько вопросов. Попробую их предвосхитить и дать ответы:

  • Откуда поисковый робот узнает о появлении нового сайта?
    Самый простой случай - он переходит на этот сайт по ссылке. Так же, как и вы могли бы увидеть где-то ссылку на сайт и перейти по ней, так и робот, анализируя содержание какой-то страницы, может обнаружить ссылку на новый сайт и добавить его в свой список для анализа. Кроме того, вебмастер сам может "попросить" поискового робота проанализировать его сайт, отправив запрос.
  • Робот действительно скачивает все?
    Нет, все-таки не все. Иначе сервера поисковой системы должны были бы содержать в себе весь интернет. Но, на самом деле, они скачивают очень много. То есть текстовая информация скачивается практически вся. Но все-таки текст по объему сильно меньше, чем, скажем, видео, так что это себе какой-нибудь Google может позволить.
  • Я хочу делать сайт для друзей. Могу я туда не пустить поискового робота?
    Да, можете. На сайте размещается специальный файл robots.txt с инструкциями для робота. Но это все равно не защитит от случайных посетителей, так что если ваш сайт предназначен только для друзей, стоит защитить его паролем.
  • И что, робот так все и хранит?
    В случае Google - да. И потом очень трудно заставить поисковую систему "забыть" то, что она скачала.

Но скачивание информации - это только начало. Дальше происходит "индексация" - робот анализирует скачанную страницу и формирует список слов, встречающихся в ней, подсчитывает частоту, с которой разные термины упоминаются на этой странице. В итоге формируется база данных, при помощи которой поисковая система может быстро сформировать список страниц в интернете, на которых встречается нужное слово. Но главный вопрос - как эти страницы упорядочить?

Ранжирование сайтов

И вот тут включается система ранжирования сайтов и их страниц. Она постоянно претерпевает изменения - поисковые системы пытаются сделать так, чтобы доносить до пользователей наиболее релевантный контент, вебмастера же постоянно пытаются сделать так, чтобы именно их сайт находился на верхних позициях. И временами кто-нибудь открывает новый секрет, как поисковую систему обмануть и очень хорошо "продвинуть" свои сайты. Если подобным трюком начинают пользоваться массово, то поисковая выдача от этого портится - люди начинают "находить" в поиске сайты, не отвечающие на их запросы, но, допустим содержащие рекламу ресурсов, уже способных дать ответ. Такой посредник, в принципе, ищущему и не нужен, он бы предпочел, чтобы Google его сразу направил по месту назначения. Так что "война" поисковых систем и вебмастеров всегда продолжается. Как-нибудь я напишу о ней подробней, а пока хочу лишь осветить самые основы системы ранжирования.

Каковы принципы ранжирования сайтов? На начальной стадии развития поисковых систем использовались лишь так называемые "внутренние признаки" - поисковая система лишь анализировала страницу и смотрела, как часто в ней встречается ключевое слово, не является оно названием сайта, в какой части страницы его можно найти и.т.п. Но это как раз и было использовано в определенном круге вебмастеров, и стали создаваться специальные сайты, так называемые дорвеи, оптимизированные под заданные ключевые слова и взлетавшие вверх в поисковом ранжировании.

Внешняя оптимизация сайтов

В связи с этим поисковым системам пришлось начать использовать также и "внешние признаки" - количество ссылок на страницу извне. У Google даже разработана система ранга страниц - каждой странице в интернете соответствует число от 0 до 10, ее ранг. Эти ранги периодически пересчитываются - во время перечсета учитывается количество страниц, ссылающихся на данную и их ранги. В интернете попадаются формулы расчета ранга - что-нибудь вроде "PR( A) = (1-d) + d(PR(t1)/C(t1) + … + PR(tn)/C(tn))".

В связи с тем, что необходимо, чтобы на ваш сайт ссылались, возникает определенный род деятельности под названием "внешняя оптимизация сайтов" или, проще, продвижение сайта (по ссылке - сайт одной из компаний, занимающихся такой деятельностью). Суть продвижения на данный момент (грубо говоря) заключается в том, чтобы на ваш сайт начинали ссылаться другие хорошие сайты. Поисковые системы борются с откровенной покупкой ссылок, но когда ссылка качественно вписана в текст, соответствует теме статьи, никто не может сказать, является она "покупной" или "естественной".

Так или иначе, теперь вы можете оценить эти объемы данных и сложности расчетов, проделываемые поисковыми системами. И все это делается для того, чтобы на каждый поисковый запрос можно было получить релевантный ответ!

Дата: 4 мая 2010 г., категория: настройка сайта.

← Взлом WiFiСпособы заработка в интернете →

comments powered by Disqus

Подписаться на  комментарии к статье (rss).