О великий и могучий поиск ....посвящается тебе

Зачем нам поиск


Когда скапливается большая куча документов, разобратся в них, а уж тем более что то там найти становиться крайне трудно. И тут на помощь нам приходит ПОИСК. Вещь нужная и полезная. Но одно дело мы хотим найти что то среди равно кучи документов, а другое....
Нам надо не просто найти некую составляющую но еще и отсортировать документы, там чтоб нам было удобнее. А как нам будет удобнее ...по значимости, каждого документа к данному искомому элементу.
Если на пример искомый элемент присутствует в название или заголовке документ, по всей видимости он посвещен описанию данного элемента, и он будет куда важнее и полезнее, нежели документ в тексте которого просто встретился данный элемент. А так же документ содержащий больше число искомых элементов, должен быть важнее, чем документ содержащий лишь одно вхождение.
Это упорядочивание документов и есть РАНЖИРОВАНИЕ. Примерно так же судят и ПС (поисковые системы). Но веб строится на гипертекстовых документах, т.е. документы имеющие гиперссылки (далее просто ссылки), таким образом документ может ссылатся на другой документ, как в предлах своего домена, так и на другие.
Если ссылка ограничена только данным доменом, то это внутреняя ссылка, и она может ссылатся на любой документ на данном домене,т.е. в предлах данного сайта. Если же она выходит на границы домена, ссылается на документ находящийся на другом домене, сайте, то это уже внешняя ссылка.
Так мы подходим к так называемым внешним факторам ранжирования.
По мимо факторов изложенных ранее, ссылки тоже могут приниматся как дополнительные факторы важности документа. Если на пример на данные документ ссылаются много документов с указание что там есть информация о искомом элементе, то это придает ему зачимости и весу при выборке по данному элементу. По мимо этого гораздо важней можно считать ссылку с документа, который и сам имеет важность по данному искомому элементу.

Ранжирование документов

При задавании вопроса к ПС (поисковой системе) мы вводим запрос, она его обрабатывает, проверяет на ошибки, приводит к стандартному виду, расставляет веса слов (всего это мы не видем).
После этого из общей базы документов, отбираются те, которые содержат нужные сам слова (имеют вхождения). Так как поиск сейчас значительно усложнился, ток ищется не только прямое (точное) вхождение, но и варинаты, на пример другие склонения, род, падеж и т.д.
Но при прочих равных, так как ПС пытается нам выдать документы содержащие максимально точную и полезную информацию, то документ содержащий точное входжение будет выше.
После отбора нужного массива документов, надо их отсортировать по важности, провести ранжирование, по данному запросу ...
и вот тут начинается самое интересное, то что скрыто за самью печатями, что является тайной и загадкой ПС ...

продолжение следует ...