Главная / Восстановление данных / Релевантность страницы запросу. Что такое релевантность. Основные факторы ранжирования в Яндексе и Гугле

Релевантность страницы запросу. Что такое релевантность. Основные факторы ранжирования в Яндексе и Гугле

Здравствуйте, уважаемые читатели блога сайт. Сегодня я хочу поговорить о таких банальных для многих вебмастеров и оптимизаторов понятиях, как ранжирование и релевантность (это те термины, которые будут присутствовать в большинстве публикаций на тему SEO). Хотя для начинающих вебмастеров они не сразу становятся понятными и очевидными.

Конечно же, ничего сложного в этих терминах нет и главную проблему они представляют именно для поисковых систем. Им кровь из носа нужно максимально точно выстраивать иерархию сайтов и найти идеальные способы определения соответствия документа (веб страницы) запросу пользователя.

Релевантность и ранжирование - что это такое

Эти самые асессоры выносят оценки определенному количеству сайтов по определенному количеству запросов. Таким образом осуществляется обучение алгоритма, который подробно изучает помеченные асессорами хорошие и плохие ресурсы, выделяет факторы, по которым можно их ранжировать и уже потом, опираясь на них, сам пытается отделить зерна от плевел в масштабах всего рунета.

При ранжировании в Яндексе учитывается более 400 факторов. Причем они могут учитываться как отдельно, так и в качестве мономов (произведение нескольких факторов). Следовательно, если один из них в мономе будет нулевой, то он может свести на нет и влияние других, не нулевых факторов. Т.о. мы должны понимать, что не возможно однобокое продвижение — сейчас работает только комплексная раскрутка сайта по всем возможным направлениям.

Что примечательно, в Яндексе используются отдельные формулы для разных регионов России, отдельные формулы для стран СНГ (Белоруссия, Казахстан и Украина) и Турции. Т.о. алгоритм работает в автоматическом режиме, однако иногда используются полуавтоматические и ручные действия, направленные на корректировку поисковой выдачи в сторону повышения ее релевантности.

Информации по типу используемой формулы в Google гораздо меньше. Не совсем ясно, что используется — ручной или самообучающийся автоматический алгоритм на вроде MatrixNet. По слухам, Гугл все же использует ручную формулу ранжирования, аргументируя это тем, что результаты выдачи автоматической иногда могут быть непредсказуемыми (чем, собственно, славится Яндекс).

По отрывочным сведениям можно сделать вывод, что поиск Google так же использует большое количество факторов ранжирования, но тем не менее несколько меньшее, чем лидер российского проката. Речь идет о паре сотен факторов. И как я уже писал в статье про , он имеет отдельные формулы релевантности для разных стран. Внутри же стран разбиения по регионам (как в Яндексе) отсутствует. По крайней мере это можно с точностью сказать применительно к рунету.

Основные факторы ранжирования в Яндексе и Гугле

Внутренние факторы

Их можно подразделить на три категории:

Текстовое ранжирование — насколько текст документа соответствует запросу пользователя
— насколько данный текст уникален (авторский ли он), насколько он грамотный с точки зрения русского языка и насколько он близок к естественному:
1. Уникальный контент — скопирован ли текст с других сайтов (читайте тут про и способы его пресечения) или же написан вами или профессиональным
2. Вторичность контента — недавно Яндекс предоставил в режиме альфа тестирования вебмастерам возможность застолбить за собой авторство на контент, путем добавления текста в соответствующую . Т.о. вас признают автором текста, а все дубли статьи, разошедшиеся по интернету, будут играть уже не во вред, а на пользу вашему сайту. Т.е. копирование вашей статьи будет говорить о добавлении вам авторитетности и, грубо говоря, может быть приравнено к проставленной на вас ссылке. О как.
3. Естественность контента — с помощью математической лингвистики поисковик считает количество вхождений частей речи и сопоставляет его со средним значением по всей остальной базе текстов, которая у него имеется (по корпусу проиндексированных документов). Математика — величайшая из наук (и моя любимая), с помощью нее легко можно будет определить неестественность текста , при попытке искусственно повысить его релевантность лишними ключевыми словами
4. Ненормативная и адалт — лучше этого избегать, ибо текст может попасть под соответствующий фильтр
Свойства самого сайта — входят ли ключевые слова в название домена, возраст ресурса и домена, количество страниц:
1. Возраст сайта (с момента попадания в поисковый индекс, а не с момента регистрации домена) и возраст документа, релевантность которого оценивается поисковиком. Это очень важный в Яндексе (если сайту меньше года, то он не сможет пробиться в Топ по более-менее конкурентным запросам, а полную силу ресурс набирает где-то через три года), да и в Google есть похожий временной фактор, который называется песочница, когда молодые сайты не могут хорошо ранжироваться.
2. Формат документа, релевантность которого оценивается поисковой системой. Лучше всего и в Яндексе, и в Google ранжируются обычные Html документы, а форматы Pdf, Doc и другие, хоть и индексируются, но продвигать лучше именно страницы с ХТМЛ кодом.
3. Использование ключевых слов в — поисковики это до определенного момента очень любили, но с некоторых пор за это можно попасть под фильтр Гугла, если он посчитает это нужным.
4. Наличие всплывающих баннеров может привести к пессимизации ресурса (понижении в позициях результата поиска за счет вычитания значения релевантности)
5. Плохие доменные зоны и плохие Ip адреса хостинга — поисковики зачастую гребут всех под одну гребенку и если вам не повезло зарегистрировать домен в заспамленной доменной зоне, или же не повезло купить дешевый или получить на Ip адресе, где висит еще масса ГС ресурсов, то все может быть очень и очень печально в плане плохих позиций вашего сайта. Также, если на вас зарегистрировано много ГС, а вы на те же данные потом регистрируете СДЛ, то его ранжирование может быть занижено из-за анализа поисковиком данных .

Внешние или ссылочные факторыранжирования

Их можно разделить на две категории:

Статические факторы, не зависящие от того, по какому именно запросу поисковик должен определить релевантность данного документа. К ним можно отнести , и т.п.
Динамические факторы или ссылочное ранжирование — насколько релевантны тексты ведущих на данный документ ссылок (надо добавлять в ) тому запросу, который вводит пользователь в поисковой строке.

Пользовательские или поведенческие факторы

Учитывается, как себя ведет пользователь на странице выдачи и как он себя ведет после того, как перешел на сайт:

Кликабельность (CTR) вашего ресурса в результатах поиска — один из самых влиятельных поведенческих факторов и одновременно один из самых неоднозначных, ибо если вашего сайта нет в Топе, то и кликов никаких по нему не будет, а если у вас нету кликов, то как вы попадете в топ. Все это приводит к постепенной стабилизации ресурсов находящихся в Топе — их очень сложно будет оттуда выбить именно за счет высокой кликабельности (CTR).
— фактор, который может опираться на анализ и учет источников трафика на ваш сайт (поисковый трафик, переходы с закладок и др). Значимость его не так высока, как у кликабельности.
Поведение пользователей на странице — могут учитываться активные действия, проведенное на ней время, внутренние переходы и переходы на другие ресурсы.
Поисковики могут делать отдельные выборки среди всех пользователей посещающих данную страницу. Например, может отдельно анализироваться поведение посетителей пришедших именно по тому запросу, по которому поисковик в данный момент ранжирует ваш сайт. Может отдельно учитываться поведение пользователей отдельного региона, где вы пытаетесь продвигаться.
Для того, чтобы улучшить поведенческие факторы, нужно:
1. Чтобы целевая страница полностью отвечала на поисковый запрос, по которому вы ее продвигаете
2. Желательно, чтобы целевая страница побуждала пользователя к дальнейшим действиям, будь то заказ товара в магазине или же переход к прочтению другой статьи на информационном ресурсе
3. Ваш сайт должен вызывать у пользователей доверие и расположение, для чего необходимо использовать уникальный и приятный дизайн, а также стремиться к тому, чтобы как можно больше отличаться в выгодную сторону от ГС и сателитов
4. Ресурс должен быть удобным для пользователя, ибо юзабилити способно кардинально влиять на дальнейшее поведение посетителя на вашем проекте
5. Нужно думать о , ибо они напрямую влияют на один из самых значимых поведенческих факторов ранжирования — кликабельность в результатах поиска
6. Страницы вашего ресурса должны одинаково хорошо отображаться во всех , иначе вы потеряете какую-то часть поведенческих плюсов от тех посетителей, которые юзают тот браузер, о котором вы не подумали при верстке
7. На вашем сайте не должно быть проблем с
8. Ваш ресурс должен работать стабильно и бесперебойно, что в основном определяется качеством хостинга. описанными по ссылке способами.

Региональные факторы

Учитываются при определении релевантности — последнее время они очень заметны в Яндексе, когда в выдачах по какому-либо региону России отдается предпочтение ресурсам относящимся именно к этому региону. Что же будет влиять на ранжирование документа в данном конкретном регионе:

Тут важен выбор правильной доменной зоны, соответствующей региону, в котором вы хотите успешно продвигаться (для России — зона «ru» и т.д.).
Присвоить сайту соответствующий регион в Яндекс Вебмастере и
Употреблять названия требуемого региона в текстах документов и анкорах входящих ссылок для лучшего последующего положения ресурса именно в выдаче по данному конкретному региону
Стараться получать входящие ссылки с сайтов, принадлежащих к тому же самому региону, где вы хотите высоко ранжироваться
Добавить на страницы своего проекта адреса, почтовые индексы и телефоны того региона, где вы хотите попасть Топ

Запросные факторы

Скорее всего для коммерческих и информационных запросов используются разные формулы расчета релевантности. Также разная формула может использоваться и для различных типов запросов (навигационные, транзакционные и т.п.) и даже количество слов в запросе может влиять на тип используемой формулы.

Если сейчас и не используются на полную катушку, то вскоре обязательно будут использоваться так называемые социальные сигналы (особенно в свете достигнутых договоренностей между Яндексом и ). В рунете социальные сети (влияющие если не сейчас, то в скором времени) — это «В контакте» и Facebook.
Станет ли такой можно почитать, пока не ясно, но я бы советовал устанавливать на каждую страницу сайта вкупе с .

Удачи вам! До скорых встреч на страницах блога сайт

Вам может быть интересно

СЕО терминология, сокращения и жаргон
Поисковая оптимизация текстов - оптимальная частота употребления ключевых слов и его идеальная длина
Как ключевые слова влияют на продвижение сайта в поисковых системах
Расшифровка и разъяснение Seo сокращений, терминов и жаргонизмов
Какие факторы поисковой оптимизации влияют на продвижение сайта и в какой степени
Анкор - что это такое и насколько они важны в продвижении сайта
Как работают поисковые системы - сниппеты, алгоритм обратного поиска, индексация страниц и особенности работы Яндекса
Учет морфология языка и другие проблемы решаемые поисковыми системами, а так же отличие ВЧ, СЧ и НЧ запросов
Контент для сайта - как наполнение уникальным и полезным контентом помогает в современном продвижении сайтов

Дадим определения основным понятиям, которые будут использоваться далее.

Релева́нтность (лат.relevo - поднимать, облегчать) винформационном поиске- семантическое соответствие поискового запроса и поискового образа документа. В более общем смысле, одно из наиболее близких понятию качества «релевантности» - «адекватность», то есть не только оценка степени соответствия, но и степени практической применимости результата, а также степени социальной применимости варианта решения задачи.

Релевантность бывает двух видов:

формальная

формальная релевантность определяется как соответствие, определяемое путем сравнения образа поискового запроса с поисковым образом документа по определенному алгоритму.

Другим важным термином является пертинентность. Дадим определение этому понятию:

Пертине́нтность (лат.pertineo - касаюсь, отношусь) - соответствие найденных информационно-поисковой системой документов информационным потребностям пользователя, независимо от того, как полно и как точно эта информационная потребность выражена в тексте информационного запроса. Иначе говоря, это соотношение объёма полезной информации к общему объёму полученной информации.

Из того, что документ является релевантным какому-то запросу, вообще говоря, не следует, что он является пертинентным, и наоборот.

Перейдем к рассмотрению основных функций, используемых для оценки релевантности документа запросу.

Функции оценки релевантности

Рассмотрим три наиболее часто используемые функции оценки релевантности:

Этот метод подсчета релевантности результатов поиска является достаточно распространенным, возможно, в силу простоты и привлекательности заложенной в нем идеи. Суть этого метода заключается в том, что, чем больше локальная частота термина (запроса) (TF–termfrequency) в документе и больше «редкость» термина во всей коллекции документов, тем выше вес данного документа (результата поиска) по отношению к термину. Именно документ, имеющий наибольший вес по отношению к конкретному термину, будет выдан первым в результатах поиска по данному термину.

Приведем один из вариантов формулы расчета этого показателя:

TF (term frequency - частота слова) - отношение числа вхождения некоторого слова к общему количеству слов документа. Так оценивается важность слова t в пределах отдельного документа. Вычисляется этот показатель обычно так:

Где n i есть число вхождений слова t в документ, а в знаменателе находится общее число слов в документе d

IDF (inverse document frequency - обратная частота документа) - инверсия частоты, с которой некоторое слово встречается в документах коллекции. Учёт IDF уменьшает вес широкоупотребительных слов.

, где |D| - количество документов в коллекции документов, а- количество документов, в которых встречаетсяt(иногда, чтобы избежать возможного деления на 0, к знаменателю прибавляют 1 или же вычисляютidfтолько в случае, еслиtf(t,d) не равно 0).

Результирующая мера получается при помощи перемножения полученных чисел tfиidf.

Вообще говоря, показатель TFнеобязательно вычислять именно отношением числа вхождений слова в документ к общему количеству слов. Возможно большое количество модификаций этого показателя. Так, иногда вычисляют логарифм полученной величиныTFи т.п.

Прочитав отзывы о Толоке, я тоже решила попробовать там поработать. Тем более основная работа в офисе за компьютером располагает к этому занятию)

16 ноября я зарегистрировалась. Моим первым заданием было - Гео/не гео . Видимо, я плохо его сделала, так как больше это задание мне не приходит. Точнее, я его не вижу в списке заданий)

Немного разобравшись что и как, мои дела пошли в гору)

В первый же день Я.Щит присвоил мне навык 60 по типу задания Идентификация данных для взрослых на картинках / Определение скриншотов документов с контентом для взрослых.

В пятницу я получила навык 80 по типу задания Оценка сайтов бок-о-бок . Эти задания и правда я выполняю хорошо.

Какие задания мне нравятся:

VDP-Video. Делается очень быстро. Мне больше всего нравится это задание
Категоризация фотографий недвижимости
Бок-о-бок
Идентификация данных для взрослых на картинках / Определение скриншотов документов с контентом для взрослых от Я.Щит- рейтинг неуклонно растёт на 1-2 пункта
Бинарная релевантность веб-страниц
Релевантность (5 градаций)

Есть одно задание за 0,04 $, которое мне не нравится и я его не берусь делать - Фактчекинговые запросы. Много мороки с ним.

2 задания у меня находятся на проверке - как видно по скриншоту - до 30 ноября. То есть целых 10 дней.

Итоги за 5 дней:

Без особого труда я заработала 2,16 доллара, то есть 139 рублей. Потратив на это примерно 1-1,5 часа в день.

Сервис имеет удобный интерфейс, задания до скуки просты. Проблем с загрузкой не было ни разу.

Минусы - это вынужденный просмотр (хоть и мельком) порно, извращений. И заданий маловато. Но уж если появляются - я сначала "беру", а потом уже читаю инструкцию и выполняю.

Деньги ещё не выводила - буду копить минимум до 500 рублей. Привяжу PayPal, который у меня как раз без дела...

Рекомендую попробовать данный вид заработка. Лично я не отношусь к нему слишком серьёзно. Не напрягаюсь насчет рейтинга и навыков, как многие (судя по форуму), просто выполняю задания быстро и согласно инструкции.

30.11.2015 За вторую неделю работы на Толоке - точнее 5 дней, так как в выходные я не заглядывала на сайт, мой баланс пополнился на 2,34 доллара . Начисления за всё время - 4,50 (298 рублей) .

Появились новые задания:

абсолютный - 6,6 относительный - 42%.

Навык по заданиям оценка сайтов бок-о-бок вырос с 80 до 85. Сегодня уже сделала это задание на сумму 0,36$, но проверка до 10 декабря. Только тогда они зачислят деньги.

07.12.2015 Третья неделя была богата на задания, даже в воскресенье. Заработала 2,92 $ . То есть с каждой неделей мой заработок по-понемногу растёт. Появляются новые задания. На рейтинг и навыки я теперь обращаю внимание, так как от них зависит наличие заданий.

Получила новый навык 100 по заданию Категоризация фотографий недвижимости - предельно простое задание.

15.12.2015 Недавно впервые вывела деньги 9$ на палку (так друг называет PAYPAL). 9го декабря заказала вывод, а 11го деньги уже поступили на счёт. Всего за 2 дня . Всего же за месяц я заработала немного - 12,10$ за 686 выполненных заданий. (852 рубля)

24.12.2015 Рейтинг держится на высоком уровне 23,6/87 . Никаких "падений" навыков у меня не было (как у других). Новые задания были "спустя рукава"(определить длину рукава) и про пиво. Даже в выходные есть задания. Как-то раз вообще штук 10 заданий было на главной странице - "фактчекинговые запросы. верификация". Такое видела впервые! Самое дорогое - за 0,04$ Фактчекинговые запросы .

По поводу форума - несмотря на наличие там нытиков, требующих заданий и жалующихся на их отсутствие, всё же советую почитывать его. Там можно узнать полезную информацию по заданиям, найти ответы на разные вопросы по сервису и самим задать свой вопрос заказчикам.

18.01.2016 Прошло 2 месяца после моей регистрации. Я по-прежнему каждый день, кроме выходных. (разве что иногда) выполняю несложные задания и коплю денежки. Сделала 3 перевода на счет PAYPAL. С него на карту ещё не переводила.

На днях я вновь получила доступ к заданию Классификация фото гео/не гео. На этот раз я постаралась не ошибиться. Мне удалось хорошо пройти тренировку, получив навык 91.)

22.01.2016 Последние новости - вчера прошла Видеокурс по оценке релевантности веб-страниц. Задание интересное, но не очень простое - надо оценить страницу, выбрав одну из 5 вариантов оценки. После обучения мне стали доступны задания разной стоимости от 0,04 и до 0,12! Это самые высокооплачиваемые задания из всех! К тому же делается достаточно быстро. Но - навык по нему меняется сразу после выполнения. У меня сначала был 50, потом повысился до 81, затем опустился до 67. Лучше делать правильно, иначе задания станут недоступны.

Мой заработок существенно вырос от 1,5$ до 3$ в день. И это не предел! Хотя раньше за неделю 2 $ зарабатывала. За месяц 2-3 тысячи рублей - это очень хороший результат при нынешнем курсе рубля.

Надо ли говорить, как это воодушевило меня)

19.05.2016 Давно не обновляла отзыв. Хочу добавить по поводу новых заданий: они появляются, что приятно. Например сегодня я заработала 0,60$ на "Поиске фото и видео". Оно интересное и быстрое

Формальные оценки релевантности можно получить только для релевантности первого рода, т.е. для релевантности в исходном ее понимании в теории информационного поиска.

Для введения критерия релевантности следует задать процедуру определения меры семантической близости поискового образа документа поисковому образу запроса и некоторое пороговое значение этой меры. Если мера превышает пороговое значение, то документ релевантен запросу.

ПОД и ПОЗ представляют собой множества ключевых слов или дескрипторов в зависимости от вида информационно-поискового языка. Для их сопоставления используют критерии смыслового соответствия, которые определяют на основе совпадения ключевых слов (дескрипторов) в ПОД и ПОЗ.

ПОД и ПОЗ можно представить в виде четких и нечетких множеств.

Для четких множеств вводят нормированную меру релевантности

Критерий смыслового соответствия можно представить в виде

где μβ (а, b) – функция вычисления меры релевантности (или просто мера релевантности); α – пороговое значение релевантности, такое, что

Изменяя пороговое значение а, можно организовать выдачу различных совокупностей документов, которую в теории информационного поиска называют эшелонированной выдачей. Каждый эшелон соответствует определенной мере семантической близости совокупности документов запросу.

Очевидно, что чем больше пороговое значение а, тем более жесткие условия налагаются на смысловую близость документа запросу. В нормированных мерах при α = 1 для выдачи документа требуется полное совпадение ПОД и ПОЗ.

Оценку релевантности можно характеризовать полнотой выдачи (или потерями), т.е. числом невыданных релевантных документов, и точностью (или шумом), т.е. числом или процентом "лишних" документов, которые выданы в результате поиска, но не являются релевантными.

Например, в оценки полноты R и точности Т вводятся следующим образом:

где a i – число релевантных документов, формально выданных системой на i -й запрос; m i – число всех формально выданных на i-запрос системой документов; и, – число всех релевантных документов, соответствующих запросу.

= средние относительные оценки;

–суммарные относительные оценки, где N – число поисков.

Величины (1-7) и (I – R) называются соответственно шумом и потерями.

В работах А. И. Михайлова, А. И. Чёрного и Р. С. Гиляревского предлагается наглядная матрица для определения полноты и потерь, точности и шума (табл. 6.5).

Таблица 6.5

Матрица для определения критериев релевантности

Полноту поиска измеряют отношением числа выданных релевантных документов (а ) к общему числу релевантных документов массива (а + с):

Точность поиска Г – отношение числа выданных релевантных документов (а) к числу общему выданных документов (а + b):

Соответственно, потери L и шум S можно представить следующим образом:

В предлагается, проведя серию экспериментов п по определению полноты и точности поиска, определить среднюю полноту и среднюю точность:

Используются и иные способы усреднения (см., например, в ). Например, в связи с оценкой системы СМАРТ Сэлтон ввел нормированную полноту R N и нормированную точность P N:

где N – число документов в массиве; п – число всех релевантных документов в массиве; n i – число релевантных документов, выданных до i -го ранга включительно;

где i – номер ранга.

В предлагается также, пользуясь табл. 5.4, ввести (с определенной степенью приближения) показатели в терминах теории вероятностей:

Предлагались и другие способы оценки релевантности (см. обзор в ).

Например, со способами применения для оценки релевантности нечетких множеств можно познакомиться в работе Г. Ю. Максимовича, А. Г. Романенко, О. Ф. Самойлюк

К числу показателей функциональной эффективности названные авторы предлагают относить также оперативность поиска; специфичность поиска С – отношение числа невыданных нерелевантных документов (d ) к общему числу нерелевантных документов (d + b), где b – число выданных нерелевантных документов:

С учетом того, что на практике при оценке ИПС с большими массивами информации точные измерения числа релевантных и нерелевантных документов в общем массиве или в массивах выданных документов затруднено, предлагают использовать энтропийные показатели.

Энтропийные меры могут быть получены на основе исследования выборки из информационного массива, т.е. могут использоваться вероятностные меры неопределенности исходного массива р0, массива выданных р 1 и массива невыданных р 2 документов, вычисленные на их основе #0, Н B, Н нв и соответствующие меры W.

В частности, предлагается интегральный энтропийный показатель как мера упорядоченности поискового массива документов, являющаяся результатом процесса поиска по заданному запросу:

где Н 0 – допоисковая (априорная) энтропия; Н п – послепоисковая (апостериорная) энтропия.

При этом для измерения априорной и апостериорной энтропии предлагается использовать меры концентрации релевантных документов в общем массиве, в массиве выданных документов и в массиве невыданных документов, в относительных единицах:

где а – число релевантных документов, выданных в результате поиска; г – число релевантных, не выданных в результате поиска; g – число нерелевантных документов, выданных в результате поиска; d – число нерелевантных документов, невыданных в результате поиска.

Энтропийная мера может быть представлена и в логарифмической форме.

Например, для оценки энтропии используются натуральная логарифмическая мера (т.е. неопределенность измеряется в неперах Нп):

– неопределенность исходного массива;

– неопределенность массива выданных документов:

– неопределенность массива невыданных документов:

При формировании подобных мер могут быть использованы и иные логарифмические шкалы: двоичные логарифмы (биты), восьмеричные логарифмы (байты), десятичные логарифмы.

Определение полноты системы связано с определением содержательной выдачи на каждый запрос.

Существует несколько способов (методов) определения этой выдачи:

сплошной просмотр всего экспериментального массива. Достоинством этого способа является надежность, недостатком – трудоемкость;
метод документа-источника ("метод Клевердона"). Состоит в том, что по некоторым документам массива, выбранным более или менее случайно, составляются запросы с таким расчетом, чтобы каждый документ-источник был релевантен составленному по нему запросу;
метод контрольных документов. По запросу, полученному по произвольно выбранному документу-источнику, проводится содержательный поиск путем сплошного просмотра массива, начиная, например, с документа-источника, до нахождения первого релевантного документа, который объявляется контрольным. Значение полноты для системы считается теперь как доля запросов, по которым система выдала контрольный документ в общем количестве запросов;
метод объединения формальных выдач. Применяется при сравнении нескольких поисковых систем ("оценка-шкала"), Он состоит в том, что по каждому запросу эксперт просматривает только те документы, которые выдавались хотя бы одной из этих поисковых систем. Содержательной выдачей считается совокупность обнаруженных релевантных документов, и относительно нее определяется полнота, которая отличается от истинной полноты каждой из рассматриваемых систем.

Вопрос о представительности массива документов и массива запросов, выбранных для определения формальных оценок, в общем виде не решен. Считается, что более или менее устойчивые оценки (колебания не превышают 5%) можно получить на массиве в 4000 документов, массив запросов при этом должен быть порядка нескольких сотен.

Таким образом, релевантность (формальная) характеризует свойства средств логико-семантического аппарата информационно-поисковой системы и зависит от возможности отображения ПОД и ПОЗ с помощью информационнопоискового языка, принятых в ИПС алгоритмов поиска и системы индексирования.

Максимович Г. Ю. Информационные системы / Г. Ю. Максимович, А. Г. Романенко, О. Ф. Самойлюк. М.: Изд-во Рос. экон. акад., 1999.
Максимович Г. Ю. Информационные системы / Г. Ю. Максимович, А. Г. Романенко, О. Ф. Самойлюк. М.: Изд-во Рос. экон. акад., 1999.

Кто такие асессоры? Асессоры Яндекса или Google – это люди-оценщики релевантности документов, которые составляют списки вида: страница – запрос – релевантность. Подобных страниц в списках довольно много. При этом их релевантность свободно варьируется между показателями: от, совсем нерелевантно, до, полностью релевантно. Асессоры действуют строго по инструкции.
Оценки собранные асессорами потом используются для настройки алгоритма ранжирования в поисковой системе.

Практическое значение для seo наличия асессоров состоит в том, что они не дают заведомо плохим сайтам долго находится в ТОП 10. Оценщики поисковых систем вручную просматривают каждый сайт определенной тематики и топа, выставляя определенные оценки документам. И если страница сайта находится в ТОП, но оценщик поставил нерелевантно, то эта оценка при последующей настройке алгоритма может привести к понижению позиций данного документа.

Видео: Асессоры Яндекса: откуда взялись, зачем нужны, как работают

Асессорами, как правило, проверяются только наиболее высокочастотные запросы, а низкочастотные остаются без их внимания.

Асессоры Yandex оценивают сайт по определенной шкале. Сейчас шкала имеет следующие оценки :

релевантный + (отвечает на запрос);
релевантный — (не в полной мере отвечает на запрос);
полезный (дает авторитетный, полный и полезный ответ на запрос);
витальный (однозначно на 1 месте в топе);
нерелевантный (не отвечает на запрос);
не отображается.

Сайты оцениваются по мультиобъектным, мультиинтентным, однозначным, информационным, объектным, локализуемым, товарным и другим видам запросов.

«Релевантный-» и «нерелевантный» относятся к отрицательным оценкам. Обе эти оценки означают, что страница не дает хорошего ответа. Пользователь найдя такую страницу, скорей всего не удовлетворится ответом и продолжит поиск.

Особенности оценки Релевантный-

Документ содержит частичный, неполный ответ. Сюда относятся:

неполный, недостаточный ответ (пример: «ООО Васильки» — краткая визитка только с телефоном и адресом);
расширение запроса (пример: «сервисы сеовинд» — главная страница сайт, а пользователь ищет конкретный раздел сайта) ;
сужение запроса (пример: «диеты на каждый день» — только 1 диета, а люди хотят список диет);
документ отвечает на маловероятную трактовку запроса, маловероятную потребность (пример: «контакт» — страница про фильм контакт (а люди хотят социальную сеть).

Вывод : Документы с оценкой «релевантный-» не являются полноценным ответом на запрос, но содержат небесполезную информацию.

Особенности оценки Нерелевантный

Документ полностью бесполезен по конкретному запросу.

страница полностью на совершенно бесполезную тему (пример: «Elikor Сатурн 50» — ответ про планету, вместо ответа про вытяжку);
страница по теме запроса, которая не решает задачу пользователя (пример: «физрук смотреть онлайн» — ответ с рецензией на фильм);
ответ из неподходящего региона, если пользователю важен регион ответа (пример: «погода» — ответ с прогнозом погоды для другого города, а пользователь ждем для своего);
устаревший ответ, если он не представляет ценности (пример: «новости» — ответ с новостями месячной давности);
поддельные, мошеннические ответы.

Вывод : нерелевантные документы — это бесполезные ответы, которые ничем не помогут пользователю в решении его задачи.

Особенности оценки Витальный ответ

Витальный ответ — это официальный ответ, своего рода документ-правообладатель или первоисточник искомой информации.

Пример витального запроса — «вконтакте». Здесь пользователь ищет конкретный сайт социальной сети Вконтакте — vk.com, который и был бы витальным ответом.

Пример не витального запроса — «новости про вконтакте». Это не витальный запроса, так как нет единственного централизованного источника новостей.

Еще пример: запрос «действующие налоги». Это запрос, который может иметь витальный ответ, так как есть обычно сайт первоисточник, на котором опубликована нормативная документация по действующим налогам.

Особенности оценки Релевантный+ и Полезный

Оценки релевантный+ и полезный означают, что документ — хороший ответ на запрос пользователя, который помогает в решении его задачи, и пользователь, скорей всего удовлетворится найденным результатом.

Если у запроса есть несколько возможных целей и трактовок, то релевантный+ или полезный документ должен хорошо отвечать на любую основную из них.

Например, запрос музыкальной композиции может подразумевать поиск клипа, возможности прослушать песню онлайн или скачать ее. Ответ на любую из этих потребностей может заслужить положительную оценку.

Или, пример, запрос [лук] может подразумевать поиск информации об растении и оружии. Обе трактовки достаточно популярны, и поэтому ответ на любую из них может заслужить положительную оценку.

Особенности оценки релевантный+ : документ содержит нормальный, удовлетворительный ответ и решает задачу пользователя. При этом документ не выделяется среди прочих хороших ответов на запрос.

Особенности оценки полезный : эта оценка ставится документам, которые хочется особо выделить среди прочих хороших ответов. Полезный документ может выделяться своей известностью, авторитетностью, высоким уровнем доверия среди пользователей, удобством, качеством (даже если сайт не очень известен).

Локализуемость запросов

Локализуемость запросов — это влияние региона ответа на его ценность для пользователя.

Можно выделить запросы, для которых:

регион ответа важен (пользователь ожидает найти ответы, подходящие для определенного региона);
регион ответа не важен (информация, которую ищет пользователь, не зависит от региона).

Примеры запросов для которых регион ответа не важен: информационные запросы (как продвинуть сайт), поиск уникальных или известных объектов (русский музей), поиск конкретных сайтов (вконтакте). По всем подобным запросам важно найти нужные материалы (статьи, сайты), и не имеет значения, из какого региона происходит такой ответ.

Примеры запросов, где регион ответа имеет значение: поиск товаров и услуг (заказать продвижение), законодательство (налоговая), органы власти, нормативная документация (закон о защите прав потребителей), некоторые информационные запросы (погода, курс валют, новости), поиск организации (seowind контакты). Пользователю важно найти предложения или услуги в подходящем ему регионе. Аналогичные предложения из других регионов могут быть бесполезны!

Оценка актуальности

Для некоторых запросов очень важно находить свежий контент. По мере устаревания полезность ранее актуальных ответов может меняться.

Пример запросов для которых актуальность ответов не имеет значения : некоторые информационные запросы (кто такие асессоры, что такое seo).

Примеры запросов для которых актуальность ответов важна : новости, расписание, прогноз, нормативная документация, события, спортивные турниры, запросы известных людей, сервисов. По мере устаревания запросы будут терять ценность. Некоторые устаревшие ответы могут сохранять частичную полезность, другие же — становятся полностью бесполезными.

В процессе устаревания новость теряет свою ценностью. Устаревшие новости могут быть полностью бесполезным ответом, либо частично сохранять свою ценность.

Инструкции

Асессоры действуют по инструкциям, где чётко прописано, как определять релевантность сайта той или иной направленности. Иногда эти инструкции появляются в свободном доступе.

В настоящее время в свободном доступе находится инструкция для асессоров Google 5 версии от 31 мартя 2014 года. Скачать Вы ее можете .

Инструкция для асессоров Яндекса также есть в свободном доступе. Поищите! Выложить ссылку на скачивание не представляется возможным, так как Яндекс борется с этим.