По традиции, начну со вступления. Как известно, задачу поиска, в общепринятом смысле, можно подразделить на две подзадачи:
- информационный (тематические материалы, справочная информация и т. д.)
- неинформационный (компании, сервисы, товары, услуги и т. д.)
Мне трудно судить о том, насколько сами поисковики разделяют эти два вида поиска и какие подходы используют для этого, но, судя по общей «топорности» применяемых методов, оригинальностью эти подходы не сильно отличаются.
А раз так, то попытаемся самостоятельно разобраться в этом вопросе. Здесь и далее мы будем рассматривать именно задачу информационного поиска (в вышеозвученном контексте).
Для более полного понимания сути вопроса коснемся такого немаловажного понятия как релевантность, а точнее одного из ключевых факторов — ссылочого ранжирования. Не секрет, что ссылочное ранжирование является не просто ключевым фактором оценки релевантности, но скорее определяющим. Современный поиск просто немыслим без его учета.
Но! Именно в этом и кроется, по моему мнению, главная ошибка, когда мы подходим к задаче поиска исключительно информационных материалов. Почему?
Возьмем самого обычного вебмастера. Пусть это будет пресловутый Василий П.. Наш Вася создал свой сайт и наполняет его информацией. Заметьте! Не ссылками, а информацией. Глупо полагать, что Вася будет сидеть днями и ночами пытаясь придумать
Таким образом, делаем логичный вывод, что плагиат может использоваться для определения авторитетности, т. е. быть фактором ранжирования. Причем фактором незаменимым, когда речь идет об информационном поиске.
В случае, когда речь идет о неинформационном поиске, например поиск сервисов, то вебмастер естественно не может «скопировать» на свой сайт поисковик, бесплатную почту или брэнд. В этом случае он может только поставить ссылку. И тогда вполне эффективным будет классическое ссылочное ранжирование. Но, повторюсь, в случае информационного поиска, ссылочное ранжирование может быть совершенно необъективно и в
Правда использование плагиата, как фактора ранжирования, ставит задачу определения первоисточника. Причем, замечу, задача эта в большей степени морально-этического плана, дабы не нарушались авторские права. Но с точки зрения пользователя разницы никакой нет — он в любом случае получает один и тот же материал.
Но нельзя сказать, что эта задача принципиально сложна. Прежде всего, поисковики определяют дату появления каждого документа в индексе. Уже это с большой степенью вероятности позволит определить первоисточник. Если же в индексе за короткий промежуток времени появилось несколько копий, то можно задействовать еще один фактор. Для каждого сайта вводится оценка оригинальности контента. Т. е. соотношение незаимствованных (оригинальных) документов к их общему числу. Т. е. доверие к сайту с высокой оценкой оригинальности будет выше (вот вам еще один фактор ранжирования). И эта же оценка будет определять вес «голоса» данного сайта за данный материал, а значит и за сайт-первоисточник.
Ну и в заключение хочу сказать, что я не вижу принципиальных проблем на пути реализации данного подхода к оценке информационного наполнения сайтов. Вся необходимая информация для этого у поисковых систем есть. И возможно даже
Также замечу, что распространена практика перепечатки материалов с разрешения авторов. Формально это не является плагиатом, но методология оценки интересности/авторитетности материала и сайта-первоисточника от этого не меняется.
Автор: Алексей Кравцов, оптимизатор
Комментариев нет:
Отправить комментарий