
Здравствуйте, уважаемые читатели. Сегодня речь пойдет о еще одном сервисе — помощнике в нашем нелегком оптимизаторском деле. Это сервис Duplicate content — он показывает какие внутренние страницы сайта «копипастные» или грубо говоря какое совпадение текстов на двух сравниваемых страницах одного сайта. Таким образом, можно легко определить где нужно поменять шаблон страницы, что лучше закрыть от индексации, какой текст переписать и тем самым попутно обезопаситься от фильтра Google «Панда» и от санкций горячо любимого Яндекса.
Начать стоит конечно с ввода каких-нибудь данных. Берем например две страницы произвольного сайта, я взял просто произвольный сайт из топа по запросу «купить свитер».
1 страница — www.fixon.ru/goods/man/sweater-kofta/
2 страница — произвольная примерно с этой же категории www.fixon.ru/category/trikotazh-muzhskoy/dzhempera-muzhskie/
Нажимаем кнопочку «Check» и получаем результаты анализа.

Вверху у нас есть совпадение HTML-кода обеих страниц. Больше нас интересует графа Total HTML similarity (схожесть двух HTML-документов), в даннном случае она равна 86,28%, что я считаю вполне допустимым, ведь это движок, и заморачиваться по поводу переверстки каждой странички в интернет-магазине по меньшей мере глупо. Нужна команда из наверное 10-15 верстальщиков, чтобы справиться с таким объемом хотя бы за две недели.
Далее следует строка Standart Text Similarity (стандартное совпадение текста), полученное значение: 77,39%. На самом деле это промежуточное значение, которое что-то значит, но я бы не зацикливался на нем особо, как и на следующей строке Smart Text Similarity («умная» схожесть текста), это я так понял цифра, отвечающая за отделение всей текстовой составляющей от тегов и каких-то рабочих текстов. Цифра сама по себе тоже не особо нужная.
Заключительная часть анализа Total Text Similarity (общая схожесть текста) — похожесть, сложенная из двух предыдущих строк и найденная по среднему арифметическому. На это значение я бы обратил внимание. Получается, что страницы дублируют друг друга на 70%, в то время как общепринятые стандарты всё же не более 30% (в случае копипаста на другие сайты). А сколько такого контента в интернет магазине? Да сотни страниц, а то и десятки тысяч.
Вот что пишет сам ресурс по этому поводу:
Поисковики стремятся предоставить пользователям наиболее полные результаты выдачи, поисковые системы накладывают фильтры на слишком похожие друг на друга страницы (другими словами, копипаст или дубли, как частичные, так и полные). За исключением наиболее релевантных результатов, похожие результаты исключаются.
Это важно потому, что контент должен быть уникальным и оригинальным насколько это представляется возможным. Сайты, находящиеся в «группе риска» — это конечно в большей степени интернет–магазины, у которых похожие description, title и keywords, так вот, на таких проектах надо избегать дублей фактически на 100%. Если это невозможно, то тогда будет полезно как минимум добавить несколько строк оригинального контента во вставленный текст, например комментирование или разжигание дискуссии.
Конечно, есть другой тип фильтра дублирующего контента, который применяется к зеркалам сайта. Этот фильтр анализирует структуру URL, включенную в контент страницы. Обычно, зеркала (полные дубли) сайта не индексируются поисковыми системами.
Один раз я помню ко мне обратилась девушка, у которой был полный дубль сайта (сайт был доступен по адресу *****.ru и *****.рф), конечно же у нее ничего не индексировалось и был наложен фильтр. Если и делать таким образом сайт, то надо ставить редирект с одного домена на другой, никак нельзя запускать оба таких сайта. Ладно, если это просто любительский ресурс, а если это объемный магазин с тысячами товаров? Такие ошибки слишком дорогое удовольствие.
Согласен, придется попотеть для исключения дублей полностью, но тогда исключены какие-либо проблемы с индексацией документов, товаров, категорий и прочего. Успехов на просторах интернета, друзья. И избегайте дубликатов
Duplicate content — отличный сервис для проверки страниц на дубли, да еще и фришный
21 августа, 2011
poru4ik 
Опубликовано в категории
Теги: 





