Чешуйчатая математика в определении уникальности текста

Пиком
Пиком

Копирайтеры, пишущие тексты для SEO, прекрасно знают, что текст должен быть: оригинальным, интересным, актуальным и содержать ключевые слова. В ходе работы создается такой текст, который будет интересен пользователям, приходящим на сайт регулярно за покупками и за получением новой порции полезной информации, а также поисковым машинам, которые выведут сайт на нужные позиции.

Для поисковика одним из важнейших факторов является уникальность контента.
Поисковые системы проверяют на уникальность каждый сайт и каждую страницу. Если контент не уникальный, то система применяет жесткие санкции (фильтры) для страницы или всего сайта, на котором размещен данный контент.

Для того чтобы определить уникальность, поисковые системы используют сложный алгоритм, о котором мало что известно, но кое-что все-таки есть – это метод шинглов, в ходе которого тексты разделяются на группы и превращаются в цифровую модель.

На первом этапе из текста отфильтровываются символы и слова, которые не имеют самостоятельного значения (символы, цифры, вводные и стоп-слова, восклицания, предлоги и союзы). Рассмотрим на примере.

Возьмем отрывок из рекламного текста:

«…вы сможете разместить информацию о ваших рекламных площадках в нашем каталоге интернет-рекламы. Чем больше людей узнает о рекламных возможностях вашего сайта - тем выше шансы найти рекламодателей. Просмотрите каталог сами, и вы сможете лучше ориентироваться на рынке рекламы в интернете. Быть может, вы продаете рекламу на своем сайте слишком дешево?...»


Текст после удаления слов, не несущих самостоятельного значения:

«…сможете разместить информацию рекламных площадках каталоге интернет-рекламы больше людей узнает рекламных возможностях сайта выше шансы найти рекламодателей просмотрите каталог сможете лучше ориентироваться рынке рекламы интернете продаете рекламу сайте слишком дешево...»


На втором этапе текст делится на шинглы или части. Шингл – это часть текста, в которую может входить разное количество слов.

Программа автоматически делит текст. При делении система не учитывает смысловые границы, поэтому в шинглы попадают части соседних предложений, слова из соседних словосочетаний. Размер шингла может быть разным.

На примере нашего текста упрощенно можно показать, как выглядит текст после деления на шинглы. Возьмем шингл длинной в 5 слов. Каждый из шинглов пересекается.

«…сможете разместить информацию рекламных площадках разместить информацию рекламных площадках каталоге информацию рекламных площадках каталоге интернет рекламных площадках каталоге интернет рекламы площадках каталоге интернет рекламы больше и т.д….»


После деления происходит кодирование и превращение текста в цифровую модель. Перевод текста в цифры делается для того, чтобы увеличить скорость сравнения. Для того чтобы еще более ускорить процесс, система сравнивает не все шинглы, а выбранные алгоритмом. Поскольку разные тексты имеют разные цифровые модели, вероятность совпадения сразу нескольких результатов обработки выбранных шинглов минимальна. Если же находится определенный процент совпадений, то это, скорее всего, дубли.

С помощью метода шинглов система находит все копии, которые есть в интернете, и определяет процент уникальности написанного текста. Чем выше уникальность текста, тем больше он нравится поисковым системам, а, значит, тем быстрее страница достигает нужной позиции в поиске. Уникальный и качественный контент становится важным фактором роста позиций.

Алгоритм все время изменяется. Установлено только минимальное количество шингла в три слова. Но в любом случае уникальность текста может значительно снизиться из-за использования клише, так как в русском языке большинство устойчивых словосочетаний или названий документов состоят как раз из трех слов.

Итак, для того чтобы тексты проходили с высокой вероятностью проверку на уникальность и беспроблемно попадали в индекс, а страницы, на которых они размещены, входили в топ, мы рекомендуем:

  • использовать как можно меньше клише

  • дополнять высокочастотные слова определениями, которые сделают шингл уникальным. Чем больше низкочастотных слов окажется в шингле вместе с высокочастотным - тем меньше вероятность, что у шингла найдется дубликат

  • проявлять фантазию и делать текст интересным, добавляя в него новые обороты.


  • Так контент станет уникальным с точки зрения поисковых систем, а значит и будет успешным фактором в продвижении сайта. В ходе написания текста необходимо стараться создать полностью авторский контент или максимально глубокий и качественный рерайт.

    Принцип шинглов подстроен под современный интернет и используется в том или ином виде при построении алгоритмов поисковых систем. Обмануть систему не получится, ждать высоких результатов, загрузив не уникальный контент – бессмысленно, так как система имеет совершенную математическую модель проверки, которая практически исключает ошибки.