Twitter Facebook RSS Раскрываем тему шинглов Опубликовано в 09.02.2014 автор Valera Нет комментариев Leave a comment

Тема шинглов поднялась  в Интернете сравнительно недавно, когда SEO, слава Богу, стало превращаться из тупого коллекционирования «пузатых» ссылок на биржах в некое подобие науки. В настоящее время вопросу «как перехитрить поисковик» придается особое значение в связи с тем, что борьба за место сайтов в поисковой выдаче со стороны оптимизаторов ивойна с копированием информации со стороны поисковиков лишь набирает обороты. Поисковики стараются применять все новые уникальные по своей сути программы анализа сайтов для определения копий и понижения в выдаче не уникального материала. И в этой борьбе за уникальность далеко не последнюю роль играет метод шинглов, который мы и рассмотрим подробнее.

Основные термины

Шингл - собственно, предмет рассмотрения, представляющий собой кусок текста, обработанный по специальным алгоритмам.

Канонизация текста — подготовка текста перед разбиением на шинглы, его обезличивание.

Стоп-слова — слова, в изобилии встречающиеся в лексике любого народа и поэтому не рассматриваемые при сравнении текстов. Как правило, это предлоги, союзы, местоимения.

Контрольная сумма - некое числовое значение, рассчитываемое через определенные статические алгоритмы (хеш-функции) для определенного шингла. Именно эти контрольные суммы и сравниваются при определении уникальности.

Четкий или нечеткий дубликат — собственно, то, с чем активно борются поисковики, представляет собой копию текста.

Вхождение слова — вхождение того или иного слова в текст, т.е. как часто оно там используется.

Ключевое слово — ну, вы это и сами прекрасно знаете, если не новичок в SEO.

Ну, вроде основные определения дал. Теперь поехали по сути.

С чего все начиналось

Жил-был в Гарварде (это в США) такой ученый — Джордж Кингсли Зипф. По профессии он был лингвистом, да не простым лингвистом, а еще и филологом-практиком, т.е. профессионально занимался изучением текстов на своем родном языке. Прожив всего 48 лет, он успел привнести в мир несколько замечательных положений в области лингвистики, а также разработать  в 1949 году законы имени самого себя, которые сегодня с успехом реализуются в алгоритмах поисковиков. Законов всего два, но зато каких:

1. Произведение вероятности обнаружения слова в том или ином тексте на его ранг частоты (ранг частоты — это понятие частого вхождения слова в текст, взятое также из теории вероятности, т.е. для наиболее часто используемого слова ранг равен 1) — постоянная величина.

2. Форма кривой, которая описывает зависимость частоты вхождения от количества входящих слов, постоянна.

Короче говоря, Зипф предвосхитил появление поисковиков и своими законами дал возможности анализа текстов…и больших текстов. Он определил понятие ключевого слова, как наиболее часто входящего в текст (предпосылки для дальнейшего развития частотного анализа), определил понятие стоп-слов как наиболее часто входящих в текст коротких слов, а также получил первые эмпирические результаты анализа текстов телефонных справочников США на основе своих законов. Умнейший был мужчина, в общем.

Дальнейшее развитие метода было уже делом времени и программистов. Несколько лет спустя был внедрен термин «четкого» и «нечеткого» дубликатов. Да, именно в середине 50-х годов 20 века для анализа плагиаторства среди ученых (собственно, тогда же появились зачатки пресловутого индекса цитирования). Четкий дубликат представляет собой полную копию того или иного текста. Например:

«Я узнал, что у меня есть огромная семья. И тропинка, и лесок, в поле каждый колосок» — оригинал.

«Я узнал, что у меня есть огромная семья. И тропинка, и лесок, в поле каждый колосок» — четкий дубликат.

В Рунете понятие «четкого дубликата» получило название «копипаста» от английского «copy» и «paste» (копировать — вставить). В принципе, явление не изжило себя и вряд-ли когда-нибудь изживет. Потом поясню почему. Пример нечеткого дубликата:

«Я недавно узнал, что у меня есть огромная семья. И тропинка, и лесок, а в поле каждый колосок».

Данный текст является нечетким дубликатом, потому что основной смысл и стилистика сохранена, а вот полностью он не повторяется, введены союз «а» и слово «недавно». В принципе, от «а» также есть толк, потому что он разбавляет текст и может немного видоизменить контрольную сумму при анализе. Но это встречается не всегда и следует соблюдать осторожность при таком разбавлении.

Четкий или нечеткий дубликат текста проверить можно. Вернее можно было лишь в 50-е годы прошлого века, когда текстов было не так уж много. Проверялись тексты вручную, что приводило к титанической работе целых отделов, но и толку от нее было мало, потому что все тексты проверить просто невозможно. Все изменилось с появлением сети Интернет, и последующим массовым ее распространением по всему миру. Количество текстов, в той или иной степени повторяющих оригинал, множилось просто с катастрофической быстротой и люди, озабоченные такими понятиями как «авторское право» и «патентная чистота» схватились за головы от представившейся им картины всеобщего плагиаторства. Схватились, подключили программистов, и те разработали алгоритм шинглов. Вернее, разработал его еще Зипф, но программисты довели его до ума и реализовали на ЭВМ.

Алгоритм шинглов

Что представляет собой шингл? Я уже отвечал на этот вопрос, но не поленюсь повториться. Шингл — небольшой кусочек текста, обработанный по специальной методике и предназначенный для анализа путем вычисления его контрольной суммы и сравнения ее с похожими суммами в Сети. Методика подготовки называется канонизацией и представляет собой обезличивание предложения, удаление не несущих смысловой нагрузки слов и приведение существительных в именительный падеж единственного числа, очистку от html-тегов и прилагательных. Для чего это делается? Для того, чтобы легче обрабатывать большие по объему тексты, а также абстрагироваться от стилистики того или иного автора (раньше так можно было запутать поисковик). Например:

«Я узнал, что у меня есть огромная семья. Речка, небо голубое, это все мое — родное, это родина моя, всех люблю на свете я» — текст до канонизации.

«Я узнал меня есть семья. Речка небо это мое это родина всех люблю свете я» — текст после канонизации.

Далее текст разбивается на шинглы. И тут первая проблема — какова длина куска текста. По умолчанию в наиболее часто используемых программах для определения уникальности длина шингла задается равной 3. Почему именно эта длина? Да потому, что так сложнее подобрать синонимы и скопировать текст. А кому-то, наоборот, легче.  Поэтому длина шингла иногда считается спорным вопросом при взаимоотношениях копирайтеров и заказчиков, а также при конфликтах, связанных с проверкой авторских прав на тот или иной текст. В последнее время наблюдается тенденция к требованию заказчиками большей длины шингла при проверке. Некоторые SEO-шники утверждают, что длина шингла напрямую зависит от количества символов в проверяемом тексте, и здесь уже не столь важна уникальность. Например, при объеме текста в 3500 символов установлена оптимальная длина шингла — 8, но это может и не совпадать с мнением других. Не буду претендовать на истину.

Шингл может составляться двумя способами — встык или внахлест. Пример составления шингла с длиной 3 встык:

«я узнал меня», «есть семья речка», «небо голубое это», «это мое родное», «это родина всех», «люблю свете я»

Как видите, шинглы составлены таким образом, что они идут «встык», т.е. в них каждое последующее слово не повторяет предыдущее. Пример составления шингла с длиной 3 внахлест:

«я узнал меня», «меня есть семья», «семья речка небо», «небо голубое это», «это это мое», «родное это родина», «всех люблю свете», «свете я»

Думаю, с этим все понятно.

Следующим этапом является вычисление контрольной суммы для каждого шингла. Тут уже простор для фантазии программиста. Кто-то реализует его на языке программирования Python, кто-то на другом — на все воля программера. Но поисковики используют свои значения сумм, т.е. реализуют алгоритм выборки N числа случайных значений шинглов из того или иного текста для сравнения. Так что обмануть их получается далеко не у всех. Некоторые оптимизаторы составляют свои скрипты для определения уникальности, что, по сути своей, является довольно интересным занятием.

Шинглы и обман поисковика

Но существуют ли способы обмануть поисковик? На этот вопрос нет однозначного ответа. Все происходит потому, что у поисковиков свои алгоритмы определения уникальности, а у бирж копирайтинга — свои, и 100 % совпадения тех же контрольных сумм не получится никогда. Тем не менее, попытки производятся и выработаны некоторые типовые способы повышения уникальности текста при анализе путем сравнения шинглов:

1. Банальная перестановка предложений.

Перестановка предложений — это как палка о двух концах. Да, переставить их можно, но читаемость текста от этого теряется и, соответственно, снижается поток посетителей на ресурс. Я бы порекомендовал этот метод создателям дорвеев. Вернее, переставлять предложения можно и на MFA сайтах, но делать это следует с крайней осторожностью.

2. Синонимизация текста.

Синонимизация представляет собой замену определенных слов синонимами — наиболее распространенный метод повышения уникальности. Есть даже специальные программы — синонимайзеры, которые берут синонимы из своей обширной базы. Как правило, прокатывает.

3. Разбавление текста.

Любопытный метод, но применять его следует грамотно. Разбавление текста можно осуществлять как союзами и предлогами (исходя из вышеописанного, толку от этого нет), так и более длинными речевыми оборотами, которые позволяют изменить содержание шингла и повысить уникальность. Если язык подвешен хорошо, то этот метод может стать основным в вашей коллекции. НО здесь уже лучше не использовать программы, а думать самому.

4. Разбавление текста несогласованными друг с другом словами.

Да бросьте вы уже эти «генераторы текстов с ключевиками» для дорвеев — поисковики уже давно научились банить сайты с кучей бесполезных несогласованных предложений, так что рекомендации горе-оптимизаторов, активно пропагандирующих такие методы давно устарели. Научитесь цивилизованно работать, господа. Ручками, а не программками. И вообще, следует избегать даже случайной несогласованности слов.

5. Замена устойчивых фраз.

Замена устойчивых фраз  в тексте также способна повысить уникальность. Например, устойчивую фразу «все мужики козлы» можно с успехом заменить на «все представители мужского пола — антропоморфные дендромутанты». Я с этим выражением категорически не согласен, но как пример замены устойчивой фразы оно в самый раз.

Выводы

Алгоритм шинглов является основным, но НЕ ЕДИНСТВЕННЫМ способом определения уникальности текста поисковыми системами. У них припасено еще много способов проверки — и по стилистике, и по морфологии текста, и по токенам. Поэтому не стоит так гордиться 100 % уникальностью текста по Адвего — в любом случае, 100 % по Адвего и 100 % у поисковика это, как говорили евреи, «две большие разницы». Уникальности можно добиться лишь написав контент собственноручно, а это долгая и кропотливая работа. Да и посмотрите на любую диссертацию (ради сохранения чистоты которых все и начиналось) — у них на каждую главу более 100 источников, и мысль из каждого источника повторяется по 10 раз. И при этом люди докторские степени получают. Так что не надо впадать в клинические случаи «уникальноозабоченности» — это не поможет вам добиться посещаемости ресурса. Лучше просто работайте над ним и пишите то, что действительно интересует людей.

Поделиться в соц. сетях