воскресенье, 23 октября 2016 г.

Сравнение текстов



Сегодня я рассмотрю две программы по проверке уникальности текста, которые подойдут для рерайтеров. Почему они хороши именно для них? Потому что в них сравниваются два текста – исходный и готовый.

Начну я с автора под ником mind3. Зовут  его Андрей. У него сайт о заработке в интернете. Кроме того, Андрей разработал несколько программ, если интересно, можете взглянуть на сайте. Меня заинтересовала Проверка текстов на совпадение.

Нажимаешь на ссылку, появляются классические два окошечка, в одно вы пишете исходный текст, в другое – готовый. Нажимаете отправить и ждете результата.
Коментарий автора программы

Принцип работы скрипта прост. Считается частота появления каждого слова в одном тексте и в другом, потом частоты сравниваются. Т.е. от перемены мест слагаемых (слов) в тексте сумма не меняется. Тексты могут отличатся друг от друга.

1. Когда один больше другого.

2. Когда больше различий в словах.

Думаю, поисковики сравнивают контент на уникальность таким же образом, хотя можно лишь только предполагать, т.к. их алгоритмы под завесом тайны.

В качестве эксперимента я взяла стихотворение про рыдающую Таню, над которым не издевался уже только ленивый. То его в качестве примера для генерации текстов используют, то еще как-нибудь измучают. И я туда же.

Наша Таня громко плачет
Уронила в речку мячик
Тише, Танечка, не плачь,
Не утонет в речке мяч.

В первой строчке я поменяла все слова, кроме слова «наша». Во второй изменила порядок слов. Третья строчка, как и в оригинале, начинается со слова «тише», далее обращение, затем синоним слова «плакать». Последнюю строчку оставила без изменений.

Наша Оля тихо всхлипывает
Уронила мячик в речку
Тише, Олечка, не рыдай,
Не утонет в речке мяч.

Проверяем. Результат. Текст совпадает на 0%. Не совсем верно, видно даже невооруженным взглядом.

Комментарий автора

Думаю, что в дальнейшем я программу еще усовершенствую. Хотелось бы добавить туда процент содержания каждого слова плюс проверку на уникальность текста в поисковых системах.

Теперь о сервисе, предоставляемом на Etxt.

Сравнение текстов

Здесь те же классические два окошечка, так же вставляете тексты и нажимаете «сравнить тексты».
Комментарий Etxt

Для начала текст разбивается на шинглы, состоящие из 2-3 слов, при этом стоп-слова не учитываются. Для ускорения работы каждый шингл может кодироваться, например, в последовательность md5 – чтобы сравнивать один уникальный код, а не наборы слов.

Далее считается процент пересечения наборов шинглов для двух текстов.
Те же два отрывка. Результат. Уникальность текста 93,33%. И выделено красным, что именно смущает программу (я выделила жирным).

Олечка, не рыдай, Не утонет в речке мяч.

Комментарий Etxt

Кстати, скоро на нашей бирже появится своя программа для проверки уникальности текста. Следите за новостями! Таким образом, в сравнении оказывается вполне приличный результат. Плюс к тому, что Андрей обещал усовершенствовать свою программу, ею вполне можно пользоваться рерайтерам.

Анна Тарасова

Комментариев нет:

Отправить комментарий