Сегодня я рассмотрю две программы по проверке уникальности текста, которые подойдут для рерайтеров. Почему они хороши именно для них? Потому что в них сравниваются два текста – исходный и готовый.
Начну я с автора под ником mind3. Зовут его Андрей. У него сайт о заработке в интернете. Кроме того, Андрей разработал несколько программ, если интересно, можете взглянуть на сайте. Меня заинтересовала Проверка текстов на совпадение.
Нажимаешь на ссылку, появляются классические два окошечка, в одно вы пишете исходный текст, в другое – готовый. Нажимаете отправить и ждете результата.
Коментарий автора программы
Принцип работы скрипта прост. Считается частота появления каждого слова в одном тексте и в другом, потом частоты сравниваются. Т.е. от перемены мест слагаемых (слов) в тексте сумма не меняется. Тексты могут отличатся друг от друга.
1. Когда один больше другого.
2. Когда больше различий в словах.
Думаю, поисковики сравнивают контент на уникальность таким же образом, хотя можно лишь только предполагать, т.к. их алгоритмы под завесом тайны.
В качестве эксперимента я взяла стихотворение про рыдающую Таню, над которым не издевался уже только ленивый. То его в качестве примера для генерации текстов используют, то еще как-нибудь измучают. И я туда же.
Наша Таня громко плачет
Уронила в речку мячик
Тише, Танечка, не плачь,
Не утонет в речке мяч.
В первой строчке я поменяла все слова, кроме слова «наша». Во второй изменила порядок слов. Третья строчка, как и в оригинале, начинается со слова «тише», далее обращение, затем синоним слова «плакать». Последнюю строчку оставила без изменений.
Наша Оля тихо всхлипывает
Уронила мячик в речку
Тише, Олечка, не рыдай,
Не утонет в речке мяч.
Проверяем. Результат. Текст совпадает на 0%. Не совсем верно, видно даже невооруженным взглядом.
Комментарий автора
Думаю, что в дальнейшем я программу еще усовершенствую. Хотелось бы добавить туда процент содержания каждого слова плюс проверку на уникальность текста в поисковых системах.
Теперь о сервисе, предоставляемом на Etxt.
Сравнение текстов
Здесь те же классические два окошечка, так же вставляете тексты и нажимаете «сравнить тексты».
Комментарий Etxt
Для начала текст разбивается на шинглы, состоящие из 2-3 слов, при этом стоп-слова не учитываются. Для ускорения работы каждый шингл может кодироваться, например, в последовательность md5 – чтобы сравнивать один уникальный код, а не наборы слов.
Далее считается процент пересечения наборов шинглов для двух текстов.
Те же два отрывка. Результат. Уникальность текста 93,33%. И выделено красным, что именно смущает программу (я выделила жирным).
Олечка, не рыдай, Не утонет в речке мяч.
Комментарий Etxt
Кстати, скоро на нашей бирже появится своя программа для проверки уникальности текста. Следите за новостями! Таким образом, в сравнении оказывается вполне приличный результат. Плюс к тому, что Андрей обещал усовершенствовать свою программу, ею вполне можно пользоваться рерайтерам.
Комментариев нет:
Отправить комментарий