уникальность текстаЯ уже писал про уникальность всего контента сайта, но в той статье не определился наиболее действующий методов. Так же в комментариях Андрей дописал ещё пару программ для определения уникальности текстов – ETXT и DCFinder. А так как я не работал со ETXT и Double Content Finder, я решил провести эксперимент на выявления наиболее эффективной программы для проверки уникальности текста. Для эксперимента я буду использовать 4 программы и различные тексты. Этой мой первый эксперимент, так что оформление может страдать.

Ресурсами для эксперимента послужат такие программы для проверки уникальности текста: Сайт антиплагиат.ру, eTXT, Double Content Finder и Advego Plagiatus. Ссылки кликабельные для скачивания или онлайн теста.

И так первой на очереди на проверку была не опубликованная версия вчерашней новостной статьи. Новостных порталов много и поэтому сложнее сделать статью уникальной, что как раз и нужно для данного эксперимента, так же данная статья состоит из 3719 символов.

Результаты тестов:

  • Сайт антиплагиат.ру – 100% уникальный текст;
  • Double Content Finder – совпадений не найдено, скорее всего, Ваш текст уникален;
  • eTXT – 95% уникальности текста. Нашло 9 ресурсов с похожим материалом, максимальное совпадение по ссылке 2%;
  • Advego Plagiatus – 96% уникальности текста. Было проверено 230 урлов, из них нашло 6 ресурсов с похожим материалом,  максимальное совпадение по ссылке 3%.

Выводы: Double Content Finder  и антиплагиат оказались менее эффективными ресурсами. При этом етхт и адвего выявили часть не уникальности текста, но важным моментом хочу отметить, что не было общих ссылок по найденному контенту.

Второй статьей на проверку была от сканированная глава с книжки про цветы, 2 000 символов в тексте. Результаты:

  • Сайт антиплагиат.ру — 96,52% уникальности. Найден один источник;
  • Double Content Finder — текст уникален;
  • eTXT — 76% уникальность текста. Найдено 7 источников из них максимально нашло на одном ресурсе 16% совпадений;
  • Advego Plagiatus — 48% уникальность текста. Проверено 152 источника из них нашло совпадений по 6 с максимальным заимствованием в 40% с одного.

Выводы: антиплагиат.ру начал хоть как то реагировать, Double Content Finder по первым тестам показал свою не пригодность и я перестал его использовать в дальнейшем. eTXT и Advego Plagiatus показали большое расхождение в уникальности, при этом был один общий ресурс, где на адвего высветилось 28% плагиата, а на eTXT лишь 16%.

Взял ту же статью, но прогнал её через синонимайзер. Результаты:

  • Сайт антиплагиат.ру – 100% уникальность текста;
  • eTXT — 100% уникальность текста;
  • Advego Plagiatus — 100% уникальность текста.

Выводы: либо синонимайзер на столько хорош либо сделал текст трудно читабельным.

Продолжаем эксперимент. С той же книжки про цветы взял другую главу на эксперимент с 2400 символами. Результат:

  • Сайт антиплагиат.ру — 77,37% уникальность текста. Нашло 2 ресурса с максимальным совпадением по одному из них в 21%;
  • eTXT — 63% уникальность текста. Найдено 12 источников, в одном из которых найдено на 24% совпадений;
  • Advego Plagiatus — 37% уникальность текста. Проверено 23 ссылки, из которых найдено два источника с 37% и 46% плагиата.

Выводы: Сервис проверки уникальности текста Антиплагиат.ру уже зашевелился, но адвего в два раза переплюнул результат. Опять как и в первом эксперименте был общий источник у Адвеги и eTXT, в eTXT – 24% плагиата выявило, а в адвеге – 37%.

Данную статью пропустил через синонимайзер. Результат:

  • Сайт антиплагиат.ру — 100% уникальность текста;
  • eTXT — 87% уникальность текста. Нашло 5 источников с максимальным совпадением в 11%;
  • Advego Plagiatus — 100%  уникальность текста.

Выводы: В данном эксперименте eTXT показало большую проф пригодность.

Последний эксперимент. Взял отсканированную главу с другой книжки уже компьютерной тематики, 3700 символов, но книжка старая. Результаты:

  • Сайт антиплагиат.ру  — 96,48% уникальность текста. Найден 1 источник с 3,52% плагиата;
  • eTXT — 99% уникальность текста . Найден 1 источник с 1% плагиата;
  • Advego Plagiatus — 93% уникальность текста. Найдено 11 ресурсов с максимальным совпадением в 5%.

Проведенные данные уже говорят о некоторых выводах, так как я не статистическое бюро я больше тестов для эксперимента проводить не буду в этой теме. Если хотите, проведите подобные эксперименты и напишите в комментарии, интересно будет посмотреть на результаты.

Общие выводы по сервисам проверки уникальности текста:

Double Content Finder меня не впечатлила, после первых экспериментов я перестал её использовать. Возможно и зря, но она явно не самая эффективная.

Антиплагиат.ру   — сервис проверки уникальности текста оказался малоэффективным. Данный ресурс более эффективный для проверки курсовой, диплома и подобных видов работ. Данные ресурс точно работает, так как к нему не раз обращался при написании диплома, так по разным работам я видел результаты в 50%, 70%, 90% и 95%.

При работе с лидерами эксперимента — eTXT и Advego Plagiatus возникли следующие мысли: программы используют разные базы для поиска и алгоритмы, так как при проверки текстов общих источников почти не было. Так же при обнаружении общих источников отображался разный коэффициент плагиата при общих настройках в 3 шингла в обеих программах.

Обе программы имеют право на существования, в некоторых моментах одна обходит другую, так eTXT справился с синонимайзером в одном из экспериментов. Так же мой друг Павел у себя в статье сравнивал эффективность Адвего плагиата и eTXT и написал интересную статью про шинглы.

На 100% уникальность текста не определишь, но если Вы хотите получить более точные результаты, то пользуйтесь сразу обеими программами — Advego Plagiatus и eTXT.

Я лично пользуюсь только Advego Plagiatus на проверку уникальности текстов с данного блога.