Как обойти АНТИПЛАГИАТ? Алгоритм шинглов.
HTML-код
- Опубликовано: 8 июл 2024
- В этом видео я расскажу о том как работает антиплагиат, а также о его центровом инструменте - алгоритме шинглов. Также расскажу о том как быстрее и проще получить оригинальность текста с помощью алгоритма относительного сравнения (шинглирования), которого я реализовал в виде своего телеграмм бота.
Телеграмм бот из видео: @ShingleManBot
Мой телеграмм канал: t.me/massonnn_yt
Авторские права на некоторые картинки принадлежат:
freepik.com/
Таймкоды:
0:00 - Начало
0:43 - О чем будет это видео?
0:55 - Алгоритм шинглов
1:07 - Этап 1. Канонизация текста
1:33 - Этап 2. Различение на шинглы
2:12 - Этап 3. Вычисление хешей
2:36 - Этап 4. Сравнение текстов
2:50 - В чем проблема антиплагиата?
3:34 - Решение проблемы!
8:57 - Есть нюансы...
---
Вы можете поддержать автора, если он вам чем-то помог:
Если вы из России:
410011676049152 (yoomoney)
2200700702094680 (Тинькофф)
Если вы из Украины:
5457082270647394 (ПриватБанк)
Криптовалюты:
ltc1qm6lx5e8q8ff7hs5ne2yxskhs2jhdl6ludq4ud8 (LTC / Litecoin)
bc1qfz7399jdqrxkpmmxyetk0frdskwv23k6p4yhdu (BTC)
0x95643B2702d1C4b965c1451C3f9bAAE7FF35115D (ETH)
TAc1WsbgAeB3UY4LrsfoshkTNHzTF1zqj5 (Tether USD-T) - Наука
Спасибо, интересно. Но тут проблема откуда вы знаете как разбивать на шинглы, минимум надо сделать обход по всем возможным длинам шинглов и циклом проходить по длинне шингла, и из всех результатов получать какое-то среднее(или максимальное значение). Думаю сейчас уже актуальнее делать такое с помощью эмбеддингов нейросетью.
Длина шинглов это параметр, увеличивая длину ускоряем проверку, но ухудшаем результат, уменьшая достигаем ровно того же эффекта наоборот. Если текст небольшой, его лучше прогонять с меньшей длиной, если большой, то с бОльшей. Перед тем как делать видео я долго экспериментировал, по итогу могу сказать, что делать серию проверок и получать среднее - не даст серьезного профита. Разве что уменьшит погрешность в корнер кейсах.