Как обойти АНТИПЛАГИАТ? Алгоритм шинглов.

Поделиться
HTML-код
  • Опубликовано: 4 июл 2024
  • В этом видео я расскажу о том как работает антиплагиат, а также о его центровом инструменте - алгоритме шинглов. Также расскажу о том как быстрее и проще получить оригинальность текста с помощью алгоритма относительного сравнения (шинглирования), которого я реализовал в виде своего телеграмм бота.
    Телеграмм бот из видео: @ShingleManBot
    Мой телеграмм канал: t.me/massonnn_yt
    Авторские права на некоторые картинки принадлежат:
    freepik.com/
    Таймкоды:
    0:00 - Начало
    0:43 - О чем будет это видео?
    0:55 - Алгоритм шинглов
    1:07 - Этап 1. Канонизация текста
    1:33 - Этап 2. Различение на шинглы
    2:12 - Этап 3. Вычисление хешей
    2:36 - Этап 4. Сравнение текстов
    2:50 - В чем проблема антиплагиата?
    3:34 - Решение проблемы!
    8:57 - Есть нюансы...
    ---
    Вы можете поддержать автора, если он вам чем-то помог:
    Если вы из России:
    410011676049152 (yoomoney)
    2200700702094680 (Тинькофф)
    Если вы из Украины:
    5457082270647394 (ПриватБанк)
    Криптовалюты:
    ltc1qm6lx5e8q8ff7hs5ne2yxskhs2jhdl6ludq4ud8 (LTC / Litecoin)
    bc1qfz7399jdqrxkpmmxyetk0frdskwv23k6p4yhdu (BTC)
    0x95643B2702d1C4b965c1451C3f9bAAE7FF35115D (ETH)
    TAc1WsbgAeB3UY4LrsfoshkTNHzTF1zqj5 (Tether USD-T)
  • НаукаНаука

Комментарии • 2

  • @user-hk4bq8be1d
    @user-hk4bq8be1d 11 месяцев назад

    Спасибо, интересно. Но тут проблема откуда вы знаете как разбивать на шинглы, минимум надо сделать обход по всем возможным длинам шинглов и циклом проходить по длинне шингла, и из всех результатов получать какое-то среднее(или максимальное значение). Думаю сейчас уже актуальнее делать такое с помощью эмбеддингов нейросетью.

    • @massonnn
      @massonnn  11 месяцев назад

      Длина шинглов это параметр, увеличивая длину ускоряем проверку, но ухудшаем результат, уменьшая достигаем ровно того же эффекта наоборот. Если текст небольшой, его лучше прогонять с меньшей длиной, если большой, то с бОльшей. Перед тем как делать видео я долго экспериментировал, по итогу могу сказать, что делать серию проверок и получать среднее - не даст серьезного профита. Разве что уменьшит погрешность в корнер кейсах.