Андрей Аксенов - Про алгоритмы в поисковых движках
HTML-код
- Опубликовано: 15 май 2024
- Подробнее о конференции C++ Russia: jrg.su/W8skjE
- -
В полнотекстовом поиске есть: одна ключевая структура данных (тупая); бывают два-три умеренно уникальных для поисковиков алгоритма; и целая гора разнообразных алгоритмов, техник и фокусов, используемых где-то еще. Сегодня внятные движки - это еще и достаточно рабочая база данных + всякие элементы ML + особая IR-магия типа классического BM25 + какие-нибудь свежевыдуманные векторные модели (или там BERT) + что угодно еще. Кроме того мы тоже перекладываем JSON на лопате.
Андрей рассказал про 1,5 прямо самые ключевые и прямо уникальные для поиска алгоритмы и структуры данных. Он пробежался как минимум по верхам и ключевикам других неуникальных, но особо интересных и важных алгоритмов и техник, которые могут встречаться хоть где-то, кроме поиска. Примерный спектр этих, неуникальных алгоритмов: от банальных SIMD-оптимизаций всяких парсеров через ловкие особые спецалгоритмы сжатия к совсем верхнеуровневым штукам, типа интеграций CatBoost и прочих FAISS. Напоследок занырнул в особо интересные детали. - Наука
знакомые лица.. на собеседовании как-то был у него
Что сразу режет восприятие так это с первых минут утверждение что ничего не завезли в язык ничего не хватает но в новые стандарты не лазил и не знаком