С. М. Старолетов: Классификация коммитов в git репозиториях для поиска наиболее частых исправлений

Поделиться
HTML-код
  • Опубликовано: 15 сен 2024
  • Аннотация: В средах системного программного обеспечения циркулирует огромное количество информации, поэтому крайне важно использовать эту информацию для улучшения их работы. Одной из таких систем является ядро Linux, которое не только поставляется с полностью открытым исходным кодом, но и предоставляет исчерпывающую историю о разработке в своем git-репозитории. . Вычисляя расстояния между сообщениями об исправлении ошибок, превращая их в вектора и группируя в кластеры, мы далее можем эффективно классифицировать и выявлять наиболее часто возникающие ошибки. Наш подход применяется к нескольким важным частям ядра Linux, что позволяет понять, что происходит с ошибками в различных его подсистемах. В результате мы показываем сводку исправлений ошибок в таких частях ядра Linux, как kernel, sched, mm, net, irq, x86 и Arm64.
    Киберфизические системы представляют собой симбиоз многоуровневых систем управления и учитывают физические аспекты функционирования целевых объектов. Ошибки в таких системах могут быть связаны как с неправильной организацией кода и работой аппаратных средств, так и с неверным пониманием физических законов и их численной аппроксимацией. Продолжая предыдущую работу, мы применяем технологии автоматизированного анализа коммитов в git-репозиториях некоторых известных киберфизических систем с последующей классификацией собранных сообщений о фиксации изменений, написанных разработчиками таких систем. В работе мы обсуждаем выявленные сильные ключевые слова и обобщенные сообщения об исправлениях, которые способны показать основные классы ошибок в этих проектах.

Комментарии • 2

  • @alexanderstasenko1386
    @alexanderstasenko1386 20 дней назад +1

    Поздравляю с днем рождения!

  • @qboorka2711
    @qboorka2711 24 дня назад +1

    В своих исследованиях пробовали ли использовать генеративный ИИ для того, чтобы на основе diff-а в коммите восстановить часть контекста для построения части AST-ового дерева, чтобы затем выделить на основе паттернов свёртки (Graph convolution nn), или латентные представления коммитов, что-то на подобии NED-VAE? И проследить корреляции между векторным представлением описаний коммитов с векторным представлением изменений бинарной структуры ПО?