Кодировки ANSI, UTF-8 и Unicode - Чем отличаются?

Поделиться
HTML-код
  • Опубликовано: 4 авг 2022
  • Рассматриваем особенности кодирования текста в ANSI, UTF-8 и Unicode. Сколько отводится байтов на символ в каждой кодировке. Что такое Unicode Big Endian и Little Endian? Что такое UTF-8 with or without BOM.
    Содержание:
    00:32 - Какие бывают кодировки
    02:37 - ANSI кодировки
    14:31 - Unicode кодировка
    19:00 - Big и Little Endian форматы
    23:03 - UTF-8 кодировка

Комментарии • 11

  • @fenixphoenix3768
    @fenixphoenix3768 Год назад +3

    Очень подробное и понятное видео. Спасибо!

  • @another4629
    @another4629 Год назад +3

    Шикарное объяснение! Спасибо!

  • @propilen3
    @propilen3 2 месяца назад

    Спасибо. Интересно показали на примерах

  • @user-jl9pv2rh3k
    @user-jl9pv2rh3k Год назад +2

    Про UTF-8 BOM и without BOM прям респект!

  • @firststepsforward
    @firststepsforward Месяц назад

    Спасибо, понятно и практически применимо.
    А по поводу понятий "Кодировка" и "Набор символов", я думаю, что реально имеет место путаница, как говорится между "тёплым" и "мягким". Кодировка - это соответствие чего-то абстрактного (символичного, принятого в среде групп людей) цифре (номеру, машинному коду) как его воспринимает машина, например - 0x41.
    Набор символов - это набор рисунов, образов, отображений - то есть для человека. Например, литера "А" - это символ. У китайцев звук "а", наверное имеет другой символ:).
    Если набору символов не присвоить соответствующих цифры, он останется только набором символов - например, латинским алфавитом или набором иероглифов, или отображением образов чисел от нуля до девяти, или от одного до двенадцати, или количеством и размером звёздочек на погонах, или алфавитом племени Мумба-Юмба и т.п...
    Набор символов может существовать без цифровых соответствий - просто набор символов - и всё.
    Кодировка - подразумевает присвоение каждому символу из набора конкретного номера, конкретной цифры. Взяли и присвоили Букве "А" номер 0x41.
    Таким образом, любая кодировка включает в себя определённый набор символов. Каждому символу соответствует определённое числовое значение (номер, цифра).
    Набор символов может нравится, а может не нравится. А кодировка либо есть, либо её нет.
    Всё-таки про UTF-16 можно было бы и добавить...
    Ещё раз Спасибо!

  • @user-cj3eh6qm9v
    @user-cj3eh6qm9v Год назад +2

    Полезное видео, а подскажите как в документе ANSI сделать число в степени пример(²)???

    • @ITPublic503
      @ITPublic503  Год назад +1

      Тут два варианта есть:
      1. Для plain текста (т.е. для редакторов типа Блокнот) - если в вашей кодировке есть в таблице символов сразу такой символ (2 в верхнем индексе), то можно его поставить. Например, в кодировке английской такой символ есть для второй и третьей степеней (4ой и так далее уже нет). Код символа для квадрата - 0xB2 (или 178 в простонародье), для куба - 0xB3. Но в кирилическую версию 1251 он уже не попадает.
      2. Если надо вывести в каком-то документе, который поддерживает форматирование, то это уже делается не символом, а стилем (например, в word, в HTML и т.д.)

  • @user-ty1rr4du4f
    @user-ty1rr4du4f Год назад

    Вы что-то объясняете и у Вас курсора мышки не видно
    Вы говорите: "Вот это, вот это". И не понятно где вот это!!
    Поэтому сложно разобрать о чем Вы говорите
    Математическую часть я вроде как до конца так и не понял

  • @user-en8uu5lv6m
    @user-en8uu5lv6m Год назад +2

    Unicode - це не кодировка 😁

    • @ITPublic503
      @ITPublic503  Год назад

      Как раз именно кодировка. Существует с начала девяностых. Активно была введена в использование компанией Майкрософт при выпусте линеки операционных систем Windows NT. Далее при объединении линеек в ОС Windows 2000 стала основной кодировкой операционной системы и файловой системы NTFS.

    • @user-en8uu5lv6m
      @user-en8uu5lv6m Год назад +2

      @@ITPublic503 Unicode - це набір символів (character set), такий же, як ASCII чи КОИ-7
      А от UTF-х - це якраз кодировка (encoding), що використовуюється для Unicode
      Набір символів - це таблиця, кодировка - це правило (алгоритм) обчислення позиції в наборі символів, тобто в цій таблиці
      Раніше набори символів були лише для однобайтових символів, тому й називались кодировками, але у порівнянні з UTF-x такий термін неправильний.