Кодировки ANSI, UTF-8 и Unicode - Чем отличаются?
HTML-код
- Опубликовано: 4 авг 2022
- Рассматриваем особенности кодирования текста в ANSI, UTF-8 и Unicode. Сколько отводится байтов на символ в каждой кодировке. Что такое Unicode Big Endian и Little Endian? Что такое UTF-8 with or without BOM.
Содержание:
00:32 - Какие бывают кодировки
02:37 - ANSI кодировки
14:31 - Unicode кодировка
19:00 - Big и Little Endian форматы
23:03 - UTF-8 кодировка
Очень подробное и понятное видео. Спасибо!
Шикарное объяснение! Спасибо!
Спасибо. Интересно показали на примерах
Про UTF-8 BOM и without BOM прям респект!
Спасибо, понятно и практически применимо.
А по поводу понятий "Кодировка" и "Набор символов", я думаю, что реально имеет место путаница, как говорится между "тёплым" и "мягким". Кодировка - это соответствие чего-то абстрактного (символичного, принятого в среде групп людей) цифре (номеру, машинному коду) как его воспринимает машина, например - 0x41.
Набор символов - это набор рисунов, образов, отображений - то есть для человека. Например, литера "А" - это символ. У китайцев звук "а", наверное имеет другой символ:).
Если набору символов не присвоить соответствующих цифры, он останется только набором символов - например, латинским алфавитом или набором иероглифов, или отображением образов чисел от нуля до девяти, или от одного до двенадцати, или количеством и размером звёздочек на погонах, или алфавитом племени Мумба-Юмба и т.п...
Набор символов может существовать без цифровых соответствий - просто набор символов - и всё.
Кодировка - подразумевает присвоение каждому символу из набора конкретного номера, конкретной цифры. Взяли и присвоили Букве "А" номер 0x41.
Таким образом, любая кодировка включает в себя определённый набор символов. Каждому символу соответствует определённое числовое значение (номер, цифра).
Набор символов может нравится, а может не нравится. А кодировка либо есть, либо её нет.
Всё-таки про UTF-16 можно было бы и добавить...
Ещё раз Спасибо!
Полезное видео, а подскажите как в документе ANSI сделать число в степени пример(²)???
Тут два варианта есть:
1. Для plain текста (т.е. для редакторов типа Блокнот) - если в вашей кодировке есть в таблице символов сразу такой символ (2 в верхнем индексе), то можно его поставить. Например, в кодировке английской такой символ есть для второй и третьей степеней (4ой и так далее уже нет). Код символа для квадрата - 0xB2 (или 178 в простонародье), для куба - 0xB3. Но в кирилическую версию 1251 он уже не попадает.
2. Если надо вывести в каком-то документе, который поддерживает форматирование, то это уже делается не символом, а стилем (например, в word, в HTML и т.д.)
Вы что-то объясняете и у Вас курсора мышки не видно
Вы говорите: "Вот это, вот это". И не понятно где вот это!!
Поэтому сложно разобрать о чем Вы говорите
Математическую часть я вроде как до конца так и не понял
Unicode - це не кодировка 😁
Как раз именно кодировка. Существует с начала девяностых. Активно была введена в использование компанией Майкрософт при выпусте линеки операционных систем Windows NT. Далее при объединении линеек в ОС Windows 2000 стала основной кодировкой операционной системы и файловой системы NTFS.
@@ITPublic503 Unicode - це набір символів (character set), такий же, як ASCII чи КОИ-7
А от UTF-х - це якраз кодировка (encoding), що використовуюється для Unicode
Набір символів - це таблиця, кодировка - це правило (алгоритм) обчислення позиції в наборі символів, тобто в цій таблиці
Раніше набори символів були лише для однобайтових символів, тому й називались кодировками, але у порівнянні з UTF-x такий термін неправильний.