UTF8 – стандарт кодування, що перетворює номери осередків таблиці Юнікод у бінарні коди з використанням змінної кількості біт: 8, 16, 24 чи 32. UTF16 – стандарт кодування, що перетворює номери осередків таблиці Юнікод у бінарні коди з використанням змінної кількості біт:16 або 32.Feb 25, 2021

UTF8, порівняно з UTF-16, найбільший виграш у компактності дає для текстів на латиниці, оскільки латинські літери без діакритичних знаків, цифри та найпоширеніші розділові знаки кодуються в UTF8 лише одним байтом, і коди цих символів відповідають їх кодам ASCII.

Суфікси BE та LE у назві кодування вказують порядок. BE – big-endian – від старшого до молодшого; LE – Little-endian – від молодшого до старшого. Щоб визначити порядок байтів на основі самого файлу, використовується спеціальний юнікод-символ U + FEFF, званий BOM (Byte Order Mark), міткою послідовності байтів.

У кодування Unicode один символ займає 16 біт пам'яті, що відповідає 2 байтам (1 байт = 8 біт). Отже, текст, що складається з 515 символів, займатиме 515 х 2 = 1030 байт пам'яті.