GB 18030 является китайским государственным стандартом, который описывается как информационная технология - набор символов с китайским кодированием и определяет необходимую языковую и персональную поддержку, необходимую для программного обеспечения в Китае. GB18030 является зарегистрированным именем Интернета для официального набора символов Китайской Народной Республики (КНР), заменяющего GB2312. Как формат преобразования Юникода (т. Е. Кодирование всех кодовых кодов Юникода), он совместим с устаревшими кодировками, включая GB2312, CP936 и GBK 1.0, GB18030 поддерживает как упрощенные, так и традиционные китайские символы.
В дополнение к «кодировке символов GB18030» этот стандарт содержит требования о том, какие скрипты должны поддерживаться, поддержка шрифтов и т. Д.
История[]
Набор символов GB18030 формально называется «Китайский национальный стандарт GB 18030-2005: Информационные технологии - набор символов с китайским кодированием». GB аббревиатура Guójiā Biajozhǔn (国家标准), что означает национальный стандарт на китайском языке. Стандарт был опубликован Китайской стандартной прессой, Пекин, 8 ноября 2005 года. Только часть стандарта является обязательной. С 1 мая 2006 года поддержка обязательного подмножества официально требуется для всех программных продуктов, продаваемых в КНР.
Более ранняя версия стандарта, известного как «Китайский национальный стандарт GB 18030-2000: Информационные технологии - кодированный набор символов китайской идеограммы для обмена информацией - Расширение для базового набора», опубликован 17 марта 2000 года. Схема кодирования остается неизменной в новой версии, и единственное отличие в отображении GB-to-Unicode заключается в том, что GB 18030-2000 сопоставил символ A8 BC (ḿ) с частным кодом U + E7C7 и символом 81 35 F4 37 (без указания какого-либо символа) до U + 1E3F (ḿ), тогда как GB 18030-2005 свопирует эти два назначения сопоставления: 534 Дополнительные коды теперь связаны с символами из-за обновления Unicode, особенно появление Расширение унифицированных идеологов CJK B. Некоторые символы, используемые этническими меньшинствами в Китае, такие как монгольские персонажи и тибетские персонажи (GB 16959-1997 и GB / T 20542-2006), также были добавлены, что объясняет переименование стандарта.
По сравнению с его предками, сопоставление GB 18030 с Unicode было изменено для 81 символа, которому условно присвоена точка кода UIC (U + E000-F8FF) Unicode в GBK 1.0 и которая впоследствии была закодирована в Юникоде. Это указано в Приложении E GB 18030.:534:499 В GB 18030-2005 имеется 24 символа, которые по-прежнему отображаются в Unicode PUA.
В качестве национального стандарта[]
Обязательная часть GB 18030-2005 состоит из 1 байтовой и 2-байтовой кодировки вместе с 4-байтовой кодировкой для расширения CJK Unified Ideographs. Соответствующие кодовые точки Юникода этого подмножества, включая временные частные назначения, целиком лежат в BMP: 3 Эти части соответствуют полностью обязательной GB 18030-2000.
Большинство крупных компьютерных компаний уже стандартизировали некоторую версию Unicode в качестве основного формата для использования в своих двоичных форматах и вызовах ОС. Однако в основном они поддерживали только кодовые точки в BMP, первоначально определенном в Unicode 1.0, который поддерживал только 65536 кодовых точек и часто кодировался в 16 бит как UCS-2.
В историческом значении для программного обеспечения, поддерживающего Unicode, КНР решила оказать поддержку определенным кодам за пределами BMP. Это означает, что программное обеспечение больше не может уйти с обработкой символов как 16-битных объектов с фиксированной шириной (UCS-2). Поэтому они должны либо обрабатывать данные в формате переменной ширины (например, UTF-8 или UTF-16), которые являются наиболее распространенными вариантами, либо переходить на больший формат фиксированной ширины (например, UCS-4 или UTF-32 ). Microsoft внесла изменения с UCS-2 в UTF-16 с Windows 2000.
Преобразование[]
GB 18030 определяет один (ASCII), два (расширенный GBK) или четырехбайтовый (UTF) кодирование. Двухбайтовые коды определяются в таблице поиска, тогда как четырехбайтовые коды определяются последовательно (следовательно, алгоритмически) для заполнения в противном случае незакодированных частей в UCS. GB 18030 наследует плохие аспекты GBK, особенно необходимо специальный код для безопасного поиска символов ASCII в последовательности GB18030.
GB 18030 кодирование[]
GB 18030 | Кодовые точки | Unicode | |||
---|---|---|---|---|---|
байт 1 (MSB) | байт 2 | байт 3 | байт 4 | ||
00 – 7F
|
128 | 0000 – 007F
| |||
80
|
— | Недействителен | |||
81 – FE
|
40 – FE кроме 7F
|
23940 | |||
81 – 84
|
30 – 39
|
81 – FE
|
30 – 39
|
39420 | 0080 – FFFF кроме D800 – DFFF
|
85
|
— (12600) | зарезервировано для будущего расширения символа | |||
86 – 8F
|
— (126000) | зарезервировано для будущего идеографического расширения | |||
Неподписан | — | D800 – DFFF
| |||
90 – E3
|
30 – 39
|
81 – FE
|
30 – 39
|
1048576 | 10000 – 10FFFF
|
E4 – FC
|
— (315000) | зарезервировано для будущего стандартного расширения | |||
FD – FE
|
— (25200) | Определяемые пользователем | |||
FF
|
— | Недействительный | |||
Всего | 1112064 |
Одно- и двухбайтовые кодовые точки по существу являются GBK с знаком euro, сопоставлениями PUA для неназначенных / определяемых пользователем точек и вертикальными пунктуациями. Четыре байтовую схему можно представить как состоящую из двух единиц, каждый из двух байтов. Каждый блок имеет аналогичный формат с двухбайтовым символом GBK, но с диапазоном значений для второго байта 0x30-0x39 (коды ASCII для десятичных цифр). Как и раньше, первый байт имеет диапазон от 0x81 до 0xFE. Это означает, что процедура поиска строк, безопасная для GBK, также должна быть достаточно безопасной для GB18030 (почти так же, как обычная байт-ориентированная поисковая процедура является достаточно безопасной для EUC).
Это дает в общей сложности 1587 600 (126 × 10 × 126 × 10) возможных 4 байтовых последовательностей, что достаточно просто, чтобы охватить назначенные, зарезервированные и нехарактерные коды кода Unicode 1,112,064 (17 × 65536 - 2048 суррогатов).
К сожалению, для дальнейшего усложнения вопросов нет простых правил для перевода между 4-байтовой последовательностью и соответствующей ей кодовой точкой. Вместо этого коды распределяются последовательно (с первым байтом, содержащим самую значительную часть и последнюю наименее значительную часть) только для кодовых точек Unicode, которые не отображаются каким-либо другим способом. Например:
U+00DE (Þ) → 81 30 89 37 U+00DF (ß) → 81 30 89 38 U+00E0 (à) → A8 A4 U+00E1 (á) → A8 A2 U+00E2 (â) → 81 30 89 39 U+00E3 (ã) → 81 30 8A 30
Таблица смещения используется в версии WHATWG и W3C GB 18030 для эффективного перевода кодовых точек. ICU и glibc используют аналогичные определения диапазонов, чтобы избежать потери пространства на больших последовательных блоках.
Поддержка[]
Кодирование[]
Windows 2000 может поддерживать кодировку GB18030, если установлен пакет поддержки GB18030. Windows XP может поддерживать его изначально. База данных PostgreSQL с открытым исходным кодом поддерживает GB18030 благодаря полной поддержке UTF-8, т. Е. Путем преобразования его в UTF-8 и из него. Аналогично, Microsoft SQL Server поддерживает GB18030 путем преобразования в UTF-16 и обратно.
Более конкретно, поддержка кодирования GB18030 в Windows означает, что код Page 54936 поддерживается MultiByteToWideChar и WideCharToMultiByte. Из-за обратной совместимости сопоставления многие файлы в GB18030 могут быть фактически успешно открыты как устаревший код 936, то есть GBK, даже если код Страница 54936 не поддерживается. Однако это справедливо только в том случае, если файл содержит только символы GBK. Загрузка приведет к ошибке или приведет к повреждению результата, если файл содержит символы, которые не существуют в GBK.
GNU glibc gconv, библиотека кодеков символов, используемая в большинстве дистрибутивов Linux, поддерживает GB 18030-2000 с версии 2.2 и GB 18030-2005 с версии 2.14; glibc, в частности, включает в себя не-PUA-сопоставления для GB 18030-2005 для обеспечения конверсии в оба конца. GNU libiconv, альтернативная реализация iconv, часто используемая в не-glibc UNIX-подобных средах, таких как Cygwin, поддерживает GB 18030 с версии 1.4.
Глифы[]
Пакет поддержки GB18030 для Windows содержит SimSun18030.ttc, файл коллекции шрифтов TrueType, который объединяет два китайских шрифта, SimSun-18030 и NSimSun-18030. Шрифт SimSun 18030 включает в себя все символы в Unicode 2.1 плюс новые символы, найденные в блоке Unicode CJK Unified Ideographs Extension A, но, несмотря на его имя, он не содержит глифов для всех символов GB 18030, так как весь (около миллиона) код Unicode точки до U + 10FFFF могут быть закодированы как GB 18030. Сертификация соответствия GB 18030 требует только правильной обработки и распознавания глифов в обязательной (двухбайтовой) китайской части.
Другие семейства шрифтов CJK, такие как HAN NOM и Hanazono Mincho, обеспечивают более широкий охват блоков расширения Unicode CJK, чем SimSun-18030 или даже Simsun (Founder Extended), но они также не поддерживают все кодовые точки, определенные в Unicode 5.0.0.