muzruno.com

Кодиране на Unicode: стандартно кодиране на знаци

Всеки потребител на Интернет, който се опитва да настрои една или друга от функциите си поне веднъж, видя на дисплея написаното с латински букви

думата "Unicode". Какво е това, ще научите, като прочетете тази статия.

Unicode какво е това

дефиниция

Кодирането с Unicode е стандарт за кодиране на знаци. Той е предложен от организацията с нестопанска цел Unicode Inc. през 1991 г. Стандартът е предназначен да комбинира възможно най-много различни видове символи в един документ. Страницата, която е създадена на нейната основа, може да съдържа букви и йероглифи от различни езици (от руски на корейски) и математически знаци. Всички символи в това кодиране се показват без никакви проблеми.

Причини за създаване

Веднъж, много преди да се появи системата Unicode, кодирането бе избрано въз основа на предпочитанията на автора на документа. По тази причина, често да четете един документ, трябва да използвате различни таблици. Понякога е трябвало да се прави няколко пъти, което значително усложнява живота на обикновения потребител. Както вече беше споменато, решението на този проблем през 1991 г. бе предложено от организацията с нестопанска цел Unicode Inc., която предложи нов тип кодиране на знаци. Той бил призован да комбинира морално остарели и разнообразни стандарти. "Unicode" - кодиране, което позволява да се постигне немислимото по това време: да се създаде инструмент, който да поддържа огромен брой знаци. Резултатът надмина много очаквания - се появиха документи, съдържащи едновременно английски и руски текст, латински и математически изрази.

Но създаването на едно кодиране бе предшествано от необходимостта да се решат редица проблеми, които възникнаха поради огромното разнообразие от стандарти, които вече са съществували по това време. Най-често срещаните са:

  • елифски писания или "каркозибари";
  • ограничен набор от знаци;
  • проблемът с кодиращото преобразуване;
  • дублиране на шрифтове.

Стандарт Unicode

Кратко историческо отклонение

Представете си, че дворът е на 80-те. Компютърната технология не е толкова широко разпространена и има различна форма от днес. По това време всяка OS е уникална по свой начин и е финализирана от всеки ентусиаст за специфични нужди. Необходимостта от обмен на информация се превръща в допълнително преразглеждане на всичко в света. Опитът да се чете документ, създаден в друга операционна система, често показва на екрана неразбираем набор от знаци и започват игри с кодиране. Не винаги е възможно да се направи това бързо, а понякога и необходимият документ може да бъде отворен шест месеца по-късно или дори по-късно. Хората, които често обменят информация, създават таблици за преобразуване за себе си. И тук работата по тях разкрива интересна подробност: те трябва да бъдат създадени в две посоки: "от моя към твоя" и обратно. За да направим банална инверсия на изчисленията, машината не може, защото в дясната колона има изходен код, а в лявата колона - резултат, но по всякакъв начин напротив. Ако имаше нужда да се използват някакви специални символи в документа, те първо трябваше да се добавят, а след това и обясниха на партньора какво трябва да направи, за да не се превърнат тези герои в "krakozyabry". Нека не забравяме, че за всяко кодиране трябваше да разработим или приложим собствени шрифтове, което доведе до създаването на огромен брой дубликати в операционната система.

Представете си още, че шрифтовете на страницата, ще видите 10 парчета от идентичен Times New Roman с малка забележка: за UTF-8, UTF-16, ANSI, UCS-2. Сега разбирате ли, че разработването на универсален стандарт е спешна необходимост?

Кодиране с Unicode

"бащите-основатели на създателите на"

Произходът на създаването на Unicode трябва да се търси през 1987 г., когато Джо Бекер от Xerox заедно с Лий Колинс и Марк Дейвис от Apple започнаха да правят изследвания за практическото създаване на универсален символен набор. През август 1988 г. Джо Бекер публикува проектопредложение за създаване на 16-битова международна многоезична система за кодиране.

Няколко месеца по-късно Unicode работна група да обхване и Кен Уислър и Майк Kernegana от RLG, Глен Райт от Sun Microsystems и няколко други специалисти, които дават възможност за приключването на работата по предварителния формирането на общ стандарт за кодиране.

Кодиране с Unicode

Общо описание

Unicode се основава на концепцията за символ. Това определение се разбира като абстрактен феномен, съществуващ в специфична форма на писане и реализиран чрез графими (неговите "портрети"). Всеки знак е зададен в Unicode чрез уникален код, принадлежащ на конкретен блок на стандарта. Например графим Б е в английска и руска азбука, но в Unicode тя съответства на 2 различни знака. Те се превръщат в малка буква, т.е. всеки от тях е описан от ключ за база данни, набор от свойства и пълно име.

Предимства на Unicode



От други съвременници кодирането на Unicode се отличава с огромен резерв от знаци за "криптиране" на героите. Фактът е, че неговите предшественици са имали 8 бита, т.е. те са поддържали 28 знака, но новото развитие вече е имало 216 знака, което е било огромна крачка напред. Това позволява да се кодират почти всички съществуващи и разпределени азбуки.

С настъпването на Unicode не е имало нужда от използване на таблици за преобразуване: като единствен стандарт просто унищожава тяхната нужда. По същия начин "krakozyabry" също изчезна в забвение - един стандарт ги направи невъзможни, както и елиминира необходимостта от създаване на дублирани шрифтове.

Разработка на Unicode

Разбира се, напредъкът не спира да тече и 25 години от първото представяне. Въпреки това, Unicode кодиране упорито запазва своята позиция в света. В много отношения това стана възможно благодарение на факта, че то стана лесно осъществимо и разпространено, което се признава от разработчиците на софтуер за собственически (платени) и с отворен код.

unicode кодиране (стандарт за кодиране на символи)

В този случай не предполагайте, че днес имаме едни и същи Unicode кодиране преди около четвърт век. В момента се заменя с версия 5.h.h, а броят на кодирани символи се увеличи до 231. На възможността за използване на по-голяма свобода марка не се все още поддържа подкрепа за Unicode-16 (кодиране, където максималният размер на ограничения брой 216). От момента на появата си до версия 2.0.0, "Unicode-standard" увеличи броя на символите, които го включиха, почти 2 пъти. Увеличаването на възможностите продължи и през следващите години. Към версия 4.0.0 вече имаше нужда да се увеличи самият стандарт, което беше направено. В резултат на това Unicode придоби форма, в която го познаваме днес.

Unicode какво е това

Какво друго има в Unicode?

В допълнение към огромния, все по-голям брой герои, "Unicode" - кодиране на текстова информация има още една полезна функция. Става дума за така наречената нормализация. Вместо да превъртате целия символ на документ по знак и замествайки съответните икони от таблицата за съвпадение, се използва един от съществуващите алгоритми за нормализация. За какво говорим?

Вместо да се харчат компютърни ресурси за редовна проверка на един и същ символ, който може да бъде подобен в различни азбуки, се използва специален алгоритъм. Тя ви позволява да извадите подобни знаци в отделна графика на таблицата за търсене и да ги препратите вече, а не да проверявате многократно всички данни.

Съществуват четири такива алгоритми, разработени и приложени. Във всяка от тях преобразуването се осъществява по строго дефиниран принцип, който се различава от другите, поради което не е възможно едно от тях да бъде наречено най-ефективно. Всяка от тях е разработена за специфични нужди, е реализирана и успешно използвана.

Кодиране на текст в Unicode

Разпространението на стандарта

За 25 години от историята си, кодирането с Unicode вероятно е получило най-голямото разпространение в света. Съгласно този стандарт програмите и уеб страниците също се коригират. Широкото приложение може да се каже с факта, че днес Unicode използва повече от 60% от интернет ресурси.

Сега знаете кога се появи стандартният "Unicode". Какво е това, вие също знаете и ще можете да оцените цялата стойност на изобретението, направена от група специалисти от Unicode Inc. преди повече от 25 години.

Споделяне в социалните мрежи:

сроден