Кодиране на Unicode: стандартно кодиране на знаци
Всеки потребител на Интернет, който се опитва да настрои една или друга от функциите си поне веднъж, видя на дисплея написаното с латински букви
съдържание
дефиниция
Кодирането с Unicode е стандарт за кодиране на знаци. Той е предложен от организацията с нестопанска цел Unicode Inc. през 1991 г. Стандартът е предназначен да комбинира възможно най-много различни видове символи в един документ. Страницата, която е създадена на нейната основа, може да съдържа букви и йероглифи от различни езици (от руски на корейски) и математически знаци. Всички символи в това кодиране се показват без никакви проблеми.
Причини за създаване
Веднъж, много преди да се появи системата Unicode, кодирането бе избрано въз основа на предпочитанията на автора на документа. По тази причина, често да четете един документ, трябва да използвате различни таблици. Понякога е трябвало да се прави няколко пъти, което значително усложнява живота на обикновения потребител. Както вече беше споменато, решението на този проблем през 1991 г. бе предложено от организацията с нестопанска цел Unicode Inc., която предложи нов тип кодиране на знаци. Той бил призован да комбинира морално остарели и разнообразни стандарти. "Unicode" - кодиране, което позволява да се постигне немислимото по това време: да се създаде инструмент, който да поддържа огромен брой знаци. Резултатът надмина много очаквания - се появиха документи, съдържащи едновременно английски и руски текст, латински и математически изрази.
Но създаването на едно кодиране бе предшествано от необходимостта да се решат редица проблеми, които възникнаха поради огромното разнообразие от стандарти, които вече са съществували по това време. Най-често срещаните са:
- елифски писания или "каркозибари";
- ограничен набор от знаци;
- проблемът с кодиращото преобразуване;
- дублиране на шрифтове.
Кратко историческо отклонение
Представете си, че дворът е на 80-те. Компютърната технология не е толкова широко разпространена и има различна форма от днес. По това време всяка OS е уникална по свой начин и е финализирана от всеки ентусиаст за специфични нужди. Необходимостта от обмен на информация се превръща в допълнително преразглеждане на всичко в света. Опитът да се чете документ, създаден в друга операционна система, често показва на екрана неразбираем набор от знаци и започват игри с кодиране. Не винаги е възможно да се направи това бързо, а понякога и необходимият документ може да бъде отворен шест месеца по-късно или дори по-късно. Хората, които често обменят информация, създават таблици за преобразуване за себе си. И тук работата по тях разкрива интересна подробност: те трябва да бъдат създадени в две посоки: "от моя към твоя" и обратно. За да направим банална инверсия на изчисленията, машината не може, защото в дясната колона има изходен код, а в лявата колона - резултат, но по всякакъв начин напротив. Ако имаше нужда да се използват някакви специални символи в документа, те първо трябваше да се добавят, а след това и обясниха на партньора какво трябва да направи, за да не се превърнат тези герои в "krakozyabry". Нека не забравяме, че за всяко кодиране трябваше да разработим или приложим собствени шрифтове, което доведе до създаването на огромен брой дубликати в операционната система.
Представете си още, че шрифтовете на страницата, ще видите 10 парчета от идентичен Times New Roman с малка забележка: за UTF-8, UTF-16, ANSI, UCS-2. Сега разбирате ли, че разработването на универсален стандарт е спешна необходимост?
"бащите-основатели на създателите на"
Произходът на създаването на Unicode трябва да се търси през 1987 г., когато Джо Бекер от Xerox заедно с Лий Колинс и Марк Дейвис от Apple започнаха да правят изследвания за практическото създаване на универсален символен набор. През август 1988 г. Джо Бекер публикува проектопредложение за създаване на 16-битова международна многоезична система за кодиране.
Няколко месеца по-късно Unicode работна група да обхване и Кен Уислър и Майк Kernegana от RLG, Глен Райт от Sun Microsystems и няколко други специалисти, които дават възможност за приключването на работата по предварителния формирането на общ стандарт за кодиране.
Общо описание
Unicode се основава на концепцията за символ. Това определение се разбира като абстрактен феномен, съществуващ в специфична форма на писане и реализиран чрез графими (неговите "портрети"). Всеки знак е зададен в Unicode чрез уникален код, принадлежащ на конкретен блок на стандарта. Например графим Б е в английска и руска азбука, но в Unicode тя съответства на 2 различни знака. Те се превръщат в малка буква, т.е. всеки от тях е описан от ключ за база данни, набор от свойства и пълно име.
Предимства на Unicode
От други съвременници кодирането на Unicode се отличава с огромен резерв от знаци за "криптиране" на героите. Фактът е, че неговите предшественици са имали 8 бита, т.е. те са поддържали 28 знака, но новото развитие вече е имало 216 знака, което е било огромна крачка напред. Това позволява да се кодират почти всички съществуващи и разпределени азбуки.
С настъпването на Unicode не е имало нужда от използване на таблици за преобразуване: като единствен стандарт просто унищожава тяхната нужда. По същия начин "krakozyabry" също изчезна в забвение - един стандарт ги направи невъзможни, както и елиминира необходимостта от създаване на дублирани шрифтове.
Разработка на Unicode
Разбира се, напредъкът не спира да тече и 25 години от първото представяне. Въпреки това, Unicode кодиране упорито запазва своята позиция в света. В много отношения това стана възможно благодарение на факта, че то стана лесно осъществимо и разпространено, което се признава от разработчиците на софтуер за собственически (платени) и с отворен код.
В този случай не предполагайте, че днес имаме едни и същи Unicode кодиране преди около четвърт век. В момента се заменя с версия 5.h.h, а броят на кодирани символи се увеличи до 231. На възможността за използване на по-голяма свобода марка не се все още поддържа подкрепа за Unicode-16 (кодиране, където максималният размер на ограничения брой 216). От момента на появата си до версия 2.0.0, "Unicode-standard" увеличи броя на символите, които го включиха, почти 2 пъти. Увеличаването на възможностите продължи и през следващите години. Към версия 4.0.0 вече имаше нужда да се увеличи самият стандарт, което беше направено. В резултат на това Unicode придоби форма, в която го познаваме днес.
Какво друго има в Unicode?
В допълнение към огромния, все по-голям брой герои, "Unicode" - кодиране на текстова информация има още една полезна функция. Става дума за така наречената нормализация. Вместо да превъртате целия символ на документ по знак и замествайки съответните икони от таблицата за съвпадение, се използва един от съществуващите алгоритми за нормализация. За какво говорим?
Вместо да се харчат компютърни ресурси за редовна проверка на един и същ символ, който може да бъде подобен в различни азбуки, се използва специален алгоритъм. Тя ви позволява да извадите подобни знаци в отделна графика на таблицата за търсене и да ги препратите вече, а не да проверявате многократно всички данни.
Съществуват четири такива алгоритми, разработени и приложени. Във всяка от тях преобразуването се осъществява по строго дефиниран принцип, който се различава от другите, поради което не е възможно едно от тях да бъде наречено най-ефективно. Всяка от тях е разработена за специфични нужди, е реализирана и успешно използвана.
Разпространението на стандарта
За 25 години от историята си, кодирането с Unicode вероятно е получило най-голямото разпространение в света. Съгласно този стандарт програмите и уеб страниците също се коригират. Широкото приложение може да се каже с факта, че днес Unicode използва повече от 60% от интернет ресурси.
Сега знаете кога се появи стандартният "Unicode". Какво е това, вие също знаете и ще можете да оцените цялата стойност на изобретението, направена от група специалисти от Unicode Inc. преди повече от 25 години.
- Работа с текста. Как да определите кодирането на файл
- ASCII (американски стандартен код за обмен на информация) - основно текстово кодиране на латинската…
- ASCII, символи: описание, кодова таблица и изгледи
- Колко ефективна е кодирането на алкохола и как се извършва това?
- Как да поставите котировки - рибена кост
- Кодирането и декодирането е трудно?
- Защо двоичното кодиране е универсално? Методи на програмиране
- UTF-8 - кодиране на знаци
- Htaccess (кодиране): настройка, примери за използване
- Усмивките са японски знаци и текст. Японски усмивки на kaomoji
- Кодиране на текст
- EOT - какво е това? Как са били приложени шрифтовете от отворен тип?
- Как да вмъкнете символ "Гама" в Word
- Как в Excel да промените кодирането. Три начина
- Има два начина за промяна на кодирането в Word
- Два начина за промяна на кодирането в Word
- Кодиране без шум: как започна всичко?
- Кодиране на html. Как са боядисвани уеб страниците
- На пътуване по интернет. URL-адрес
- За начинаещи PHP програмисти: дължината на низа
- Кодиране на текстова информация на компютъра