Кодиране на текстова информация на компютъра

Компютърът е сложно устройство, с което можете да създавате, конвертирате и съхранява информация. Компютърът обаче не работи съвсем разбираемо за нас - графичните, текстовите и цифровите данни се съхраняват като масиви от двоични кодиране на текстова информация номера. В тази статия ще разгледаме как се кодира текстовата информация.

Какво представлява текстът за нас е поредица от символи за компютър. Всеки символ представлява специфичен набор от нули и такива. Чрез символите се означават не само малки, така и главни букви букви от латински азбуката, но и препинателни знаци, аритметични знаци, сервизни символи, специални символи и дори пространство.

Бинарно кодиране на текстова информация

Когато се натисне определен клавиш, на вътрешния контролер, към който се преобразува, се изпраща електрически сигнал двоичен код. Кодът съответства на конкретен знак, който се показва. Да представляваш латинската азбука В цифров формат бе създадена международна система за кодиране ASCII. Това изисква 1 байт за написването на един символ, поради което символът се състои от осемцифрена последователност от нули и такива. Интервалът за запис е от 00000000 до 11111111, т.е. кодирането на текстова информация, използвайки тази система, позволява представянето на 256 символа. В повечето случаи това е достатъчно. бинарно кодиране на текстова информация

ASCII е разделена на две части. Първите 127 знака (от 00000000 до 01111111) са международни и представляват конкретни букви и букви на английската азбука. Втората част - разширението (от 10 000 000 на 11 11 11 11) - има за цел да представлява националната азбука, чието написване е различно от латинското.

Кодирането на текстова информация в ASCII се основава на принципа на нарастващата последователност, т.е. колкото по-голям е броят на латинската буква, толкова по-голяма е стойността на нейния ASCII код. Цифрите и руската част на таблицата са изградени на същия принцип.

Въпреки това, в света има няколко типа кодиране за кирилица. Най-често - е KOI-8 (осем-битово кодиране, която е била използвана в 70-те години в първия ruifitsirovannyh Unix операционната система), ISO 8859-5 (разработен от Международното бюро по стандартизация), CP 1251 (кодиране текстова информация, използвани в кодиране и обработка на текстова информация модерна операционна система Windows), както и двубайтово Unicode кодиране, с което можете да изпратите 65 536 знака. Такова разнообразие от кодировки се дължи на факта, че те са разработени по различно време, за различни операционни системи и по различни причини. Поради това често има трудности при прехвърлянето на текст от една медия на друга - ако кодовете не съвпадат, потребителят ще види само набор от неразбираеми икони. Как можете да решите тази ситуация? В Word, например, когато отваряте документ, получавате съобщение за проблеми при показването на текст и предлага няколко опции за прекодиране.

Така че кодирането и обработката на текстова информация в дълбините на компютъра е доста сложен и отнема време. Всички символи на всяка азбука представляват само определена последователност от числа двойна система, една клетка е един байт информация.

Споделяне в социалните мрежи:

сроден