muzruno.com

Работа с текста. Как да определите кодирането на файл

Нека да разберем, какво е

кодиране на файлове. По-просто казано, кодирането е набор байтове, който съответства на азбучната азбука на даден език. За всеки език има специфична последователност от такива кодиращи знаци. Понякога е необходимо да се определи кодирането. Помислете за това като пример за текстов документ.

Какво ви е необходимо

Комплект от определени софтуерни инструменти. За начало, достатъчно приложения от типа дума, KWrite, Firefox браузър и инструменти за разпознаване - ENCA.

Можете да определите кодирането на файла чрез универсалния редактор на Microsoft Word. Преди това тя трябва да бъде инсталирана от опаковката Office. Когато приложението е инсталирано и може да се отвори с помощта на иконата под формата на знак W на работния плот, преминете към следващата стъпка.

Следващият етап на признаване

Чрез навигационната лента на приложението отворете по едно и също време елементите "Файл" - "Отвори". Същото може да се направи и с комбинация от клавиатури Ctrl + O.

Тогава в диалогов прозорец изберете желаната директория и всъщност файла за четене. Изберете го с мишката, кликнете върху бутона "Отваряне".

Когато файлът няма съвкупност от мачове CP1251, Приложението се опитва да определи кодирането самостоятелно. Ще се покаже списък с възможни съвпадения. В предложените символи в дясната част на списъка изберете един от кодовете. Ако изборът е направен правилно, разпознатият текст ще се покаже в елемента "sample".

Как да определите кодирането с KWrite

В допълнение към препроцесора за текстообработка, Word, има и други функционални помощни програми. Един от тях - KWrite (аналогов за UNIX-системи). За да не се бъркате, ще напиша точките "за определяне на кодирането на документа в KWrite".

  1. Качване на файл с разширение .txt към приложението.
  2. Възпроизвеждане на кодировки, докато един от тях не е подходящ.
  3. За да изпълните стъпка 2, отидете на опцията Tools (инструменти) в менюто за кодиране.

Браузър Mozilla Firefox, целта е една и съща - за да определите кодирането

Принципът е приблизително същият като при комуналните услуги за работа с текст. Стартирайте инсталирания браузър за изпълнение и, ако не е инсталиран, изтеглете инсталатора от mozilla.org.

След това в отворения прозорец на програмата трябва да отворите текстов документ чрез менюто "Файл", подменюто "Отваряне на файл". Ако избраният файл се показва без изкривяване и текстът може да се чете, не е трудно да се определи кодирането.

За да направите това, отидете на "Преглед" - "кодиране", се показват няколко набора от знаци, а един от тях, срещу който има "отметка", и има дефинирано от браузъра кодиране.



Ако текстът не е разпознат правилно, изберете подраздел "допълнително", експериментирайте в него с кодировки или изберете стойността "auto".

Специализиран софтуер - работа с enca

Съществуват и редица помощни електронни инструменти, които правят възможно определянето на кодирането на неформатиран текст.

За тези, които са свикнали да работят под UNIX, е полезна utilita enca. Тя може да бъде инсталирана чрез услугата "Пакет мениджър". Като открихте наличната категория пакети, можете да пристъпите към инсталиране на софтуер.

За да изведете езиците за разпознаване, изпълнете командата enca -list languages, като използвате терминала.

Ако искате да определите кодирането на текстов файл след клавиша (g), въведете името му и след като опцията (L) по същия начин въведете езика за разпознаване:

enca -L russian -g /home/vic/temp/myfile.txt.

За да обобщим казаното за кодирането

Вярвам, че горепосочените помощни програми ще бъдат достатъчни за потребителя набор от инструменти за декодиране на текстови документи.

Докато всъщност става въпрос за това как да се разпознае кодирането. За стандартни цели, мисля, точно определен софтуер ще се приближи. Има по-специализирани методи за дефиниране, но тяхното разглеждане е извън обхвата на тази статия.

За Microsoft Word източникът на разпознаване може да бъде обикновен текст или документ със сложно форматиране.

Споделяне в социалните мрежи:

сроден