muzruno.com

Дълбочината на звуковото кодиране е какво? Определение, формула

Аудио кодирането се отнася до методи за съхранение и предаване на аудио данни. Следната статия описва как работят тези кодировки.

Обърнете внимание, че това е доста сложна тема - "Дълбочина на звуковото кодиране". Определението на това понятие ще бъде дадено и в нашата статия. Понятията, представени в тази статия, са предназначени само за общ преглед. Нека разкрием концепциите за дълбочината на звуковото кодиране. Някои от тези справочни данни могат да бъдат полезни за разбирането на начина на работа на приложния програмен интерфейс (API) и как да формулирате и обработвате звука във вашите приложения.

Как да намерите дълбочината на кодиране на звука

Аудиоформатът не е еквивалентен на аудио кодирането. Например популярен файлов формат, като WAV, определя формата на заглавката на аудиофайла, но не е кодиране на звука. WAV аудио файлове често, но не винаги използват линейно PCM кодиране.

От друга страна, FLAC е файлов формат и кодиране, което понякога води до известно объркване. В рамките на Speech API FLAC, дълбочината на аудио кодирането е единственото кодиране, което изисква аудио данните да съдържат заглавна част. Всички други кодирания показват безшумни аудио данни. Когато се отнасяме към FLAC в Speech API, ние винаги се позоваваме на кодека. Когато се отнасяме към файловия формат FLAC, ще използваме формата ".FLAC".дълбочината на кодиране на звука е

Не е необходимо да посочвате кодиране и честота на извличане за WAV или FLAC файлове. Ако този параметър е пропуснат, Cloud API автоматично определя кодирането и честотата на извадките за WAV или FLAC файлове въз основа на заглавката на файла. Ако зададете стойност на кодиране или честота на извадка, която не съответства на стойността в заглавката на файла, API за облака ще върне грешка.

Дълбочината на звуковото кодиране е какво?

Аудиоът се състои от осцилограми, състоящи се от интерполация на вълни с различни честоти и амплитуди. За да представят тези вълни в цифрова среда, сигналите трябва да бъдат отхвърлени със скорост, която може да представлява най-високите честоти, които искате да възпроизведете. Също така е необходимо те да съхраняват достатъчно дълбочина на битовете, за да представят правилната амплитуда (силата и мекотата) на осцилограмите, според пробата на звука.

Способността на устройството за обработка на звук да пресъздава честотите е известно като неговата честотна характеристика, а способността за създаване на подходяща сила на звука и мекота е известна като динамичен диапазон. Заедно тези термини често се наричат ​​вярност на аудио устройство. Дълбочината на звуковото кодиране е средство, чрез което можете да възстановите звука, като използвате тези два основни принципа, както и способността ефективно да съхранявате и предавате такива данни.

Процент на вземане на проби

Звукът съществува като форма на аналогова вълна. Цифровият сегмент на звука приближава тази аналогова вълна и пробва амплитудата си с достатъчно висока скорост, за да симулира естествените честоти на вълната. Честотата на вземане на проби на цифровия аудио сигнал определя броя на пробите, взети от оригиналния аудио материал (за секунда). Високата скорост на взимане на проби увеличава способността на цифровия звук да представя точно високите честоти.дълбочината на кодиране на звука е 8 бита

Вследствие на теоремата Nyquist-Shannon обикновено е необходимо да се опита поне два пъти честотата на всяка звукова вълна, която трябва да бъде записана цифрово. Например, за да представлява звук в обхвата на човешкото слушане (20-20000 Hz), цифровият аудио формат трябва да се показва най-малко 40 000 пъти в секунда (което е причината, поради която звукът на CD използва честота на вземане на проби от 44,100 Hz).

Дълбочинен бит

Дълбочината на кодиране на звука е ефектът върху динамичния обхват на дадена звукова проба. По-високата дълбочина на битовете позволява по-точни амплитуди. Ако имате много силни и меки звуци в една и съща звукова проба, ще ви трябват повече бита, за да предадете правилно тези звуци.

По-високите битови дълбочини също намаляват съотношението сигнал-шум в аудио образци. Ако дълбочината на аудио кодирането е 16 бита, музикалният звук на компактдиска се предава чрез тези стойности. Някои методи за компресиране могат да компенсират по-малките дълбочини на битовете, но те обикновено са загуби. DVD аудиото използва 24 бита дълбочина, докато при повечето телефони дълбочината на аудио кодирането е 8 бита.Ако дълбочината на аудио кодирането е 16 бита

Некомпресирано аудио

По-голямата част от цифровата обработка на звука използва тези два метода (честота на вземане на проби и дълбочина на битовете) за просто съхранение на аудио данни. Една от най-популярните технологии за цифров звук (популяризирана с помощта на компактдиск) е позната като импулсна кодова модулация (или PCM). Звукът се избира на определени интервали, а амплитудата на извадката вълна в тази точка се съхранява като цифрова стойност, като се използва битовата дълбочина на пробата.

Линейният PCM (който показва, че амплитудният отговор е линейно хомогенен в извадката) е стандартът, използван за компактдискове и кодиране API на LINEAR16 Speech. И двата кодара създават некомпресиран байтов поток, съответстващ директно на аудио данните, и двата стандарта съдържат 16 бита дълбочина. Линейният PCM използва честота на дискретизация 44,100Hz на компактдискове, която е подходяща за повторно композиране на музика. Въпреки това честотата на вземане на проби от 16 000 Hz е по-подходяща за реорганизация на речта.



Линейният PCM (LINEAR16) е пример за некомпресирано аудио, тъй като цифровите данни се съхраняват по подобен начин. Когато четете поток от един канален байт, кодиран с помощта на Линеен PCM, можете да преброите на всеки 16 бита (2 байта), за да получите различна стойност на амплитудата на сигнала. На практика всички устройства могат първоначално да манипулират такива цифрови данни - можете да изрязвате линейни PCM аудио файлове с текстов редактор, но некомпресираното аудио не е най-ефикасният начин за транспортиране или съхранение на цифрово аудио. Поради тази причина повечето аудио устройства използват цифрови методи за компресиране.

Компресиран звук

Аудио данните, както и всички данни, често се компресират, което улеснява тяхното съхранение и транспортиране. Компресията в аудио кодирането може да се осъществи без загуба или загуба. Без загуба на компресия може да се декомпресира, за да се възстановят цифровите данни в оригиналната им форма. Компресията задължително премахва известна информация по време на процедурата за декомпресия и се параметризира, за да покаже степента на толерантност към техниката на компресиране за изтриване на данни.разширете концепциите за дълбочината на кодиране на звука

без загуба на качество

Без загуба цифровото аудио е компресирано, като се използват сложни пермутации на съхранените данни, което не води до влошаване на качеството на оригиналната цифрова проба. При компресия без загуби, когато данните се разопаковат в оригиналната цифрова форма, информацията няма да бъде загубена.

Така че, защо без загуба на компресия методи понякога имат оптимизационни параметри? Тези параметри често обработват размера на файла за времето за декомпресия. FLAC например използва параметър за нивото на компресиране от 0 (най-бързо) до 8 (най-малкият размер на файла). По-високата FLAC компресия няма да загуби никаква информация в сравнение с по-ниско ниво на компресия. Вместо това алгоритъмът за компресията просто ще трябва да изразходва повече изчислителна мощ при изграждането или деконструирането на оригиналния цифров звук.

Реч API поддържа две безжични кодирания: FLAC и LINEAR16. Технически, LINEAR16 не е "без загуба на компресия", защото компресията не се използва главно. Ако размерът на файла или прехвърлянето на данни е важен за вас, изберете FLAC като опция за кодиране на звука.

Загуба на компресия

Компресирането на аудио данните елиминира или намалява някои видове информация при създаване на компресирани данни. API за реч поддържа няколко загубими формати, въпреки че те трябва да се избягват, тъй като загубата на данни може да повлияе на точността на разпознаване.дълбочина на кодиране на звука

Популярен MP3 кодек е пример за метод за кодиране на загуби. Всички методи за компресиране на MP3 премахват звука извън нормалния обхват на звука на човек и настройват нивото на компресия, като регулират ефективната скорост на данните на MP3 кодека или броя на бита в секунда за съхранение на аудио датата.

Например, стерео CD, използващ линеен PCM от 16 бита, има ефективна скорост на предаване на данни. Формулата за дълбочината на кодиране на звука:

441000 * 2 канала * 16 бита = 1411200 бита в секунда (bps) = 1411 Kbps

Например, MP3 компресирането премахва такива цифрови данни, използвайки скорости на данни, като например 320 kbit / s, 128 kbps или 96 kbps, което води до влошаване на качеството на звука. MP3 също поддържа променливи скорости на бита, които могат допълнително да компресират аудио. И двата метода губят информация и могат да повлияят на качеството. С увереност можем да кажем, че повечето хора могат да определят разликата между кодираната MP3 музика 96 kbit / s или 128 kbps.кодиране на дълбочината на дефиниране на звука

Други форми на компресия

MULAW е 8-битово PCM кодиране, където амплитудата на вземане на проби е логаритмично модулирана, а не линейна. В резултат на това uLaw намалява ефективния динамичен обхват на компресирания звук. Въпреки че uLaw е въведен специално за оптимизиране на кодирането на речта, за разлика от другите видове аудио, 16-битовият LINEAR16 (некомпресиран PCM) все още далеч надхвърля 8-битовия компресиран uLaw звук.

AMR и AMR_WB модулират кодираните аудио касети, като въведат променлива скорост на предаване в оригиналната аудио извадка.Как да намерите дълбочината на кодиране на звука

Въпреки че API за говор поддържа няколко загубими формати, трябва да ги избягвате, ако имате контрол над източника на звука. Въпреки че изтриването на такива данни чрез загуба на компресия може да не окаже значително влияние върху звука, чуван от човешкото ухо, загубата на такива данни за механизма за разпознаване на реч може значително да наруши точността.

Споделяне в социалните мрежи:

сроден