Базовые знания аудио и принципы кодирования

1. Основные понятия

1) Битовая скорость: указывает, сколько бит в секунду должны быть представлены закодированные (сжатые) аудиоданные, обычно единица измерения - кбит / с.

2) Громкость и интенсивность: субъективные атрибуты звука. Громкость показывает, насколько громко звучит звук. Громкость в основном зависит от интенсивности звука, но также зависит от частоты. Вообще говоря, чистые среднечастотные звуки лучше чистых низкочастотных и высокочастотных звуков.

3) Выборка и частота дискретизации: дискретизация предназначена для преобразования непрерывного временного сигнала в дискретный цифровой сигнал. Частота выборки относится к тому, сколько выборок собирается в секунду.

Закон выборки Найквиста: когда частота дискретизации больше или равна 2-кратному компоненту самой высокой частоты непрерывного сигнала, дискретизированный сигнал можно использовать для точного восстановления исходного непрерывного сигнала.

2. распространенные аудиоформаты

1) Формат WAV - это формат звукового файла, разработанный Microsoft, также называемый звуковым файлом wave. Это самый ранний цифровой аудиоформат, широко поддерживаемый платформой Windows и ее приложениями, и имеет низкую степень сжатия.

2) MIDI - это аббревиатура от Musical Instrument Digital Interface, также известного как Musical Instrument Digital Interface, который является единым международным стандартом для цифровой музыки / электронных синтетических музыкальных инструментов. Он определяет способ, которым компьютерные музыкальные программы, цифровые синтезаторы и другие электронные устройства обмениваются музыкальными сигналами, и определяет протокол передачи данных между кабелями, оборудованием и устройствами, соединяющими электронные музыкальные инструменты от разных производителей с компьютерами, и может имитировать звук нескольких музыкальных произведений. инструменты. Файл MIDI - это файл в формате MIDI, и некоторые команды хранятся в файле MIDI. Отправьте эти инструкции звуковой карте, и звуковая карта будет синтезировать звук в соответствии с инструкциями.

3) Полное название MP3 - MPEG-1 Audio Layer 3, который был объединен со спецификацией MPEG в 1992 году. MP3 может сжимать цифровые аудиофайлы с высоким качеством звука и низкой частотой дискретизации. Самое распространенное приложение.

4) MP3Pro был разработан шведской компанией Coding Technology Company, которая содержит две основные технологии: одна - это уникальная технология декодирования от Coding Technology Company, а другая - интеграция французской компании Thomson Multimedia Company, владеющей патентом MP3, и немецкой технологии декодирования Fraunhofer A, разработанная совместно. Ассоциацией округов. MP3Pro может улучшить качество звука оригинальной музыки в формате MP3 без существенного изменения размера файла. Он может максимально поддерживать качество звука перед сжатием при сжатии аудиофайлов с более низкой скоростью передачи данных.

5) MP3Pro был разработан шведской компанией Coding Technology Company, которая содержит две основные технологии: одна - это уникальная технология декодирования от Coding Technology Company, а другая - интеграция французской компании Thomson Multimedia Company, владеющей патентом MP3, и немецкой технологии декодирования Fraunhofer A, разработанная совместно. Ассоциацией округов. MP3Pro может улучшить качество звука оригинальной музыки в формате MP3 без существенного изменения размера файла. Он может максимально поддерживать качество звука перед сжатием при сжатии аудиофайлов с более низкой скоростью передачи данных.

6) WMA (Windows Media Audio) - это шедевр Microsoft в области интернет-аудио и видео. Формат WMA обеспечивает более высокую степень сжатия за счет уменьшения трафика данных, но с сохранением качества звука. Степень сжатия обычно может достигать 1:18. Кроме того, WMA также может защищать авторские права с помощью DRM (управления цифровыми правами).

7) RealAudio - это формат файлов, выпущенный Real Networks. Самая большая особенность заключается в том, что он может передавать аудиоинформацию в реальном времени, особенно при низкой скорости сети, он по-прежнему может передавать данные плавно, поэтому RealAudio в основном подходит для сетевой игры онлайн. Текущие форматы файлов RealAudio в основном включают RA (RealAudio), RM (RealMedia, RealAudio G2), RMX (RealAudio Secured) и т. Д. Общность этих файлов заключается в том, что качество звука меняется в зависимости от пропускной способности сети. Исходя из того, что большинство людей слышат ровный звук, слушатели с более широкой полосой пропускания могут получить лучшее качество звука.

8) Audible имеет четыре различных формата: Audible1, 2, 3, 4. Веб-сайт Audible.com в основном продает аудиокниги в Интернете и обеспечивает защиту товаров и файлов, которые они продают, с помощью одного из четырех специальных аудиоформатов Audible.com. . Каждый формат в основном учитывает источник звука и используемое устройство для прослушивания. Форматы 1, 2 и 3 используют разные уровни сжатия голоса, а формат 4 использует более низкую частоту дискретизации и тот же метод декодирования, что и MP3. В результате голос становится более четким, и его можно более эффективно загрузить из Интернета. Audible использует собственный инструмент воспроизведения на рабочем столе, которым является Audible Manager. С помощью этого проигрывателя вы можете воспроизводить файлы формата Audible, хранящиеся на ПК или переданные на портативный проигрыватель.

9) AAC на самом деле является аббревиатурой Advanced Audio Coding. AAC - это аудиоформат, совместно разработанный Fraunhofer IIS-A, Dolby и AT&T. Это часть спецификации MPEG-2. Алгоритм, используемый AAC, отличается от алгоритма MP3. AAC сочетает в себе другие функции для повышения эффективности кодирования. Аудио алгоритм AAC намного превосходит некоторые предыдущие алгоритмы сжатия (например, MP3 и т. Д.) По возможностям сжатия. Он также поддерживает до 48 звуковых дорожек, 15 низкочастотных звуковых дорожек, большую частоту дискретизации и скорость передачи данных, многоязычную совместимость и более высокую эффективность декодирования. Короче говоря, AAC может обеспечить лучшее качество звука при условии, что он на 30% меньше файлов MP3.

10) Ogg Vorbis - это новый формат сжатия звука, похожий на существующие музыкальные форматы, такие как MP3. Но одно отличие состоит в том, что он полностью бесплатный, открытый и без патентных ограничений. Vorbis - это название этого механизма сжатия звука, а Ogg - это название проекта, который намеревается разработать полностью открытую мультимедийную систему. VORBIS также использует сжатие с потерями, но для уменьшения потерь в нем используются более продвинутые акустические модели. Следовательно, OGG, закодированный с той же скоростью передачи данных, звучит лучше, чем MP3.

11) APE - это аудиоформат со сжатием без потерь, при условии, что качество звука не снижается, размер сжимается до половины размера WAV-файла в традиционном формате без потерь.

12) FLAC - это аббревиатура от Free Lossless Audio Codec, набора хорошо известных бесплатных кодов сжатия звука без потерь, который характеризуется сжатием без потерь.

3. основной принцип кодирования звука

Кодирование речи предназначено для уменьшения ширины полосы канала, необходимой для передачи, при сохранении высокого качества входной речи.

Целью кодирования речи является разработка кодера низкой сложности для достижения высококачественной передачи данных при минимально возможной скорости передачи битов.

1) Кривая порога отключения звука: порог, при котором человеческое ухо может слышать звук на различных частотах только в тихой обстановке.

2) Критическая полоса частот

Поскольку человеческое ухо имеет разное разрешение для разных частот, MPEG1 / Audio делит воспринимаемый частотный диапазон в пределах 22 кГц на 23 ~ 26 критических частотных полос в соответствии с разными уровнями кодирования и разными частотами дискретизации. На следующем рисунке показаны центральная частота и ширина полосы идеальной критической полосы частот. Как видно на рисунке, человеческое ухо имеет лучшее разрешение низких частот.

3) Эффект маскирования в частотной области: сигнал с большей амплитудой будет маскировать сигнал с аналогичной частотой и меньшей амплитудой, как показано на рисунке ниже:

4) Эффект маскировки во временной области: если через короткий промежуток времени появятся два звука, звук с большим SPL (уровнем звукового давления) замаскирует звук с меньшим SPL. Эффект маскирования во временной области делится на прямое маскирование (предварительное маскирование) и обратное маскирование (пост-маскирование). Время пост-маскирования будет больше, примерно в 10 раз по сравнению с предварительным маскированием.

Эффект маскировки во временной области помогает устранить предэхо.

4. основные средства кодирования

1) Квантователь и квантователь

Квантование и квантователь: квантование преобразует непрерывный сигнал за дискретное время в дискретный сигнал за дискретное время. Распространенными квантователями являются: равномерный квантователь, логарифмический квантователь и неравномерный квантователь. Целью, преследуемой процессом квантования, является минимизация ошибки квантования и минимизация сложности квантователя (оба сами по себе противоречат друг другу).

(A) Равномерный квантователь: простейший, худший результат, подходит только для телефонного голоса.

(B) Логарифмический квантователь: он сложнее, чем равномерный квантователь, и его легко реализовать, а его характеристики лучше, чем равномерный квантователь.

(C) Неравномерный квантователь: разработайте квантователь в соответствии с распределением сигнала. Подробная количественная оценка выполняется там, где сигнал является плотным, и грубая количественная оценка выполняется там, где сигнал является разреженным.

2) Голосовой кодировщик

Существует три типа речевых кодировщиков: (a) кодировщик сигналов; (б) вокодер; (c) Гибридный кодировщик.

Кодер формы сигнала предназначен для построения аналоговой формы сигнала, включая лист фонового шума. Воздействуя на все входные сигналы, он будет производить высококачественные выборки и потреблять высокий битрейт. Вокодер не восстанавливает исходную форму волны. Этот набор кодировщиков будет извлекать набор параметров, которые отправляются на принимающую сторону для получения модели генерации голоса. Качество голоса вокодера оставляет желать лучшего. Гибридный кодировщик, сочетающий в себе преимущества кодировщика сигналов и эхолота.

2.1 Кодировщик сигналов

Конструкция кодировщика сигналов часто не зависит от сигнала. Таким образом, он подходит для кодирования различных сигналов и не ограничивается речью.

1) Кодирование во временной области

а) ИКМ: импульсная кодовая модуляция - это простейший метод кодирования. Это всего лишь дискретизация и квантование сигнала, причем часто используется логарифмизация.

б) DPCM: дифференциальная импульсная кодовая модуляция, которая кодирует только разницу между выборками. Предыдущая одна или несколько выборок используются для прогнозирования текущего значения выборки. Чем больше выборок используется для прогнозов, тем точнее прогнозируемое значение. Разница между истинным значением и предсказанным значением называется остатком, который является объектом кодирования.

c) ADPCM: адаптивная дифференциальная импульсная кодовая модуляция, адаптивный дифференциальный импульсный код. То есть на основе DPCM квантователь и предсказатель соответствующим образом настраиваются в соответствии с изменениями сигнала, так что предсказанное значение ближе к реальному сигналу, остаток меньше, а эффективность сжатия выше.

(2) Кодирование в частотной области

Кодирование в частотной области состоит в разложении сигнала на ряд различных частотных элементов и выполнении независимого кодирования.

a) Кодирование поддиапазона: Кодирование поддиапазона - это простейший метод кодирования в частотной области. Это технология, которая преобразует исходный сигнал из временной области в частотную, затем делит его на несколько поддиапазонов и соответственно выполняет цифровое кодирование на них. Он использует группу полосовых фильтров (BPF) для разделения исходного сигнала на несколько (например, m) подполос (называемых подполосами). Пропустите каждый поддиапазон через характеристики модуляции, эквивалентные однополосной амплитудной модуляции, переместите каждый поддиапазон на частоту, близкую к нулю, соответственно пропустите BPF (всего m), а затем перенесите каждый поддиапазон с заданной скоростью ( Частота Найквиста). Выходной сигнал поддиапазона дискретизируется, и дискретизированное значение обычно кодируется цифровым кодом, и установлено m цифровых кодеров. Отправьте каждый цифровой кодированный сигнал в мультиплексор и, наконец, выведите поток данных с кодировкой поддиапазона.

Для разных поддиапазонов могут использоваться разные методы квантования, и различное количество битов может быть выделено поддиапазонам в соответствии с моделью восприятия человеческого уха.

б) кодирование с преобразованием: кодирование DCT.

5. Вокодер

Канальный вокодер: использует нечувствительность человеческого уха к фазе.

гомоморфный вокодер: может эффективно обрабатывать синтетические сигналы.

Формантовый вокодер: Большая часть информации голосового сигнала находится в позиции и полосе пропускания форманты.

Вокодер с линейным прогнозированием: наиболее часто используемый вокодер.

6. Гибридный кодировщик

Кодер формы волны пытается сохранить форму закодированного сигнала и может обеспечить высококачественную речь при средней скорости передачи данных (32 кбит / с), но не может применяться в случаях с низкой скоростью передачи данных. Вокодер пытается сгенерировать сигнал, который на слух похож на закодированный сигнал, и может обеспечить разборчивую речь при низкой скорости передачи битов, но получающаяся в результате речь звучит неестественно. Гибридный кодировщик сочетает в себе преимущества обоих.

RELP: на основе линейного предсказания кодируется остаток. Механизм таков: передать только небольшую часть остатков и восстановить все остатки на принимающей стороне (скопировать остатки основной полосы частот).

MPC: многоимпульсное кодирование, которое устраняет корреляцию остатков и используется для компенсации простой классификации вокодером голосов на вокализованные и невокализованные без дефектов промежуточных состояний.

CELP: линейное предсказание с возбуждением кодовой книги, которое использует предсказание речевого тракта и каскад предсказателя основного тона для лучшего приближения к исходному сигналу.

MBE: многополосное возбуждение, цель состоит в том, чтобы избежать большого количества вычислений CELP, чтобы получить более высокое качество, чем вокодер.