Методы сжатия цифрового звука. Сжатие звука MP3

3.2. Mp3 - технология сжатия звуковой информации

Само название МрЗ появилось в результате сокращения аббревиатуры MPEG-1 Layer3.

MPEG (Motion Pictures Expert Group) - это группа при Международной организации по стандартизации и Международном электрическом комитете, которая занимается разработкой стандартов для цифрового сжатия видео и аудио информации. А зачем сжимать эту информацию? Во-первых, для экономии экономических и материальных ресурсов при передаче информации на расстояние по каналам связи (в том числе и спутниковым), а во-вторых, для ее хранения.

Официальное одобрение стандарт MPEG-1 получил в 1992 году, однако до недавнего времени открытие не было востребовано в полной мере. Лишь с появлением достаточно мощных процессоров Pentiumтактовыми частотами от 300 МГц и выше, позволяющих резко снизить время на кодирование/декодирование сигнала) и высокоскоростных модемов стандарт получил широкое признание.

Стандарт MPEG-1 является потоковым форматом и состоит из аудио, видео и системной частей. Последняя часть содержит информацию об объединении и синхронизации двух первых.

Передача данных происходит потоком независимых отдельных блоков данных - фреймов, получаемых при "нарезке" на равные по продолжительности участки, которые кодируются независимо друг от друга.

Всего в настоящее время существует пять видов (номеров) стандартов MPEG:

1) MPEG1 - сжатие аудио и видео с общей скоростью до 150 Кбайт/сек (аудио 38, 44.1, 48 килогерц);

2) MPEG2 - сжатие аудио и видео с общей скоростью до 300 Кбайт/сек (аудио 38, 44.1, 48 килогерц), сжатие аудио ИДЕНТИЧНО MPEG1;

3) MPEG2.5 - сжатие аудио с пониженным разрешением (аудио 16,22.05,24 килогерц). Интересно заметить, что стандарт MPEG2.5 (еще известный как MPEG2 LSF - LOW SAMPLE FREQUENCY - низкая частота сканирования аудио) введен фирмой IIS Fraunhofer (институт информационных технологий имени Фраунхофера из Германии). Этот стандарт является расширением "чистого" аудио MPEG2 (то есть MPEG1!) для частоты сканирования аудио в два раза меньшей, чем обычно;

4) MPEG3 - многоканальный MPEG1+MPEG2. Этот стандарт практически не используется;

5) MPEG4 - новомодный за рубежом стандарт. Его особенность: может держать до 8-и каналов аудио (то есть AC-3 - цифровое расширение системы Surround.

Чем выше индекс уровня тем выше сложность и производительность алгоритма кодирования, соответственно и увеличиваются требования к системным ресурсам.

Здесь под термином "кодирование" понимается процесс, позволяющий получать файл в сжатом виде, который занимает меньше места на диске и соответственно быстрее передается по каналам связи. В сжатой форме файл использоваться не может, соответственно, перед использованием его необходимо декодировать. Сжатие файла происходит не всегда с положительным результатом. Результат напрямую зависит от метода компрессии и от содержимого самого файла.

Принцип кодирования сигнала в MPEG Audio основан на использовании психоакустической модели (Psycho-acoustics), суть которой в следующем.

Существует ряд звуковых частот, которые человеческое ухо не воспринимает. Происходит маскирование одних звуков другими, как с большей амплитудой, так и с близкой частотой. Так, например, если излучается сильный звук частотой 1000 Гц (маскирующий), то более слабый звук частотой 1100 Гц (маскируемый) человеческое ухо не зафиксирует из-за особенностей порога слышимости человеческого уха. Порог слышимости на краях частотного диапазона (16-20 Гц и 16-20 кГц) значительно повышается, т.к. на этих частотах слух имеет значительно меньшую чувствительность по сравнению с областью наибольшей чувствительности слуха (диапазон 1-5 кГц). Также известно, что время восстановления чувствительности слуха после громкого сигнала составляет порядка 100 мс, а время задержки восприятия этого же сигнала составляет порядка 5 мс.

Таким образом, происходит передача только той звуковой информации, которая может быть адекватно воспринята подавляющим большинством слушателей, а вся остальная, увы, безвозвратно теряется.

Как уже упоминалось, все уровни имеют одинаковую базовую структуру, при которой кодер анализирует исходный сигнал, вычисляет для него гребенку фильтров (32 полосы) и применяет психоакустическую модель. С заранее выбранной частотой квантования, величиной потока и маскирования кодер производит квантование и кодирование сигнала.

Сравнительные характеристики способов кодирования для одного канала при частоте квантования в 32 кГц представлены в таблице 2.

Таблица 2.

Способ кодирования Скорость передачи (кбит/с) Коэффициент сжатия
Layer 1 192 1:4
Layer 2 128-96 1:6...8
Layer 3 64-56 1:10...12

Перед кодированием исходный сигнал разбивается на фреймы, каждый из которых кодируется отдельно с разными параметрами и помещается в конечном файле независимо от других. Последовательность воспроизведения определяется порядком расположения фреймов. Вся информация о фрейме содержится в его заголовке, а информация о фреймах содержится в заголовке файла. Для информации об артисте, альбоме, названии композиции, жанре и пр. предусмотрен ID3/ID2 tag - заголовок. Подавляющее большинство существующих проигрывателей используют данный заголовок для прокрутки этой информации во время проигрывания музыкального фрагмента.

Между фреймами может содержаться произвольная информация, допустим, авторские права, расположенные ровным слоем по всему файлу. Основное требование к последовательно расположенным фреймам заключается в том, чтобы отсутствовали совпадения с сигнатурой начала фрейма.

Частота следования фреймов называется битрейтом (BIT RATE - битовая скорость, чем она выше, тем ближе будет конечный результат к оригиналу).

Каждый битрейт имеет свою область применения. Для создания качественной копии, соответствующей качеству оригиналу применяются только высокие битрейты порядка 256 кбит/с. При битрейте 128 кбит/с качество конечного продукта кажется вполне нормальным, но заметить разницу между копией и оригиналом способны уже многие. В Интернете чаще всего содержатся как раз МРЗ файлы, закодированные битрейтом 128 кбит/с. Но для создания действительно качественной копии необходимо использовать скорость кодирования в 320 кбит/с, хотя конечный файл получается меньше лишь в 4,3 раза по сравнению с 10,8 раз на 128 кбит/с и 5,4 раза на 256 кбит/с. Поэтому выбирать битрейт необходимо самому, исходя из потребностей.

После фреймовой разметки исходный сигнал с помощью гребенчатых фильтров разделяется на составляющие, представляющие отдельные частотные диапазоны, в сумме дающие обрабатываемый сигнал. Для каждого такого диапазона определяется своя психоакустическая модель и участки фрейма, которые "выпадают" из процесса кодирования. Для оставшихся данных определяется максимально допустимая частота квантования, которая должна обеспечивать потери ниже величины маскирующего эффекта.

После обработки всех фреймов формируется итоговый поток, который дополнительно кодируется по методу Хаффмана. Этот алгоритм также используется в архиваторе ARJ, только с динамической, постоянно изменяющейся таблицей Хаффмана, что требует двух проходов по данным; при фиксированной же таблице Layer 3, сжатие происходит за один проход. Указанный метод позволяет "сжать" до 20 процентов от общего объема. В результате получаем конечный поток кодированных аудиоданных.


При мне" с простым безыскусным напевом Глинки, услышанным от Грибоедова, и более сложное драматическое решение в романсе - восточной поэме Рахманинова, полной элегической тоски и одиночества. Музыкальная пушкиниана ХХ века также весьма обширна и интересна. В числе наиболее значительных произведений - балеты "Медный всадник" Глиэра, одна из главных тем которого поистине стала "гимном великому...

Песен, прибауток, считалок для исполнения на музыкальных инструментах; для нориолизации просодической стороны речи при импровизации мелодичных и ритмических подпевок. В работе с учащимися начальных классов в коррекционно-развивающем обучении могут быть использованы лишь самые простые инструменты. Это музыкальные инструменты ударной группы как чисто ритмические, не обладающие определенной высотой...

Нравственных качеств личности ребенка, закладывает первоначальные основы общей культуры будущего человека. II. Педагогические условия реализации видов деятельности детей в детском саду 2.1 Методы музыкального обучения в детском саду Основной вид музыкальной деятельности, которому принадлежит ведущая роль в реализации познавательной и коммуникативной функции музыки – ее восприятие...

Работы над музыкальным произведением, уровнем эмоционально-поведенческих расстройств. 2. Специфика музыкальной работы в детском доме для умственно отсталых детей-сирот и детей, лишенных попечения родителей Решению задач музыкального образования помогает использование разнообразных форм организации музыкальной деятельности, каждая из которых обладает определенными возможностями (см. схему). ...

В общих чертах смысл сжатия без потерь таков: в исходных данных находят какую-либо закономерность и с учётом этой закономерности генерируют вторую последовательность, которая однозначно описывает исходную. Например, для кодирования двоичных последовательностей, в которых много нулей и мало единиц, мы можем использовать такую замену:

00 > 0
01 > 10
10 > 110
11 > 111

В таком случае шестнадцать битов:

00 01 00 00 11 10 00 00

будут преобразованы в тринадцать битов:

0 10 0 0 111 110 0 0

Если мы запишем сжатую строку без пробелов, мы всё равно сможем расставить в ней пробелы - а значит, восстановить исходную последовательность.

FLAC (Free Lossless Audio Codec - свободный аудио-кодек без потерь)

Принцип кодирования: алгоритм пытается описать сигнал такой функцией, чтобы полученный после её вычитания из оригинала результат (называемый разностью, остатком, ошибкой) можно было закодировать минимальным количеством битов.

Когда модель подобрана, алгоритм вычитает приближение из оригинала, чтобы получить остаточный (ошибочный) сигнал, который затем кодируется без потерь.

Сжатие с потерями (MP3, AAC, WMA, OGG)

Используется алгоритм сжатия с потерями, размер MP3-файла со средним битрейтом 128 кбит/с примерно равен 1/11 от оригинального файла с аудио CD (несжатое аудио формата CD-Audio имеет битрейт 1411,2 кбит/с). MP3 файлы могут создаваться с высоким или низким битрейтом, что влияет на качество результата.

Принцип сжатия заключается в снижении точности некоторых частей звукового потока, что практически неразличимо для слуха большинства людей. Звуковой сигнал разбивается на равные по продолжительности отрезки, каждый из которых после обработки упаковывается в свой фрейм (кадр). Разложение в спектр требует непрерывности входного сигнала, в связи с этим для расчётов используется также предыдущий и следующий фрейм. В звуковом сигнале есть гармоники с меньшей амплитудой и гармоники, лежащие вблизи более интенсивных - такие гармоники отсекаются, так как среднестатистическое человеческое ухо не всегда сможет определить присутствие либо отсутствие таких гармоник. Такая особенность слуха называется эффектом маскировки. Также возможна замена двух и более близлежащих пиков одним усреднённым (что, как правило, и приводит к искажению звука). Критерий отсечения определяется требованием к выходному потоку. Поскольку весь спектр актуален, высокочастотные гармоники не отсекаются, а только выборочно удаляются, чтобы уменьшить поток информации за счёт разрежения спектра. После спектральной «зачистки» применяются математические методы сжатия и упаковка во фреймы.

Типы битрейта MP3

CBR расшифровывается как Constant Bit Rate, то есть постоянный битрейт, который задаётся пользователем и не изменяется при кодировании произведения. Таким образом, каждой секунде произведения соответствует одинаковое количество закодированных бит данных (даже при кодировании тишины).

VBR расшифровывается как Variable Bit Rate, то есть изменяющийся битрейт или переменный битрейт, который динамически изменяется программой-кодером при кодировании в зависимости от насыщенности кодируемого аудиоматериала и установленного пользователем качества кодирования (например, тишина закодируется с минимальным битрейтом). Минусом данного метода кодирования является то, что VBR считает «незначительной» звуковой информацией более тихие фрагменты, таким образом получается, что если слушать очень громко, то эти фрагменты будут некачественными, в то время как CBR делает с одинаковым битрейтом и тихие, и громкие фрагменты.

ABR расшифровывается как Average Bit Rate, то есть усредненный битрейт, который является гибридом VBR и CBR: битрейт в кбит/c задаётся пользователем, а программа варьирует его, постоянно подгоняя под заданный битрейт. Таким образом, кодек будет с осторожностью использовать максимально и минимально возможные значения битрейта, так как рискует не вписаться в заданный пользователем битрейт. Это является явным минусом данного метода, так как сказывается на качестве выходного файла, которое будет немного лучше, чем при использовании CBR, но хуже, чем при использовании VBR (при том же размере файла) .

Сжатие звуковых данных (сжатие аудио ) - тип сжатия данных, кодирования, применяемая для уменьшения объема аудиофайлов или для возможности уменьшения полосы пропускания для потокового аудио. Алгоритмы сжатия звуковых файлов реализуются в компьютерных программах, называемых аудиокодеками. Изобретение специальных алгоритмов сжатия звуковых данных мотивировано тем, что общие алгоритмы сжатия неэффективны для работы со звуком и делают невозможным работу в реальном времени.

Как и в общем случае, различают сжатия звука без потерь, что делает возможным восстановление исходных данных без искажений, и сжатие с потерями, при котором такое восстановление невозможно. Алгоритмы сжатия с потерями дают большую степень сжатия, например audio CD может вместить не более часа «несжатой» музыки, при сжатии без потерь CD вместит почти 2 часа музыки, а при сжатии с потерями при среднем битрейте - 7-10 часов.

Сжатие без потерь

Сложность сжатия звука без потерь заключается в том, что записи звука являются чрезвычайно сложными в своей структуре. Одним из методов сжатия является поиск образцов и их повторений, однако этот метод не эффективен для более хаотических данных, которыми являются, например оцифрованный звук или фотографии. Интересно, что если сгенерированная компьютером графика значительно легче поддается сжатию без потерь, то синтезированный звук в этом отношении не имеет преимуществ. Это объясняется тем, что даже сгенерированный компьютером звук обычно имеет очень сложную форму, которая представляет сложную задачу для изобретения алгоритма.

Другая сложность заключается в том, что звучание обычно меняется очень быстро и это также является причиной того, что упорядоченные последовательности байтов появляются очень редко.

Наиболее распространенными форматами сжатия без потерь являются:
Free Lossless Audio Codec (FLAC), Apple Lossless , MPEG-4 ALS , Monkey"s Audio , и TTA .

Сжатие с потерями

Сжатие с потерями имеет чрезвычайно широкое применение. Кроме компьютерных программ, сжатие с потерями используется в потоковом аудио в DVD, цифровом телевидении и радио и потоковому медиа в интернете.

Новацией этого метода сжатия было использование психоакустики для обнаружения компонентов звучания, которые не воспринимаются слухом человека. Примером могут служить или высокие частоты, которые воспринимаются только при достаточной их мощности, или тихие звуки, возникающие одновременно или сразу после громких звуков и поэтому маскируются ними - такие компоненты звучания могут быть переданы менее точно, или и вообще не переданы.

Для осуществления маскировки сигнал из временной последовательности отсчетов амплитуды превращается в последовательность спектров звуков, в которых каждый компонент спектра кодируется отдельно. Для осуществления такого преобразования используются методы быстрого преобразования Фурье, МДКП, квадратурной-зеркальных фильтров или другие. Общий объем информации при таком перекодировании остается неизменным. Сжатие в определенной частотной области может заключаться в том, что замаскированные или нулевые компоненты не запоминаются вообще, или кодируются с меньшим разрешением. Например, частотные компоненты в до 200 Гц и более 14 кГц могут быть закодированы с 4-битной разрядностью, тогда как компоненты в среднем диапазоне - с 16 битной. Результатом такой операции станет кодирования со средней разрядностью 8-бит, однако результат будет значительно лучше, чем при кодировании всего диапазона частот с 8-битной разрядностью. Однако очевидно, что перекодированные с низким разрешением фрагменты спектра уже не могут быть восстановлены в точности, и, таким образом, теряются безвозвратно.
Главным параметром сжатия с потерями является битрейт, определяющий степень сжатия файла и, соответственно, качество. Различают сжатия с постоянным битрейтом (англ. Constant BitRate - CBR), переменным битрейтом (англ. Variable BitRate - VBR) и усереденим битрейтом (англ. Average BitRate - ABR).

Наиболее распространенными форматами сжатия с потерями являются: AAC, ADPCM, ATRAC, Dolby AC-3, MP2, MP3, Musepack Ogg Vorbis, WMA и другие.

Сегодня количество потребляемой нами информации в сети выросло в тысячи раз в сравнении с началом 2000-х. И неудивительно, ведь раньше, помимо намного менее распространенного интернет-покрытия, привычные нам сайты и сервисы выглядели совсем по другому.

Мы ежедневно читаем статьи и новости о том, что та или иная компания разработала новый стандарт соединения, превосходящий нынешние аналоги по скорости передачи данных. За уже практически два десятилетия провайдеры и производители многих гаджетов сделали огромный шаг в направлении к скоростному доступу в Интернет. Но не одними лишь скоростями наш мгновенный доступ к сайтам един.


Огромную роль в экономии нашего времени сыграло развитие алгоритмов сжатия изображений, аудио и видеофайлов. Гуляя по просторам сети, зачастую мы даже не задумываемся над тем, как и что устроено, сколько сил было приложено к разработке той или иной технологии. В новой серии статей мы рассмотрим методы сжатия таких популярных форматов, как MP3 и JPEG, а также базово рассмотрим процесс кодирования видео.

Работа алгоритма

Первым в новой серии статей станет самый популярный формат сжатия аудио–файлов *.mp3. Появился он в 1993 году, благодаря рабочей группе института Фраунгофера, а стандартизирован объединением MPEG. По данным Википедии, объединение было образовано международной организацией ISO для разработки норм в сжатии аудио и видеофайлов. Ими были установлены также следующие стандарты:

  • MPEG–1 : Предназначался для сжатия видео и аудио–файлов, позже стал устоявшимся стандартом для VCD (Video CD).
  • MPEG–2 : Уже ориентировался на передачу сигнала широковещательного телевидения семейств ATSC, ISDB и DVB и в прочих спутниковых ТВ-вещаниях. Таких как например Dish Network.
  • MPEG–3 : Стандарт разработанный для вещания HDTV, но был не принят по причине того, что MPEG–2, с небольшими доработками вполне хватало для таких целей. И нет, это не тот самый mp3, о котором вы сейчас могли подумать. На самом деле, mp3 является ответвлением стандарта MPEG–1, 3 уровня.
  • MPEG–4 : Является во многом усовершенствованным MPEG–1, с поддержкой декодирования 3D–контента и сжатия с низким битрейтом. В него также была интегрирована система программной защиты авторских прав - DRM. Из новых введенных в стандарт видео-форматов, можно отметить ASP и H.264.
Все таки давайте вернемся обратно к mp3. Основной задачей формата было и является уменьшение размера файлов за счет удаления определенных участков звукового спектра, которые не ощущаются на непрофессиональной аудиотехнике, в соответствии с психоакустической моделью звуковосприятия человека.

На этом этапе при помощи алгоритма преобразования Фурье, звуковая волна раскладывается на спектры разной частоты. Все те малоразличимые нашим слухом частоты просто удаляются. В основном это весь спектр звука выше 16 000 Гц. По такому принципу, кстати, работают и сервисы определения музыки, типа SoundHound и Shazam. Встроенный в их работу алгоритм разделяет слышимую звуковую волну на несколько, выделяет ритмику, основные ноты и сравнивает их со своей базой данных.

Но тем не менее, общая картина звучания, например, mp3-файла в битрейте 320 кбит/с мало чем отличается от несжатого файла, при этом в размере может составлять 1/10 от оригинального.

Уже на этом этапе размер файла можно значительно уменьшить, но самый больший процент сжатия происходит на следующих этапах маскировки. Работа первого из них заключается в удалении кратных звуковых частот на громких моментах в песне, то есть если звучит громкий барабан, то все остальные сигналы исходящие от включенных в аранжировку инструментов, можно просто–напросто убрать, и никто этого не заметит.

А в некоторых случаях, в соответствии с той же психоакустической моделью, можно удалять доли перед, и после звучания громких звуков, так как в этот период у всех людей наступает кратковременная (буквально на несколько сотых секунды) глухота.

Потом идет распределение звуков по каналам. Это происходит не без потерь в детализации, с помощью специальных формул, которые вы можете посмотреть на картинке (упрощено). Разница в звучании каждого из каналов сводится почти к нулю с целью сэкономить еще одну сотню-другую байт.

В конце каждый из сжатых фреймов аудиозаписи закодированные одинаковыми символами (например нулями), сокращаются до минимальных размеров при помощи метода кода Хаффмана. В процессе его работы дополнительная информация не теряется, просто к каждому из значений фреймов присваивается какой-то код, в зависимости от того, сколько раз то или иное число в нем встречается. Далее все оставшиеся куски нашей аудиозаписи склеиваются и на выходе образуют привычный нам аудио–файл.

Спасибо, что дочитали до конца теперь мы разобрались с тем, как устроен один из самых распространенных аудиоформатов. B следующей статье мы рассмотрим процесс сжатия видео.

Наиболее известны Audio MPEG, PASC и ATRAC. Все они используют так называемое "кодирование для восприятия" (perceptual coding) при котором из звукового сигнала удаляется информация, малозаметная для слуха. В результате, несмотря на изменение формы и спектра сигнала, его слуховое восприятие практически не меняется, а степень сжатия оправдывает незначительное уменьшение качества. Такое кодирование относится к методам сжатия с потерями (lossy compression), когда из сжатого сигнала уже невозможно точно восстановить исходную волновую форму. Приемы удаления части информации базируются на особенности человеческого слуха, называемой маскированием: при наличии в спектре звука выраженных пиков (преобладающих гармоник) более слабые частотные составляющие в непосредственной близости от них слухом практически не воспринимаются (маскируются). При кодировании весь звуковой поток разбивается на мелкие кадры, каждый из которых преобразуется в спектральное представление и делится на ряд частотных полос. Внутри полос происходит определение и удаление маскируемых звуков, после чего каждый кадр подвергается адаптивному кодированию прямо в спектральной форме. Все эти операции позволяют значительно (в несколько раз) уменьшить объем данных при сохранении качества, приемлемого для большинства слушателей. Каждый из описанных методов кодирования характеризуется скоростью битового потока (bitrate), с которой сжатая информация должна поступать в декодер при восстановлении звукового сигнала. Декодер преобразует серию сжатых мгновенных спектров сигнала в обычную цифровую волновую форму.

Audio MPEG - группа методов сжатия звука, стандартизованная MPEG (Moving Pictures Experts Group - экспертной группой по обработке движущихся изображений). Методы Audio MPEG существуют в виде нескольких типов - MPEG-1, MPEG-2 и т.д.; в настоящее время наиболее распространен тип MPEG-1. Существует три уровня (layers) Audio MPEG-1 для сжатия стереофонических сигналов: 1 - коэффициент сжатия 1:4 при потоке данных 384 кбит/с; 2 - 1:6..1:8 при 256..192 кбит/с; 3 - 1:10..1:12 при 128..112 кбит/с. Минимальная скорость потока данных в каждом уровне определяется в 32 кбит/с; указанные скорости потока позволяют сохранить качество сигнала примерно на уровне компакт-диска. Все три уровня используют входное спектральное преобразование с разбиением кадра на 32 частотные полосы. Наиболее оптимальным в отношении объема данных и качества звука признан уровень 3 со скоростью потока 128 кбит/с и плотностью данных около 1 Мб/мин. При сжатии с более низкими скоростями начинается принудительное ограничение полосы частот до 15-16 кГц, а также возникают фазовые искажения каналов (эффект типа фэйзера или фленжера). Audio MPEG используется в компьютерных звуковых системах, CD-i/DVD, "звуковых" дисках CD-ROM, цифровом радио/телевидении и других системах массовой передачи звука. комплект MPEG-1 предусмотрен для кодирования сигналов, оцифрованных с частотой дискретизации 32, 44.1 и 48 КГц. Как было указано выше, комплект MPEG-1 имеет три уровня (Layer I, II и III). Эти уровни имеют различия в обеспечиваемом коэффициенте сжатия и качестве звучания получаемых потоков. Layer I позволяет сигналы 44.1 КГц / 16 бит хранить без ощутимых потерь качества при скорости потока 384 Кбит/с, что составляет 4-х кратный выигрыш в занимаемом объеме; Layer II обеспечивает такое же качество при 194 Кбит/с, а Layer III - при 128 (или 112). Выигрыш Layer III очевиден, но скорость компрессии при его использовании самая низкая (надо отметить, что при современных скоростях процессоров это ограничение уже не заметно). Фактически, Layer III позволяет сжимать информацию в 10-12 раз без ощутимых потерь в качестве. - Стандарт MPEG-2 был специально разработан для кодирования ТВ сигналов вещательного телевидения. В апреле 1997 этот комплект получил «продолжение» в виде алгоритма MPEG-2 AAC (MPEG-2 Advanced Audio Coding - продвинутое аудио кодирование).

Стандарт MPEG-4 - это особая статья. MPEG-4 не является просто алгоритмом сжатия, хранения и передачи видео или аудио информации. MPEG-4 - это новый способ представления информации, это - объектно-ориентированное представление мультимедиа данных. Стандарт оперирует объектами, организует из них иерархии, классы и прочее, выстраивает сцены и управляет их передачей. Объектами могут служить как обычные аудио или видео потоки, так и синтезированные аудио и графические данные (речь, текст, эффекты, звуки...). Такие сцены описываются на специальном языке.

Стандарт MPEG-7 вообще в корне отличается от всех иных стандартов MPEG. Стандарт разрабатывается не для установления каких-то рамок для передачи данных или типизации и описания данных какого-то конкретно рода. Стандарт предусмотрен как описательный, предназначенный для регламентации характеристик данных любого типа, вплоть до аналоговых. Использование MPEG-7 предполагается в тесной связи с MPEG-4.

Для удобства обращения со сжатыми потоками, все алгоритмы MPEG разработаны таким образом, что позволяют осуществлять декомпрессию (восстановление) и воспроизведение потока одновременно с его получением (download ) - потоковая декомпрессия «на лету» (stream playback ). Эта возможность очень широко используются в интернете, где скорость передачи информации ограничена, а с использованием подобных алгоритмов появляется возможность обрабатывать информацию прямо во время ее получения не дожидаясь окончания передачи.

PASC Precision Adaptive Sub-band Coding - точное адаптивное внутриполосное кодирование) - частный случай Audio MPEG-1 Layer 1 со скоростью потока 384 кбит/с (сжатие 1:4). Применяется в системе DCC.

ATRAC Adaptive TRansform Acoustic Coding - акустическое кодирование адаптивным преобразованием) базируется на стереофоническом звуковом формате с 16-разрядным квантованием и частотой дискретизации 44.1 кГц. ATRAC (Adaptive TRansform Acoustic Coding) разделяет 16-битный 44,1 кГц цифровой аудио сигнал на 52 частотных диапазона (после быстрого преобразования Фурье). Диапазоны с низкими частотами передаются более точно, чем с высокими. Алгоритм использует психо-акустическое кодирование, где применяется эффект маскировки и порог слышимости звука, в результате чего часть информации может быть отброшена и выходящий поток данных имеет размер в 1/5 оригинального. Каждый канал обрабатывается независимо (портативный MD привод Sony MZ-1 использует один чип ATRAC кодера/декодера на канал). Другой алгоритм кодирования, PASC (Precision Adaptive Sub-band Coding - сейчас используется Philips в DCC ) разделяет цифровой сигнал на промежутки равного размера и удаляет часть информации (уменьшая поток до 1/4 оригинального). PASC является алгоритмом MPEG Layer 1 (его можно распаковать проигрывателями MPEG Layer 1 после небольшой предварительной коррекции).
Оба алгоритма выполняют сжатие данных, обеспечивая хранение 16-битного звукового потока. Цель алгоритма - сжать поток для уменьшения занимаемого им пространства на диске. Существует огромного множество алгоритмов сжатия. Некоторые алгоритмы сжимают данные без потерь (они используются, к примеру, в архиваторах), при этом информация после декомпрессии не отличается от оригинала. PASC и ATRAC относятся к алгоритмам с потерей части информации, они не пытаются сохранить каждый бит входящих данных, они просто стараются выделить и сохранить акустически "важные" биты. Поэтому важно найти звуки, которые будут замаскированы человеческой слуховой системой, которые человек не сможет услышать даже при их воспроизведении. Оба алгоритма сжатия звука прекрасно справляются с этой задачей. Какой звуковой поток записывается на минидиск после сжатия ATRAC? Для стерео сигнала - 292162,5 бит/с. ATRAC сжимает 512 входящих 16-битовых семплов (1024 байта) в "звуковые группы" ATRAC (212 байт), в результате получается коэффициент сжатия 4,83:1. - 44100 семплов/с (входящий поток одного канала) - 512 семплов на звуковую группу (получаем 86,133 звуковых групп/с/канал) - 2 канала (получаем 172,266 звуковых групп/с)
- 212 байт/звуковую группу (получаем 36,5 кбайт/с в стерео) - 8 бит/байт (получаем кбит/с) - 292162,5 бит/с ATRAC (используется в MDLP) работает на 132 кбит/с (LP2) и 66 кбит/с (LP4).



Просмотров