WAV — Википедия


            Данные, имеющие отношение к мультимедиа (звук, видео и т. п.) хранятся в файлах в так называемом RIFF-формате (Resource Interchange File Format — формат файла для обмена ресурсами). Как wav-файлы, содержащие звук, так и avi-файлы, содержащие видеоинформацию, имеют формат RIFF.
        Файл в формате RIFF содержит вложенные фрагменты (chunk’s). Внешний фрагмент состоит из заголовка и области данных (рис. 1).

DWORD

DWORD

 

«RIFF»

Размер

Данные

    Рис. 1. Фрагмент «RIFF»

    Первое двойное слово заголовка содержит четырехбуквенный код FOURCC, который идентифицирует данные, хранящиеся во фрагменте. Второе двойное слово заголовка — размер области данных в байтах (без учета размера самого заголовка).
    Область данных имеет переменную длину, однако она должна быть выравнена на границу слова и при необходимости дополнена в конце нулевым байтом до целого числа слов.
    Заметим, что формат RIFF не описывает формат данных. Практически файл в формате RIFF может содержать любые данные для мультимедиа, причем формат данных зависит от типа данных.
    Область, обозначенная на рис. 1 как «Данные», может содержать внутри себя другие фрагменты. Для файла, в котором хранятся звуковые данные (wav-файл), эта область содержит идентификатор данных «WAVE», фрагмент формата звуковых данных «fmt » (три символа «fmt» и пробел на конце), а также фрагмент звуковых данных (рис. 2). Файл может дополнительно содержать фрагменты других типов, поэтому не следует думать, что заголовок wav-файла имеет фиксированный формат. Например, в файле может присутствовать фрагмент «LIST» или «INFO», содержащий информацию о правах копирования и другую дополнительную информацию. Мы не будем рассматривать форматы других фрагментов, при необходимости вы можете узнать их из документации, которая поставляется в составе Microsoft SDK for Windows.

DWORD

DWORD

 

«RIFF»

Размер

Данные
  «WAVE» «fmt « Размер Формат данных Фрагмент «data»
  «data» Размер Звуковые данные

Рис. 2. Формат wav-файла

    Область, обозначенная на рис. 2 как «Формат данных», описывает звуковые данные. Формат этой области для файлов РСМ (записанных с использованием импульсно-кодовой модуляции) соответствует структуре PCMWAVEFORMAT, определенной в файле mmsystem.h следующим образом:

typedef struct pcinwaveformat_tag {
    WAVEFORMAT wf;
    WORD vBitsPerSample;
} PCMWAVEFORMAT;

typedef PCMWAVEFORMAT *PPCMWAVEFORMAT;

    Структура WAVEFORMAT также описана в файле mmsystem.h:

typedef struct waveformat_tag {
    WORD wFormatTag; // тип формата
    WORD nChannels; // количество каналов (моно или стeрео)
    DWORD nSamplesPerSec; // частота дискретизации
    DWORD nAvgBytesPerSec; // скорость потока данных
    WORD nBlockAlign; // выравнивание блока данных
} WAVEFORMAT;

typedef WAVEFORMAT *PWAVEFORMAT;

    Поле wFormatTag описывает тип формата звуковых данных. Для импульсно-кодовой модуляции РСМ, которая поддерживается стандартной библиотекой mmsystem.dll, в этом поле должно находиться значение WAVE_FORMAT_PCM, определенное в файле mmsystem.h:

#define     WAVE_FORMAT_PCM     1

    Поле nChannels содержит количество каналов. В нем могут находиться значение 1 (моно) или 2 (стерео).
    В поле nSamplesPerSec записана частота дискретизации, то есть количество выборок сигнала в секунду. В этом поле могут находиться стандартные значения (11025 кГц, 22 050 кГц или 44100 кГц) либо нестандартные значения, такие, как 5000 кГц или 4400 кГц. Учтите, что не все драйверы звуковых адаптеров могут
работать с нестандартными частотами дискретизации.
    Поле nAvgBytesPerSec содержит среднюю скорость потока данных, то есть количество байт в секунду, передаваемых драйверу устройства или получаемых от него. Эта информация может быть использована приложением для оценки размера буфера, необходимого для размещения звуковых данных. Для монофонического сигнала с дискретностью 8 бит численное значение скорости совпадает со значением частоты дискретизации. Для стереофонического сигнала с дискретностью 8 бит она в два раза выше. Точное значение вы можете подсчитать по формуле

nAvgBytesPerSec = (nChannels * nSamplesPerSec * wBitsPerSanipIe) / 8

    В поле nBlockAlign находится выравнивание блока в байтах, которое подсчитывается по формуле

nBlockAlign = (nChannels * wBitsPerSample) / 8

    Поле
wBitsPerSainple находится в структуре PCMWAVEFORMAT и содержит дискретность сигнала, то есть количество бит, используемых для представления одной выборки сигнала. Обычно используются значение 8 или 16.
    Что же касается формата самих звуковых данных, то он зависит от количества каналов и от дискретности.
Для монофонического сигнала с дискретностью 8 бит звуковые данные пред ставляют собой массив однобайтовых значений, каждое из которых является выбор-кой сигнала.
    Для стереофонического сигнала с дискретностью 8 бит звуковые данных имеют формат массива двухбайтовых слов, причем младший байт слова соответствует левому каналу, а старший — правому.
    Формат звуковых данных с дискретностью 16 бит выглядит аналогично. Для монофонического сигнала данные хранятся в массиве 16-битовых слов. Для стерео-фонического используется массив двойных слов, причем младшему слову соот-ветствует левый канал, а старшему — правый.
    Диапазон изменения значений выборок сигнала определяется дискретизацией. Для 8-битовых данных он составляет от 0 до 255 (Охff), причем отсутствию сигнала (полной тишине) соответствует значение 128 (0х80). Для 16-битовых данных диапа-зон изменения составляет от -32768 (-0х8000) до 32767, (Ox7fff), отсутствию сигнала соответствует значение 0.


Сведения взяты из книги
Фролов А.В, Фролов Г.В «Мультимедиа для Windows», Москва, «Диалог-МИФИ», 1995 г.

Несжатые звуковые файлы в формате RAW (PCM) и в форматах WAV и Apple AIFF. Контейнер RIFF и структура файла WAV.

RAW— формат данных, содержащий необработанные данные. В таких файлах содержится полная информация о хранимом сигнале. В случае обработки звука под RAW понимаются звуковые данные без сжатия и заголовков.

PCM расшифровывается как импульсно-кодовая модуляция (pulse code modulation) и обеспечивает цифровое представление аналогового сигнала, который дискретизируется (оцифровывается) через равные промежутки времени (с заданной в герцах частотой) и представляется в двоичном виде (с заданной точностью — разрядностью в битах). Помимо использования PCM для цифрового звука в компьютере и на аудио компакт-дисках, данный формат применяется также в некоторых цифровых телефонных системах и в ряде форматов цифрового видео.

В формате PCM значения амплитуды звука представлены с помощью разного числа битов (разрядности); звуковая дорожка, как правило, оцифровывается с разрядностью от 12 до 24 бит, но чаще всего при студийном кодировании PCM-аудио для записи на диски Blu-ray используются 16 бит.

WAV (WAVE)— формат файла-контейнера для хранения записи оцифрованного аудио-потока. Под Windows этот формат чаще всего используется в качестве оболочки для несжатого звука (PCM).

Структура WAV файла

В контейнер WAV можно поместить звук, сжатый почти любым кодеком (но с воспроизведением таких файлов могут возникать проблемы).

Структура: состоит из трёх заголовков, за которыми следуют данные самого звукового файла, т.е. последовательность байт самого звукового сигнала.

Первый — RIFF заголовок. Он занимает 8 байт с самого начала файла и содержит информацию о длине файла

Второй заголовок — WAV заголовок, содержит информацию о кол-ве каналов (моно или стерео)

Третий заголовок – информацию о кол-ве байт, отводящихся под сами WAV данные

Далее идут сами данные звукового файла

Apple AIFF.Это стандартный формат файлов для сохранения аудиоданных на платформе Macintosh. Его особенностью является то, что он позволяет размещать вместе со звуковой волной дополнительную информацию, в частности, самплы WaveTable (примеры звучания инструментов вместе с параметрами синтезатора), что улучшает качество итогового результата.

Звуковые данные в стандартном файле формата AIFF представляют собой несжатую импульсно-кодовую модуляцию. Также существует и сжатая версия формата AIFF, которую называют AIFC (изредка AIFF-C), в которой для сжатия могут быть использованы различные кодеки.

AIFF, наряду с SDII и WAV, является одним из форматов используемых в профессиональных аудио и видео приложениях, так как в отличие от более популярного формата mp3 в нём звук не имеет потерь в качестве.

RIFF — один из форматов файлов-контейнеров для хранения потоковых мультимедиа-данных (видео, аудио, возможно текст).

Наиболее известными форматами, использующими RIFF в качестве контейнера, являются: AVI (видео), WAV (аудио), RMI (MIDI-треки).

RIFF имеет ограничение размера данных в 2 ГБ.

Файл формата RIFF содержит вложенные фрагменты (chunk’и) с данными одного типа; внешний фрагмент состоит из заголовка и области данных.

Структура: Первое двойное слово заголовка идентифицирует хранящиеся во фрагменте данные. Второе двойное слово заголовка представляет собой размер области данных в байтах (без учета размера самого заголовка).

Область данных имеет переменную длину, однако она должна быть выравнена на границу слова (при необходимости дополняется в конце нулевым байтом до целого числа слов).

 


Дата добавления: 2015-04-18; просмотров: 60; Нарушение авторских прав


Представляем вашему вниманию статью с подробным разбором заголовка WAV-файла и его структуры.

Теория

Итак, рассмотрим самый обычный WAV файл (Windows PCM). Он представляет собой две, четко делящиеся, области. Одна из них – заголовок файла, другая – область данных. В заголовке файла хранится информация о:

  • Размере файла.
  • Количестве каналов.
  • Частоте дискретизации.
  • Количестве бит в сэмпле (эту величину еще называют глубиной звучания).

Но для большего понимания смысла величин в заголовке следует еще рассказать об области данных и оцифровке звука. Звук состоит из колебаний, которые при оцифровке приобретают ступенчатый вид. Этот вид обусловлен тем, что компьютер может воспроизводить в любой короткий промежуток времени звук определенной амплитуды (громкости) и этот короткий момент далеко не бесконечно короткий. Продолжительность этого промежутка и определяет частота дискретизации. Например, у нас файл с частотой дискретизации 44.1 kHz, это значит, что тот короткий промежуток времени равен 1/44100 секунды (следует из размерности величины Гц = 1/с). Современные звуковые карты поддерживают частоту дискретизации до 192 kHz. Так, со временем разобрались.

Теперь, что касается амплитуды (громкости звука в коротком промежутке времени). От нее, я бы сказал, зависит точность звука. Амплитуда выражается числом, занимаемым в памяти (файле) 8, 16, 24, 32 бит (теоретически можно и больше). Как известно, 8 бит = 1 байту, следовательно, какая-то одна амплитуда в какой-то короткий промежуток времени в памяти (файле) может занимать 1, 2, 3, 4 байта соответственно. Таким образом, чем больше число занимает места в памяти (файле), тем больше диапазон значений для этого числа, а значит и для амплитуды.

  • 1 байт – 0..255
  • 2 байта – 0..65 535
  • 3 байта – 0..16 777 216
  • 4 байта – 0..4 294 967 296

В моно варианте значения амплитуды расположены последовательно. В стерео же, например, сначала идет значение амплитуды для левого канала, затем для правого, затем снова для левого и так далее.

Совокупность амплитуды и короткого промежутка времени носит название сэмпл.

Теперь таблица, наглядно показывающая структуру WAV файла.

Местоположение Поле Описание
0..3 (4 байта) Содержит символы “RIFF” в ASCII кодировке ( в big-endian представлении). Является началом RIFF-цепочки.
4..7 (4 байта) Это оставшийся размер цепочки, начиная с этой позиции. Иначе говоря, это размер файла – 8, то есть, исключены поля chunkId и chunkSize.
8..11 (4 байта) Содержит символы “WAVE” ( в big-endian представлении)
12..15 (4 байта) Содержит символы “fmt “ ( в big-endian представлении)
16..19 (4 байта) 16 для формата PCM. Это оставшийся размер подцепочки, начиная с этой позиции.
20..21 (2 байта) Аудио формат, полный список можно получить здесь. Для PCM = 1 (то есть, Линейное квантование).

Объявление

Значения, отличающиеся от 1, обозначают некоторый формат сжатия.

22..23 (2 байта) Количество каналов. Моно = 1, Стерео = 2 и т.д.
24..27 (4 байта) Частота дискретизации. 8000 Гц, 44100 Гц и т.д.
28..31 (4 байта) Количество байт, переданных за секунду воспроизведения.
32..33 (2 байта) Количество байт для одного сэмпла, включая все каналы.
34..35 (2 байта) Количество бит в сэмпле. Так называемая “глубина” или точность звучания. 8 бит, 16 бит и т.д.
36..39 (4 байта) Содержит символы “data” ( в big-endian представлении)
40..43 (4 байта) Количество байт в области данных.
44.. Непосредственно WAV-данные.

Вот и весь заголовок, длина которого составляет 44 байта, далее следует блок данных о котором я уже рассказал выше.

На самом деле, понятно, что использованные типы данных можно и менять. Например, в Си (MSVS) вместе массива можно использовать или , но тогда сравнение с какой-либо строковой константой, к примеру может оказаться не очень удобным. Также хотелось бы предостеречь Вас в связи с влияением новой 64-битной моды на программные средства. А именно: всегда стоит помнить, в языке Си тип переменной int в 64-битной системе будет иметь длину 8 байт, а в 32-битной – 4 байта. В таких случаях можно воспользоваться вышеупомянутым типом переменной или , в зависимости от того, какой размер переменной в памяти Вам необходим. Существуют типы , , и , они доступны только для MSVC++ компилятора как минимум 7-й версии (Microsoft Visual Studio 2003.NET), но зато Вы не ошибетесь с выбором размера типа данных.

Примеры реализации

На языке C++

На языке C#

WAVE или WAV является короткой формой Wave Audio File Format (реже именуемой как Аудио для Windows). Этот формат является стандартом для хранения аудио потока на ПК. Он является сферой приложения формата RIFF для хранения аудио в «цепочках», это очень напоминает форматы 8SVX и AIFF, используемые компьютерами Amiga и Macintosh соответственно. Это также основной формат на системах Windows для хранения обычного несжатого звука. Как правило, для этого применяется кодирование методом линейной импульсно-кодовой модуляции.

Описание

Как WAV, так и AIFF совместимы с операционными системами Windows, Macintosh или Linux.

Структура WAV файла

Формат также учитывает некоторые отличия процессоров Intel, такие как порядок байтов от младшего к старшему. RIFF формат выполняет роль обертки для различных кодеков аудио сжатия.

Несмотря на то, что WAV файл может содержать сжатое аудио, наиболее обычным его применением является хранение как раз несжатого аудио в формате линейной импульсно-кодовой модуляции (LPCM). Стандартным форматом Audio-CD, например, является аудио в формате LPCM, с 2 каналами, частотой дискретизации 44 100 Гц и 16 бит на сэмпл. Так как формат LPCM хранит несжатое аудио, которое абсолютно идентично оригиналу, это позволяет использовать его профессиональным пользователям и аудио экспертам для получения максимального качества звучания. WAV аудио файл также может быть изменен практически в любом аудио редакторе. WAV формат работает со сжатым звуком в системах семейства Windows через Audio Compression Manager (ACM). Любой ACM кодек может быть использован для сжатия WAV файла. Пользовательский интерфейс для ACM может быть доступен через множество программ, включая и стандартную программу для записи звука в некоторых версиях Windows.

Начиная с Windows 2000, появился заголовок WAVE_FORMAT_EXTENSIBLE, который позволял хранить многоканальные аудио данные, учитывал расположение динамиков, исключал неоднозначности в плане типов сэмпла и размеров контейнера в стандартном WAV формате.

Также он поддерживал произвольные расширения формата чанка.

Также существует много несоответствий в формате WAV: например, 8-битные данные являются беззнаковыми, в то время как 16-битные – знаковыми.

WAV файлы могут содержать встроенные IFF «списки», которые могут содержать несколько «подчанков».

Метаданные

Будучи форматом, производным от Resource Interchange File Format (RIFF), WAV-файлы могут быть иметь метаданные (тэги) в чанке INFO. В дополнение к этом, в WAV файлы может быть встроены метаданные стандарта Extensible Metadata Platform (XMP).

Популярность

WAV файлы достаточно большие, что делает этот формат неудобным для обмена по сети Интернет, и это сильно подрывает его популярность. Однако, этот формат – как правило, чаще всего используется для сохранения первозданного вида для файлов высокого качества в таких случаях, где размер свободного дискового пространства не является ограничением. Он также используется в программах для редактирования аудио, где экономят время на сжатии и распаковке данных.

Более часто данные сжимаются с помощью форматов с потерями, такими как Ogg Vorbis, MP3, ATRAC, AAC, Musepack и WMA, которые используются для хранения и обмена музыки (например, среди пользователей Интернета). Небольшой размер файла и возможность быстро скачивать их также является существенным плюсом наряду с тем, что такие аудио данные занимают намного меньше места. Но форматы с потерями жертвуют качеством ради размера, поэтому их алгоритмы не сохраняют первозданное качество звука во всех деталях. Но существуют и кодеки без потерь, такие как FLAC, Shorten, Monkey’s Audio, ATRAC Advanced Lossless, Apple Lossless, WMA Lossless, TTA, WavPack, но ни один из этих кодеков нельзя назвать общепринятым.

Использование формата WAV является общепринятым, благодаря его простоте и простой структуре, которая в большой степени основана на формате файлов RIFF. Благодаря этому, формат WAV не испытывает притеснения среди различного программного обеспечения или аппаратных плееров, он поддерживает практически везде.

Назло огромному размеру данных несжатого WAV, этот формат иногда используется для радиовещания, особенно для адаптированных безкассетных систем. Радио BBC (BBC Radio) в Соединенном Королевстве использует 44.1 кГц, 16 бит, стерео аудио данные как стандарт в их системе VCS. Система ABC “D-Cart”, которая разработана Австралийским радиовещателем, использует 48 кГц, 16 бит, стерео аудио данные, что идентично цифровым аудио кассетам (DAT).

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *