Обработка и пересжатие звуковых дорожек

Ответить на тему

Автор

Сообщение

lехa ^®

Стаж: 16 лет
Сообщений: 92

lехa ^® написал(а)
06-Фев-2010 23:19

Цитировать

Для любых операций со звуком надо сначала конвертировать звук в несжатый формат WAV!
Аудиоредакторы работают только с несжатым звуком.
ЛЮБЫЕ ОПЕРАЦИИ ПЕРЕСЖАТИЯ ВЕДУТ К ПОНИЖЕНИЮ КАЧЕСТВА ИСХОДНОГО МАТЕРИАЛА!
СТАРАЙТЕСЬ ИЗБЕГАТЬ ЛИШНИХ ОПЕРАЦИЙ ПЕРЕСЖАТИЯ.

Описание форматов

WAV
Несжатый звук. Именно с ним работают профессиональные аудио редакторы. Никаких потерь качества. Занимает кучу места.
AC3
Dolby Digital (AC-3, ATSC A/52) — система пространственного звуковоспроизведения, разработанная фирмой «Dolby Laboratories, Inc.» («Dolby Labs»), руководимой Реем Долби, пионером аудио- и видеопромышленности.
Формат стандартизирован Advanced Television Systems Committee, ему присвоен код A/52, Dolby Digital (DD) является торговой маркой.
Современные системы Dolby Digital предоставляют шесть каналов объёмного цифрового звука. Левый, центральный и правый фронтальные каналы позволяют точно определить позицию источника звука на экране. Отдельные «разделённые» левый и правый задние боковые каналы усиливают ощущение присутствия, создавая объём. А дополнительный низкочастотный канал добавляет накал действию на экране.
В киноиндустрии звуковая дорожка Dolby Digital кодируется оптически прямо на киноленту в промежутках между перфорационными отверстиями. Размещение цифровой звуковой дорожки на том же носителе что и фильм позволяет ей сосуществовать вместе с аналоговой дорожкой без привлечения дополнительных носителей данных, а так же обеспечивает абсолютную синхронность изображения и звука.
DTS
DTS — формат звука, созданный Digital Theater System, конкурирующий, но схожий с Dolby Digital. Формат DTS использует меньший уровень сжатия, чем Dolby, так что теоретически он звучит лучше, что доказывают на практике диски, на которых записаны дорожки и в DD, и в DTS. Формат DTS Stereo практически идентичен Dolby Surround. DTS поддерживает как 5.1-канальный, так и 7.1-канальный варианты звука. Также называется DTS Surround Sound.
DTS в домашних театрах допускает полный битрейт full bitrate (1,536 kbit/s) при этом эксперты отмечают большую прозрачность и естественность звука, чем у AC-3 (Dolby Digital).
DTS — алгоритм кодирования, изначально предназначенный исключительно для многоканального звука в формате 5.1. В отличие от Dolby Digital, где в потоке некоторые каналы могут отсутствовать вообще, в потоке DTS место для всех шести каналов всегда зарезервировано, и, при отсутствии реальной информации в них, это место просто пропадает. То есть при одинаковом битрейте в DTS запись 4.0 будет того же объема, как и 5.1.
MP3
MP3 (более точно, англ. MPEG-1/2/2.5 Layer 3 (но не MPEG-3) — третий формат кодирования звуковой дорожки MPEG) — лицензируемый формат файла для хранения аудио-информации.
На данный момент MP3 является самым известным и популярным из распространённых форматов цифрового кодирования звуковой информации с потерями. Он широко используется в файлообменных сетях для оценочной передачи музыкальных произведений. Формат может проигрываться практически в любой популярной операционной системе, на практически любом портативном аудио-плеере, а также поддерживается всеми современными моделями музыкальных центров и DVD-плееров.
В формате MP3 используется алгоритм сжатия с потерями, разработанный для существенного уменьшения размера данных, необходимых для воспроизведения записи и обеспечения качества воспроизведения очень близкого к оригинальному (по мнению большинства слушателей), хотя меломаны говорят об ощутимом различии. При создании MP3 со средним битрейтом 128 кбит/с в результате получается файл, размер которого примерно равен 1/10 от оригинального файла с аудио CD. MP3 файлы могут создаваться с высоким или низким битрейтом, который влияет на качество файла-результата. Принцип сжатия заключается в снижении точности некоторых частей звукового потока, что практически неразличимо для слуха большинства людей. Данный метод называют кодированием восприятия.[1] При этом на первом этапе строится диаграмма звука в виде последовательности коротких промежутков времени, затем на ней удаляется информация не различимая человеческим ухом, а оставшаяся информация сохраняется в компактном виде. Данный подход похож на метод сжатия, используемый при сжатии картинок в формат JPEG.
AAC
AAC (англ. Advanced Audio Coding) — собственнический (патентованный) формат аудиофайла с меньшей потерей качества при кодировании, чем MP3 при одинаковых размерах. Формат также позволяет сжимать без потери качества исходника (профиль ALAC AAC).
Также AAC — это широкополосный алгоритм кодирования аудио, который использует два основных принципа кодирования для сильного уменьшения количества данных, требуемых для передачи высококачественного цифрового аудио. Данный формат является одним из наиболее качественных, использующих сжатие с потерями, поддерживаемый большинством современного оборудования, в том числе портативного.

Редактирование ac3/dts без пересжатия

Сдвинуть/обрезать

Для того чтобы сдвинуть/обрезать дорожку или вставить тишины в начале/конце дорожки нужно воспользоваться программой delaycut.
Резать ac3 и dts без редактирования можно только на величины кратные 32мс для ac3 и 10.(6)мс для dts.

Склеить

Склеить две и более дорожек можно при помощи командной строки ("Пуск->Выполнить", ввести "cmd", нажать "enter"):

copy /b "c:file1.ac3" + "c:file2.ac3" "c:result.ac3"

Распаковка звука в формат WAV

Надо учитывать, что для дальнейшей обработки аудио редактор может не корректно открывать файлы больше 2 гигабайт. Выражаться это может в том, что продолжительность дорожки будет раза в два длиннее, чем она есть на самом деле. Так же на графике звуковой волны это будет хорошо видно: нормальная первая половина звука, а вторая половина трека как периодическое повторение какой-то звуковой последовательности.

BeSweet (AC3, VORBIS, MP2, MP3, WAV)

Для работы нужно скачать связку BeSweet + BeLight. BeLight является графической оболочкой для BeSweet и их надо распаковать в одну папку.

AC3

Запускаем и по шагам выполняем указанные на скрине операции.
Все остальные галочки должны быть сняты, чтобы звук не искажался.

Иллюстрация

1. Открываем исходный файл.
2. Указываем куда сохранять результат.
3. Выбираем вкладку с нужным форматом назначения.
4. Указываем формат назначения - wav.
5. Выбираем сколько каналов хотим получить на выходе.

16 Bits 5.1. Wave - единый 16 битный многоканальный файл
16 Bits Stereo Wave - единый 16 битный стерео файл
16 Bits (Six) Mono Waves - шесть 16 битных моно-дорожек, по одной на каждый канал
32 Bits (Six) Mono Waves - шесть 32 битных моно-дорожек, по одной на каждый канал

6. Запускаем.

Tranzcode (AC3, DTS, WAV)

Программа Tranzcode является консольной, т.е. запускать её нужно через командную строку. Внутри есть описание как пользоваться и какие ключи использовать в командной строке.
Для ленивых есть вариант с графическим интерфейсом.

Картинку не надо воспринимать буквально, на ней лишь отражены возможности.
Разумеется, чтобы вытащить все каналы надо либо не указывать ни одной галки, либо все.

FAAD (AAC)

Для распаковки AAC поможет декодер FAAD. Утилита распространяется в виде исходных кодов, поэтому скомпилированную версию взять можно здесь.
Далее в коммандной строке, либо в файле с расширением *.bat пишем следующую команду:

faad.exe input.aac -o output.wav

Для особо ленивых есть вариант с графическим интерфейсом.

Устранение рассинхронизации

Поиск причины
Для того, чтобы корректно устранить рассинхронизацию нужно точно знать причину рассинхрона. Самый простой способ - определить по видео. В качестве инструмента предлагаю использовать опять же VirtualDubMod. Программа открывает конечно не каждый формат, но победить эту проблему нам поможет AviSynth - многофункциональный фрейм-сервер.

Преобразование NTSC <-> PAL (прогрессирующая рассинхронизация)

Если точно известно, что аудиодорожки отличаются лишь скоростью воспроизведения (т.е. одна от видео в PAL, другая от видео в NTSC), то для устранения такого рассинхрона сначала дорожку надо либо растянуть, либо сжать.

Adobe Audition

1. Открываем исходную дорожку.
2. Открываем пункт меню "Эффекты -> Время/Тон -> Stretch".

3. Выставляем коэффициент: (fps конечное / fps начальное) * 100

В большинстве случаев растягивать звук с сохранением тона не нужно! Т.е. выбираем режим "Resample"!
В этом случае коэффициент: (fps начальное / fps конечное) * 100
Отличие режимов состоит в следующем:
Resample - это просто пересчет под новый темп (скорость воспроизведения). Аналогия с видео заключается в простом изменении частоты кадров. Т.е. чем больше/меньше кадров в секунду отображается, тем короче/длиннее становится запись. Т.е. исходный материал не страдает. Но в результате у нас запись ускоряется или замедляется. На звуковую дорожку это оказывает следующее влияние: при ускорении - голоса становятся выше (писклявее), при замедлении - ниже. Т.е. слышимый звук в итоге искажается.
Stretch - это пересчет под новый темп с учетом сохранения тона. Здесь можно провести аналогию с обычной картинкой. Имеем изображение 130 пикселей в ширину (исходный темп звучания дорожки), нам надо их запихнуть в 120 (темп звучания под новую продолжительность). В результате придется как то решать проблему "как три пикселя засунуть в два" и не исказить при этом общую картинку. В итоге чем качественнее работает алгоритм, тем меньше искажений мы получим в результате.
4. Нажимаем кнопку "OK".
5. Сохраняем результат.

Sound Forge (не рекомендуется, т.к. точность растяжения недостаточна)

1. Открываем исходную дорожку.
2. Открываем пункт меню "Process -> Time Stretch".

3. Выбираем в выпадающем списке "Input format":
Time (hr:mn:sc.xxx) - растяжение по конечному времени.
Percentage - растяжение по коэффициенту (в процентном отношении).
4. Выставляем коэффициент: (fps начальное / fps конечное) * 100

5. Нажимаем кнопку "OK".
6. Сохраняем результат.

Для NTSC точное значение fps высчитывается как 24 / 1.001.

Произвольная синхронизация (прогрессирующая рассинхронизация)

Если в наличие имеются только сами аудио дорожки и точно известно, что соответствующее им видео не отличается по содержанию, то синхронизировать можно визуально по виду звуковой волны.

Adobe Audition

1. Открываем обе дорожки.

2. С помощью колеса прокрутки мышки увеличиваем масштаб и в начале дорожки-образца ищем фрагмент с выделяющимися пиками.

3. Наводим курсор на этот фрагмент, увеличиваем масштаб так, чтобы видно было форму волны и снова выбираем какой либо выделяющийся фрагмент.

4. Фиксируем курсор на пике этого фрагмента и записываем время.

5. Переключаемся на синхронизируемую аудио дорожку двойным кликом мышки по ней.
6. Находим тот же характерный фрагмент.

7. Фиксируем время характерного пика фрагмента.

8. Находим фрагмент с выделяющимимя пиками ближе к концу дорожки-образца.

9. Фиксируем время характерного пика.

10. Находим тот же фрагмент на синхронизируемой аудио дорожке.

11. Фиксируем время характерного пика.

В результате имеем:
Дорожка образец: 00:00:28.086 -> 01:29:00.298 (продолжительность - 01:28:32.212 или 5312.212 секунд)
Синхронизируемая дорожка: 00:00:22.150 -> 01:25:16.899 (продолжительность - 01:24:54.749 или 5094.749 секунд)
Вычисляем коэффициент сжатия:
(продолжительность синхронизируемой дорожки / продолжительность дорожки-образца) х 100
(5094.749 / 5312.212) х 100 = 95.90635
14. Выставляем коэффициент сжатия и изменяем продолжительность синхронизируемой аудио дорожки.

15. Сохраняем результат.

Sound Forge

2. Ищем на одной дорожке ближе к началу какой либо резкий всплеск/пик. При необходимости можно увеличивать масштаб при помощи клавиши-стрелки "вверх" или колеса прокрутки мышки вперед. Такой же пик ищем на второй дорожке.

3. Ставим курсор на пик и увеличиваем до масштаба, когда четко видна волна. Аналогично увеличиваем масштаб и на второй дорожке. При необходимости в процессе увеличения масштаба корректируем положение курсора.
4. Выбираем любой четко идентифицируемый пик на обеих дорожках и ставим/фиксируем на них курсор.

5. Аналогично ищем идентичный пик ближе к концу дорожки.

6. Увеличиваем масштаб фрагментов и фиксируем значения.

В результате имеем:
Дорожка образец (NTSC): 00:01:11.925 -> 02:31:46.816 (продолжительность - 02:30:34.109 или 9034.109 секунд)
Синхронизируемая дорожка (PAL): 00:01:12.957 -> 02:31:47.922 (продолжительность - 02:30:34.035 или 9034.035 секунд)
Вычисляем коэффициент сжатия:
(продолжительность дорожки-образца / продолжительность синхронизируемой дорожки) х 100
(9094.109 / 9094.035) х 100 = 100.00081 (примером послужили две дорожки, где pal уже была растянута под ntsc)
7. Выставляем коэффициент сжатия и изменяем продолжительность синхронизируемой аудио дорожки. Чтобы перейти в режим сжатия по коэффициенту (в процентном отношении) нужно в выпадающем списке "Input format" выбрать "Percentage".

8. Сохраняем результат.

Vegas

1) В настройках отключаем привязку к кадрам видео:

2) Отправляемся в Options-Preferences:

2) Отключаем режим "сохранение тона":

3) Вычисления удобнее проводить в десятичном масштабе. По этой причине советую изменить временную шкалу. Щелкаем правой кнопкой мышки по шкале времени (я щелкаю слева - там, где показана длительность дорожки) и выбираем масштаб "секунды":

4) Правой кнопкой мышки щелкаем на одной дорожке. Появится меню. Нам нужны Properties:

5) Выбираем в середине окна "Classic". Тогда снизу появятся дополнительные поля. Вводим новую длину звука (в секундах, с точностью до тысячных):

6) Теперь одна дорожка длиннее остальных. Выделяем щелчками мыши при нажатом Ctrl оставшиеся 5 коротких дорожек и нажимаем клавишу "G" на клавиатуре (они привязываются друг к другу):

7) Подводим мышку к правому краю любой из этих 5-ти дорожек. Нажимаем и не отпускаем Сtrl. Курсор примет особый вид (квадратик с волной). И тянем вправо аккуратно. Когда 5 дорожек сравняются с первой произойдет "привязка" - появится вертикальная синяя полоса (смотрите - не проскочите).

Теперь все дорожки приобрели нужную продолжительность.
P.S. Если нужно разрезать все 6 дорожек одновременно (например, для удаления лишнего куска), то надо их выделить (щелкаем с нажатым Ctrl), поместить вертикальную черту в нужную позицию и нажать "S".

Сдвиг (постоянная рассинхронизация)

Adobe Audition

1. Открываем обе дорожки.

2. С помощью колеса прокрутки мышки увеличиваем масштаб и в начале дорожки-образца ищем фрагмент с выделяющимися пиками.

3. Наводим курсор на этот фрагмент, увеличиваем масштаб так, чтобы видно было форму волны и снова выбираем какой либо выделяющийся фрагмент.

4. Фиксируем курсор на пике этого фрагмента и записываем время.

5. Переключаемся на синхронизируемую аудио дорожку двойным кликом мышки по ней.
6. Находим тот же характериный фрагмент.

7. Фиксируем время характерного пика фрагмента.

В результате имеем синхронизируемые моменты:
Дорожка образец: 00:00:28.086
Синхронизируемая дорожка: 00:00:22.150
Вычисляем сдвиг:
дорожка-образец - синхронизируемая дорожка = 00:00:28.086 - 00:00:22.150 = 00:00:05.936

Sound Forge

1. Открываем обе дорожки и выбираем пункт меню "Window -> Title Horizontally". Оба графика растянутся на всю свободную площадь в равном объеме, что даст возможность удобно с ними работать.

2. Ищем на одной дорожке какой либо резкий всплеск/пик. При необходимости можно увеличивать масштаб при помощи клавиши-стрелки "вверх" или колеса прокрутки мышки вперед. Такой же пик ищем на второй дорожке.

3. Ставим курсор на пик и увеличиваем до масштаба, когда четко видна волна. Аналогично увеличиваем масштаб и на второй дорожке. При необходимости в процессе увеличения масштаба корректируем положение курсора.
4. Выбираем любой четко идентифицируемый пик на обеих дорожках и ставим/фиксируем на них курсор.

В результате имеем синхронизируемые моменты:
Дорожка образец (NTSC): 00:01:11.925
Синхронизируемая дорожка (PAL): 00:01:12.957
Вычисляем сдвиг:
дорожка-образец - синхронизируемая дорожка = 00:01:11.925 - 00:01:12.957 = - 00:00:01.032

Желательно сделать замеры в начале и конце дорожки (примерно), потому как вряд ли дорожки будут совпадать сэмпл в сэмпл. Тогда высчитываем разницу между сдвигом в начальных точках и сдвигом в конечных точках. Допустим в начале получился сдвиг "- 00:00:01.032", а в конце "- 00:00:01.106", тогда разница между сдвигом конечных точек и сдвигом начальных точек получится "- 0.074". Делим пополам и прибавляем к сдвигу в начальных точек, т.е. "- 00:00:01.032 + (- 0.074 / 2)" и получаем "- 00:00:01.069". Это имеет смысл делать для того чтобы сбалансировать отклонение дорожки, т.е. в начале фильма она будет чуть отставать от видео, а в конце опережать на ту же величину относительно середины фильма. Это всяко лучше, чем синхронизировать по точкам в начале дорожки, а потом наблюдать весь рассинхрон в конце вместо половинного рассинхрона. Можно и чуть проще - определять сдвиг по точкам в середине дорожки, если там найдется подходящая.
Возможны следующие варианты сдвига:

отрицательный

отрезать лишнее
задать сдвиг при конечной сборке видео с аудио

положительный

добавить тишины
добавить фрагменты соответствующей длины из дорожки-образца (например звук для заставки студии-производителя)
задать сдвиг при конечной сборке видео с аудио

Локализация

Последний раз редактировалось: lехa (2010-04-20 18:39), всего редактировалось 4 раз(а)

Профиль ЛС

Ответить на тему

Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы

Текущее время: 15-Июн 13:38
Часовой пояс: UTC + 5