오디오가이 포럼에 발제했던 내용의 토론입니다. 퍼왔습니다.
[토론] 로컬라이제이션
  글쓴이 : 장호준     날짜 : 08-04-29 23:10     조회 : 654     추천 : 1    

실은 앞서 모노, 스테레오의 토론은 엔지니어로써 어떻게 모노와 스테레오의 개념을 이해할 것인가에 대한 부분이었고, 그보다 더 중요한 부분이 이 로컬라이제이션에 해당되는 것인것 같습니다.

요즘 읽고 있는 책에 재미있게 설명된 부분이 있는데, 나름대로 해석을 해보면

뇌에 일종의 3차원의 청각에만 해당되는 특별한 공간이 있고, 이 공간에는 실제 머리를 기준으로 전후좌우상하에 대한 각각의 위치에 대해 똑같은 위치로 반응하게끔 만들어져 있답니다. 그래서 만약 정면을 바라볼때에 수평으로 3시, 수직으로 20도 아래의 위치에서 소리가 들리게 되면, 똑같은 청각공간-그냥 이름 붙인겁니다-의 같은 위치에 소리가 놓이게 우리의 귀와 청각이 작용을 한다는 거죠. 제가 하나 더 붙이면 거기에 4차원적인 시간까지 우리의 뇌는 처리하는 것 같습니다. 어제 이맘때 옆집에서 망치질을 했었는데,, 하는 부분까지 있다는 거죠.

자, 한번 더 공부해보죠. 로컬라이제이션이란 뭔가? 소리를 어떻게 전후좌우상하를 두개의 귀로 구분할 수 있는가?  실제 금방 답이 나올 수 있습니다. 이미 많은 과학자와 엔지니어들이 연구를 했기 때문에..
하지만, 지난번 주제처럼 정답이든 아니든, 자율적으로 생각해볼 수 있는 토론이 되길 원합니다. 어디에서 그냥 검색해서 붙이지 마시고,, 김 뭐시기 님처럼. ㅎㅎ



장호준   08-04-23 02:34
이거야말로 김성영님(아직 박사모자는 안쓰셨답니다. 금년내에 쓰시겠죠)이 Moderator가 되셔야 하는데,,


JesusReigns   08-04-23 05:40
제 생각엔, 사람의 뇌는 두개의 귀로 받아들인 신호로부터 직접 절대적인 공간 이미지를 만들어 내는 것이 아니라
음원의 정체 확인, 확인된 정체(개냐 바이올린이냐 발걸음 소리냐 등등...)의 경험적 기준(메모리)에 대한
음색 차이, 양 귀로 포착된 동일음으로 판단되는 음의 딜레이 차이 및 음량 차이... 혹시 눈썹이나 코털의
반응까지도 사용할지도... 농담처럼 들리지만, 신경 세포의 작동 원리는 그런 신호를 배제할, 혹은 포함할
구체적인 메카니즘은 없다는 생각이 듭니다. 즉, 발생한 event와 항상 같은 시기에 일어나는 모든 sensation
은 뇌작용에 기여를 하고 이 모든 것을 복합해 음상을 만들어 낸다고 생각합니다.

     
장호준   08-04-23 07:39
경험적 기준,, 이거 중요하죠.  예를들어 멍멍이 소리를 나라마다 다르게 표현하는 것처럼..

뇌라는 것, 참 신기합니다. 센서에서 전기신호를 받아드리는 것 뿐인데,, 창작까지 할 수 있으니..

     
성영   08-04-23 09:40
기본적으로는 저도 JesusReigns님과 비슷한 의견입니다.
이미 위의 모노, 스테레오의 토론에서 많은 부분이 나왔지만
(영자님의 글에서 잘 정리되었듯이)
사람에게 공간감을 줄 수 있는 Cue는 아주 다양합니다.

즉 하나의 큐를 독립적으로 컨트롤했을 때는 그 컨트롤에 대해 반응해 auditory image가 변화하는 것이죠.

그중에 가장 중요한 것이 양귀의 레벨차이와 시간차이로 알려져왔습니다.

그런데,
최근에 사람들이 관심을 보이고 있는 부분은
과연 이러한 독립적인 컨트롤이 실제 생활에서 있느냐 하는 것입니다.

실험실에서 사인톤을 이용해서 했을 때는 완벽하게 컨트롤이 되는 것 같았는데

실제의 음악과 같은 복합음에서는 잘 컨트롤이 안되는 경우가 많았기 때문입니다.

결국 최근의 가설은
음원의 위치 (로칼라이제이션)나 공간감같은 정보는

동시에 입력된 여러정보를 뇌가 우선순위를 정해서 그 우선순위에 따라서 정하는 것이다라는 쪽으로 많이 소개가 되고 있습니다.

화면과 오디오를 같이 재생해서 상반되는 정위감을 재생하면
항상 화면에 우선순위를 두고 결정하죠.

왜냐하면 시각과 청각이 발달되어올때 보이는 것에 일단 우선 순위를 주어야 했기 때문입니다.

저희 같은 레코딩 엔지니어(? 이 용어가 타당한지 모르겠지만)들은
이러한 기본적인 우선순위를 무시하고 오디오 정보 쪽에 더 weighting을 주도록 훈련을 해온사람들입니다.
즉 우선순위가 훈련에 의해서 바뀔 수 있다는 것이죠.
(기억된 정보들이 여기서는 우선 순위를 준다고 할 수 있겠죠)


저희들이 "신인류"는 아니지만 훈련을 통해서 다른 사람들과는 다른 감각을 개발해온 것은 사실입니다.

하여튼...
 
이렇게 복잡한 뇌 작용이 로칼라이제이션에 광범위하게 영향을 미치고 있지만 (현상적으로),
이러한 복잡한 현상을 모두 이해하거나 혹은 적용하는 사운드 컨트롤 시스템은 아직 없는 것 같습니다.

가장 근접한 방법은 양귀의 사운드 인텐시티와 벨로시티를 재 합성해내는 시스템들이 있는데
아직까지 정확한 로칼라이제이션을 주면서 만족할만한 timbre를 재생하는 시스템은 단언컨데 하나도 없습니다.

그래서 timbre를 우선시하면서 로칼라이제이션에 가장 영향을 주는 큐로 알려진 양귀간의 레벨차이(interaural level difference)를 이용해서 임의의 음상을 만드는 방법이 발전해오는 것이라고 생각합니다.

지금 서라운드 패닝에 대해서 칼럼을 준비중인데
사실 내용이 너무 방대해서 어디서부터 손을 댈지 몰라서 미적대고 있습니다.
쩝...

[이제부터는 잡담입니다만

새로 일을 시작한지 6개월만에
벌써 좀 지치는 느낌입니다.
역시 프로덕트를 만드는 사람들의 관점은
또 사용자들의 관점과 많이 다른 것 같습니다.

마케팅이 거이 모든 것을 지배하는 것을 새삼 또 느끼네요.]


김용재 개척교회   08-04-23 10:36
김 뭐시기.... 잔인한데요...ㅋㅋ

김성영님께서 이야기 하신 내용에 너무 많은 것들이 들어가 있어서
의견 내기가 쉽지 않네요... 저는 그냥 제 경험담에 대해서 이야기를 적겠습니다.

스테레오, 모노, 로컬라이제이션 이야기가 나와서
집에 앉아 음악을 틀어놓고 감상에 젖어보았습니다.

집에 있는 맥키 믹서가 고장이 났는지 한쪽 소리가 갑자기 작아졌습니다.
오른쪽이 크고 왼쪽이 소리가 절반 정도로 작은 상태에서 들었는데
원래 중앙에서 들을 때만 센터에서 보컬 이미지가 형성되었는데 다른 곳에서도 센터에서 보컬 이미지가 형성되는 것을 느끼게 되었습니다.

하나는 스피커와 제 머리가 정삼각형을 이루는 중간지점에서
또 하나는 두 스피커의 음량이 비슷한 수준으로 들리는 왼쪽 스피커에 치우친 지점에서...

신기하더군요...
제가 느낀 것은 둘(시간차, 음량) 중의 하나만 만족되어도 센터에서 이미지가 형성되다는 것이었습니다.

다른분들도 비슷하게 느끼는지 궁금하네요^^

     
성영   08-04-23 11:43
네. 두가지 큐 중 하나만 만족해도 이미지가 형성됩니다. 아래의 그림에서 보시듯 약 1ms의 양귀간의 시차와 약 12dB의 레벨차이까지는 두가지 큐가 상호변경가능(interchangeable)입니다.

<img src="http://www.music.mcgill.ca/~kim/photo/time-amplitude.JPG">


흠... 댓글에는 그림이 안들어가는것 같네요. 위의 링크로 가셔야 될 것 같습니다.

          
김용재 개척교회   08-04-23 12:10
아주 재미있는 그래프네요^^

큐라는 것은 정확히 무엇을 의미하는 것인가요?


장호준   08-04-23 12:47
역시 성영님이 잘 끌고 가시는 군요.. 잘한다..


미루   08-04-23 13:02
큐(cue)는 시차와 레벨차라는 2개의 '요소', 혹은 '단서' 정도로 생각하시면 될 것 같습니다.

갑자기 끼어들어 죄송합니다. ^^;

제가 학부때 심리학과 출신이라서 이 주제에 각별히 관심이 많습니다.
전문적으로 음향인지에 대해 공부한건 아니지만 알고 있는 정보 몇자 적어보려합니다.

일단 레벨차와 시차가 상호변경가능한 이유는, 인간의 뇌라는게 마치 컴퓨터 씨디롬처럼 '오차수정'이란걸 하기 때문이라고 여겨지고 있습니다. 미디에서 5ms 미만의 레이턴시는 마치 없는 것 처럼 레코딩 할 수 있는 것과 비슷한데요,
꼭 청각 뿐만 아니라 다른 감각에 대해서도 좀 더 강한 단서에 맞춰서 나머지 오차는 알아서 수정하곤 합니다.
다만 각각의 단서(cue)들에 대한 신뢰도가 거의 비슷할 경우, 경험이나 성향에 따라 처리 결과가 달라지곤 합니다.

이 단서들이란게, '좌우'까지는 시차와 레벨차 정도로 재현가능하지만
전후와 상하라는 2개의 축은 정말 다양한 단서들이 존재하는 것 같습니다.
단순히 프리퀀시의 문제도 아닐꺼구요 (필요조건이 아니라 충분조건 인것 같습니다.)
위상 간섭만의 문제도 아닌 것 같습니다.

심지어는 2채널로는 100% 재현할 수 없다는 의견도 있기까지 합니다.(그렇다고 5.1채널로 할 수 있는 것도 아닙니다)
왜냐하면 인간은 사실 청각신호를 처리할때 두 귀의 고막에서 전해지는 신호 뿐만 아니라,
피부나 뼈에서 전해지는 물리적 진동도 어느정도 참고하기 때문이라는 허탈한 주장입니다;
실제로 인간은 고막이 없더라도 청각신경이 남아있다면 머리뼈를 친다던가 할때 소리를 들을 수 있습니다.
얼마전에 뼈의 진동을 이용한 헤드폰도 있었죠..

그럼에도 불구하고 더미헤드를 이용한 샘플들이 정말 상하전후를 표현해내는 것을 보면
무엇이 진리인지 참 모르겠습니다. ㅎ;

     
장호준   08-04-25 17:17
수 직축에 대한 연구는 거의 귓볼을 비롯한 외귀의 구조가 영향을 준다는 쪽으로 많이 나와있습니다. 특이한 사항은 어깨에 의한 반사도 이야기를 하고 있네요.  화상으로 외귀를 잃은 분들이 구분을 못한다는 이야기도 있고, 그래도 학습능력으로 어느정도 인식한다는 이야기도 있네요.

수평축에 대한것을 조금 풀어 말하면 신호를 두 귀가 받아들이는데에 각각의 시간이 다른 부분때문에 소리가 어디서 나는지 아는 것이 시간차이고, 각각 레벨이 달라서 소리가 어디에 있는 지 파악한다는 것이 레벨차이입니다.


김용재 개척교회   08-04-23 14:34
상하 좌우를 구별하고 표현하는 방향의 경우
소스로부터 귀 안의 고막까지 도달하는 시간차와 신호의 응답 곡선을 이용하면 충분히 가능하지 않을까요?
그렇기 때문에 이를 최대한 구현했다고 할 수 있는 더미헤드 마이크로 녹음한 소리의 경우
그 위치 파악이 쉬운 것 같은데요^^

그래서 머리형상의 영상을 덜 받는 저음의 경우 방향성을 구별하기가 힘들지만
작은 머리와 귀의 형상의 영향을 받는 고음 영역에서 방향성을 찾기가 쉬운 것 같습니다.


김용재 개척교회   08-04-23 14:41
거리감의 경우는 스테레오 효과하고는 거리가 먼 것 같습니다.
거리감은 음량의 크기와 시간차 그리고 리버브레이션 효과로서 구현이 가능한 것 같습니다.

구 좌표계의 경우 구의 중심을 원점으로 하고 방향과 거리 정보만 있다면 3차원상의 어떤 좌표도 표현할 수 있는 좌표계이죠 따라서 방향성과 거리감을 표현할 수 있다면 정확한 로컬라이제이션이 가능할 것 같습니다.

더미헤드로 녹음을 하면 가장 정확한 로컬라이제이션이 될 것 같은데요^^
대신 들을 때 헤드폰으로 들어야 되겠죠...
더미헤드로 녹음해도 앞에 있는 스피커로 들으면 효과가 많이 반감될 것입니다.


조계혁   08-04-24 01:22
음악은 왜 우리를 사로잡는가 (로베르 주르댕, 558쪽)

이책을 대학교때 사서 읽었었습니다...
뭣도 모르고 제목만 보고 음악의 spirit 이나 soul적인 부분, 즉 영적인 부분에 대해 이야기 하는 책인줄 알고...
읽다보니 첫페이지부터 두뇌가 어쩌구 저쩌구...
의학적으로 사람이 음악을 들을때 두뇌의 반응을 풀이해논 책이더군요...
지금까지도 반밖엔 이해하지 못했지만, 장호준 선생님께서 계속 던져주시는 stereo와 localization에대한
부분이 많이 나왔던것으로 기억됍니다...물론 전체적으로 봤을때 psycho-acoustic에 더욱 근접한 내용일수도 있구요.

암튼 전 내공이 부족한 관계로 제 의견은 패스...
그냥 책한권 추천해 드립니다... 우연히 읽은...^^

좀 두껍지만 한번쯤 꼭 읽어보시면, 음향인들에겐 좋은거 같아요...

     
성영   08-04-24 12:22
꼭 읽어보고 싶네요


액면   08-04-24 01:44
눈팅만 하다가 예전에 잠깐 관심을 갖은 적이 있어서 몇자 끄적 입니다.
좌우의 소리 구별은 앞서 성영님께서 말씀 하신 양귀의 시차와 크기와 관계가 깊은거 같고 예를들어 모노 음원에 약간의 딜레이를 걸어 팬을 좌우로 쫙 벌리면(hass Effector 였던가???)  스테레오감 생기며 먼저 소리가 나오는 쪽으로 음상이 기우는 거와 연관이 좀 있을까요? 이게 시차의 차이인듯 합니다.

그리고 상하의 구별은 머리 생김새와 귀댕이의 생김새 외이도라 하나요??(기억이 가물가물) 와 연관이 있을까 생각 됩니다. 이를테면 위나 아래 에서 소리가 나면 머리 형태와  외이도의 생김새가 소리가 날라오는 방향에 따라 복잡한 반사음을 만들어 귓구녕 으로 들어가서 반복 훈련?? 된 뇌가 인지 하는게 아닌가 합니다...

이런 윈리가 HRTF (HEAD R??? Transfer F???? 헉!! 뭐였더라)라고 예전에 이원리를 이용하여 Kaist 에서 2Ch입체음향 소프트웨어를 개발한적 있었는데 실제로 HRTF를 적용하여 엔코딩된 소리를 2개의 스피커나 헤드폰으로 들어도 음원의 위치가 그다지 별로 였다는느낌이였습니다. 음질의 왜곡과 열화도 심하고 ..
앞서 여러분들께서 말씀 하신거와 같이 귀로 듯는 소리 이외에도 여러가지 요인이 있을듯 합니다. 
 
암튼 장호준 선생님께서 토론장을 여셨으니 주제넘지만 몇자 끄적여 봤습니다...

     
성영   08-04-24 12:15
HRTF = Head Related Transfer Function입니다.
음...HRTF까지가면 너무 복잡할 것 같아서 쓰지는 않았지만 이것을 이용한 서라운드 프로세서가 지금은 거이 대세입니다.

최근까지는 두개의 스피커로 청취자의 귀의 HRTF를 재합성하는 방식인 transaural을 많이 사용했습니다.
그런데 이 transaural을 이용하는 방법은 항상 inverse filtering을 동반하지 않으면 안됩니다.

혹시 공학을 전공하신 분이 있으시면 이 인버스 필터링에 대해서 자세히 설명해주시면 도움이 될 것 같습니다. 저로서는 설명에 한계가 있어서...

하여튼 문제는 이 inverse filtering을 하는 것이 그리 쉬운일이 아니라는 점입니다.
이론적으로는 완벽하게 되어야 하는데 항상 tonal quality가 변하는 (액면님깨서 들으신데로) 문제가 동반되더라구요. 그리고 스피커의 directivity또한 문제가 되어왔구요.

그래서 현재는 기존의 5.1의 시스템에(혹은 7.1 / 10.2) 이 transaural을 적용하는 hybrid 방식을 채용하여 음원의 로칼라이제이션을 구현하는 방식을 채용하는 곳이 많아지고 있습니다.

일단 5채널 스피커에서 적어도 5곳의 위치는 정확하게 재현이 되니까
문제가 될만한 L와 LS사이라던지 혹은 LS와 RS사이의 공간에 음원을 배치하여야 하는 경우
그 공간의 위치로 부터 귀에 도달하는  HRTF반응을 나머지 스피커들을 통해서
재합성하는 것이죠.

버츄얼 서라운드 기법은 거이 이러한 HRTF재합성에 근거하는 경우가 많습니다.

           <
장호준   08-04-25 14:21