臨床の学び舎おんせいげんご BLOG

『臨床の学び舎おんせいげんご』の各部門の予定や今までの勉強会の内容などがチェックできます。

書籍紹介 音声知覚:音から意味へ

Introduction. The perception of speech: from sound to meaning
Brian C. J. Moore1, Lorraine K. Tyler and William Marslen-Wilson

 

書籍紹介の論文から、2020年10月5日現在、Twitter-siteにて西岡氏と古田が議論している音声知覚の参考になりそうな部分を紹介します。

この書籍は古田が所有しています。興味を持った方は連絡ください。

 

(以下、論文の原文引用と古田訳ですいません(-_-;)。気になる誤訳はご指摘ください。でもまぁ、大枠が伝わればと思いますので、細部の怪しさはスルーして頂けると助かりますw)

 

The paper by Young (2008) describes the representation of speech sounds in the auditory nerve and at higher levels in the central nervous system, focusing especially on vowel sounds. The experimental data are derived mainly from animal models (especially the cat), so some caution is needed in interpreting the results in terms of the human auditory system. However, it seems probable that at least the early stages of auditory processing, as measured in the auditory nerve, are similar across all mammals. A key feature of the representation of sounds is that it is tonotopic; speech signals are decomposed into sinusoidal frequency components or groups of components and different frequency components are represented in different populations of neurons. In other words, the short term spectrum of the sound is represented in the relative amount of neural activity in neurons that are tuned to different frequencies.

 Young(2008)は、聴神経および高次の中枢神経系における音声の描写、特に母音について述べている。実験データは主に動物実験(特に猫を用いた実験)から引き出されており、それゆえ、人間の聴覚システムのためにはその結果の解釈にすこし注意が必要である。しかし、すべての哺乳類において同様とされる、聴覚処理の少なくとも初期段階については、聴神経の評価として可能性を考えられる。音の描写の主な特性は、トノトピーと呼ばれる。それはつまり、音声信号が正弦波の要素あるいは要素の集合に分解され、そして、異なった周波数の要素は異なった神経の群で表現されるということである。換言すれば、音についての短時間フーリエ(周波数)分析は、異なった周波数帯に調整された神経の活動の程度と関連していることを表していると言える。

 

This tonotopic organization is preserved throughout the auditory system, although at higher levels in the auditory system there may be multiple ‘maps’. Another critical feature of the representation is nonlinear suppression, whereby strong neural activity in one group of neurons (all ‘tuned’ to similar frequencies) suppresses activity in neurons tuned to adjacent frequencies. This suppression is essential for maintaining the representation of the spectral content of sounds over a wide range of sound levels. Spectral features may also be represented in the detailed timing of the neural activity (phase locking), although the role of this ‘temporal fine structure’ is still controversial. The representation of speech sounds in central auditory neurons is more robust than at the periphery to changes in stimulus intensity and it also becomes more transient. Furthermore, Young argues that it is probable that the form of the representation at the auditory cortex is fundamentally different from the representation at lower levels, in that stimulus features other than the distribution of energy across frequency are analysed.

 より高次の聴覚システムは複雑なマップ(局在)になっているだろうけれども、このトノトピーという構成は聴覚システムを通過して維持されている。他のその描写についての重要な特性は、非線状性の抑圧、つまり、一つの神経群における強い神経活動(それらは同一の周波数に調整されている)が、隣接した周波数に調整された神経の活動を抑制することである。この抑制は、幅広い音のレベルにおける音のスペクトルの要素の維持にとても重要とされる。スペクトルの要素は、この時間情報に対する精巧な構造(専門用語不明‘temporal fine structure’)の役割については議論が必要だけれども、神経活動のタイミング(位相固定)を詳細に表現しているとも考えられている。聴覚中枢における音声の音としての描写は、刺激強度の変容の周辺においても、またそれがどれだけ短くなったとしても、より強固になっている。さらに、Youngは、可能性として、聴皮質における音声の表象の形は、分析されている周波数に渡って存在するエネルギーの分配以外の刺激要素によって、下位のレベルでの音声の表象と基本的に異なると主張している。

 

The paper by Moore (2008) reviews basic aspects of auditory processing that play a role in the perception of speech. Here, the data are mainly derived from perceptual experiments using human listeners. The frequency selectivity of the auditory system refers to the ability to resolve the sinusoidal components in complex sounds, and is closely related to the tonotopic representation described by Young. Moore describes how frequency selectivity can be quantified using masking experiments. The ‘auditory filters’ inferred from the results can be used to calculate the internal representation of the spectrum of speech sounds in the peripheral auditory system.

 Moore(2008)では、音声知覚の役割について聴覚情報処理の基礎について報告している。ここに、人間の聴取者にて行った知覚実験によって得たデータがある。聴覚システムでの周波数選択性は、複合音の中の単音構造を分解する能力があると言える。またそれは、Youngが示しているトノトピックにしっかりと関与していると考えられる。Mooreは、マスキングされた実験を用いて、どのように周波数選択性の量が定められているのかについて記述している。その結果によって推測される聴覚フィルタは、末梢の聴覚システムにおける音声のスペクトルの内的な表象の計算に用いられる可能性がある。

 

This representation is called the excitation pattern. The perception of timbre and distinctions in quality between vowels are related to both static and dynamic aspects of the spectra of sounds, as represented in the excitation pattern. The pitch of speech sounds is related to their fundamental frequency, which is in turn related to the rate of vibration of the vocal folds. Moore describes the mechanisms by which the auditory system extracts the pitch of speech sounds and the role that pitch patterns play in speech perception, especially the perception of intonation.

 この表象は興奮パターンと呼ばれている。音色の知覚や母音間の音質の分別は、興奮パターンと表現されるような、その音のスペクトルの静的な側面と動的な側面に依存している。音声の音程は、その基本周波数に依存しており、いうなれば、声帯振動の頻度に依存していると言える。Mooreは、音声の音程を抽出する聴覚のシステム、特にイントネーションの知覚においてピッチパターンが音声知覚においてどのような役割を担うのか、そのメカニズムを描き出そうとしている。

 

 Although some speech sounds, such as vowels, can be characterized in terms of their long-term spectral properties, speech perception in general depends strongly on the dynamic nature of speech sounds, and the way that they change over time. Moore describes the limits of the ability of the auditory system to follow rapid changes, and describes how temporal resolution can be modelled using the concept of a sliding temporal integrator. The combined effects of limited frequency selectivity and limited temporal resolution can be modelled by calculation of the spectro-temporal excitation pattern, which gives good insight into the representation of speech sounds in the auditory system. Moore argues that, for speech presented in quiet, the resolution of the auditory system in frequency and time usually markedly exceeds the resolution necessary for the identification or discrimination of speech sounds, which partly accounts for the robust nature of speech perception. However, people with impaired hearing have reduced frequency selectivity and can hear comfortably over a smaller than normal range of sound levels. For such people, speech perception is often much less robust than for normally hearing people.

 いくつかの音声、例えば母音のような音声では、ある程度の長さのスペクトルの要素の点からそれらの個別化を行われていると考えることができるけれども、一般的な音声知覚は音声の動的な要素に強く依存しており、その方法は常に変化する。Mooreは素早い変化に追従する聴覚システムの能力限界について記述している。また、スライディング時間積分器(integrator:インテグレーター:回路上で入力端子の電圧を時間で積分する演算器。積分器とも。)というコンセプトを用いたモデルがどのように時間的な分析をおこなうのかについても言及している。周波数選択と時間分析を結合することによる効果は、聴覚システムにおいて音声であるという表象を内的にうまく結ばせるスペクトルの継時な興奮パターンを計算することでモデル化することができる。Mooreは、静かな状況での音声については、聴覚システムにおける周波数と時間情報の分析が、ふつう、部分的に音声知覚の強固な性質を算出する音声の個別性あるいは識別に必要な分析を明らかに超えると論じている。しかし、聴覚障害の人々は周波数選択性が低下しており、また快適に聞くことができる範囲が、正常な音の大きさの幅よりも狭くなっています。そのような人々においても、音声知覚はしばしば健常な聴こえの人々と比べてそれほど低下せず、しっかりしている印象が持てる。


The paper by Diehl (2008) considers further the robust nature of speech perception. For people with normal hearing, speech can be understood even under conditions when there is considerable background noise or reverberation, or when the speech is distorted in a variety of ways. Diehl considers how the acoustical and auditory properties of vowels and consonants help to ensure intelligibility. The properties of speech sounds can be understood by considering the sounds as resulting from a source of sound energy, such as vibration of the vocal folds or turbulence produced by forcing air through a narrow constriction, followed by a filter (the vocal tract) which modifies the spectrum of the source. Diehl describes this ‘source–filter’ theory. and demonstrates how it can account for the relationship between vocal-tract properties and formant patterns. He points out that certain types of speech sounds (e.g. the resonance patterns or ‘formant’ frequencies of specific vowel sounds) occur commonly in the languages of the world, while others occur much more rarely. He presents two theories that have been proposed to account for the structure of these ‘preferred sound inventories’: quantal theory and dispersion theory.

 Diehl(2008)の報告では、さらにまた音声知覚の剛健さについて述べている。健聴者にとって音声は、かなりの背景雑音や反響がある状態であっても、あるいは様々な方法でそれが歪められたとしても理解する事ができる。Diehlは、母音や子音のどのような音響特性や聴覚情報が明瞭度を確実にしているのかについて考察している。それぞれの音声の特性は、声帯振動や狭い狭窄を強制的に通過する際に生じる雑音などの音源に、そのスペクトルを改編する声道のフィルタが重ねられた結果としての音について検討することで理解に至っている可能性が指摘されている。Diehlはこの音源フィルタ理論について述べ、その声道の特性とフォルマントパターンの関係をどのように説明することができるのかについて論証している。彼は、音声を構成する音の要素には、世界中の言語に共通して存在しているいくつかの要素(例:共鳴のパターンや母音に特異的にみられるフォルマント周波数)と、とても稀にしか存在しない要素があると指摘している。そして、彼はこれらの「優位な音の要素群」の構成を説明するために2つの理論を提案している。quantal theory とdispersion theoryである。

 

Quantal theory (Stevens 1989) is based on the fact that nonlinearities exist in the mapping between articulatory (i.e. vocal-tract) configurations of talkers and acoustic outputs. For certain regions of articulatory ‘space’, perturbations in the articulatory parameters result in small changes in the acoustic output, whereas in other regions perturbations of similar size yield large acoustic changes. Given these regions of acoustic stability and instability, quantal theory is based on the idea that preferred sound categories are selected to occupy the stable regions and to be separated by unstable regions. Dispersion theory (Liljencrants & Lindblom 1972), like quantal theory, is based on the idea that speech sound inventories are structured to maintain perceptual distinctiveness. However, in dispersion theory, distinctiveness is viewed as a global property of an entire inventory of sound categories. A vowel or consonant inventory is said to be maximally distinctive if the sounds are maximally dispersed (i.e. separated from each other) in the available ‘phonetic space’. Diehl discusses the strengths and limitations of each theory, and proposes that certain aspects of the two theories can be unified in a principled way so as to achieve reasonably accurate predictions of the properties of preferred sound inventories.

 Quantal theory (Stevens 1989)とは、話者の声道形状とアウトプットされた音響特性の間においてその分布に線状性が見いだせないという事実に基づいている。ある調音空間(調音位置)の領域において、その調音の程度が混乱する事態が生じてもそのアウトプットされた音響特性には小さな変化が生じる程度であり、一方、他の領域では、小さな調音の混乱が音響特性に大きな変化をもたらすことがある。このような音響特性に反映されやすい領域とそうでない領域があることは、カテゴリ化された音響特性がその調音と音響特性の関係において不確実な領域は分離され、確実な領域が占有することで好ましい音の種類(sound category)が選択されているというQuantal theoryの考え方が基盤となっている。一方、Dispertion Theory(Liljencrants & Lindblom 1972)はQuantal theoryに類似する部分もあり、音声の一覧は知覚的な弁別によって調整されて構築されているという考えである。しかし、この理論では、その弁別特性は音声の種類の目録に際限なく存在する広大な特性として一覧される。母音にせよ、子音の目録にせよ、その個別言語の音声の枠組みの中でそれぞれが最大限に配置されている(それぞれが個々の違いの上で)とすれば、それは最大限の弁別特徴を持っていると言われる。Dielはそれぞれの理論の強さと限界を議論し、その2つの理論のある部分は、好ましい音声目録の要素について合理的で正確な予見に達しているので、それらの道理に基づいた方法で一元化することができると述べている。

 

 The paper by Kuhl et al. (2008) describes the development of language during the early years of life, and the mechanisms that appear to underlie that development. Infants’ speech perception skills show two types of changes towards the end of the first year of life. First, the ability to perceive phonetic distinctions in a non-native language declines. Second, skills at making phonetic distinctions in the child’s own language improve. The paper presents new data showing that both native and non-native phonetic perception skills of infants predict their later language ability, but in opposite directions. Better native language skill at seven months predicts faster language advancement, whereas better non-native-language skill predicts slower advancement. Kuhl et al. suggest that native-language phonetic performance is indicative of commitment of neural circuitry to the native language, while non-native phonetic performance reveals uncommitted neural circuitry. This paper describes a revised version of a model previously proposed by Kuhl and co-workers, the native language magnet model.

 Kuhl et al. (2008)では、初期の生活年齢における言語発達について、またその基盤となっているメカニズムについて論じている。幼児の音声知覚能力は生活年齢1歳おわりに向けて2種類の変化を示す。ひとつは、母国語ではない言語の音声の弁別特徴の知覚が減退するという能力。もうひとつは、その児の言語の展開における音声の弁別を作っていく技術である。この論文では、母国語と非母国語双方において、幼児ののちのちの言語機能を推察させる音声知覚能力について新しいデータを報告している。しかし、反対方向にある。生後7か月くらいの児について、より良い母国語についての能力はより早い言語発達を推察させる。ところが、より良い非母国語についての能力は比べてよりゆっくりとした発達になりがちである。Kuhlらは、母国語の音声発話については、母国語の神経回路に依存している可能性を示している。ところが一方、非母国語の音声発話についてはそのような神経回路に接続されていないことを明確にしたと提案している。この論文では、以前にKuhlらによって報告されたモデルを改編し、母国語のマグネットモデルという新たな試みを報告している。

 

 The paper by Campbell (2008) emphasizes the fact that speech perception is multimodal; what we perceive as speech is influenced by what we see on the face of the talker as well as by what is received at the two ears. This is illustrated by the McGurk effect (McGurk & MacDonald 1976), which is produced when a video recording of one utterance is combined with an audio recording of another utterance. What is heard is influenced by what is seen. For example, an acoustic ‘mama’ paired with a video ‘tata’ is heard as ‘nana’. The influence of vision on speech perception is also illustrated by the fact that, in noisy situations, speech can be understood much better when the face of the talker is visible than when it is invisible (Erber 1974).

 Campbell (2008)では、音声知覚は複合的な感覚であるという事実に影響されている。つまり、音声として知覚することは、この両耳を通して受け止められることと同様に、発話者の顔を見ていることによっても影響されるということである。これは、ある発話の様子の録画に他の発話の音声をまぜて提案した時に生じるMcGurk効果(McGurk & MacDonald 1976)によって例証されている。それは聴こえることは見ることによって影響されているとする。例えば、「まま」という音響情報が「たた」という映像とともに流れた時に「なな」と聞こえてしまう。音声知覚における視覚情報の影響は他にも、たとえ騒音下において、話者が見えていない状況に比べて、見えている状況のほうが音声はより理解される傾向にあることからも説明される(Erber 1974)。

 

(以下、論文は続くけども、引用はここまで。)