人类对于音乐的感知能力是先验的吗？

我曾经很坚定地认为人类对音乐的感知能力是先验的。我们从未在自然界中听到过各种和弦的声响，但是却创造了这些和弦，并认为大三和弦是给人带来愉快的感觉，小三和弦给人带来忧伤的感觉，减七和弦给人带来忐忑不安的感觉。但后来我动摇了。大学以来，我看到很多文章在论证音乐好不好听以及什么样的音乐激发人什么样的情感只是后天习惯造就的；论证一般人对调性音乐的喜爱和对无调性音乐的厌恶也不是与生俱来的，而是后天环境使然。有些观点甚至激进到了认为音程本无协和与不协和之分，所谓两个音的振动频率比越接近小的整数比就越协和，只不过是你听惯了那样的音程，一厢情愿地认为它协和罢了。和声学教材也会强调音程的协和与否不是一成不变的，它不但取决于不同的音乐环境，更是与不同时期、不同地域人们的音乐审美观念有关。对我启发最大的是在学习二声部对位的时候，纯四度被认为是不和谐、不稳定的。一方面，我从情感上很难接受人类对于音乐的感知力不是先验的，否则世上岂不就不再有评价音乐好坏的标准了吗？另一方面，又有大量的事实表明似乎我们对于音乐的感知力就是后天习得的产物。所以我很迷惑，人类对于音乐的感知能力到底是不是先验的？

人对音乐的感知能力当然是先验的。但要注意以下几点：

这里说的是“感知能力”是先验的，而不是任何哪个具体问题的结论是先验的。
人对音乐的先验感知能力不止一种，而且这些先验感知能力一般也不局限于被运用于音乐：它们中的很多，事实上是面向人的所有认知的，甚至可以说是认知之所以可能的基础。
我们最终得到的审美体验，是我们过去和当下的经验与我们的先验能力共同作用的结果。

人要是没有先验能力，别说音乐，连声音都听不到。这就像一台电脑要想接收到声音，就要有麦克风以及对声音信号进行处理的硬件或程序。人之所以能听到声音，是因为：1）我们有负责听觉的感觉器官，包括鼓膜、听小骨、耳蜗等结构：它们把声波转换为神经信号；2）这些神经信号通过传入神经进入了脑；3）脑对这些神经信号进行处理，让我们的意识感受到了声音。下面，我们首先简单地介绍一下人的听觉系统。

人的听觉系统和听觉中枢

这部分主要讨论一些我们对音乐感知的“先验能力”的生物学基础。不感兴趣的读者可略过此部分。

外耳。外耳包括耳廓和外耳道，与中耳以鼓膜为界。耳廓就是我们日常指的“耳朵”，是在自然视觉下“耳”的可见部分。耳廓“收集”声音，使得更多的声波可以被反射进入外耳道。除此之外，因为外耳形状的非对称性，它对来自不同方向的声音进行了不同的“滤波”，让我们可以更好地判别声波来源的方位，特别是垂直方位：我们对水平方位的判定，更多地则是依赖两耳听到声音的时间差别和响度差别。外耳道主要有两个作用：1）耳廓收集到的声音经过外耳道达到鼓膜；2）外耳道的角度变化和宽窄变化使得异物更加难以进入外耳道。整个外耳的整体声学特性：使 3000 Hz 附近的频谱范围获得大概 30——100 倍的增益。
中耳。中耳连接外耳和内耳，让外耳中的空气振动更好地引发内耳中淋巴液的振动。中耳的作用主要是实现阻抗匹配。如果让空气振动直接去引发淋巴液的振动，效率只有大概千分之一。中耳与外耳的分界是鼓膜，与内耳的分界则是卵圆窗膜。中耳通过三根听小骨（槌骨、砧骨和镫骨）组成的骨链，实现了一个杠杆结构。鼓膜上振幅大、力量小的振动，经过槌骨—>砧骨—>镫骨的传导，在镫骨底板上形成了振幅小、力量大的振动：这个振动作用在面积大概只有鼓膜 1/20 的卵圆窗膜，就有效地引起了内耳中淋巴液的振动。中耳中除了听小骨还有两块肌肉：它们对振幅过大的声音信号进行衰减，进而保护人的听觉系统。以上从声音经由外耳、中耳传递到内耳的过程被称为气传导。除了气传导，声波也可以通过头骨的振动传至内耳：这被称为骨传导，效率很低，对正常听觉的影响不大。
内耳。内耳包括耳蜗、前庭和半规管，其中前庭和半规管主要负责感知人的平衡感和空间感，而耳蜗则负责把来自外耳和中耳的机械振动转换成神经信号。耳蜗中充满淋巴液，形状宛如蜗牛壳，因此得名。具体来说，耳蜗由有三个腔组成：内含外淋巴液的前庭管，内含内淋巴液的中管，以及内含外淋巴液的鼓管。耳蜗既是一个频率分析器，又是一个非线性放大器。基底膜分隔蜗管与鼓管，而负责听觉转导的柯蒂氏器正位于基底膜上。外淋巴的机械振动引发了基底膜上的一个行波。因为基底膜从底部到顶部，横向宽度递增，机械张图递增，而硬底递减，这就使得基底膜的共振频率从基底膜底部到顶部递减。基底膜距卵圆窗膜的距离与共振频率的关系被称为频率拓扑。频率拓扑这种结构始于基底膜，依次被反应到毛细胞（柯蒂氏器的一部分）阵列、听神经阵列，一直到大脑中听觉皮层中的初级区。内毛细胞把机械振动转变为神经信号（另一种毛细胞——外毛细胞主要起频率选择和前置放大的作用）：基底膜的振动使得位于其上的毛细胞发生了去极化，亦即钾离子进入毛细胞使得细胞内部的负电荷变少。这引发了一个感受器电位：这个感受器电位开启了钙通道。钙离子的进入细胞使得毛细胞释放了神经递质——谷氨酸：这具体是毛细胞底部的缎带突触的功劳。因此，内毛细胞可以被看作是一个振动传感器，它用它本身受到的声波振动来触发神经递质的释放。神经递质在毛细胞与神经末梢之间的狭小空间内扩散，进一步引发了神经中的动作电位。这个神经信号，接下来就经由人体的第八对脑神经——位听神经，传入了脑干。

人对音乐先验感知能力的基础之一：基底膜上的频率拓扑 — 基底膜上的频率拓扑：最上方一行数字代表距卵圆窗膜的距离，单位为毫米；第二行数字代表梅尔刻度（一个由频率唯一决定的值）；最下方一行数字表示频率，单位为 kHz

耳蜗产生的神经信号，经由位听神经传到脑干中的耳蜗核中。耳蜗核是听觉中枢中最底层的核团。然后，神经信号经过耳蜗核、斜方体、橄榄旁核、上橄榄、外侧丘系、下丘、内侧膝状体的处理，最终达到大脑皮层颞叶的听觉皮层。只有信号被皮质区域接收和处理时，我们才能感受到听觉。对大脑的扫描表明，当人听到音乐时，这个脑区域的周边部分变得活跃并试图辨认声音的频率。具体来说，这个周边部分的一个细胞，只在接受到一个固定频率的信号、或者频率为这个固定频率的倍数的信号时，才会活跃。听觉皮层具体分为初级区、次级区和三级区。在初级区上，发源于基底膜的频率拓扑仍然被保持——也就是说，初级区上相邻的细胞对应相邻的频率。一般认为，初级区的功能是识别声音的基础元素，比如频率和响度。次级区和三级区主要负责联络：包括对复杂声音的整合，把听到的声音和记忆去比较、分类和识别，并与大脑中管理“读”、“写”和“说”的语言中枢相联系，使得人的语言功能可以正常发挥。

两种不同意义下的和谐/不和谐：心理声学意义下的和音乐意义下的

正如题主所述，音乐中的和谐/不和谐是与文化有关的。然而，如果去除文化因素，人对和谐/不和谐的感知有没有共性呢？心理声学就试图进行这方面的研究。下面这两篇论文做出了一个很好的综述和研究：

Consonance and Dissonance of Musical Chords: Neural Correlates in Auditory Cortex of Monkeys and Humans

Perception of musical consonance and dissonance: an outcome of neural synchronization

从20世纪60—70年代起，研究者就开始区分音乐文化和心理声学中的和谐/不和谐音。

在音乐中，人们对一个和弦是和谐还是不和谐的感知和很多因素有关，比如文化里的音乐特点（比如常用什么样的音阶和和弦），与附近其他的和弦的关系，一个人具体听过什么样的音乐风格，对什么样的音乐风格熟悉，受过什么样的音乐教育，等等。
心理声学则试图排除这些因素，来研究人对声音的感知是否有共性。研究者可以去研究婴儿甚至动物对声音和谐性的感知。研究表明，啮齿动物、鸟、猴子和人类婴儿，对一个孤立和弦的和谐性判断，与一个有丰富经验的音乐家并没有太大不同。通过这些研究，研究者推测，对一个孤立和弦的和谐性判断，是来自于人脑中的底层声音处理机制：这些底层处理机制即使在人和一些动物之间也是高度相似的。在此，读者可以回忆一下在上一节中讨论过的两个问题：1）从基底膜发端，一直保留到听觉皮层中初级区的频率拓扑；2）一个在听觉皮层周边部分中负责接收和处理承载声音信息的信号的细胞，只在接受到一个固定频率的信号、或者频率为这个固定频率的倍数的信号时，才会活跃。

为了解释为什么心理声学中的和谐/不和谐基本与个体和文化无关，科学家也提出了一些理论。

著名物理学家亥姆霍茨在 1863 年就对这个问题进行了开创性的研究。他认为声音的不和谐性和“拍”（beat）与“粗糙性”（roughness）有关。当两列不同频率的正弦声波叠加在一起时，我们知道： $\sin \big( ( \omega_0 + \Delta \omega ) t \big)+ sin \big( ( \omega_0 - \Delta \omega ) t \big) =2\sin(\omega_0 t)\cos(\Delta \omega t)$ 。因此，当 $\omega_0 \gg \Delta \omega$ 时，我们得到的波形可以被认为是“被一个低频振动调制过的高频振动”：

因此，我们就会听到声音振幅随时间的低频波动，这也就是“拍”：听这个声音的人不觉得他听到了两个声音，而是觉得听到了一个声音强度随时间波动的固定频率（为 $\omega_0$ ）声音。我们对这种“拍”的感知能力，是我们可以给一切乐器精确调音的前提：这种“拍”的存在是每个有正常听觉的人都可以听到的（当然要知道具体去听什么才能达到共识）。大体来说，两列频率超过 500 Hz 的声波，当它们的频率差别在 $(0\, \text{Hz}, 15\text{--}20\, \text{Hz})$ 这个范围内，我们可以听到“拍”。当两列声波的频率差超过这个范围，又没有达到位于 10%—20% 之间的一个“关键频率”时（在小三度的范围以内），我们听到了亥姆霍茨说的“粗糙性”。在两列频率不同的声波的频率差在这个关键频率以内时，这个整体声音就不能很好地被听觉系统所“解析”：没有被解析的频率分量与听觉中枢的周边部分发生作用，引起了“拍”和“粗糙性”的感觉。当两列声波的频率差别大于“关键频率”时，这种“粗糙性”就消失了：这一般被认为是与人的听觉神经系统的低通特性有关（频率差别大于“关键频率”的声音不会被听觉中枢中的同一部分去进行解析）。至于“关键频率”内的频率为什么不能被完全解析，目前还没有一个完整的科学结论，但有研究表明，这和“复杂声音中，被幅度调制了的时域波包引起的‘初级区中的’神经响应的相位锁定”有关。更深入的研究认为，人们对声音的和谐/不和谐性的感知，除了亥姆霍茨提出的线性模型，还应该考虑认知系统中的非线性因素。

当然，音乐中所有的音，都不只是有一个基频，它们还有泛音分量。因此，即使基频之间可以被听觉神经系统解析，它们的泛音之间却仍然可能会“打架”（频率不同的泛音间的频率差别小于“关键频率”）。这样，一个和弦到底有多么不和谐，就取决于把所有的基音和泛音算进来，从总体上有多少没有被听觉神经系统所解析。

运用我们在上面介绍的知识，我们就可以来解释音乐中的各种音程，就其本身而言，为什么和谐/不和谐。在以下讨论中，我们假设所有涉及的声音都具有典型泛音结构，比如 C 的前六个谐音为 C c g c’ e’ g’，同时假设我们使用纯律。我们由从最不和谐到最和谐的顺序来讨论。讨论的过程中，我们要注意：1）一般来说，越低次的谐波能量越大，因此越低次谐波之间的冲突（指频率差小于“关键频率”但不相等）就引起越不和谐的感觉；2）虽然小二度和大二度都在“关键频率”以内，但小二度之间的不和谐性要大于大二度之间的不和谐性。

大小二度的不和谐性直接来自于亥姆霍茨的理论（包括后人对他的理论的修正和发展，下同）：不管是大二度还是小二度，它们不光基音之间冲突，所有的对应泛音之间也相冲突：这引起了极度的不和谐感。
大小七度在听觉上的不和谐性就要弱一些：我们最起码觉得两个基音分开了，之间也有了空间感。在这种情况下，基音之间不再冲突，但下方音的第二谐音和上方音的基音相冲突，下方音的第四谐音与上方音的第二谐音相冲突。
增四度的基音之间不相互冲突，但下方音的第三谐音与上方音的第二谐音相冲突，下方音的第四谐音也与上方音的第三谐音相冲突。
增五度的基音之间不相互冲突，但下方音的第三谐音与上方音的第二谐音相冲突，下方音的第五谐音也与上方音的第三谐音相冲突。
大小三度第一个冲突的谐音对儿是下方音的第四谐音和和上方音的第三谐音。对大三度而言，下方音的第五谐音和上方音的第四谐音相等，对于小三度来说它们则是冲突的。因此大三度要比小三度和谐。
大小六度第一个冲突的谐音对儿是下方音的第三谐音和上方音的第二谐音，但下方音的第四谐音和上方音的第三谐音又恢复了和谐。
纯四度第一个冲突的谐音对儿是下方音的第三谐音和上方音的第二谐音（大二度冲突感并不强），然而下方音的第四谐音和上方音的第三谐音重合，在更高频的谐音中也有重合的。
纯五度第一个冲突的谐音对儿是下方音的第四谐音和上方音的第三谐音（大二度冲突感并不强），但下方音的第六谐音和上方音的第四谐音又完全重合，在更高频的谐音中也有重合的。
纯八度里没有任何冲突的谐音。

我们要注意，并不是所有乐器发出的谐波，在频谱上都遵循以上说的典型分布 C c g c’ e’ g’ ，比如钟琴发出声音，泛音列有就有一个明显的小三度而不是大三度。一件乐器发出的泛音列具有什么样的性质取决于乐器本身的性质：如果在一个弦乐器中，弦可以被认为是均匀的、柔软的，重量可忽略的细弦，那我们可以通过弦振动方程来得出通常的泛音列：C c g c’ e’ g’ …… 然而在钢琴上，琴弦上具有巨大的拉力，低音区的弦比高音区的要粗：因此，钢琴就有了非线性泛音。钢琴上 440 Hz 的音，第一泛音不再是 880 Hz，而是在 900 Hz 左右。这样，调钢琴时如果再按照简单整数比去给钢琴调音，那样即使弹一个八度，也会产生不和谐的效果。因此，在钢琴上，必须要把高音调得更高，低音调得更低。下面的 Railsback 曲线显示出了实际钢琴的调律与理想（数学上的）等律之间的差别：

钢琴调律与理想等律之间的差异随频率的变化：其中绿线是 Railsback 曲线，代表理论差异或统计平均差异；黄线代表在真实调一台钢琴时的实际差异（图片版权归维基百科用户 Brian Tung 所有）

先验能力在人类的音乐感知中是如何发挥作用的

以上两节的讨论表明了单个和弦的和谐/不和谐的性质，在排除了文化和个人经历的影响之后，在不同人那里仍然有着相似的体验以及在此背后的生物学基础。而这就证明了，人对和弦的和谐/不和谐感知，是先验感知能力和后天经验共同作用的结果：其中由人的生理构造决定的部分是先验部分（我们上面解释的就属于这部分），而由人后天接受信息来决定的部分是后验部分，或者叫经验部分。

现在我来试图解答一下题主提出的几个问题：

1、题主对“和谐和弦来自人的先验感知能力”的见解是十分有洞察力的。自然界里并不存在这些和弦（或者说存在的概率为0），但是人在制造乐器时（或者在更久远的唱歌的时候），发现了符合这样频率关系的音可以给我们带来愉悦的效果，因此慢慢就把它固定了下来。这种形式之所以被固定下来，是因为不同的人对于它的和谐性以及由此带来的愉悦性，可以达成一致的认可。在全球，我们有那么多种互不相同的语言，但是我们却使用着彼此之间有很多相似之处的音阶、节奏型等音乐元素：这不能不说是人在感受音乐时的先验能力的有力证明。

2、音乐与情感之间的关系，也同样是先验能力和后天经验共同作用的结果。和谐的音程给人一种甜美协和的感觉：音乐不管如何发展，也不可能用同度音的音程关系来表达愤怒的情感（如果两个音都没有什么特殊的泛音结构）：如果一段音乐用同度音来表达愤怒的情感，那不是因为音程不和谐，而可能是因为突然间出现了一个音量大、音头尖锐的音，可能是因为使用了逐渐加快而有张力的节奏：但绝不可能是因为同度这个音程关系。来自不同文化的人，生活在的环境不同，经常听到的声音也会有所不同，比如当地特有动物的叫声，比如海浪的声音，比如戈壁上的风声，比如当地一种民间乐器容易发出的声音（比如在古筝上很容易发出 C D E G A 这几个组成的和声）：一种本不怎么好听的声音，听得多了，也就成为“正常”的声音了，甚至可以有一种别样的味道。当这些因素再通过文化积累起来，就越来越具有文化特性了。比如法国人觉得法语是世界上最浪漫的语言，但很多中国人听起来却并不觉得好听。换作其他语言也一样。这都说明了后天对我们的审美会施加影响。

3、我们再稍微深入讨论一下先验和经验的关系。人之所以会有经验，是因为这些经验符合了人的某些先验的认知形式。而人的先验认知形式是多种多样的。人类之所以会有审美，是因为人类的某种感知倾向或认知倾向得到了满足。我把人的审美分为两种：感性审美是来自于人的感知倾向被得到满足，而理性审美则是因为人的认识倾向被得到了满足。

关于理性审美。理性审美来源于意识本身对审美客体的认识，比如审美客体所具有的结构特征和内在逻辑结构。比如，人类倾向于制造彼此相同的东西，比如地砖，比如布上的重复性花纹；那反过来，如果他在一个对象的内部，发现了彼此相等的东西，这也会引发他的美感。这体现在音乐上，就是稳定的节奏，动机和主题的反复出现，等等。但同时，人类还有否定倾向：否定倾向会试图去否定相等倾向的结果：完全相等真的就那么好吗？这样，人们就可能去在那个主题上做调整，比如对主题进行发展。如果调整得合理，比如主题的发展符合逻辑，那这又可以使得逻辑倾向的审美倾向得到了满足。如果读者想对认知倾向有更多的了解，请参考：

《哲学的重建》第六章：认知倾向公理概述

关于感性审美。感性审美则不来源于意识本身，而来源于人的感觉系统和除意识本身以外的神经系统（我称之为意识的下属部门）的某些倾向被得到满足。在音乐的感性审美中，最具代表性的就是音程的和谐性：我们如果不进行科学研究，就不知道为什么一个音程是和谐的，但我们确实地感觉到它是和谐的。这就不像是要分析一个曲子的曲式，我们直接用理性去分析就可以了。要回答为什么一个音程为不和谐，我们必须要研究人对声音的感觉机制以及神经系统对声音信号的处理：只用理性分析是分析不出来人为什么会觉得它不和谐的，最多只能得到一个唯象的解释。听觉中枢还会与其他中枢进行联络。这就导致了如下一些现象：有的音色（特定的泛音结构）我们听起来觉得比较暖，而暖其实是我们对温度的感觉；有的和弦我们听起来比较有空间感，而空间感其实是视觉上的感觉；有的和弦我们觉得有色彩，而色彩同样是视觉上的感觉；我们觉得旋律上升需要力量，而这是我们对“我们爬山需要力量”这种情况的泛化；除了导音，在古典音乐里不和谐音要向下方解决来达到稳定，这是我们类比了“位置越低的物体势能越低，就越稳定”这种现象：不和谐音向下解决给了我们类似的感受。

4、关于纯四度在二声部对位里被认为是不和谐的。经过上面的讨论，这个问题就很容易解答了。其实这是一个概念归类问题：把需要解决的音统统称作不和谐音。在这里，不和谐音的定义事实上发生了改变。那纯四度需不需要解决呢？在 Johann Joseph Fux 的二声部对位中，它是需要解决的：在这个体系里，纯四度解决到三度，符合了上面说的“重力类比”，给人一种更为稳定的感觉，而三度虽然不如纯四度和谐，但也还是比较和谐的。这样就产生了两种审美评断标准之间的 tradeoff，要如何解决这个 tradeoff 则取决于很多因素，比如文化特点等。但不管怎么说，Fux 认为“势能下降”造成的稳定性效果强于从四度进行到三度时造成的不和谐程度增加的效果，因此他认为“纯四度需要解决到三度”。

讨论到这里，我们可以作一个总结：

人类之所以可以认识任何东西，都是因为人类具有认识这种东西的先验能力。认识的结果也必然会符合这种先验能力所规定的形式。
先验能力要得以发挥，需要经验来触发。
人的先验能力有很多，而这些先验能力又各自对应了一种审美上的评判能力。人们对他经常被触发的先验能力，运用得更为熟练和自然。具体哪种先验能力被强调，取决于人的经验（当然和人的性格也有关系）。
不同文化环境中的人们接受的经验在很多方面都有很大区别，所以他们被经常触发的先验能力也有所不同。
强调不同的先验能力，会给出不同的审美结果。比如一个从未把和弦和空间感（或色彩）联系起来过的人，在欣赏一段用和弦的变换来表达空间感（或色彩）变化的音乐时，可能会觉得不知所云，或者作出另外的诠释。

所以，先验能力是人类与生俱来就拥有的一套认知天赋或者说是认知工具，就像我们的手和脚一样是我们固有的一部分。天赋差异、个人偏好和经验差异决定了有人喜欢用手去做这个，有人喜欢用手去做那个。虽然大家都用相似的手，但制造出的产品却可以千差万别。我们不能因为看到那些产品的千差万别，就推断他们的手也像那些产品一样千差万别；也不能因为看到产品的巨大差别和手之间相似性，就去认为那些产品和手根本就没有关系。对于先验能力来说，道理也是一样的。