人说话时是无调性吗，为什么不会觉得难听或不协和？

这个问题体现出了题主对于调性和人对声音的和谐感的种种误解。

事实上就连一个单音（或者说单独的声响）也可以听起来不和谐。一个单音听起来是否和谐取决于它的泛音结构。比如我们去敲一个破锣，我们不会觉得它发出的单音听起来和谐。我们假设我们找了八个大小不同的破锣，而它们的基频恰好严格按 C 大调音阶排列。那我们用这八个破锣演奏有调性的音乐难道就能好听吗？连一个单音听起来都不和谐，就更别说纯八度和纯五度了。
好不好听和有没有调性并没有直接的关系。无调性只是说没有调性中心，并不意味着难听。比如我们用 1——25 之间的自然数随机生成一个序列，那它就对应一个两个八度之内的旋律，而这个旋律一般来说是无调性的（虽然有可能正好符合某种调性：序列越长，这种可能性越低）。这个序列虽然可能听起来比较怪，但不至于难听（假设每个音都是乐音，也就是有比较好的泛音结构）。难听的感觉更多地来自于不协和的和声，或者说各个谐音之间的冲突：对此我们在后文详论。
好不好听甚至与使不使用音阶都没有关系。音阶，顾名思义，是由一些离散的音组成的。最常见的音阶是对八度进行划分得到一些在基频上具有特定比例关系的音，并把这些音从低到高排列起来得到的。现代音乐中也有不以八度为基础划分的音阶，比如音阶、音阶、音阶、音阶等。然而，音乐并不一定非要使用音阶。比如提琴、长号和二胡等乐器的滑奏也可以很好听，完全用滑奏作一首没有中心频率的单声部乐曲也不见得就不好听。

下面，我们从两个角度来深入探讨这个问题：

人究竟觉得什么是好听的，什么是难听的？为了回答这个问题，我们就需要研究一下人的听觉系统。
人说话时发出的声音是什么样的，对应好听的声音还是难听的声音呢？为了回答这个问题，我们就需要对人的发声器官进行研究。

听觉上的和谐与否到底对应什么？

声音的和谐或不和谐，归根结底是人对声音的一种感知。因此，这个问题事实上等价于：人类会把什么样的声音感知为和谐的，把什么样的声音感知为不和谐的？

我们先来简要描述一下听觉系统。耳廓收集到的声音经过外耳道达到鼓膜。中耳连接外耳和内耳，通过阻抗匹配让外耳中的空气振动更好地引发内耳中淋巴液的振动。在内耳的耳蜗中，外淋巴的机械振动引发了基底膜上的一个行波。因为基底膜从底部到顶部，横向宽度递增，机械张力递增，而硬度递减，这就使得基底膜的共振频率从基底膜底部到顶部递减。这种相邻位置对应相邻频率的关系被称为频率拓扑。频率拓扑这种结构始于基底膜，依次被反应到毛细胞（柯蒂氏器的一部分）阵列、听神经阵列，一直到大脑中听觉皮层中的初级区。

基底膜上的频率拓扑：最上方一行数字代表距卵圆窗膜的距离，单位为毫米；第二行数字代表梅尔刻度（一个由频率唯一决定的值）；最下方一行数字表示频率，单位为 kHz

著名物理学家亥姆霍茨在 1863 年就对这个问题进行了开创性的研究。他认为声音的不和谐性和“拍”（beat）与“粗糙性”（roughness）有关。大体来说，两列频率超过 500 Hz 的声波，当它们的频率差别在这个范围内，我们可以听到“拍”。当两列声波的频率差超过这个范围，又没有达到位于 10%—20% 之间的一个“关键频率”时（在小三度的范围以内），我们听到了亥姆霍茨说的“粗糙性”。在两列频率不同的声波的频率差在这个关键频率以内时，这个整体声音就不能很好地被听觉系统所“解析”：没有被解析的频率分量与听觉中枢的周边部分发生作用，引起了“拍”或“粗糙性”的感觉。当两列声波的频率差别大于“关键频率”时，这种“粗糙性”就消失了：这一般被认为是与人的听觉神经系统的低通特性有关（频率差别大于“关键频率”的声音不会被听觉中枢中的同一部分去进行解析）。至于“关键频率”内的频率为什么不能被完全解析，目前还没有一个完整的科学结论，但有研究表明，这和“复杂声音中，被幅度调制了的时域波包引起的‘初级区中的’神经响应的相位锁定”有关。更深入的研究认为，人们对声音的和谐/不和谐性的感知，除了亥姆霍茨提出的线性模型，还应该考虑认知系统中的非线性因素。

当然，音乐中所有的音，都不只是有一个基频，它们还有泛音分量。因此，即使基频之间可以被听觉神经系统解析，它们的谐音之间却仍然可能会“打架”（频率不同的谐音间的频率差别小于“关键频率”）。这样，一个和弦到底有多么不和谐，就取决于把所有的基音和泛音算进来，从总体上有多少分量没有被听觉神经系统所解析。

运用我们在上面介绍的知识，我们就可以来解释音乐中的各种音程，就其本身而言，为什么和谐/不和谐。在以下讨论中，我们假设所有涉及的声音都具有典型的泛音结构，比如 C 的前六个谐音为 C c g c’ e’ g’，同时假设我们使用纯律。我们由从最不和谐到最和谐的顺序来讨论。讨论的过程中，我们要注意：1）一般来说，越低次的谐波能量越大，因此越低次谐波之间的冲突（指频率差小于“关键频率”但不相等）就引起越不和谐的感觉；2）虽然小二度和大二度都在“关键频率”以内，但小二度之间的不和谐性要大于大二度之间的不和谐性。

大小二度的不和谐性直接来自于亥姆霍茨的理论（包括后人对他的理论的修正和发展，下同）：不管是大二度还是小二度，它们不光基音之间冲突，所有的对应泛音之间也相冲突：这引起了极度的不和谐感。
大小七度在听觉上的不和谐性就要弱一些：我们最起码觉得两个基音分开了，之间也有了空间感。在这种情况下，基音之间不再冲突，但下方音的第二谐音和上方音的基音相冲突，下方音的第四谐音与上方音的第二谐音相冲突。
增四度的基音之间不相互冲突，但下方音的第三谐音与上方音的第二谐音相冲突，下方音的第四谐音也与上方音的第三谐音相冲突。
增五度的基音之间不相互冲突，但下方音的第三谐音与上方音的第二谐音相冲突，下方音的第五谐音也与上方音的第三谐音相冲突。
大小三度第一个冲突的谐音对儿是下方音的第四谐音和和上方音的第三谐音。对大三度而言，下方音的第五谐音和上方音的第四谐音相等，对于小三度来说它们则是冲突的。因此大三度要比小三度和谐。
大小六度第一个冲突的谐音对儿是下方音的第三谐音和上方音的第二谐音，但下方音的第四谐音和上方音的第三谐音又恢复了和谐。
纯四度第一个冲突的谐音对儿是下方音的第三谐音和上方音的第二谐音（大二度冲突感并不强），然而下方音的第四谐音和上方音的第三谐音重合，在更高频的谐音中也有重合的。
纯五度第一个冲突的谐音对儿是下方音的第四谐音和上方音的第三谐音（大二度冲突感并不强），但下方音的第六谐音和上方音的第四谐音又完全重合，在更高频的谐音中也有重合的。
纯八度里没有任何冲突的谐音。

人类发声器官发出的声音到底和不和谐？

通过上节的讨论，我们可以从亥姆霍茨的理论知道了一个声音是否和谐取决于它的各个谐音之间是否“打架”，也就是超过这个范围又没有达到 10%—20% 之间的一个“关键频率”时声音表现出的粗糙性（对于频率在 500 Hz 以上的声波而言）。或者说，如果两个谐音离得太近，那么听觉中枢就无法对它进行完全解析，因此就产生了不和谐的感觉。我们在此举几个例子，来说明这个问题：

笛子的主要谐音：基音，比如 200 Hz。这种谐音结构给人带来纯净的感觉。
大号的主要谐音：200 Hz、400 Hz、600 Hz、800 Hz 和 1000 Hz。这种谐音结构给人带来“丰富”的感觉。
实验中一个掉在地上的铅笔的主要谐音：197 Hz、211 Hz、217 Hz、219 Hz、287 Hz、311 Hz、329 Hz、399 Hz、407 Hz……：显然这当中很多谐音距离太近，以致于听觉中枢无法对其进行完全解析，并因此产生了“粗糙感”，而“粗糙感”成分太多就表现为噪音。

那么人发出的声音到底和谐还是不和谐呢？事实上有和谐的成分也有不和谐的成分。下面我们就来具体讨论这个问题。

在我们发浊音时，声带发生振动。在我们正常说话时，除了在发极低音时，声带的振动基本上具有严格的周期性。因此，声音的频谱可以由傅利叶级数得出：它大致是由一些分立的谱线构成的。如果基频是，那么它的高次谐波分量依次是、、……。这样，它发出的声音就比较和谐。与此相反，在发耳语声时，人发出声音的频谱则接近于一个连续谱：在这种情况下，声带基本不振动，但声带附近产生了一个湍流。湍流则给人带来噪声的感觉，因为它对应的连续谱显然有很多不能被听觉中枢解析的频率分量。

在人正常说话时，也会产生湍流，而这些湍流主要来自于调音部位对气流的阻碍。比如我们在发塞音时，在除阻时气流会产生湍流；我们在发擦音时，气流在通过调音彼此靠拢部位形成的狭窄通道时就会因摩擦而产生湍流，等等。因此，我们在发清塞音、清擦音时发出的是噪音，因为声音主要是由湍流形成的，但当我们在发浊塞音、浊擦音时发出的事实上既有和谐音也有不和谐音，因为声带发出和谐音而调音部位附近产生湍流。

另外需要注意的是，人发出的声音并不是声带发出的声音和调音部位附近湍流的简单叠加。人的咽腔、口腔和鼻腔都可以被看作是声学腔或者滤波器。我们通过调整调音部位，比如舌头在口腔中的前后位置和垂直位置，比如圆唇、不圆唇，比如在发鼻音时用调音部位阻塞口腔气流，比如主动调音器官的具体位置。而这些声学腔会选择出某些频率附近的频率分量——这在频谱图上就表现为共振峰。

总结

因为人在说话时采用的基频并不是只能几个固定值中间选择，所以它和音阶和调性都无关。至于人发出的声音是和谐还是难听，取决于人发出的声音的频谱。声带振动发出和谐的声音，而调音部位处的湍流则产生不和谐的声音。咽腔、口腔和鼻腔这些声学腔对人发出的声音进行滤波，得到物理上的声音。物理上声音的谐波分量被人的听觉系统对应成“频率拓扑”，而最终决定我们觉得一个音是和谐还是不和谐的，是有多少频率接近的谐波分量没有被听觉中枢所很好地“解析”。