3.1. 什么更重要？

歌曲主要由韵律和节奏构成，自然语音其实也一模一样…… 好听的歌声和好听的语音，简单说，总计需要注意以下几个方面：

高低、起伏、轻重、缓急…… 以及，很多人并不重视的停顿。
高低指的是音高（pitch）的变化。
起伏指的是声调（tone）的变化，即，扬、平、降**。**
轻重（stress）落实到音节（就好像歌曲中的音符）上来看，就是有没有重音。
缓急（speed）就是一组音节发声的速度 —— 在歌曲中，如果 4 个音符在同一个节拍里唱完，每个音符只占 $\frac{1}{4}$ 拍，那可能就是很快；或者反过来，如果一个音符竟然持续了 2 个节拍，那可能就是很慢。

这个类比的好处在于，它让我们把日常连贯的语音理解成一串音节，而不是一些放在一起的单词（一个单词可能有一个以上的音节）—— 因为自然语音，本质上都是以音节为基础单位，而不是以字词为单位的（2.3）……

所以，好好说话，说得连贯，甚至说得好听，更重要的是学会如何安排好每一个音节，而所谓的 “安排好”，就是处理高低起伏轻重缓急以及停顿。

亚洲人之所以误以为语音是以字为单位，对 “所有语音事实上都以音节为最基础单位” （2.3）这个事实毫无察觉，是因为从表面上来看，亚洲文字的语音，比如，中日韩，虽然其实也都是以音节为单位的，但因为它们都是每个字一个音节，或者反过来说，每个音节一个字 —— 于是，认为 “语音以字为最基础单位” 也事实上并没有任何逻辑错误…… 但，这个误解会进一步延伸，很多亚洲人下意识地认为英文的语音，是以词为最基础单位的 —— 因为在他们的理解中，亚洲语言的字对应着英文中的词……

虽然把每个音素读准读对看起来更基础，但实际上更重要的是高低起伏轻重缓急，比这个还重要的，是很多人没想到的停顿。

我需要举一个你可能想象不到，乍一眼看起来并不相关的例子，才能让你明白这个道理 —— 本质上，这跟我们的大脑工作机制有关。

我曾在 Reddit 上看到过一个 Infinite Zoom Art，里面有很多电影海报，我把其中的一部分截取出来拼在了一起：

这些电影海报的有趣之处在于那些大量被忽略掉的细节。你仔细看看，所有的海报都一样，其中所有 “人物” 的脸都是空的，压根就没画眉毛眼睛鼻子嘴这些一般来说被认为是最重要的细节 —— 可你竟然看一眼就知道人家画的是什么……

也就是说，当我们去识别一样东西的时候，不管什么都一样，靠的不是所有细节，而是少数重点。这是人类的大脑能够迅速完成模式识别的关键（我们在 2.1.1 提到过 “模式识别”）—— 也就是说，只需要 “少数重点存在”，识别就可以完成。再换言之，别说 “细节准不准确”，哪怕 “很多细节缺失”，在 “少数最重要的重点是否存在并已经识别” 面前，完全无所谓。

虽然把每个音素读准读对看起来更基础，但它们就好像是海报里人脸上可以被忽略掉的眼睛鼻子眉毛嘴巴一样，而高低起伏轻重缓急和停顿却是更为重要的关键 —— 只要它们在，它们对了，那么，识别起来就更容易。当然，把每个音素读准读对肯定不能完全忽视，我们也不是不需要关注它，我们只是说，关注总得有个顺序，因为时间是线性的，而关注总是要独占时间，因为注意力几乎只能单线程运行。于是，先关注停顿、高低、起伏、轻重、缓急再关注把每个音素读准读对是比较实际的选择。

3. 人工智能

1. 基础

1.1. 音素

2. 详解

2.1. 元音

2.2. 辅音

3. 进阶

4. 收官

3.1. 什么更重要？

1.1. 音素

2.1. 元音

2.2. 辅音

3.1. 什么更重要？ ​

3.1. 什么更重要？