(本系列内容摘录自 https://www.youtube.com/@Refold/ 中 Matt 参与的问答。因内容由语音转录翻译而成,文本可能存在一定偏差)
Q:
我现在几乎所有的 Anki 卡片都来自轻小说,学到了很多母语者口语中很少使用的词汇和句式。为了避免奇怪的默读(sub-vocalization),我一直在使用电脑生成的句子音频,用 ShareX 从 Readspeaker.js 这个网站录制,主要用 Akira 男声,感觉挺自然的。这样做合适吗?声调(pitch accent)怎么样?我觉得单词层面的声调发音是准的,但也可能是我搞错了。
A:
这些文本转语音(TTS)算法效果并不好,尤其是在声调(pitch accent)方面,会犯很多错误,即使是在单词层面。你可能会认为创建一个能 99% 准确判断单词声调的算法不难,但实际很难。因为这些算法需要依赖某种词典来获取单词发音信息,而市面上的声调词典大多有问题,要么过时了,要么基于几十年前的发音方式,更新也不及时,跟不上现代人的实际发音。
这就是最大的问题:使用这些程序时,它们可能会采用某个单词在某个时期使用过的声调,但这很可能不是当今最常见的发音方式,也不是你个人想要学习的发音。另一个问题是,很多单词的声调会根据意思或具体语境发生变化,而这些算法可能不够智能,无法区分不同的语境。
例如,“念”(nen)这个词,一般指想法、感觉或意图。它有几种用法,特别是在“念のため”(nen no tameni,意为“为了以防万一”)中,“念”通常发平板调。但在表示后悔的情绪或感受时,比如“無念”(munen,意为“遗憾、懊悔”),它通常发“頭高調”(atamadaka,第一个音节高,后面低)。也许算法能处理好这个特例,我没测试过,但像这样的例子很多,算法很可能会搞错。
至于句子层面的声调,错误会更多,因为句子层面有很多复杂的声调规则在起作用。据我观察,这些 TTS 算法表现尚可,但远非完美。你绝不希望给大脑输入错误的信息。
这不仅仅是声调的问题。即使在语言细微的节奏、韵律(prosody)和语调(intonation)层面,它们也无法做到完全像母语者那样自然。对人耳来说,它们听起来可能相当尴尬、机械,或者就是很奇怪。所以,我个人不推荐使用这类 TTS 引擎。
我认为更好的做法是:阅读轻小说,然后在进行被动沉浸(passive immersion)时,听这部轻小说的有声书。反复听有声书,这样你就有机会听到书中出现的各种句式是如何发音的。
当然,如果你想在发音方面绝对稳妥,那么在完全掌握目标语言的语音系统并拥有相当不错的口音之前,最好先不要急于大量阅读书籍。但如果你想采取折中方案,那么我认为,一边阅读,一边尽可能多地听对应的有声书,会对你很有帮助。
(注:这个观点虽然来自 2022 年初,但至今情况依然如此,并且短期内恐怕不会改变。在语言学习中,真人语音的效果是 TTS 远远无法比拟的。对于使用 Refold 类方法的学习者来说,通过句子挖掘能自然获得大量带真人语音的卡片;即便没有做句子挖掘或者挖掘数量不足,也应该优先寻找包含真人语音的现成卡组或者使用真人语音卡组中的音频定制卡组,而不是依赖 TTS)