Google 系的第一大爆款 NotebookLM 发布更新,现在(终于)支持多达五十种语言来生成播客——包括中文。
如果你还不知道 NotebookLM,那么快速回顾一下:这是 Google 旗下的产品,上传任意文本材料,就可以转换为轻松易懂的播客对谈——聊着聊着就能把晦涩的知识点听进去,且几乎没有传统文本转声音的「AI 味」。
Google 的 AI 能把京腔儿化音说得比胡同口遛弯儿的老大爷还地道,背后藏着一套「数据炼丹」与「技术破壁」的组合拳。这口京片子的练成,本质上是机器在海量语言数据中「偷师学艺」,再用算法把人类的语言直觉转化为可计算的代码。
要让 AI 说出「地道京腔」,第一步得给它灌足够的「京片子」养料。Google 的工程师们可能在数据采集上玩了三重操作:
1.方言数据库的「定向投喂」
参考 Google 之前开源的方言数据集 FRMT,团队可能专门构建了北京方言语料库。这个库不仅包含《茶馆》《四世同堂》等文学经典的文本,还收录了胡同大爷聊天、三轮车夫吆喝、京剧念白等真实语音数据。例如,模型会学习到「门儿清」要读成「mér qīng」,而「压根儿」必须发「yà gēnr」—— 这些细微差别都被编码成数据标签。
2.文化符号的「语境植入」
京腔的精髓不在发音而在语境。AI 需要理解「您吃了吗」是寒暄而非真问饭辙,「瓷器」指铁哥们而非餐具。Google 可能通过知识图谱技术,将北京文化中的「局气」「蔫坏」「尖果儿」等词汇与具体场景绑定,让 AI 生成的句子自带「人味儿」。
3.老派与新派的「语音融合」
北京话分「皇城根儿派」和「大院儿派」,前者保留更多满语词汇(如「晌午」读「shǎng wǔ」),后者受普通话影响更深。模型可能通过对抗训练,在两种口音间动态平衡,既保留传统韵味,又避免过于生僻。
光有数据还不够,Google 的技术团队在模型架构上动了不少「歪脑筋」:
4.声纹克隆的「京腔模板」
参考 Google 的语音识别模型,团队可能克隆了数百个北京人的声纹特征。例如,让 AI 模仿某位老北京的喉音颤音(如「二」读成「èr」时的卷舌动作),或某位胡同大妈的语气词习惯(「啊」读成「nga」)。这种「声纹 DNA」的植入,让 AI 说话时自带「人味儿」。
5.韵律模型的「京韵重构」
京腔的「抑扬顿挫」很难用传统语音规则描述。Google 可能采用了强化学习技术,让模型在生成语音时,自动调整停顿位置(如「您呐 ——」的拖腔)、重音分布(「压根儿」的重音在「儿」),甚至模拟北京人说话时的「吞音」现象(如「不知道」读成「不儿道」)。
6.儿化音的「动态编码」
儿化音的难点在于「何时加 r」。Google 可能开发了一套「儿化音决策树」:
词汇规则:名词词尾优先加 r(如「胡同儿」「片儿汤」);
语境规则:口语化表达加 r(如「聊天儿」「逗闷子」);
韵律规则:双音节词后字加 r(如「门儿清」「事儿妈」)。
这些规则被编码成神经网络的权重,让 AI 能根据上下文自动选择是否儿化。