唱歌網站（你聽不出是AI在唱歌）

郭一璞曉查乾明發自凹非寺量子位出品 | 公眾號 QbitAI在今天的內容開始之前，大傢可以先戳下面的聲音聽一下，不長，隻有18秒，是一個妹子在唱Adele的知名歌曲Rolling in the Deep。有熟悉二次元世界的盆友可能聽出來瞭，這段歌聲聽起來像佐藤莎莎拉，她是聲音編輯軟件CeVIO開發的虛擬歌姬。不過，莎莎拉本尊的聲音似乎聽起來更“電子”一些，而上面這段Rolling in the Deep聽起來就好像是一個聲音和莎莎拉一樣的真人唱的。並不。事實上，這是日本語音合成技術的最新突破，隻要時長2小時的某歌手的歌聲數據，通過深度學習技術，就可以合成出跟這個人一模一樣的歌聲。如此真實的莎莎拉聲音，讓微博上的二次元粉絲驚呼：我的老婆要重生瞭！甚至還有人已經預料到瞭，這將顛覆鬼畜圈。嗯，以後B站UP主們就可以讓丞相非常自然的唱罵王司徒瞭。而在音樂界，這個新技術能讓我們欣賞更多不同的歌曲。舉個例子，隻要讓AI聽林俊傑的三張專輯，AI就可以用林俊傑的聲音，唱出周傑倫、五月天、孫燕姿他們的任何一首歌。並且，你會完全聽不出電子合成的痕跡。那下面，我們來欣賞一下這個AI在唱日文、英文、中文歌的不同表現吧：日文版前後分別是《Diamonds》和《瞳》兩首歌，你可以依次聽到每首歌帶伴奏的完整版、清唱版和以前的技術生成的舊版本。（視頻從“量子位”公眾號最新文章獲取：https://mp.weixin.qq.com/s/xziFQRlbn2vQCNBEsdRd_g）可以清晰的聽出來，新技術生成的版本幾乎和真人唱歌一模一樣，完全沒有舊版本那種濃濃的電子音。英文版英文歌則是《Rolling In The Deep》和《Everytime》兩首，三個版本的順序和上面的日文版相同。（視頻從“量子位”公眾號最新文章獲取：https://mp.weixin.qq.com/s/xziFQRlbn2vQCNBEsdRd_g）英文版的清唱已經聽起來跟正常人類唱歌沒什麼區別瞭，帶上伴奏會有一絲絲違和，但單詞的發音已經比舊技術的版本清晰多瞭。不過，如果你仔細聽瞭帶伴奏的版本，會發現相比日文歌，這個AI在唱英文歌的時候還是有一絲絲電音的感覺。中文版終於到中文歌瞭，中文歌是陳奕迅的《愛情轉移》。（視頻從“量子位”公眾號最新文章獲取：https://mp.weixin.qq.com/s/xziFQRlbn2vQCNBEsdRd_g）這位AI唱中文歌的特點，就是一個字一個字的蹦，可能日本人民就是這麼學中文的吧。不過，仔細聽還是可以聽出它的潛質的，至少“讓上次犯的錯反省出夢想”最後一個字“想”，這個長音還是足夠婉轉的。後一句“做愛情代罪的羔羊”，簡直沙啞出瞭真人的感覺，看來AI已經瞭解到，這種突然變高的聲音，普通人類是唱不上去的。看來，要想學得像，也要學人類缺點啊，至少比舊技術那種強行飆高音的假唱聽著舒服多瞭。這背後是誰？開發CeVIO的Techno Speech是一傢的是由名古屋工業大學投資的創業公司，成立於2009年11月，主要業務是向外界提供計算機多媒體軟硬件。除瞭在資本層面，這傢公司也和學校有著千絲萬縷的聯系，Techno Speech成立的目的正是傳播名古屋工業大學開發的世界上最先進的音頻相關技術。名古屋工業大學語音技術研究室的德田惠一教授主導開發瞭以上項目，而從他實驗室走出的大浦圭一郎博士正是Techno Speech的代理董事。△Techno Speech社長大浦圭一郎這次合成的聲音用的是Techno Speech的CeVIO語音合成軟件。除此之外，這傢公司還開發瞭其他一些知名的產品。Techno Speech和日本卡拉OK公司Joysound合作，希望AI不僅能學會唱歌，將來還能教會人類唱歌。它不同於一般的開原唱聲，而是實時合成語言，目前已經支持幾乎所有日文歌曲。大名鼎鼎的軟銀Pepper機器人也用上瞭他們的技術，他們曾獲得過2017年“健康王國 for Pepper”機器人應用挑戰賽大獎。Pepper機器人裝上他們的應用程序後，可以實現機器與人合唱，還能在唱完歌後給進行評論。Techno Speech希望用這項技術解決養老院的娛樂設施問題。使用瞭什麼技術？這一進步背後的技術細節，名古屋工業大學的研究團隊沒有透露，但表示明年3月，德田惠一團隊將會在的日本聲學學會春季會議上發佈研究成果。不過，在接受數碼音樂網站DTM Station采訪時，德田惠一也透露瞭一些細節：這個系統使用的是深度神經網絡技術（DNN）。△德田惠一教授在德田惠一自己的主頁上，有很多語音合成的論文記錄。最近也有一篇，剛好跟DNN有關。在提到與日本版微軟小冰“玲奈”的對比時，德田惠一稱，微軟的“玲奈”是從“歌詞和歌聲”到“歌聲”，采用的是應對模擬用戶的唱歌方法，而他們的這個，完全是歌詞和樂譜結合來合成歌聲。此外，據介紹這項技術未來可以運用到下面8個領域：復現歌星的歌聲（包括死者的聲音）音樂制作和遊戲開發由虛擬YouTubers主持的視頻流/直播虛擬演員後期錄制系統AI或語音對話系統的發聲模塊生成靈活的參考語音，用於外語學習或歌唱教育為ALS（漸凍人癥）或喉癌患者制作語音設備制作護理設施的數字標牌專傢解讀“AI合成歌聲”關於這件事，量子位也請教瞭一些業內專傢大神。小冰首席語音科學傢欒劍說，他聽瞭CeVIO的演唱版本，日文和英文上的發音還不錯，比較親切，但更關註的是訓練時間。欒劍也看瞭CeVIO在B站的案例，不過覺得可能不是2小時的訓練成果。一般來說，數據量越小，出高質量合成的難度越大。今年，小冰六代發佈會上，微軟發佈瞭一個4小時訓練後的模型，當時效果反響不錯。但這位小冰首席語音科學傢也強調，對於唱歌的評價更偏主觀，不同人有不同的評價，所以評價標準並不統一。如果以如何把人類的情感模擬到極致來看，欒劍則認為技術挑戰在情感。“唱歌跟說話不同，對情感表達的要求非常高，嗓音、氣息都會影響到最後的效果，所以如何更具情感是唱歌合成的難點。”除瞭小冰，AI語音公司思必馳去年也在央視《機智過人》節目中亮相過AI唱歌項目。思必馳聯合創始人、首席科學傢俞凱當時對AI合成歌聲系統有過解讀。歌聲合成是語音合成領域的一個分支，是給定文字和樂譜，生成唱歌語音的過程。主體方法是在文字到語音合成的基礎上，通過樂譜給定每個“漢字”的音調和“漢字”的發音長短，漢字以不同的音調合成出來就變成瞭歌唱。唱歌模型是在朗讀模型的基礎上，通過改變聲調實現文字與旋律的配合，並進一步利用深度學習去學習同一說話人演唱歌曲和朗讀歌詞之間頻譜特征的差異。標貝科技CTO李秀林告訴量子位，就目前的發展狀況來看，AI合成歌聲還有一些挑戰。這位TTS領域的大牛，曾是百度T9，因語音合成拿到百度年度最高獎，後來在滴滴任職語音團隊負責人，在語音合成領域履歷赫赫。李秀林認為挑戰有兩點：一方面是音域的限制，每個歌手都有適合自己的音域范圍，如果超出范圍的歌曲，合成效果可能會受到一定的影響。另外，訓練數據的限制，會影響基於神經網絡的模型效果。但新系統的效果與之前相比，有瞭很明顯提升，機器聲的感覺大幅下降，更接近真人的嗓音。One More Thing目前，國內AI唱歌最知名的還是微軟小冰。自2016年小冰以歌手身份出道以來，已發佈瞭十幾首接近人類質量的單曲。2017年9月底，第五代小冰解鎖瞭人工智能歌手深度學習模型，還放下狠話：我沖擊的不是人類，而是傳統的虛擬歌手。人類們，忘瞭漫長辛苦的手工調教吧。一時反響激烈。這一次，各方評論也紛紛提到瞭微軟小冰。不過小冰首席語音科學傢欒劍也說，因為CeVIO沒出中文版，所以跟最新的小冰六代還難以直接比拼。但小冰團隊對自傢“女兒”非常自信，他們更希望讓小冰直接唱給大傢聽。因為公眾號圖文視頻數量的限制，無法在此呈現瞭。在量子位公眾號對話界面回復“小冰唱歌”，給你聽4小時訓練後小冰六代的歌聲。— 完 —誠摯招聘量子位正在招募編輯/記者，工作地點在北京中關村。期待有才氣、有熱情的同學加入我們！相關細節，請在量子位公眾號(QbitAI)對話界面，回復“招聘”兩個字。量子位 QbitAI · 頭條號簽約作者վ’ᴗ’ ի 追蹤AI技術和產品新動態

相关文章