字幕表 動画を再生する 字幕スクリプトをプリント 翻訳字幕をプリント 英語字幕をプリント I'd like to talk today 今日 皆さんにお話したいのは about a powerful and fundamental aspect 私たちのあり方を決める パワフルで of who we are: our voice. 基礎的なもの― 「声」についてです Each one of us has a unique voiceprint 私たち一人一人に独特の声紋があり that reflects our age, our size, 私たちの年齢、体格 even our lifestyle and personality. 生活習慣や個性までも映し出します In the words of the poet Longfellow, ヘンリー・ワーズワース・ロングフェローは "the human voice is the organ of the soul." 「人の声は心のオルガン(心の臓器)である」と 詩でつづりました As a speech scientist, I'm fascinated スピーチ・サイエンティストである私は by how the voice is produced, 発声の仕組みに魅せられ and I have an idea for how it can be engineered. これを人工的に作り出す方法を 見つけました That's what I'd like to share with you. これを皆さんと共有いたします I'm going to start by playing you a sample まずは皆さんが ご存知かもしれない of a voice that you may recognize. 声のサンプルを流します (Recording) Stephen Hawking: "I would have thought (音声)スティーヴン・ホーキング: 「私が意図することは it was fairly obvious what I meant." かなり明確だと思っていました」 Rupal Patel: That was the voice お聞きいただいたのは of Professor Stephen Hawking. スティーヴン・ホーキング教授の声です What you may not know is that same voice 皆さんが ご存知ないかもしれないのは may also be used by this little girl 同じ声を こちらの女の子のような who is unable to speak 神経疾患で話すことができない because of a neurological condition. 子供も使っている 可能性があることです In fact, all of these individuals 実は このような方々は may be using the same voice, 声の選択肢が ごく限られているため and that's because there's only a few options available. 同じ声を使っていることがあるのです In the U.S. alone, there are 2.5 million Americans アメリカだけでも 話すことができない人達が who are unable to speak, 250万人もいます and many of whom use computerized devices その多くの人達が コミュニケーション手段として to communicate. コンピューターを使用します Now that's millions of people worldwide 世界規模で 数百万の人々が who are using generic voices, 人工音声を使っているのです including Professor Hawking, ホーキング教授も その1人で who uses an American-accented voice. アメリカ訛りの音声を使っていますね This lack of individuation of the synthetic voice この個性に欠けた 合成音声には really hit home 本当にショックを受けました when I was at an assistive technology conference 数年前に障害を持つ人の 技術支援に関する会議に a few years ago, 参加した時のことです and I recall walking into an exhibit hall 展示ホールに足を入れると and seeing a little girl and a grown man 小さい女の子から 成人男性まで having a conversation using their devices, それぞれの機器を使って 話しているんですが different devices, but the same voice. 機器は違えど 同じ声でした And I looked around and I saw this happening 周りを見回すと 私の周りでも all around me, literally hundreds of individuals 同じことが起こっていました 文字通り数百人の人達が using a handful of voices, ごく限られた音声を使っていて voices that didn't fit their bodies それぞれの身体や個性に or their personalities. 合っていないんです We wouldn't dream of fitting a little girl 小さい女の子に 成人男性用の義足を with the prosthetic limb of a grown man. あてがうなんて想像できませんよね So why then the same prosthetic voice? ではなぜ人工音声もそうしないのか? It really struck me, これが大変気に掛かり and I wanted to do something about this. この状況を何とかしたいと思ったのです I'm going to play you now a sample これから お聞きいただくのは of someone who has, two people actually, 重度の言語障害を患っている who have severe speech disorders. 2人の音声サンプルです I want you to take a listen to how they sound. どのように聞こえるか お聞きください They're saying the same utterance. 同じ内容を発話しています (First voice) (第1音声) (Second voice) (第2音声) You probably didn't understand what they said, 話の内容までは 分からなかったかもしれませんが but I hope that you heard 2人の個性的な their unique vocal identities. 音声はお分かりいただけたでしょう So what I wanted to do next is, 次に私がやりたかったことは I wanted to find out how we could harness このように残された 発話能力を these residual vocal abilities 活かして and build a technology 使用者に合わせて カスタマイズできる that could be customized for them, テクノロジー つまり彼らのために voices that could be customized for them. カスタマイズできる声を 開発することでした So I reached out to my collaborator, Tim Bunnell. そこで協力者の ティム・バンネルに助言を仰ぎました Dr. Bunnell is an expert in speech synthesis, バンネル博士は音声合成の 第一人者で and what he'd been doing is building 彼がやっているのは personalized voices for people 事前に録音してあった by putting together 本人の音声サンプルを用いて pre-recorded samples of their voice 音声を復元することで and reconstructing a voice for them. 個人用の音声を作っているのです These are people who had lost their voice 対象となるのは後天性の障害で later in life. 声を失った人達です We didn't have the luxury 生まれながらに of pre-recorded samples of speech 言語障害がある人達には for those born with speech disorder. 「事前に録音した音声サンプル」なんてありません But I thought, there had to be a way でも私が考えたのは 残された かすかな声から to reverse engineer a voice その人の声を from whatever little is left over. 蘇らせることができるはずだと So we decided to do exactly that. そこで これに取り組むことにしたのです We set out with a little bit of funding from the National Science Foundation, アメリカ国立科学財団から わずかな資金援助を受け to create custom-crafted voices that captured 話者の独特な声の特徴を反映した their unique vocal identities. 個人用音声の開発を始めました We call this project VocaliD, or vocal I.D., 私たちは このプロジェクトを “VocaliD”や“vocal I.D.”と for vocal identity. 名づけました Now before I get into the details of how これから皆さんに この特注の声がどのように作られ the voice is made and let you listen to it, 実際の声を お聞きいただく前に I need to give you a real quick speech science lesson. Okay? 音声科学についての ごく簡単な講義をします いいですか? So first, we know that the voice is changing まず私たちの音声は 成長過程において dramatically over the course of development. 劇的に変化します Children sound different from teens 小さな子供の声は 十代の人達と異なりますし who sound different from adults. 成人の人達も異なります We've all experienced this. 皆さん これを経験しますね Fact number two is that speech 2つ目の事実は発声とは is a combination of the source, 皆さんの喉頭から発せられた which is the vibrations generated by your voice box, 振動による音源が which are then pushed through 残りの声道を通過することで the rest of the vocal tract. 起こります These are the chambers of your head and neck 皆さんの頭と首の中にある スペースが that vibrate, 振動することで and they actually filter that source sound 音源をフィルターにかけて to produce consonants and vowels. 母音と子音が発音されるのです So the combination of source and filter つまり音源がフィルターにかかることが is how we produce speech. 発声のメカニズムなのです And that happens in one individual. これが一人一人に起きているわけです Now I told you earlier that I'd spent 先ほど申し上げたように a good part of my career 私は重い言語障害を患う人達の understanding and studying 音源の特性についての the source characteristics of people 理解と研究に 長いこと with severe speech disorder, 携わってきました and what I've found そこで気づいたのは is that even though their filters were impaired, 彼らのフィルターに障害があっても they were able to modulate their source: 音源は調節可能であるということで the pitch, the loudness, the tempo of their voice. それは声のピッチ、大きさ、テンポです These are called prosody, and I've been documenting for years これらはプロソディー(韻律)と呼ばれるもので 長年の調査で that the prosodic abilities of these individuals 言語障害者のプロソディーが 健在であることを are preserved. 実証してきました So when I realized that those same cues ですから これらの表現が 話し手のアイデンティティにも are also important for speaker identity, 重要だと気づいた時 I had this idea. このアイデアを思いついたのです Why don't we take the source それは発話させたい人の from the person we want the voice to sound like, 音源を使い because it's preserved, ―これは残っているんですね and borrow the filter 対象となる人と同じ年齢で from someone about the same age and size, 同じ体格の人から フィルターを借りて because they can articulate speech, この明瞭な音声と and then mix them? 混ぜたらどうかと考えたのです Because when we mix them, 合成した声は we can get a voice that's as clear フィルターを借りた as our surrogate talker -- 代理話者と同じくらい that's the person we borrowed the filter from— 明瞭な声で 私たちがターゲットとしている話者の and is similar in identity to our target talker. アイデンティティにも 類似しているんです It's that simple. こんなに簡単なんです That's the science behind what we're doing. これが私たちがやっていることの 裏にある科学です So once you have that in mind, では アイデアが思いついたところで how do you go about building this voice? どうやって実際に声を構築したらいいでしょう? Well, you have to find someone まずはフィルターを提供してくれる人を 探す必要がありました who is willing to be a surrogate. まずはフィルターを提供してくれる人を 探す必要がありました It's not such an ominous thing. 全然難しいことではないんです Being a surrogate donor 提供者になるということは only requires you to say a few hundred 数百から数千の言葉を to a few thousand utterances. 発声するだけです The process goes something like this. この過程はこんな感じです (Video) Voice: Things happen in pairs. 声:物事は対になって起こります I love to sleep. 寝るのが大好きです The sky is blue without clouds. 雲一つない青い空です RP: Now she's going to go on like this これを3時間から for about three to four hours, 4時間ほど続けます and the idea is not for her to say everything ここでのポイントは 対象となる人が話したい文章を that the target is going to want to say, 代理人に言わせるのではなく but the idea is to cover all the different combinations 言葉の中で生じる 全ての異なる of the sounds that occur in the language. 音の組み合わせを 拾っていくことです The more speech you have, サンプルが多ければ多いほど the better sounding voice you're going to have. より質の良い声を得ることができます Once you have those recordings, 収録が終わったら what we need to do 次に必要なのは is we have to parse these recordings 読まれた文章を解析し into little snippets of speech, 言語の要素に分割することです one- or two-sound combinations, 1つの音や 2つの音の組み合わせや sometimes even whole words 時には 単語全体を that start populating a dataset or a database. データセットすなわちデータベースに 集積していきます We're going to call this database a voice bank. このデータベースを 音声バンクと呼びましょう Now the power of the voice bank 音声バンクのパワフルな点は is that from this voice bank, この音声バンクから we can now say any new utterance, 新しい言葉を発声できることで like, "I love chocolate" -- 「チョコレートが好き」とか everyone needs to be able to say that— これは誰でも言いたいですよね fish through that database データベースを駆使して and find all the segments necessary その言葉の発声に必要な to say that utterance. 全ての断片を見つけるのです (Video) Voice: I love chocolate. 声:チョコレートが好きです RP: So that's speech synthesis. これが音声合成です It's called concatenative synthesis, and that's what we're using. 波形接続合成という 私たちが使っている手法です That's not the novel part. これは目新しくありませんが What's novel is how we make it sound 新しい点は どうやって この若い女性が like this young woman. 話すような音声にするかです This is Samantha. 彼女の名前はサマンサです I met her when she was nine, 私が彼女に出会ったのは and since then, my team and I 彼女が9歳の時で have been trying to build her a personalized voice. 私のチームは 彼女のための声を構築してきました We first had to find a surrogate donor, まずは代理ドナーを探して and then we had to have Samantha サマンサにも いくつかの produce some utterances. 発声をお願いしました What she can produce are mostly vowel-like sounds, 彼女が発声できるのは 主に母音だけですが but that's enough for us to extract 彼女の音源特性を引き出すのには her source characteristics. 十分な情報でした What happens next is best described 次のステップは by my daughter's analogy. She's six. 私の6歳の娘が上手く例えています She calls it mixing colors to paint voices. 娘は「声を色づかせるために 絵の具を混ぜているんだね」と It's beautiful. It's exactly that. きれいですよね まさにその通りなんです Samantha's voice is like a concentrated sample サマンサの声は 濃縮された食紅のように of red food dye which we can infuse 彼女の代理ドナーの 録音した声に混ぜることで into the recordings of her surrogate 彼女の代理ドナーの 録音した声に混ぜることで to get a pink voice just like this. ピンク色の声になるのです まさに こんな風に (Video) Samantha: Aaaaaah. サマンサ:ああああああ RP: So now, Samantha can say this. 今では こんな風に話せます (Video) Samantha: This voice is only for me. サマンサ:この声は私だけのもの I can't wait to use my new voice with my friends. 友達と新しい声で話すのが楽しみ RP: Thank you. (Applause) ありがとう (拍手) I'll never forget the gentle smile 彼女が 最初に この声を聞いた時の that spread across her face 顔いっぱいに広がった when she heard that voice for the first time. 優しい笑みは ずっと忘れないでしょう Now there's millions of people 世界中には数百万人もの around the world like Samantha, millions, サマンサのような人々がいます 数百万ですよ and we've only begun to scratch the surface. 私たちの取り組みは まだまだ始まったばかりです What we've done so far is we have これまでの取り組みは a few surrogate talkers from around the U.S. アメリカ国内で 声を提供してくれる人々を who have donated their voices, 数名集めて and we have been using those 私たちの初の試みとなる to build our first few personalized voices. 個人用の声の構築に 利用しています But there's so much more work to be done. でも やることは山ほどあります For Samantha, her surrogate 例えばサマンサの代理ドナーは came from somewhere in the Midwest, a stranger 中西部の出身で 見ず知らずの他人が who gave her the gift of voice. 声の贈り物をしてくれたのです And as a scientist, I'm so excited 私が科学者として とても楽しみなのは to take this work out of the laboratory 研究室でやっていた仕事を and finally into the real world ついに実用化して so it can have real-world impact. 実社会に影響を与えることです What I want to share with you next 次に皆さんと共有させていただくのは is how I envision taking this work この成果を どうやって次のレベルに to that next level. 進めるかです I imagine a whole world of surrogate donors 私が考えているのは 世界中の あらゆる階層の人々 from all walks of life, different sizes, different ages, 異なる体格や 違う年齢層の人々が coming together in this voice drive 代理ドナーとなって to give people voices 個性と同じくらい that are as colorful as their personalities. 色彩に富んだ声を 人々に贈ることです To do that as a first step, これを叶えるための第一歩として we've put together this website, VocaliD.org, 『VocaliD.org』というウェブサイトを 立ち上げました as a way to bring together those 声や専門知識の提供を who want to join us as voice donors, 募るためのサイトで 私たちのビジョンを as expertise donors, いろいろな形で in whatever way to make this vision a reality. 支援してくれる人たちを 集める試みです They say that giving blood can save lives. 献血で他人の命を救うことができますね Well, giving your voice can change lives. 声を提供することで 他人の人生を変えることができます All we need is a few hours of speech ほんの数時間分の 代理話者の from our surrogate talker, 音声サンプルと and as little as a vowel from our target talker, 声を受け取る人の発声した 母音が1つでもあれば to create a unique vocal identity. 独特な声のアイデンティティを 作れます So that's the science behind what we're doing. これが私たちがやっている裏にある 科学なんです I want to end by circling back to the human side この仕事に インスピレーションをもたらしてくれた that is really the inspiration for this work. 人間的な部分に立ち返ることで 締めくくります About five years ago, we built our very first voice 約5年前のことです 私たちが最初に作った声は for a little boy named William. ウィリアムという男の子のためでした When his mom first heard this voice, 母親が この声を始めて耳にした時 she said, "This is what William 「まさにウィリアムの声だ would have sounded like もし この子が話せていたら had he been able to speak." きっとこんな声だったに違いない」と And then I saw William typing a message するとウィリアムが 彼の機器で on his device. メッセージをタイプするんです I wondered, what was he thinking? 私は彼が何を考えているのか 思いを馳せました Imagine carrying around someone else's voice 9年間も他人の声を使っていた for nine years 男の子が and finally finding your own voice. ついに自分の声を手に入れたのです Imagine that. どんな気分だと思いますか This is what William said: ウィリアムはこう言いました "Never heard me before." 「自分の声でしゃべったのは初めてだ」 Thank you. ありがとうございました (Applause) (拍手)
