↑北京市街の北西部、ハイテク企業が集まる地域に位置するマイクロソフトの北京法人ビル。ここにMSRAがある。
マイクロソフトのイノベーションを支える基礎研究を行なう機関のひとつ、マイクロソフト・リサーチ・アジア(MSRA)。前回に引き続き、同研究所の最新研究成果の紹介を続けよう。興味深いテーマが矢継ぎ早に紹介された。
●Text to Speach(Frank Soong, Lijuan Wang)
文字列を音声に変換する技術。この技術はBing Dicの発音からの検索にも生かされている。波形のデータベースをつくり、それをテキストと照らし合わせることで、音声を出力する。唇の動きへ対応したアバターに、まるで本人が他国語をしゃべっているかのようなスピーチをさせることができていた。
↑テキストを音声に変換するが唇の動きなどにも対応する。
●Video Stabilization(松下康之)
アマチュアの撮影するビデオは手持ち撮影のものが多く、見るに堪えないものが少なくない。解像度が高くなり手ぶれを増幅してしまう傾向にもある。そこで、ソフトウェアで手ぶれを除去しようというのがこの研究。フレーム間の動きを分析し、高周波成分を取り除くことで手ぶれを取り除く。この機能は、Windows8のメディア・ファンデーションに採用され、ムービーメーカーなどから使えるようになる。
↑Windows 8に採用されるソフトウェアによる手ぶれ補正を説明する松下康之氏。
●Speech to Speech Translation(Frank Seide)
音声をいったん文字にし、その文字を自動翻訳し、さらにそれを音声にして出力するリルタイムの音声翻訳技術。Text to Speechや自然言語処理の他研究グループとのコラボレーションとして実現できた。ひとつの単語の間違いが、全体の意味を大きく変えてしまうことがあり、エキサイティングな研究テーマではあるが、まだ、製品化は難しい段階だという。
↑音声をテキストにして翻訳後、それを音声にする子処理をリアルタイムで行なう。
デモ-Speech to Speech Translation
●Dual View(Xiang Cao)
ごくごく一般的な液晶ディスプレーを異なる角度から見たときに、別の表示がされているかのように見えるテクノロジー。視野角によってコントラストが異なることを利用し、専用にレンダリングしたグラフィックスを表示する。この技術を使えば、1台のテレビで別の番組を見たり、トランプゲームなどで、対面する相手どうしが見えてはいけないカードをプレーヤーごとに表示するといったことができる。
↑DualViewでは一般的な液晶に2つの異なる表示ができる。鏡を立ててみると、このとおり、液晶に表示されているのとは異なる画像が映る。
デモ-Dual View
●Urban Computing(Yu Zheng)
アーバンワールドに注目し、センサーやデバイス、乗り物や建物などをコンポーネントとしてとらえ、都市そのものをコンピューティングする。渋滞やエネルギー集中、人口増加、公害といった問題を街全体の視点からとらえる。たとえば、タクシーに搭載されたGPSと動く人間の個人活動データを併せたうえで最適経路を結び出すなどのサービスができるようになる。
週刊アスキーの最新情報を購読しよう
本記事はアフィリエイトプログラムによる収益を得ている場合があります