VOICE ELEMENTS


EIG のNewtonプロジェクトから、日本語音声認識&音声合成ソフトDTalker 2.1 が発売されました。
Macを日本語音声で操作することが可能です。

以前からNewtonプロジェクト には注目していましたが、そこから派生した「ことだま」というソフトの成り行きを、βテスターなどさせていただきながら見守っていました。
注目するきっかけは、MacTree のリレーエッセイ「林檎いとしや」 長野谷隆昌さんのエッセイ を読んだことがきっかけです。
のちに、あまりにも面白そうなので、長野谷さんに直接会いに行きました。
その長野谷さんが中心になって開発されています。

そもそも「ことだま」は、日本語音声認識&音声合成ソフトを使って、Apple ScriptでMacの色々な操作をさせようと言うコンセプトだったのですが、ようやくその片鱗が製品となって発売されました。

以下EIGのサイトより。

Voice Elements™(ヴォイス・エレメンツ)は、人間の声を中心に、様々なMacソフトを統合し、便利で楽しいコンピュータ環境を提案する、Newtonのコンセプト・ブランドです。

VEの第一弾は、音声認識&合成技術の老舗、クリエートシステム開発社の日本語読上ソフトウェアDTalker 2.1です。

DTalkerで何をしますか?

コピーして聞く
DTalkerの読み上げ対象をクリップボードに切り替えて、いつもどおりWebブラウジング。気になった箇所を選択して「コマンド+C」を押すだけで、即座にWebページの文章を読み上げます。お気に入りの掲示板や、Weblogなどを読ませてみましょう。また、メールやチャットのログなど、あらゆる文字情報は、同様の操作で簡単に読ませることができます。

書き出して聞く
DTalkerが読み上げる音声は、全てiTumesでも管理できます。テキストを開いて、音声ファイルを書き出して下さい。出来上がったファイルをiTumesにドロップすれば、あなただけの音声ライブラリを作ることができます。もちろんiPodにシンクロして声を持ち歩くことだってできます。さらに、iMovieのナレーションやiPhotoのBGMを作ったり、iCalのアラームやiChatのサウンドに設定することもできます。

書き留めて聞く
DTalkerの基本インタフェイスはシンプルなテキストエディタ。DTalkerを使ってメモを残しておけば、いつでも音声で確認することができます。目で読んでいた既存の情報やアイデアを、声にして耳で聞いてみるだけで、新たな発見があるものです。アウトラインプロセッサ、iPod、ボイスレコーダーと組み合わせて使えば、強力な想像ツールとなるでしょう。

声を認識させる
DTalkerは、喋るだけでなく、聞くこともできます。声による文字入力はできませんが、あなたの声を聞き、言葉を聞き分けることができます。標準では、テキストエディタの文書を音声で検索する機能があります。読み上げに比べると、利用シーンが少ないと思われるかもしれませんが、他のアプリケーションとの連携を想像してみて下さい。楽しい使い方がきっと見つかることでしょう。

可能性は無限大
DTalkerになれてきたら、AppleScriptやREALbasicを使って機能を追加してみましょう。プログラミングの知識がなくとも大丈夫。Voice Elementsのサイト(準備中)から機能拡張のスクリプトをダウンロードできます。読み上げ機能をより便利にするスクリプトや、音声認識を活用したスクリプトは、無限の可能性を秘めています。


製品の特徴
音声認識検索、通常文字列検索、置換、フォント設定を行える、シンプルなテキストエディタ。
テキストファイル、クリップボードの読み上げを行える日本語読上機能。
AIFFファイルの書き出し。
早さ10段階、高さ5段階、音量10段階で設定可能な6種類の日本語音声。
♂♀などの記号の読み上げのオン・オフ。
開始、停止、再会、早送り、読み飛ばしの読み上げコントロール。
ユーザーによる追加が可能な、約140,000語の音声辞書。
AppleScript対応、REALbasicコントロール、Carbon Framework、API Documentを含むSDK機能。

動作環境
400MHz以上のPowerPC G3, G4, G5プロセッサを搭載したMacintoshコンピュータ
128MBの実装メモリ
Mac OS X 10.2.8以降
インストールには80MBのハードディスク空き容量が必要
アクティブスピーカー(もしくはヘッドホン)
音声認識にはマイクが必要



・・・・と、概要なわけですが、ようするに自分でスクリプトが書ける人は、相当機能を拡張出来るわけです。
簡単なサンプルスクリプトもダウンロード出来ます。
将来的に、実用的なスクリプトが多数提供されると思われます。
音声でiTunesを操作するとか、ファイルの検索をしながら該当したファイルを開いてしまうとか・・・
実際に、ことだまのデモではかなりの音声認識率でした。
ViaVoiceと違うのは、声を登録したりしなくても、子供でも大人でも男性でも女性でも、かなり音声の認識率が高いことです。
Webブラウジングなんかが手ぶらで出来たら楽ちんですよね。
というわけでちょっと未来のインターフェイスのご紹介です。

ど〜しようかな〜?
やっぱ買うしかないよなぁ。

投稿日時: 日 - 3月 7, 2004 at 02:43 午後          

Comments



©