Thursday, June 16, 2005

Combining Speech and Mouse Gesture in Behavior Authoring

很久沒仔細想過關於我以前做的東西
今天因為在準備這次去紐約的報告
所以無意間發現
(其實如果我認真點應該可以不用等到今天才發現:P )
一個自始至終我覺得最合宜的發展方向
希望有興趣的人可以和我找機會聊聊

(要對大桌子三人組抱歉的是
之前真的是因為 覺得所有想得到的發展方向都實在不理想
所以和你們討論到後來 就草草結束
如果有題目還沒定下來的狀況 可以考慮要不要做這個)

簡單來講

就是
嘗試結合現在的gesture-based approach
以及improving speech recognition and natural language programming
這兩篇paper的技術
讓使用者可以一邊用嘴巴講, 一邊畫gesture
讓圖形和speech兩種介面的information結合 再來做inference
成為使用者真正下的指令
如此我們的gesture set則不必大到一個沒人記得住的程度
也可以盡可能做到系統的generality
應用在各個不同的behavior authoring例子

我知道上面這兩篇paper的技術並不成熟
但是就我兩年來的觀察跟了解
我想這個發展方向對於"building an intuitive behavior authoring tool"
這樣的目的而言
就算不是完全正確 也是極為重要的
如果說要讓這樣的idea變成一個碩士論文
我覺得忽略那些現有技術不成熟的地方
而只是把這樣的一個idea present出來
其實應該就夠有水準了

下面是一些motivation的說明:

要讓人可以很輕鬆 不必描述一大堆detail
就能完成behavior authoring這種複雜的task
有一個前提 叫做"電腦夠聰明"
電腦知道的background knowledge越多 使用者的input就可以更少
就可以省略那些使用者覺得理所當然的事的輸入
(比如說 當下這樣的指令: "鴿子, 飛過來" 時,
如果要達到真的"直覺",
則使用者應該可以不需要指定飛行軌跡的style)
某種程度而言, 唯有讓電腦聰明到一個程度
才有辦法generally apply我們發展出來的gesture-based approach

這樣的background knowledge一直到最近兩年
Media Lab 開始做commonsense computing之後 才有明確的solution
他們有嘗試把這樣的commonsense技術應用到game design
http://agents.media.mit.edu/projects/videogame/
(只是描述enviornment而已 還沒到behavior)
不過我猜成果應該很有限
所以對我們已經有現成的gesture-based tool的情況來說 應該反而有不錯的機會
commonsense database/tool已經完全公開在網路上
http://web.media.mit.edu/~hugo/conceptnet/
拿來摸熟了就可以用

0 Comments:

Post a Comment

<< Home