今年の目標

今年の目標を立ててみました。ここ数年はどちらかと言えば、哲学・思想や数学、コンピュータ科学など、自分の地盤となるようなインプットに比重を置いてきましたが、自分で区切りにしようと決めていた期間でもある3年が経ったので、今年はもう少しアウトプットの方に比重を置いて活動しようと思っています。
会社についても今までは比較的潜伏的に活動してきましたが、今年は成果を見える形で出していくようにする予定です。

・プロダクトを出す
・論文を3本くらい書いてIEEEかどこかに載せる
・高等数学の基礎をマスターする(先年からやっているけどなかなか終わらない)
・機械学習をマスターする
・センスを磨くインプットを再開する
・英語力を上げる(TOEIC800くらい)

ということで、今年もよろしくお願いします。

Applications of Query Mining

Applications of Query Mining
http://videolectures.net/fws06_yates_aqm/

EuropeのYahoo! Researchによるレクチャー。
いわゆるWeb検索のクエリログへのマイニング適用がテーマ。クエリのコンテクスト(ユーザ目的)の判別やクエリ自体のクラスタリングによるクエリのリコメンデーション(expansion)などを概観している。
また、講義内でも紹介されていた情報検索のユーザ目的の整理の仕方はよくまとまっている。(Rose et al, 2004)

Microsearch: An Interface for Semantic Search

Microsearch: An Interface for Semantic Search
http://videolectures.net/eswc08_mika_wss/

Yahoo!のSearchMonkeyやmicroformatsへの取り組みなどをSemantic Webの文脈から解説している。特に新しい情報はなし。

POWERSET - Natural Language and the Semantic Web

POWERSET - Natural Language and the Semantic Web
http://videolectures.net/iswc07_pell_nlpsw/

最近、Microsoftに買収されたPowerset社のCTOによるレクチャー。
ISWC'07(Semantic Web関連)での講演のようだ。
Powersetと言えば、いわゆる自然言語処理での深い解析をいかにWeb検索に適用するかに取り組んでいる会社だったと思うが、プレゼン自体はアーキテクチャの概観とデモで構成されていた。
Powersetはオープンソース界への貢献も有名で、HBaseというHadoop上で動くBigtable(Googleの大規模データに適用するためのデータベースの仕組み)を開発していたりしていて、いわゆるApache周りのオープンソース界隈でも有名だったように思う。
ただ、あまり深くは調べていないが、実際のインデックス構造に落としたときに本当にスケールさせられるのかとか(上位語や下位語などを含めた係受け構造(?)をすべてインデクスに登録するらしい;そもそも係り受けまで丸ごと登録するインデクスって組み合わせが膨大すぎる気がする)、Wordnet(シソーラス)とかFreebase(WikipediaのDB版)とかのいわゆるコミュニティベースのナレッジの統合をかなり強烈に謳っているけれども、どこまでノイズを入れずに汎用的に作れるのかとか、Parc(だったと思う)で開発された汎用文法をベースに言語自体を抽象的にモデル化していて言語をPlaggableに実装出来ているとのことだったが、実態的にどこまで有効なのか、とか、ハードな課題が自然に考えて山積しすぎているというのが正直な印象で、それに対してHBaseのような汎用的なアーキテクチャから取り組んでいるとすると(と言ってもある程度は取り組まないと代替が無いのだけれども)、実際にWebスケールに現実的な時間内で適用できるのかというと、かなり厳しいのではないかという印象を持った。
いわゆるキーワードに基づくコンテクスト抽出や実際のWebコーパスから抽出されたクラスタリングベースのシソーラス(連想辞書の方が近いか?)によるサーチクエリの拡張など、直近で満たされていないニーズについてはボトムアップ的なアプローチで取り組むことが先決なような気もするけれども、あまり詳しくは調べてないので良くは分からない。

Intelligence in Wikipedia

Intelligence in Wikipedia
http://jp.youtube.com/watch?v=cqOHbihYbhE

ワシントン大学のIntelligence in Wikipedia Projectのレクチャー。
内容が多岐にわたっており、論文もかなりの本数が執筆されているため、要約するのが難しいが、メインはいわゆる情報抽出(IE)の話で、WikipediaのInfobox(エントリの右側に付加されている情報ボックス)を学習データとしてSelf-supervised(機械学習の学習データを自動的に生成する)に情報抽出を行おうというという試み。CRF(条件付確率場)ベースのKylinというツールを開発しているとのこと。
WikipediaをBootstrapにしてWeb全体に適用してRecall(再現率/適用エントリ範囲)を広げてみたり、Textrunnerという言語やDOM等の構造を利用する(と思われる)GenericなWeb情報抽出エンジンを使用して抽出したものを再度学習に使ってみたり、Kylinで抽出した候補を表示しながらユーザにInfoboxへの入力を促すインタラクティブなWebアプリを作って評価を取ってみたり、いろいろとpracticalな試みを行っており、非常に面白かった。

Geppeto: Consumer's Approach to Programming

Geppeto: Consumer's Approach to Programming
http://www.youtube.com/watch?v=rK5iI1W344I

Geppetoはオブジェクト(Software gadgetsと呼んでいた)をWebブラウザ(デモではiGoogle)上に並べて、ビジュアルにプログラムを作成することのできるプログラミングツール。
データがある程度規格化されれば、いわゆるデータフロー的な(何らかのデータを処理するオブジェクトを用意しその間をデータを受け渡す何らかのコネクションでつなぐ)アプローチでより具体的なニーズに応えるプログラムが作れるので、Yahoo! Pipesを皮切りに、CMUのMarmiteとかLily、いくつかこうしたコンセプトのツールが出てきている。
Geeptoについては、Software gadgets間のデータの受け渡しがcopy-pasteと言われるメソッドで定義されていてビジュアル化されなかったり、まだいまいち表現力・完成度に欠く印象もあったが、表現方法としていくつか参考になるところもあった。
下記Webサイトで実際に実際に試用できるとのこと。
http://www.geppeto.fer.hr/

Lectures on Google

何本かGoogle関連のlectureを見る。

Google: A Behind-the-Scenes Look / Jeff Dean
http://www.researchchannel.org/prog/displayevent.aspx?rID=3898

Googleの仕組みがかなりわかりやすく概観できる。よく整理されているし、いくつか面白いデモがあった。

Google Ad Systems / Narayanan Shivakumar
http://www.researchchannel.org/prog/displayevent.aspx?rID=8285&fID=345

こちらはGoogleのAdwords&Adsenseの話。MySQLベースで構築されているらしい。キーワードの拡張のやり方とかが少し面白い。

Blogのコンセプト

最近Blogに書くことが無くなってきたので、少しコンセプトを技術寄りに変えようかと思っています。そろそろ会社でのプロダクトや大学院での論文を出していかないといけない時期なので、哲学や数学などの基礎の勉強よりももう少し実践的な活動が多くなっており、具体的な物事に対して関心が移ってきているのが主な理由です。
あまり分かりやすい文章を書くのは苦手ですが、なるべく砕いて書いていきたいと思いますので、今後ともよろしくお願いします。

電子ペン(Livescribe Pulse)

周りの人には散々自慢しているけど、Livescribe社の新しい電子ペンPulseを買った。

Livescribe Pulse

電子ペンは昔から好きで、Logicool ioとかNokia SU-1B(?)までいろいろ買ってきたけれど、この電子ペンは今までの中でも圧倒的に出来が良いと思う。
何といっても重要なのは録音機能があることで、かつ、ノートを書いた任意の位置から、ノートを書いている時の音声を再生することができる機能がついていることである。これが思いのほか便利で、録音しても聞かなかったミーティングの内容とかを後で音声で見直せたりする。
また、本体も軽く電池の持ちが良いし、PC側のアプリであるLivescribe DesktopがAIR製で比較的良くできていて、通常の電子ペンデバイスとしてもなかなか出来が良い。
まだ日本では全くと言っていいほど話題になっていないけれど、個人輸入でAmazon.comから買えるので、気になる方はぜひ。

講義動画(Google Tech Talks)

昨日に続いて、Google Tech Talksからピックアップ。これで数か月くらいは持ちそう。

Intelligence in Wikipedia
http://jp.youtube.com/watch?v=cqOHbihYbhE&feature=channel

Geppeto: Consumer's Approach to Programming
http://jp.youtube.com/watch?v=rK5iI1W344I&feature=channel

A Possible Future of Software Development
http://jp.youtube.com/watch?v=4moyKUHApq4

Enabling Object Search rather than Page Search
http://jp.youtube.com/watch?v=LFVf629jATY&feature=channel

Practical Applications of Natural Language Processing in Assistive Technology
http://jp.youtube.com/watch?v=dysOKPXUrGk&feature=channel

XWiki: the french open source cousin of JotSpot
http://jp.youtube.com/watch?v=xs3LuzwqemM

Artificial intelligence and digital media
http://jp.youtube.com/watch?v=i78P-K1RhjY&feature=channel

Sergey Brin Speaks with UC Berkeley Class
http://video.google.com/videoplay?docid=7582902000166025817&q=type%3Agoogle+sergey

Reverse engineering techniques to find security bugs
http://jp.youtube.com/watch?v=mwrhRP2PswA

Faster HTML and CSS: Layout Engine Internals for Web Developers
http://jp.youtube.com/watch?v=a2_6bGNZ7bA&feature=channel

Wuala - a distributed file system
http://jp.youtube.com/watch?v=3xKZ4KGkQY8

Compiling Dynamic Languages
http://jp.youtube.com/watch?v=OKFeLZqLxzQ&feature=channel

Inside VMware Fusion
http://jp.youtube.com/watch?v=QJPq_8ULpRg&feature=channel

The Next Generation of Neural Networks
http://jp.youtube.com/watch?v=AyzOUbkUf3M

Tangible Functional Programming
http://jp.youtube.com/watch?v=faJ8N0giqzw&feature=channel

Theory and Practice of Cryptography(1)
http://jp.youtube.com/watch?v=IzVCrSrZIX8

Theory and Practice of Cryptography(2)
http://jp.youtube.com/watch?v=KDvt_0cafPw

Factor: an extensible interactive language
http://jp.youtube.com/watch?v=f_0QlhYlS8g

Similarity Search: A Web Perspective
http://jp.youtube.com/watch?v=MsRTrO_p6yE

End User Software Engineering
http://jp.youtube.com/watch?v=kOQlJyjUnE4