"血をもって書け。そうすればあなたは、血が精神だということを経験するだろう。"

コーパス

週末はやるべきことが相変わらずたくさんあるにもかかわらず、つい油断していろいろぼやーっと過ごしてしまう。

コーパスを研究に使っているという院生の研究室にお邪魔した。コーパスというのは話し言葉や書き言葉が実際どのように使われているのかを収めた言語学データベースのこと。自然言語処理やアルゴリズム関連の方法論への糸口を求めて行ったんだけど、予想通り研究の方は言語学面に偏っているような印象を受けた。大学でコーパス入門講義なんてのも聞かないし、実際年によって文学部で開かれたり開かれなかったりする程度らしい。普段プログラミングなんてやらない文科系人間にコンピュータをバリバリ使いこなせといっても無理な話かもしれない。それはこちらが言語学のレポートを書けと言われてもどうしようもないのと一緒だ。

しかし仮にAIの言語認識をテーマとした場合、どこかの段階でコーパスが重要な位置を占めてくることは避けられないだろう。それは昨今のロボットブームの延長にあるかもしれない(既にWeb、ユビキタス、ロボティクスと並べてコーパスをリンクさせる壮大な試みはあるのかもしれない)し、脳科学や認知言語学がもっと発達して充分な土台ができたもっと先のことかもしれない。その時代に向けてコーパスにもっと計算機科学的な要素を取り入れるのは決して無駄ではない・・・と思っていたのだが、コーパスがどんなものでどう使っているのかは結局わからずじまい。あと日本語や英語についてのちょっとした疑問があったとき、 検索エンジンではわからないようなことをさっさとコーパスとスクリプトで調べてしまう、というスキルも個人的な関心から欲しい。そもそもが理系的発想なのかもしれないが。

まぁ、何事も自分で触ってみるのが一番か。