20151013nodered whatson

Node-REDで実装した
人工知能WhatsonがTOEICに挑戦！
2015-10-13
Node-REDライトニングトーク祭
※Whatson(ワッツオン)は、
Watsonサービスではありません。
www.ibm.com/smarterplanet/jp/ja/ibmwatson/quiz

背景
• 人工知能が挑戦している試験の例
• 東大入試
• センター試験
• 医師国家試験
→ 人工知能の発展は、コンピュータの得意分野や限界を明らかにし、
人間がより人間らしい仕事にフォーカスすることに貢献
• TOEICとは
• 英語能力を測るリスニング、リーディングのテスト
• 受験のメリット
• 大学入試や国家試験の英語科目免除、優遇
• 大学での単位認定
• 就職、転職、昇進でのアピールなど
• 世界の受験者数: 700万人/年
• 日本の平均点: 584点(990満点)
参考: 21robot.org, www.keio.ac.jp/ja/press_release/2015/osa3qr0000013aey.html, www.toeic.or.jp
正答率60%を目標とし、
人工知能Whatsonを開発

検索対象文字列
leaning against
leaning between
leaning after
leaning after
人工知能Whatson
文法問題を解くウェブアプリケーション
• 選択肢が入る空欄前後の単語を手かがりとし、
膨大な書籍のテキスト上で、最も使われる単語の並びを解答とする。
• 書籍800万冊分、圧縮形式で9TBのN-gramデータを加工して使用
• 品詞問題、コロケーション問題が得意
使用データ: TOEIC Bridge公式ガイド&問題集(公式問題を基にに問題例を作成、Google Books Ngram: storage.googleapis.com/books/ngrams/books/datasetsv2.html
(3)N-gramデータを検索し、
使用頻度をグラフ化
問題文:
The ladder is leaning ---- the wall.
選択肢:
(A) between (B) after (C) about (D) against
(1)空欄と前後の
1～3単語を切り出す
(2)各選択肢
を追加
leaning against
leaning between
leaning after
leaning after
切り出した文字列
is leaning ----
is leaning ---- the
is leaning ----
is leaning ---- the
is leaning ---- the wall
leaning between
leaning after
leaning about
leaning against
図1 解答導出手順
(2)
解答

開発方法
• N-gramデータの格納に分析向けデータベースdashDBを活用
• 試行錯誤を効率的に行えるNode-REDを用いて開発(開発時間は4時間)
ユーザインターフェイス
(入力フォーム、グラフ表示のHTMLを出力)
図2 Node-REDで開発したノード
統合スコア取得API
(各要素スコアを取得し、正規化)
要素スコア取得API
(各切り出しパターン毎にdashDBを検索)

動作画面
品詞問題コロケーション問題
give me a
me a
give me against the
leaning against the
against the wall
I a between the
after the
about the

評価結果と考察
• TOEIC公式問題集の120問で評価し、正答率65～88%を達成
• 最近の問題は品詞問題、コロケーション問題が少ないため、正答率低
# 問題集問題正答率
1
公式問題集
Vol 4
TEST 1 Part5 88% (35/40)
2
公式問題集
Vol 5
TEST 1 Part5 70% (28/40)
3
公式問題集
Vol 6
TEST 1 Part5 65% (26/40)
改善アイデア
• ノイズとなる副詞、固有名詞を除去し処理
• 選択肢から問題パターンを判定し、パターンに特化したアルゴリズムを使用
• 要素スコアの重みを機械学習により導出
• 頻出語彙(both A and B等)とマッチング
• 自然言語処理OSS(Apache OpenNLP等)が持つ品詞判定機能のスコアを活用

今後やりたいこと
Watsonの力を借りて、リスニング問題に挑戦！
• 写真描写問題(Part1)の戦略
• 写真に写っていない名詞を含む選択肢は、解答にならない。
→画像認識と音声認識の結果を、同義語も含め比較
同義語辞書WordNet: wordnet.princeton.edu
発音辞書The CMU Pronouncing Dictionary: www.speech.cs.cmu.edu/cgi-bin/cmudict
※実装イメージ
※実装イメージ
• 会話問題(Part2)の戦略
• 質問文と似た発音を含む選択肢は解答にならない。(例:copyと coffee)
→Watson音声認識結果の単語を発音記号に変換し、類似度計算

問題文”This is ---- a pen.”の空欄には、
選択肢are, is, be, beingのどれが入るのが適切かを
人工知能Whatsonに解答させる。
デモ１ (品詞問題に挑戦)
URL: toeic.mybluemix.net/whatson

デモ２ (同じアルゴリズムを用いて、質問応答に挑戦)
質問文“Which is Japanese food?”の解答として、
選択肢Sushi、Curry、Chocolate、Pizzaのどれが適切かを
人工知能Whatsonに解答させる。
入力出力

20151013nodered whatson

More Related Content

Recently uploaded (9)

Featured (20)

20151013nodered whatson

Editor's Notes