ConceptNet: Teaching Machines Common Sense Dr. Catherine Havasi - Luminoso ConceptNet: Teaching...
Transcript of ConceptNet: Teaching Machines Common Sense Dr. Catherine Havasi - Luminoso ConceptNet: Teaching...
w w w . l u m i n o s o . c o m
Dr. Catherine Havasi - Luminoso
ConceptNet: Teaching Machines
Common Sense
w w w . l u m i n o s o . c o mw w w . l u m i n o s o . c o mw w w . l u m i n o s o . c o m
Luminosoとは?
レイピッドインサイト
機械学習による極めて⼤きな範囲に渡る知⾒
コアテクノロジー
最新の⼈⼯知能、機械学習、NLP(⾃然⾔語処理)
アンノウン・アンノウ
NLP(⾃然⾔語処理)とコンセプト・マッチングはキーワド検索では探
せない知⾒を導き出す
ヒューマナイズデータ
数字ではなく⾔語によるフィードバック(12⾔語に対応)
What is Luminoso?
CORE TECHNOLOGY
IsatthecuttingedgeofAI,machinelearning,andNLP
RAPID INSIGHTS
Machineslearningprovidesunderstandingatscale
UNKNOWN UNKNOWNS
NLPandconceptualmatchingfindinsightskeywordscan’tFocusesonfeedback,notnumbers–in12languages
HUMANIZE DATA
w w w . l u m i n o s o . c o mw w w . l u m i n o s o . c o m
知識は⼒ではない.しかし、理解は⼒となりうる.
w w w . l u m i n o s o . c o m
Knowledge isn’t Power.UNDERSTANDING IS.
w w w . l u m i n o s o . c o mw w w . l u m i n o s o . c o m
人間の会話はニュアンスが大きな意味を持ち、クリエイティブに展開され、必ずしも構造化されおらず、予測することもできない
…しかし、理解することは簡単ではない。
w w w . l u m i n o s o . c o m
Theirstoresmelledsomustyandthe
lineswerehella long!
What'swiththeclunkingandbumpingnoiseswhen
Iaccelerate?
DudethosenewNikesaresoswagged out#Mustcop
…but understanding is difficultHuman conversation is creative, nuanced, continuously evolving, unpredictable, and disorganized.
w w w . l u m i n o s o . c o m
センチメント(感情・情緒)のみの分析は何も分析していないに等しい。
MEASURING ONLYSENTIMENT MEASURES NOTHING
w w w . l u m i n o s o . c o m
“あなたが健康的なライフスタイルを求めるように、消費者の流通チャネルに対する印象は変わるのだろうか?”
w w w . l u m i n o s o . c o m
“How do consumers’ views on distribution channels change as you consider healthier lifestyle choices?”
w w w . l u m i n o s o . c o m
Web scale data
Enterprise Scale Data
w w w . l u m i n o s o . c o m
w w w . l u m i n o s o . c o m
Common Sense Computing分別・判断能力をもったコンピューター
人間がどのように言語を使うのか、また、どのように世の中の事を説明するのかを知るために、世界中の人たちと協力を始めました。
w w w . l u m i n o s o . c o m
どのようにして知識を集積したのか?
日本語の知識は、『Games with a Purpose』(日本ユニシスと電通と協力)を使ったり、体系的な情報、辞書、ウイキペディア等インターネット上の情報から集めました。
w w w . l u m i n o s o . c o mw w w . l u m i n o s o . c o m
世界最⼤のコンセプト・ネットワーク
17 million facts about the way the
world works
Modeled to be accurate for both big and small data
Built over the past sixteen years at MIT
w w w . l u m i n o s o . c o m
The World's Largest Conceptual Network
w w w . l u m i n o s o . c o m
ConceptNetの導入
我々の新たなサイト: conceptnet.io•ブラウザでのConceptNetの閲覧• Web API•データセットのダウンロード
Getting Involved with ConceptNet
Our new Web site: conceptnet.io•Browse ConceptNet on the Web•Web API•Downloadable data sets
w w w . l u m i n o s o . c o mw w w . l u m i n o s o . c o m
conceptnet.ioを導入することにより:• ConceptNetユーザーのチャットに参加• GitHubを介したバグの報告/改修への参加•他のLinked DataをどのようにConceptNetで活用するのか情報収集が可能となる。
ConceptNetの導入Getting Involved with ConceptNet
Starting from conceptnet.io, you can:•Join a chat room of ConceptNet users•Report bugs or contribute code on GitHub•Learn how to connect other Linked Data to ConceptNet
w w w . l u m i n o s o . c o m
直感をデジタル化する。
w w w . l u m i n o s o . c o m
BUILDING DIGITAL INTUITION
w w w . l u m i n o s o . c o m
自然言語処理(NLP)と機械学習の導入により、非構造的データの分析は大きく変わってきた
人工知能
Machine learning
Largely automated
Minutes
Presents all findings, even the unexpected
Rules and ontologies
Manually updated
Days to process data
Findings limited to what matches the keywords
w w w . l u m i n o s o . c o m
Artificial Intelligence Especially NLP and machine learning has changed how
quickly we can analyze unstructured data
w w w . l u m i n o s o . c o mw w w . l u m i n o s o . c o m
Luminosoの機械学習
• 意味をベクトルで表現–この⼿法のアーリームーバーであった。
• ⼀般的な知識からスタート• サンプルドキュメントに基づきバックグラウンドベクトルをドメインに適⽤。
• 関連する語やフレーズをサンプルから学習。
Luminoso’s Machine Learning
Represent meanings as vectors-We were early movers in this field
• Start with domain-general knowledge• Adapt the background vectors to a domain, based on example documents• Learn relevant terms and phrases from the examples
w w w . l u m i n o s o . c o mw w w . l u m i n o s o . c o m
Luminosoの強み
LUMINOSO
非構造化データ
w w w . l u m i n o s o . c o m
What Does Luminoso Do Different?
UNSTRUCTURED DATA
No training data required学習用データが不要
マニュアル操作が不要
No manual intervention required
素早い分析
Faster time to insight
意思決定の改善
バイアスのない分析結果
Better insight from data, unbiased
ビジネスプロセスへの貢献
Improve your business processes
マーケーットを深く理解
Deeply understand your market
Make better decisions
w w w . l u m i n o s o . c o mw w w . l u m i n o s o . c o m
• ConceptNet, word2vec, GloVeより作成された最新の意味ベクトルの集合
• 他言語 (70言語)• Domain-general• Luminosoの持つオープンソース
ConceptNetのNumberbatchとは?
What is ConceptNetNumberbatch?
A state-of-the-art ensemble of semantic vectors built from ConceptNet, word2vec, and GloVeMultilingual (70 languages)Domain-generalThe open source, publishable portion of Luminoso’s background space
w w w . l u m i n o s o . c o mw w w . l u m i n o s o . c o m
Semantic Spacesの評価
• 2語の組み合わせのリストに対して関係の近い順にランキング
• 人が作成したランキングと比較し、評価。
COMMON WORDSbeach vs. coastbacon vs. saladcloud vs. kitten
RARE WORDSexemplify vs. embodyautofocus vs. opticalconfluent vs. branch
Evaluating Semantic Spaces
• Ask it to rank pairs of words by how related they are• Compare the ranking to what humans give
w w w . l u m i n o s o . c o mw w w . l u m i n o s o . c o m
近年の評価結果
Word relatedness evaluations
Recent Evaluation Results
w w w . l u m i n o s o . c o mw w w . l u m i n o s o . c o m
SAT(大学入試用学力試験) の類推テスト
• Turney (2005)以来、類推テストを解く研究が行われている。• 旧形式のSATの質問を用いて評価
remuneration : labor ::(a) gratuity : bonus(b) apology : regret(c) pledge : donation(d) trophy : victory(e) debt : loan
SAT Analogies
Research in solving analogies goes back to Turney (2005)Evaluated using old SAT questions