サーベイ

イデア

CLIP-basedなparaphrasingによるccg2lambdaの改良

 

先行研究

arxiv.org

読んだ理由:著者から見つけた。CLIP-basedで関連がありそう。

概要:

3Dの物体の性質と言語を結びつけるのは難しい。CLIPに基づいたモデルを導入したが3Dの性質を見分けることが難しかった。view estimationを導入すると精度が向上したが人間には及ばない。

導入:

roboticsにvision languageを応用するためには物体のcanonicalなvisualな性質とnon-canonicalな、blindfoldedな視点からのcaptionを理解させる必要がある。人間は簡単にできるけどBERTとか使ってもむずい。その主な理由は大規模モデルはinternet-basedでcanonicalな視点からキャプションがついた画像が多いから。視点の推測をサブ予測として行わせると精度が向上することが示されて、panoramatic viewのデータを食わせたモデルに匹敵する精度を誇り、かつroboticsに実現しやすい。ベンチマークSNAREとそのモデルLAGORを実装した。

 

roboticsよりであんま関係ないっぽい。まあCLIPの関連研究として挙げられそうではある。

 

arxiv.org

これもImage-textについて書かれているだけだった。

clip はopenaiからモジュールとして提供されているらしい

 

単純にccg2lambdaのバージョンを上げればできそう。

そのためにはccg2lambdaの完全理解が必要。

その過程で既存研究、全て言語モデルを用いた推論システムとの差別化できる要素を見つけたい。

 

どうして画像からパラフレーズを行うことにこだわる必要があるのか?

dalle2とかは大規模言語モデルに基づいているから結局大規模モデルを使ってパラフレーズしたものをccg2lambdaと組み合わせる、というので良い気がする。

BERT, CLIPとかでいくつかパラフレーズの補完を行い、さらに複数のデータセットで試せれば理想的。

Logicとmachine learningの融合という感じで十分差別化できるのではないか?

考察でCLIPに関することにはgroundingとの関連も述べれば良い気がする。

 

流れとしては

 ccg2lambdaをpythonとcoqのバージョンアップに対応させる

→transoformersとか使えるようにする

→BERT, CLIPとか使い、さらに複数のデータセットで評価する

いきなり複数実装するのは難しいかもとりあえずCLIPだけとかから始めよう。

機械学習のRTEの精度を越えることが目標。

これはかなり不安だな。うまくいくのかな?難しいデータセットの方がこの手法にとって有利そうな気がする。その辺りの調査も行う必要があるかも。

 

aclanthology.org

マルチモーダルな推論にもccg2lambdaが使えるという話。

 

ということで結局問題になるのは実装で初心に戻ってccg2lambdaの論文とコードを読み直そう。

https://arxiv.org/pdf/1707.08713.pdf

これはちょっとsimilarityを測っているからちょっと違う。

 

https://arxiv.org/pdf/1804.07656.pdf

フレーズの知識補完に自然演繹を使い、表現のためにグラフ表現を使う。

サブグラフマッピングアルゴリズムを使うらしい。

フレーズの知識補完で双方向のものはデータ不足とnoisyな点が問題。

この論文では単方向のものを用いるが、既存研究は単語や導出木からalignmentsを行うのに対してこの研究ではsemantic representationでalignmentsを行なっていてこれによって違う意味関係と区別やcoreferenceの無視も防げる。

 

論理式はイベント表現を用いる。さらにDAGsを用いた表現が存在。

 前提とゴールをそれぞれatomic-formulaに分解

→sub-goalと一致したpredicateをもつ論理式を前提の集合から見つける

あった→sub-goalの引数の中の変数を前提の引数にunifyしてからsub-goalを取り除く

(unifyが複数ある場合は複数の可能性を探索する)

ない→word abductionによってpredicateがsub-goalのものとlinguistic relationにあるものを見つけ、unifyしてsub-goalを除去

フレーズアブダクション

unprovableなsub-goalをspanningしていく。切れ目はsemantic roleを持ったedge

あとは論文読んだ方が早い。natural deductionの簡単な解説もあった。

データセット

SICK:compositional distributional semanticsを評価するためのものだったのでlogically challengingでphrasal knowledgeが必要

SNLI: phrase knowledgeは必要だが難しくない(parallelなことが多いため)

FraCaS: lexical or phrasal knowledgeを必要とせず純粋に論理的に難しい問題が含まれる←良いかも?

5.4の最後classifierで精度向上ってどういう意味?

少し勘違いしていた。フレーズをラベル付きの訓練ケースで得てからテストを行う。

modifier:修飾、predicate:述語