・学会発表用として投稿された日本語版のproceeding
https://www.anlp.jp/proceedings/annual_meeting/2024/pdf_dir/C3-5.pdf
概要
テキストと図表を含む日本語版のドキュメントのVQAデータセットを作成し、それらを用いて近年の主要なLLMモデル、マルチモーダルモデルでの評価を行い、ベンチマークとして扱えるかを検証した論文。
新規性としては「日本語」版のベンチマークデータセットを作ったこと。
日本語以外の言語では同様のデータセットは既にあるが、それらでは日本語の性能比較が出来ない。そこで「日本語版」のデータセットが望まれる。
過去に自然言語理解タスクのデータセットにGLUEの日本語版としてJGLUEが提案されているが、今回の論文では、同様の流れで日本語版の文章画像質問応答 (VQA) 用データセットが作られたと考えられる。
タスクは以下の4つ。
- Yes/No (質問に対してはい/いいえで答える)
- 事実抽出形式 (本文中から事実を抜き出して回答する)
- 数量形式 (四則演算や単位を含めて数字で回答する)
- 自由記述形式 (質問に対してある程度の長さの文章を作成して回答する)
また4つの質問形式とは別に解答不能問題という質問タスクがある (複数ページを参照しなくてはならない質問、あるいは文章中の情報だけでは回答できない質問)。
モデルとしては、学習なしモデル (gpt3.5-turbo, gpt-4)、本データセットの中の学習データを用いた学習済みLLM、学習済みマルチモーダルモデル、で4つのタスクを行った。
ただし、回答できない質問があるデータセットもあるので、それを含めた場合と含めない場合の2つの条件で行っている。
結果としては、LLMは学習させると、学習させてないgptシリーズよりも、精度が良くなるところも見られた。
解答不能な質問を含めた場合と、含めなかった場合で学習させた結果、全てのモデルで含めた場合のほうが精度が良い。
回答できない質問を学習データにいれることは、ハルシネーション抑制に繋がるためだと考察している。
マルチモーダルについては、一部のLLMよりも低い精度を出していた。それはモデルの入力トークン数に上限があったため、精度が低くなったとされる。
トークンの長さは長くなるほど、やや精度が改善されると本論文で示されており、マルチモーダルの精度低下はトークン数の小ささが関係していると言える。
所感
日本語でのデータセットが少ない現状で、このようなデータセットは非常に助かると言える。
個人的には、RAG検証として使いたいと思った。
社内検索エンジン作成を行った際に、プロダクトとしてどれぐらい使えるのか、といったことを示す際に、現在は自前でテストを作る必要がある。
しかし、このようなベンチマークがあれば、ただテスト出来るだけではなく、他のプロダクトと比べてどれくらい精度があるのかを示すことができ、だからこの製品を使える、といった検討の材料の1つにできるだろう。
Gemini、Claudeなどのマルチモーダル対応のモデルで行ったらどうなるか、少し試してみたいところだ。
今のところ、データセット自体は公開されておらず、そこが残念である。
そもそも公開されるのかは分からないが、公開されれば是非使いたいところである。
余談
ただ、一方で以下のような問題もあるので、ベンチマークがどれだけ「信頼の置ける」指標として機能しているのか、といったところは考えなくてはならない。
実は最近のLLMは,学習中に評価用のベンチマークと酷似したデータを(意図的にせよ非意図的にせよ)カンニング/暗記しており,それで評価スコアが高くなっていたのではないか問題https://t.co/r70kcwMv6q
— 今井翔太 / Shota Imai@えるエル (@ImAI_Eruel) May 3, 2024
完全新規ベンチマーク(GSM1k)を作り評価すると,見事にほとんどのLLMの性能が下がったという...… pic.twitter.com/JaSgG852sU
いずれにせよ、さっきも書いた通り、目的を達成する際に検討する材料の「1つ」として考える、ぐらいに留めておき、ベンチマーク至上主義みたいなのにはならないように注意しておこう、と個人的には思った。