jiku log

JTCのデータサイエンス中間管理職の学び

製造業における検索拡張生成の未来 (その②:課題編)

 

こちらの記事の続き。

stern-bow.hatenablog.com

Gartnerのインフラ・テクノロジーハイプサイクルが公開

ガートナー(Gartner)が,「日本における未来志向型インフラ・テクノロジのハイプ・サイクル:2024年」を発表を発表していた。日経クロステックでも,記事として取り上げられていた。

https://emt.gartnerweb.com/ngw/globalassets/ja/press-release/images/infographics/20240807-01.png

図の出所:Gartner

 

製造業において想定される検索拡張生成(RAG)の活用に向けた課題

先日のポストにおいて,製造業におけるRAGの活用シーンとして,以下のような例を挙げた。

RAGの精度向上の実現

RAGを用いて,上記の活用シーンを実現するためのシステムを作っても,回答内容がユーザにとって満足のいく精度でないと活用されなくなってしまう。そのためには,以下の2点について精度を高めていく必要がある。

  1. ユーザの質問(クエリ)と過去事例のマッチングの精度
  2. マッチング結果から適切な回答を生成する精度

製造業は,LLMやRAGについてはユーザー企業であることが多いと考えられる。RAGのシステムの開発においては,他社の力を借りることになるが,上記の観点で精度検証ができるよう,評価用のデータや評価尺度を整理しておくことが重要である。

データの整備

RAGシステムの出力の元となるのが,社内で蓄積された過去事例である。"Garbage In, Garbage Out." と言われるように,蓄積されたデータの質が良くなければRAGシステムの回答内容もよいものにはならない。

再利用を想定し,

  • 正しい日本語を使った文章を残すようにする
  • 略語集を準備しておき,略語の意味を分かるようにしておく

といった配慮をしつつデータを蓄積する必要がある。

RAG実行環境の運用・保守

RAGで引用するデータは,状況によって変化することが想定される。例えば社内規定などは,社会情勢の変化によって変わることが多い。過去事例のデータは途中で切り替えられるようにするなど,データの置き換えを見越したシステム開発および運用・保守体制を築くことが重要である。