注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
はじめに こんにちは、株式会社松尾研究所シニアデータサイエンティストの大西です。本記事は、松尾研究... はじめに こんにちは、株式会社松尾研究所シニアデータサイエンティストの大西です。本記事は、松尾研究所 Advent Calendar 2024の記事です。 松尾研究所では、多くの企業と協力し、AIの社会実装に向けた研究開発を行っています。本稿では、OCRとLLM技術を活用した文書データの構造化手法についてご紹介します。 企業が保有するデータの多くは紙や非構造データとして保管されており、これを構造化するのは困難です。また、LLMを用いたRAG(Retrieval-Augmented Generation)システムを構築する際、元データが適切に構造化されていないと、正確な検索や参照が難しくなります。 今回、最適な文章データ構造化を実現する方法を調査するため、複数のOCR, LLM手法を実験して性能を比較してみました。 従来技術の課題と提案手法 OCRは、文字を認識しテキスト情報を抽出する技術で
2024/12/16