【生成AI初心者向け】RAGとは？chunkとは？チャンク化とは解説

【生成AI初心者向けに解説】LLM: Large Language Model

最近何かと話題の生成AIでおなじみの大規模言語モデル（LLM）+ RAG！
そこで重要なチャンク（chunk）、チャンク化を中心に初心者向けに解説していきます。

チャンクについて聞いたことがあるが、そもそもよくわかっていない方向けの話！
少しだけチャンク分割やベクトル化についても触れてみます。

本記事では、chunk（チャンク）やチャンク化（chunking）の基本概念について解説します。
また、チャンク分割の手法やRAGでの活用方法についても紹介します。

生成AIにおけるRAG（Retrieval-Augmented Generation）は、情報検索と生成モデルを組み合わせた技術です。チャンクとRAGはよく出てくるワードなので抑えておきましょう！

chunkとは？
チャンク分割（chunking）手法の紹介
日本語テキストのチャンク化で気をつけるポイント
英語テキストのチャンク化で気をつけるポイント
チャンク化：文の途中で分割されてしまうことの影響
チャンク化：チャンク化で長い場合の影響
最適なチャンクの長さ
1. チャンク化で気にするポイント
2. チャンク化のおおよその目安
チャンクのRAGでの活用と効果
データベースとベクトルストア
さいごに
寄付の依頼

chunkとは？

chunk（チャンク）とは、データや情報を扱いやすくするために分割された（断片的な）小さな単位のことです。
特に自然言語処理（NLP）や情報検索の分野で頻繁に使われます。

チャンクは文や段落、さらには単語やフレーズのような意味のある小さな部分に分けられます。

ちなみにchunk（チャンク）の英単語意味は、大きな塊、ぶつ切り、大量（の）など

チャンク化とは？chunkingとは？

チャンク化とchunkingは、同じ意味で使われる言葉です。

データをチャンクに分割するプロセスです。自然言語処理においては、テキストを意味のある単位に分割することで、情報検索や生成モデルのパフォーマンスを向上させます。

自然言語処理におけるチャンク

自然言語処理において、チャンクは特定の意味や機能を持つテキストの塊を指します。
例えば、次の文を考えてみましょう

分割前

The quick brown fox jumps over the lazy dog.

分割後

分割前の文をチャンクに分割すると、次のような意味のある単位に分けられることがあります。

ここでは、各チャンクが文の特定の部分（名詞句や動詞句など）を表しています。

[The quick brown fox] [jumps over] [the lazy dog].

チャンクの利点や目的

処理の効率化

大量のデータを扱う際に、チャンクに分割することで処理が効率的になります。各チャンクを独立して処理できるため、並列処理が可能です。

検索精度の向上

情報検索の際に、チャンクごとに検索を行うことで、より精度の高い検索結果を得ることができる。

意味の保持

データをチャンクに分割することで、個々のチャンクが意味のある単位として保持されるため、後の処理や分析が容易になります。

チャンクの活用例

テキスト要約

長い文章をチャンクに分割し、各チャンクの重要性を評価して要約を生成する方法です。

情報検索

チャンク化されたデータを使用して、クエリに対して関連するチャンクを効率的に検索します。これにより、精度の高い検索結果が得られます。

LangChainによる大規模言語モデル（LLM）アプリケーション開発入門―GPTを使ったチャットボットの実装まで

GPTなどの大規模言語モデルを使ったアプリケーション開発で注目されている「LangChain」に入門して、LangChainとGPTを使ったWebアプリケーションやSlackボットの実装とデプロイまで挑戦しよう！

チャンク分割（chunking）手法の紹介

チャンク化（chunking）の基本的な手法について具体例をあげて手法を紹介していきます。

この部分は、精度向上を試行錯誤する上で基本手法以外の活用や手法の組み合わせなどで頑張る部分でもあります。ここでは、入門として一番最初に利用するであろう抑えておきたい基本のchunking手法を紹介しています。

1. 固定長チャンク分割

テキストを一定の長さで機械的に分割します。

例えば、各チャンクを10単語ずつに分ける方法です。

text = "The quick brown fox jumps over the lazy dog. This is a sample text for chunking."
words = text.split()
chunk_size = 10 # 10単語ごとに分割
chunks = [words[i:i + chunk_size] for i in range(0, len(words), chunk_size)]

テキストを一定の長さで分割する方法です。シンプルで高速ですが、文や意味の途中で分割される弊害があります。

2. 意味ベースチャンク分割

自然言語処理技術を用いて、意味のある単位でテキストを分割します。

例えば、名詞句や動詞句ごとに分ける方法です。

import spacy

nlp = spacy.load("en_core_web_sm")
text = "The quick brown fox jumps over the lazy dog. This is a sample text for chunking."
doc = nlp(text)
chunks = [chunk.text for chunk in doc.noun_chunks]

自然言語処理技術を用いて、意味のある単位でテキストを分割します。精度が高い反面、処理に時間がかかることがあります。

3. 文ベースチャンク分割

文ベースチャンク分割は、テキストを各文ごとに分割する方法です。
これにより、文の意味を保持したまま分割することができます。

例えば、次のような文章があるとします。

"The quick brown fox jumps over the lazy dog. This sentence is used for testing. Chunking can help in processing text efficiently."

このテキストを文ベースでチャンク分割するには、文の区切り（ピリオドや感嘆符、疑問符、日本語の場合には句読点など）を利用します。

Pythonのnltkライブラリを使用してこれを行う方法は以下の通りです。

import nltk
nltk.download('punkt')
from nltk.tokenize import sent_tokenize

text = "The quick brown fox jumps over the lazy dog. This sentence is used for testing. Chunking can help in processing text efficiently."
sentences = sent_tokenize(text)

for sentence in sentences:
    print(sentence)

出力：

4. ハイブリッド手法

ハイブリッド手法は、固定長チャンク分割と意味ベースチャンク分割を組み合わせて、バランスの取れたチャンク分割を実現する方法です。

例えば、以下の例では、テキストをまず文ごとに分割し、その後に各文を一定の長さでさらに分割します。

import nltk
nltk.download('punkt')
from nltk.tokenize import sent_tokenize, word_tokenize

text = "The quick brown fox jumps over the lazy dog. This sentence is used for testing. Chunking can help in processing text efficiently."

# Step 1: 文ごとに分割
sentences = sent_tokenize(text)

# Step 2: 各文を固定長チャンクに分割
chunk_size = 5  # 例として、5単語ごとに分割
chunks = []

for sentence in sentences:
    words = word_tokenize(sentence)
    for i in range(0, len(words), chunk_size):
        chunk = words[i:i + chunk_size]
        chunks.append(" ".join(chunk))

for chunk in chunks:
    print(chunk)

日本語テキストのチャンク化で気をつけるポイント

1. スペースの欠如

日本語は通常、単語間にスペースを挿入しません。そのため、スペースで分割する方法は使えません。
対策: 形態素解析ツール（例えば、MeCabやSudachiなど）を使用して、単語単位に分割します。

2. 形態素解析の精度

形態素解析ツールの精度によって、分割結果が変わることがあります。
対策: 使用する形態素解析ツールをテキストの性質や目的に合わせて選ぶ。例えば、MeCabにはさまざまな辞書があり、用途に応じて最適なものを選ぶことができます。

3. 文法構造の違い

日本語は主語-目的語-動詞（SOV）の構造を持ち、英語とは異なる文法構造を持ちます。このため、意味ベースのチャンク化には特別な配慮が必要です。
対策: 依存構造解析を利用して、文法的な意味のある単位（例えば、名詞句や動詞句）に分割します。

例: MeCabを使用した日本語のチャンク化

import MeCab

text = "日本の首都は東京です。京都は歴史的な都市です。沖縄は美しいビーチで有名です。"
mecab = MeCab.Tagger("-Owakati")
words = mecab.parse(text).split()
chunk_size = 5
chunks = [words[i:i + chunk_size] for i in range(0, len(words), chunk_size)]

for chunk in chunks:
    print(" ".join(chunk))

英語テキストのチャンク化で気をつけるポイント

1. スペースでの分割

英語は単語間にスペースがあるため、単語単位での分割が容易です。
splitメソッドを使用して、スペースで単語に分割できます。

2. 固定長チャンクと意味ベースチャンクの選択

固定長チャンク分割は簡単ですが、文の途中で分割される可能性があります。意味ベースチャンク分割は文法的な意味を保つことができます。
対策: 固定長チャンク分割を使用する場合、適切な長さを選ぶ。意味ベースチャンク分割を使用する場合、自然言語処理ツール（例えば、spaCy）を利用して、意味のある単位に分割します。

3. 文の区切り

英語の文は通常ピリオド、感嘆符、疑問符などで区切られます。文単位でのチャンク化が容易です。
対策: 文の区切り文字を使用して文単位に分割し、その後、各文をさらにチャンク化します。

例: spaCyを使用した英語のチャンク化

import spacy

nlp = spacy.load("en_core_web_sm")
text = "The quick brown fox jumps over the lazy dog. This is a sample text for chunking."
doc = nlp(text)
chunks = [chunk.text for chunk in doc.noun_chunks]

for chunk in chunks:
    print(chunk)

LangChainを学ぼう！ -手軽に実現するLLM（大規模言語モデル）アプリ開発の効率化-

LLM、生成AIの利用を強力にサポートするライブラリ「LangChain」を学ぶ講座です。最初にLanChainの概要を学んだ上で、基礎、様々な機能、応用を順を追って学んでいきます。開発環境はGoogle Colaboratoryです。

チャンク化：文の途中で分割されてしまうことの影響

1. 意味の損失

文の途中で分割されると、元の文が持っていた意味が失われることがあります。

これにより、テキストの解釈が困難になり、情報の正確な理解が妨げられる可能性があります。

例

元の文：

"The quick brown fox jumps over the lazy dog. This is a sample text for chunking."

分割された文：

"The quick brown fox jumps over the lazy"
"dog. This is a sample text for chunking."

この場合、最初のチャンクでは「lazy」の後に続く文脈が失われ、次のチャンクでは文の初めが途切れているため、全体の意味が不明瞭になります。

2. 自然言語処理（NLP）タスクへの影響

分割された文は、NLPモデルによる解析において問題を引き起こすことがあります。

特に、文脈に依存するタスク（例えば、感情分析や要約生成など）では、文の途中での分割が精度の低下につながります。

例

感情分析：

"The quick brown fox jumps over the lazy"
"dog. This is a sample text for chunking."

最初のチャンクは感情を表現していない可能性があるため、感情分析モデルが誤った判断をする可能性があります。
2つのチャンクが完全な文として認識されないため、文脈を正確に理解できません。

3. 検索精度の低下

情報検索システムでチャンク化されたデータを利用する場合、文の途中で分割されると検索結果の精度が低下する可能性があります。

分割されたチャンクが意味のある文脈を提供できないため、検索クエリに対して適切な結果を返すことが難しくなります。

例

クエリ：「lazy dog」分割されたチャンク：

"The quick brown fox jumps over the lazy"
"dog. This is a sample text for chunking."

この場合、「lazy dog」というフレーズが分割されているため、検索エンジンは正確にこのフレーズを含む文を特定できないかもしれません。

4. データ解析の精度低下

テキストデータを分析する際、文の途中での分割は解析結果の精度に悪影響を及ぼすことがあります。特に、トピックモデリングやクラスター分析などのタスクでは、分割されたチャンクが正確な解析を妨げる可能性があります。

例

トピックモデリング：

"The quick brown fox jumps over the lazy"
"dog. This is a sample text for chunking."

分割されたチャンクが異なるトピックに分類されることで、元の文のトピックが正しく特定できなくなります。

対策

文の途中での分割を防ぐためには、次のような対策を講じることが重要です。

意味ベースのチャンク化: 文法や意味に基づいてテキストを分割することで、文の途中での分割を避ける。
文単位のチャンク化: まず文ごとに分割し、その後に各文を適切な長さに再分割する。
適切なチャンクサイズの設定: チャンクサイズを調整して、文の途中での分割が最小限になるようにする。

これらの対策を講じることで、文の途中で分割されることによる影響を軽減し、テキスト処理や分析の精度を向上させることができます。

Python と生成AI（GPT-4o）によるOCR実践~Streamlitによる業務効率化アプリの作成~

マルチモーダルな生成AIであるGPT-4oをAPI経由で使って、請求書のOCRアプリを作ってみましょう！

チャンク化：チャンク化で長い場合の影響

チャンク化において、チャンクの長さは非常に重要な要素です。

チャンクが短すぎると前述の通り意味が失われる可能性があり

逆に長すぎると以下のようなデメリットがあります。

1. 情報の過剰混在

長すぎるチャンクには、複数の異なるトピックや情報が含まれることがあります。
これにより、情報の検索や利用が難しくなります。

例

元のテキスト

日本の首都は東京です。京都は歴史的な都市です。沖縄は美しいビーチで有名です。名古屋は中部地方の主要都市です。

長いチャンク

"日本の首都は東京です。京都は歴史的な都市です。沖縄は美しいビーチで有名です。名古屋は中部地方の主要都市です。"

この場合、複数の異なるトピック（東京、京都、沖縄、名古屋）が1つのチャンクに混在しており、特定の情報を検索する際に混乱を招きます。

2. 計算コストの増加

長いチャンクをベクトル化すると、高次元のベクトルが生成されます。
これにより、計算コストが増加し、類似度検索や他の機械学習タスクの効率が低下します。

テキストが長くなると、埋め込みベクトルの計算が複雑になり、処理時間が増加します。

3. モデルのパフォーマンス低下

生成モデルや検索モデルは、チャンクが長すぎるとパフォーマンスが低下することがあります。
長いテキストはモデルの注意機構（attention mechanism）を圧迫し、結果として生成されたテキストの品質が低下する可能性があります。

長いテキストを扱う場合、モデルが全体の文脈を正確に捉えることが難しくなり、生成されるテキストの一貫性が失われる可能性があります。

4. ユーザー体験の低下

長すぎるチャンクは、ユーザーにとって読みづらく、理解しにくくなります。

特に要約や質問応答システムでは、長いチャンクはユーザーに適切な情報を迅速に提供することが困難になり、ユーザー体験が低下します。

プロンプトエンジニアリングを学ぼう！ -大規模言語モデル（LLM）の真価を引き出す技術-

ChatGPTなどに与える命令文「プロンプト」の適切な扱い方を学びます。様々な知的作業をAIに任せられるようになりましょう。プロンプトエンジニアリングの基礎を学び、生成AIの特性を把握してAIとの「コミュニケーション能力」を身に付けます。

最適なチャンクの長さ

チャンクの最適な長さは、用途や対象データに依存します。

情報の意味を保持しつつ、効率的な検索や処理が可能な適切な長さに設定することが重要です。

短すぎるチャンク
- 意味が失われ、検索や利用が困難になります。
長すぎるチャンク
- 情報の過剰混在、計算コストの増加、モデルのパフォーマンス低下、ユーザー体験の低下などのデメリットがあります。

チャンク化で気にするポイント

意味のある単位を保持
- チャンクは、意味のある単位（文や段落）に基づいて分割するのが理想的です。これにより、各チャンクが独立した情報を提供できます。
計算コストを考慮
- チャンクが長すぎると計算コストが増加するため、モデルの性能や検索速度を考慮して適切な長さに設定します。
ユーザーの利用状況を考慮
- ユーザーが情報を効率的に取得できるように、過度に長くないチャンクを心がける。

チャンク化のおおよその目安

最適なチャンクの長さは、具体的な用途や対象データに依存しますが、おおよそこのような目安のようです。

どこを気にしてどこを捨てるか、何に重きを置くか、平均値を取りに行くか
目的やデータの性質に応じて、カスタマイズや試行錯誤のやりがいがありそうですね！

最初の方にもお伝えしましたが、これは正解ではなく一例です。また、難しそうなことを言っています。

1. 文ベースのチャンク

適用例：一般的な文章処理、自然言語理解
推奨長さ：1文から数文
理由：1文または数文ごとにチャンク化することで、文の意味が保持され、情報検索や生成モデルでの利用が効率的になります。

2. 段落ベースのチャンク

適用例：技術文書、学術論文、長文の記事
推奨長さ：1段落
理由：段落単位でチャンク化することで、文脈が自然に保たれ、段落内の関連情報をまとめて処理できます。

3. 固定長チャンク

適用例：大規模データセットの処理、ストリーミングデータ
推奨長さ：100～300単語
理由：一定の長さでチャンク化することで、処理の均一性が保たれ、効率的に並列処理が可能になります。ただし、意味が途中で切れないように工夫が必要です。

4. 意味ベースのチャンク

適用例：高度な自然言語処理、質問応答システム
推奨長さ：意味のある単位（例えば、名詞句、動詞句）
理由：自然言語処理ツールを使用して意味のある単位でチャンク化することで、文脈を保持しつつ、検索精度や生成精度を高めることができます。

ChatGPTのAPIで5つのアプリを作ってみよう！JSON生成、属性抽出、独自文書Q&A、SQL生成、AIエージェント

チャットボットだけじゃない！ChatGPTのAPIで何ができるのか、5つのアプリを作りながら学ぼう！レシピ生成アプリ／ブログ記事への自動タグ付け／PDFへのQ&A／自然言語からSQLを生成・実行／スケジュール管理のAIアシスタント

チャンクのRAGでの活用と効果

ここまでチャンク化の説明でしたが、ここからRAGでの活用方法について解説していきます。

RAG（Retrieval-Augmented Generation）は、情報検索と生成モデルを組み合わせた技術です。
この技術は、事前に保存されたデータベースから関連情報を検索し、それを基に質問に使用するテキストを生成します。

以下に、RAGでのチャンクの活用の流れについて簡単に説明します。

「質問」 → 「事前に保存されたデータベース検索」 → 「質問」＋「データベースの検索結果情報」を元にした「新しい質問」→ 「生成AIに質問」→ 「生成AIの回答」を作成する。

チャンク（データを小さな単位に分割したもの）は、このプロセスにおいて重要な役割を果たします。以下に、RAGでのチャンクの活用効果について簡単に説明します。

1. 情報検索の強化

RAGでは、まず質問に対して関連する情報をデータベースから検索する必要があります。
データベースの内容をチャンクに分割することで、検索精度が向上します。

例

テキストデータをチャンクに分割：

チャンク1: "日本の首都は東京です。"
チャンク2: "京都は歴史的な都市です。"
チャンク3: "沖縄は美しいビーチで有名です。"

質問が「日本の首都はどこですか？」の場合、チャンク1が検索されます。
チャンクに分割することで、より精度の高い検索結果が得られます。

2. データベースの効率的な管理

チャンク化されたデータは、データベース管理の観点からも有利です。
各チャンクを独立して保存することで、更新や削除が容易になります。

また、大規模なデータベースを扱う際にも、チャンク化することで検索の速度が向上します。

例

データベース：
チャンク1: "日本の首都は東京です。"
チャンク2: "京都は歴史的な都市です。"
チャンク3: "沖縄は美しいビーチで有名です。"

チャンク2を更新する場合：
新しいチャンク2: "京都は日本の文化的中心地です。"

3. 生成モデルの精度向上

RAGでは、検索された情報を基に新しいテキストを生成します。
チャンク化されたデータを使用することで、生成モデルが必要とする情報を効率的に取得でき、結果的に生成されるテキストの精度が向上します。

例

検索結果のチャンク1を使用して生成： 
質問: 「日本の首都はどこですか？」

検索結果: "日本の首都は東京です。"
生成された回答: "日本の首都は東京です。詳しくは、東京は日本の政治と経済の中心地です。"

4. ハイブリッドモデルの実現

RAGは、情報検索モデルと生成モデルを組み合わせたハイブリッドモデルです。
チャンク化されたデータを利用することで、各モデルの強みを活かしつつ、弱点を補完することができます。

例

情報検索モデル： 
チャンク1: "日本の首都は東京です。"
チャンク2: "京都は歴史的な都市です。"
チャンク3: "沖縄は美しいビーチで有名です。"

生成モデル： 質問: 「日本の首都について教えてください。」 
検索結果: チャンク1
生成された回答: "日本の首都は東京です。東京は日本の政治と経済の中心地であり、世界でも有数の大都市です。"

【基礎から学ぶ】自然言語処理から大規模言語モデルLLMへ~Pythonで実践してみよう

ChatGPT/生成AIの基本技術でもある「大規模言語モデル(LLM)」について学び、これからのAI社会における基礎を身につけましょう！PythonとGoogle ColabでLLMのファインチューニングに挑戦します

データベースとベクトルストア

RAG（Retrieval-Augmented Generation）で使用されるデータベースは、一般的に「コーパス」や「ナレッジベース」と呼ばれます。
これらのデータベースは、テキストデータや情報の大規模なコレクションを指します。

ベクトルストア（Vector Store）は、RAG（Retrieval-Augmented Generation）やその他の情報検索システムにおいて使用されるデータベースの一種であり、通常は「コーパス」や「ナレッジベース」とは異なる概念です。

以下にそれぞれの意味と違いを説明します。

ベクトルストアは、コーパスやナレッジベースから得られる情報をベクトル形式で保存し、効率的な類似性検索を可能にします。

これにより、RAGの検索性能と生成精度が向上します。

コーパス/ナレッジベース
- 大規模なテキストデータや構造化された情報の集合
ベクトルストア
- 高次元ベクトルを効率的に格納・検索するためのデータベース

コーパス/ナレッジベース

コーパス（Corpus）
- 大規模なテキストデータの集合
  自然言語処理や情報検索の基盤として使用されます。
ナレッジベース
- 構造化された情報の集合
  エンティティ、関係性、事実などに関する情報が含まれます。

ベクトルストア（Vector Store）

ベクトルストアは、テキストやその他のデータをベクトル（数値の集合）として格納するデータベースです。
これにより、高次元の空間内での効率的な検索や類似性計算が可能になります。

ベクトルストアは、特に以下の用途で使用されます：

高次元ベクトルの効率的な検索:
- テキスト、画像、音声などのデータをベクトル化（埋め込みベクトルに変換）し、これをベクトルストアに保存します。
- 検索クエリを同様にベクトル化し、ベクトルストア内のベクトルと比較して類似性の高いものを効率的に検索します。
類似性検索:
- ベクトルストアを使用することで、ユークリッド距離やコサイン類似度などの指標に基づいて、データ間の類似性を計算しやすくなります。

RAGにおけるベクトルストアの役割

RAGでは、以下のようにベクトルストアが活用されます

データの埋め込み:
- コーパスやナレッジベースの各チャンクを埋め込みベクトルに変換し、ベクトルストアに保存します。
- これにより、各チャンクの内容を高次元ベクトルとして表現します。
効率的な検索:
- ユーザーからのクエリを埋め込みベクトルに変換し、ベクトルストア内で類似するベクトルを検索します。
- 最も類似するチャンクを見つけることで、関連情報を迅速に取得できます。

例

テキストの埋め込みと検索:

この方法では、ベクトル化の部分をOpenAIのEmbeddings APIに任せてベクトルを取得し、それをPineconeのベクトルストアに格納して類似度検索を行うことができます。
これにより、コサイン類似度計算を自前で行う必要がなくなり、効率的に類似度検索が可能になります。よくわからない計算をしなくても済むので、一般の人でも扱うことができるようになっています。

import openai
import pinecone
import numpy as np

# OpenAI APIキーを設定
openai.api_key = 'YOUR_OPENAI_API_KEY'

# PineconeのAPIキーを設定
pinecone.init(api_key='YOUR_PINECONE_API_KEY', environment='us-west1-gcp')

# Pineconeのインデックスを作成（既に作成済みの場合はスキップ）
index_name = 'example-index'
if index_name not in pinecone.list_indexes():
    pinecone.create_index(index_name, dimension=1536)

# インデックスに接続
index = pinecone.Index(index_name)

# コーパスのチャンク
chunks = ["日本の首都は東京です。",
          "京都は歴史的な都市です。",
          "沖縄は美しいビーチで有名です。"]

# テキストを埋め込みベクトルに変換する関数
def get_embeddings(texts):
    response = openai.Embedding.create(
        model="text-embedding-ada-003",
        input=texts
    )
    embeddings = [e['embedding'] for e in response['data']]
    return embeddings

# チャンクを埋め込みベクトルに変換
chunk_embeddings = get_embeddings(chunks)

# Pineconeにデータをアップロード
vectors = [(str(i), chunk_embeddings[i]) for i in range(len(chunk_embeddings))]
index.upsert(vectors)

# クエリの埋め込みベクトル
query = "日本の首都"
query_embedding = get_embeddings([query])[0]

# Pineconeを使って類似度検索
response = index.query(queries=[query_embedding], top_k=1)

# 最も類似するチャンクを取得
most_similar_chunk_id = response['matches'][0]['id']
most_similar_chunk = chunks[int(most_similar_chunk_id)]

print(f"最も類似するチャンク: {most_similar_chunk}")