2.1.3 インデックスの作成(任意)
Azure AI SearchまたはKnowledge Bases for Amazon Bedrockと連携する場合はインデックスの作成が必要です。連携しない場合はこの操作は不要です。検索サービスのインデックスを,以降に記載されたスキーマに沿って作成してください。
インデックスの作成については,作成手順例をまとめたサンプルファイルを「JP1CloudService-生成AI連携_サンプルコンテンツ_インデックス作成手順例.zip」にまとめて提供します。サンプルファイルはJP1 Cloud Serviceの提供ファイルのダウンロード機能を利用してダウンロードできます。ダウンロード方法については「JP1 Cloud Service ジョブ管理・システム管理 サービスポータル 利用ガイド」における「3.2 提供ファイル一覧」を参照してください。
(1) Azure AI Searchのインデックス
生成AI連携基盤がユーザーコンテンツの検索先として使用するAzure AI Searchのインデックスに関して,必要なインデックス内のフィールドを以下に示します。
# |
フィールド名 |
説明 |
設定例 |
文字数の目安※1 |
---|---|---|---|---|
1 |
id |
インデックス内で検索ドキュメントを一意に定めるキーフィールド |
"MDAwMQ2" |
− |
2 |
content |
検索対象の中身をテキスト化して格納するフィールド |
"JP1は日立オープンミドルウェアシリーズのひとつです。" |
600文字 |
3 |
sourcepage |
#2の元ファイルにおける記載箇所も含めて引用元を表すフィールド。 生成AI連携による回答にAzure AI Searchから得られた情報を用いる場合,引用元の情報として,本項目の設定内容が使用されます。 |
"Example.pdf-page.100" |
64文字※2 |
4 |
sourcefile |
#2の元ファイルを識別するためのフィールド。 生成AI連携による回答にAzure AI Searchから得られた情報を用いる場合,引用元の情報として,本項目の設定内容が使用されます。 |
"Example.pdf" |
64文字※2 |
5 |
document_url |
#2の元ファイルへアクセスするURL(httpまたはhttps)を格納するフィールド。 生成AI連携による回答にAzure AI Searchから得られた情報を用いる場合,引用元へのアクセス情報として,本項目の設定内容が使用されます。 |
'"https://example_file_storage.XXX/Example.pdf?token=YYY" ※3 |
500文字※4 |
- 注※1
-
生成AI連携として定める文字数の目安を記載しています。文字数が多くなるほど,生成AIがトークンを消費するため,目安を参考にしてインデックスを作成してください。Azure AI Searchとしての制限は,Microsoft社が公開するドキュメントを参照してください。
- 注※2
-
半角英数字と"."(ドット),"-"(ハイフン),"_"(アンダーバー)が使用可能です。
- 注※3
-
URLの格納は任意となります。URLを格納しない場合は,"None"という文字列を格納してください。
- 注※4
-
URLエンコードされた文字列が使用可能です。
また,各フィールドの属性については以下のように設定してください。
# |
フィールド名 |
キー |
型 |
取得可能 |
フィルタ可能 |
ソート可能 |
ファセット可能 |
検索可能 |
アナライザ |
---|---|---|---|---|---|---|---|---|---|
1 |
id |
■ |
String |
■ |
□ |
□ |
□ |
□ |
− |
2 |
content |
□ |
String |
■ |
□ |
□ |
□ |
■ |
日本語 - Microsoft※5 |
3 |
sourcepage |
□ |
String |
■ |
■ |
□ |
■ |
□ |
− |
4 |
sourcefile |
□ |
String |
■ |
■ |
□ |
■ |
□ |
− |
5 |
document_url |
□ |
String |
■ |
□ |
□ |
□ |
□ |
− |
- 注※5
-
生成AI連携基盤は日本語のみサポート対象としています。
(2) Knowledge Bases for Amazon Bedrockのインデックス
生成AI連携基盤がユーザーコンテンツの検索先として使用するKnowledge Bases for Amazon Bedrockのインデックスに関して,必要なインデックス内のフィールドを以下に示します。
# |
フィールド名 |
説明 |
設定例 |
文字数の目安※1 |
---|---|---|---|---|
1 |
id |
インデックス内で検索ドキュメントを一意に定めるキーフィールド。 Knowledge Bases for Amazon Bedrockがデータソースと同期する際にシステム側で自動で入力されます。 |
"0d282b7f-aae0-47e4-90e8-d602edbfb0ba" |
− |
2 |
content |
検索対象の中身をテキスト化して格納するフィールド。 Knowledge Bases for Amazon Bedrockがデータソースと同期する際にシステム側で自動で入力されます。 |
"JP1は日立オープンミドルウェアシリーズのひとつです。" |
600文字 |
3 |
sourcepage |
#2の元ファイルにおける記載箇所も含めて引用元を表すフィールド。 生成AI連携による回答にKnowledge Bases for Amazon Bedrockから得られた情報を用いる場合,引用元の情報として,本項目の設定内容が使用されます。 |
"Example.pdf-page.100" |
64文字※2 |
4 |
sourcefile |
#2の元ファイルを識別するためのフィールド。 生成AI連携による回答にKnowledge Bases for Amazon Bedrockから得られた情報を用いる場合,引用元の情報として,本項目の設定内容が使用されます。 |
"Example.pdf" |
64文字※2 |
5 |
document_url |
#2の元ファイルへアクセスするURL(httpまたはhttps)を格納するフィールド。 生成AI連携による回答にKnowledge Bases for Amazon Bedrockから得られた情報を用いる場合,引用元へのアクセス情報として,本項目の設定内容が使用されます。 |
"https://example_file_storage.XXX/Example.pdf?token=YYY"※3 |
500文字※4 |
6 |
ベクトル値格納用フィールド 例. embeddings |
#2をベクトル化した値を格納するためのフィールド。 Knowledge Bases for Amazon Bedrockがデータソースと同期する際にシステム側で自動で入力されます。 |
[0.009516553,0.018477395,0.008…] |
− |
7 |
Bedrockメタデータ格納用フィールド 例. bedrock-metadata |
Knowledge Bases for Amazon Bedrockに関連するメタデータを保存するためのフィールド。 Knowledge Bases for Amazon Bedrockがデータソースと同期する際にシステム側で自動で入力されます。 |
'"""{"source":"s3://knowledgebase/Example.pdf"}""" |
− |
- 注※1
-
生成AI連携として定める文字数の目安を記載しています。文字数が多くなるほど,生成AIがトークンを消費するため,目安を参考にしてインデックスを作成してください。Knowledge Bases for Amazon Bedrockとしての制限は,Amazon社および連携先のベクタストアベンダーが公開するドキュメントを参照してください。
- 注※2
-
半角英数字と"."(ドット),"-"(ハイフン),"_"(アンダーバー)が使用可能です。
- 注※3
-
URLの格納は任意となります。URLを格納しない場合は,"None"という文字列を格納してください。
- 注※4
-
URLエンコードされた文字列が使用可能です。
また,各フィールドについては以下のように設定してください。
-
必要なインデックス内のフィールドは,全てString型としてください。
-
必要なインデックス内のフィールドは,ベクタストアから値を取得できるものとしてください。