メインコンテンツへスキップ

ドキュメントを用いたチャット

情報処理の次のステップ

公開データセットや一般的な知識だけに依存する代わりに、「ドキュメントを用いたチャット」は、あなたの信頼できる内部リソースに基づく文脈特有の回答と分析を生成します。あなたのドキュメントをアップロードし、これらのドキュメントをチャットの回答基盤として使用してください!

データ制約の解決

言語モデルに質問するとき、モデルが訓練されたデータセットに依存します。これは一般的にインターネット上の情報です。公開されていないソースはおそらくこのデータセットには含まれていません。チャットの情報源としてあなたのドキュメントを使用することで、質問の回答に必要な情報をモデルが確実に保持していることを確認できます。

あなたのドキュメントの利点

自分のドキュメントについて、主要ポイントを挙げる、文書を要約する、などの質問をすることができます。また、独自のデータセットを用いて言語モデルに特定の分析を実行させることも可能です。

ドキュメントベースのチャットの欠点

ドキュメントのアップロードと処理には追加のステップがあり、特定情報の文脈なしで十分に回答を得られる場合には省略できます。また、リクエストを言語モデルに送る前にドキュメントから必要な情報を取得する必要があるため、回答生成には時間がかかります。

ドキュメントを用いたチャットの裏側

アップロードしたドキュメントのテキストはドキュメントから抽出され、一定の長さのブロックに分割されます(1024文字)。ブロック間には重複として128文字のオーバーラップを設定しています。各テキストの断片はベクトルとしてベクトルデータベースに保存されます。質問ごとに、質問とこのデータとの類似性に基づいて選択が行われます。

ドキュメント断片の選択プロセス

断片はすでにベクトル化されています。ベクトルは多次元であり、他のテキストと「どれだけ似ているか」を示します。RGBカラーの例を思い浮かべてください。類似値を持つ色は類似した色ですが、わずかに異なります。ベクトルデータベースは、質問に基づいてテキスト断片を整列・フィルタして取得することを可能にします。私たちは100断片(各1024文字)を最大で選択して質問とともに送信します。

ドキュメントベースのチャットに適したモデル

ドキュメントとチャットを可能にするため、広いコンテキスト窓を備えたモデルを選定しています。最大で100断片の1024文字を送信できるようにしたいです。これを超えないようにします。高品質の言語モデルを中心的なモデルカタログから推奨します。

適したモデル

適切なモデルは、十分なコンテキスト空間と優れたドキュメント分析能力を備えたものです。OpenAI、Claude、Google、欧州AIの高品質モデルなど。

一つまたは複数のドキュメントを選択

質問バーの右側にあるクリップをクリックしてファイルモードを有効にできます。最大10ファイルまでチャットに使用できます。

適した言語モデル

ドキュメントでチャットを開始するとき、モデルがドキュメントチャットに適しているかを確認します。適していない場合、現在のカタログから自動的に適切なモデルを選択します。

このドキュメントをチャットする際は、ファイルモードが有効な間続けます。

ファイルごとに処理

ドキュメントでのチャットに加え、AI-Corporate は各ドキュメントに対して別個のプロンプトを適用し、個別の回答を受け取る機能を提供します。この機能は「ファイルごとに処理」と呼ばれます。

ファイルごとに処理

この機能は「ファイルとチャット」を組み合わせて使用可能です。

想定されるシナリオ

「ファイルごとに処理」機能の実用的な例:

  1. 参照ドキュメント(例:契約テンプレート)をアップロードし、ファイルとチャットに設定する
  2. 分析すべき複数のドキュメントをアップロードし、ファイルごとに処理に設定する
  3. すべてのファイルに対して適用されるプロンプトを作成する

この方法で、参照テンプレートに基づいて契約全体を自動分析することができます。

最大ファイル数

「ファイルごとに処理」機能には最大30ファイルの制限があります。

サポートされるファイルタイプ

AI-Corporateはドキュメントとのチャットのため、以下のファイルタイプをサポートします:

  • .pdf のPDFファイル
  • .docx のWordファイル
  • .csv のCSVファイル
  • .json のJSONファイル
  • .txt のテキストファイル
  • 拡張子が 'mp3', 'mp4', 'mpeg', 'mpga', 'm4a', 'wav' または 'webm' の音声・動画ファイル

音声または動画ファイルでのチャット

音声または動画ファイルのチャットには、OpenAI の Whisper モデルを使用します。

テキスト抽出後、適切なテキストモデルを用いて句読点と綴りをチェック・修正します。

その後、PDFやWord文書の抽出と同様の手順を踏みます。

Whisper の音声ファイルあたりの制限は25MBです。新規ファイルのアップロード時にも同様の制限を適用します。

ダウンロードできるサンプルファイル

サンプル企業レポート
サンプルプロジェクト計画
大規模な歴史文書

ファイルの処理と再利用

アップロードしたファイルは、AI-Corporate がチャット、アシスタント、ワークフローで内容を利用できるようになる前に処理されます。処理に失敗するとファイルにはエラーステータスが付与され、再アップロードまたは「ファイル管理」から再処理を実行できます。

PDF の場合、AI-Corporate は通常のテキストレイヤーを使用し、必要に応じてより詳しいPDF分析を実行します。これはスキャン済み文書、記入済みフォーム、手書きメモ、円で囲んだり下線を引いた選択肢、表、視覚情報に有用です。大規模なPDFは処理中に分割されることがあります。

フォームやワークフローがファイルを要求する場合、新しいファイルをアップロードするか、メディアマネージャーを介して既存ファイルを選択できます。こうしたフォーム経由で追加されたファイルは、チャットのアシスタントには利用可能ですが、通常のチャット質問の自動選択には含まれません。

拡張子が .md の Markdown ファイルもサポートされます。