通常のチャット形式(1往復ごとのシンプルなやりとり)と、AI Agent(自律的にタスクを分解し、 思考ループやツール実行を繰り返す形式)では、トークンの消費構造が根本的に異なる

会社規模(想定アクティブユーザー数)に応じた月間の概算トークン消費量の比較と、 その算出根拠を解説します。

1. 会社規模別:月間トークン消費量の比較(試算)

以下は、1ユーザーあたり 1日10回の業務リクエスト を AI に行うと仮定した 一ヶ月(20営業日)の試算。

  • 通常チャット: 1往復あたり 平均 2,000 トークン(入力 1,500 + 出力 500)

  • AI Agent: 1タスクあたり 平均 40,000 トークン(裏側での検索、プロンプト インジェクション、複数回の思考ループ Thought → Action → Observation を含む)

会社規模
(Active User)
通常チャット
(月/Token)
AI Agent
(月/Token)
消費量の差

小規模 (20名)

800万

1億6,000万

約20倍

中規模 (100名)

4,000万

8億

約20倍

大規模 (1,000名)

4億

80億

約20倍

2. トークン数急増の「根拠」とその内訳

通常チャットと AI Agent でこれほどの差が出る根拠は、「1回の指示に対して LLM が起動する 回数(ループ数)」と「コンテキストに抱え込む情報量」の違いにあります。

2.1. 思考プロセス(ReActフレームワーク等)によるループ

通常チャットは「ユーザー入力 ➔ AI 出力」の1回で終了します。
一方、AI Agent(Dify のワークフローや LangChain、Claude Code など)は、1つの指示に 対して以下のようなループを自律的に回します。

  1. 思考(Thought): 「このタスクを解決するには、まず社内DBを検索する必要がある」

  2. 行動(Action): 検索ツールの実行

  3. 観察(Observation): 検索結果の受け取り(ここで大量のコンテキストが入力される)

  4. 次の思考(Thought): 「得られたデータをもとに、次はこのファイルを生成しよう」

このループが1セッションで 3〜5回以上 回ることが一般的です。

2.2. コンテキスト(履歴)の累積

AI Agentは、ツールから返ってきたデータや、直前の自分の思考プロセスをすべて 「過去の会話履歴(Context)」としてプロンプトに積み上げながら次の推論を行います。

  • 1回目のループ:入力 2,000 tk

  • 2回目のループ:入力 2,000 tk + 1回目の結果 3,000 tk = 5,000 tk

  • 3回目のループ:これまでの履歴 5,000 tk + 2回目の結果 4,000 tk = 9,000 tk

このように、1つのタスクを完了するまでに 入力トークンが雪だるま式に増加 します。

2.3. RAG(知識ベース検索)の結合

Agent が社内データ(PgVector や AWS Bedrock のナレッジベースなど)を参照する場合、 検索にヒットした上位数件のチャンク(文書の断片)がそのまま入力プロンプトに埋め 込まれます。これだけで、1回のステップにつき 数千〜数万トークン が一瞬で消費されます。

3. コスト・運用面での留意点

AI Agent の導入は業務自動化に劇的な効果をもたらしますが、通常チャットと同じ感覚で 全社展開すると、API コストが跳ね上がるリスクがあります。

  • 日本語のペナルティ
    日本語は英語に比べてトークン数が 約1.5〜2倍 多くカウントされやすい性質が あります(新しい o200k_base などのトークナイザーで改善傾向にはありますが、 依然として英語より割高です)。

  • 対策としてのプロンプトキャッシュ
    最近の API(Anthropic Claude や OpenAI)が提供している「Prompt Caching (システムプロンプトや固定のナレッジ部分のトークン代を最大 90%割引する機能)」 や、LLM 側でのコンテキスト圧縮の仕組みをアーキテクチャに組み込むことが、 大規模運用における必須要件となっています。