AI エージェントのトークン消費

通常のチャット形式（1往復ごとのシンプルなやりとり）と、AI Agent（自律的にタスクを分解し、思考ループやツール実行を繰り返す形式）では、トークンの消費構造が根本的に異なる。

会社規模（想定アクティブユーザー数）に応じた月間の概算トークン消費量の比較と、その算出根拠を解説します。

1. 会社規模別：月間トークン消費量の比較（試算）

以下は、１ユーザーあたり １日10回の業務リクエスト を AI に行うと仮定した一ヶ月（20営業日）の試算。

通常チャット： 1往復あたり平均 2,000 トークン（入力 1,500 + 出力 500）
AI Agent： 1タスクあたり平均 40,000 トークン（裏側での検索、プロンプトインジェクション、複数回の思考ループ Thought → Action → Observation を含む）

会社規模 (Active User)	通常チャット (月/Token)	AI Agent (月/Token)	消費量の差
小規模 (20名)	800万	1億6,000万	約20倍
中規模 (100名)	4,000万	8億	約20倍
大規模 (1,000名)	4億	80億	約20倍

会社規模
(Active User)

通常チャット
(月/Token)

AI Agent
(月/Token)

消費量の差

小規模 (20名)

800万

1億6,000万

約20倍

中規模 (100名)

4,000万

8億

約20倍

大規模 (1,000名)

4億

80億

約20倍

通常チャットと AI Agent でこれほどの差が出る根拠は、「１回の指示に対して LLM が起動する回数（ループ数）」と「コンテキストに抱え込む情報量」の違いにあります。

通常チャットは「ユーザー入力 ➔ AI 出力」の１回で終了します。
一方、AI Agent（Dify のワークフローや LangChain、Claude Code など）は、１つの指示に対して以下のようなループを自律的に回します。

このループが１セッションで ３〜５回以上 回ることが一般的です。

AI Agentは、ツールから返ってきたデータや、直前の自分の思考プロセスをすべて「過去の会話履歴（Context）」としてプロンプトに積み上げながら次の推論を行います。

このように、１つのタスクを完了するまでに 入力トークンが雪だるま式に増加 します。

Agent が社内データ（PgVector や AWS Bedrock のナレッジベースなど）を参照する場合、検索にヒットした上位数件のチャンク（文書の断片）がそのまま入力プロンプトに埋め込まれます。これだけで、1回のステップにつき数千〜数万トークンが一瞬で消費されます。

AI Agent の導入は業務自動化に劇的な効果をもたらしますが、通常チャットと同じ感覚で全社展開すると、API コストが跳ね上がるリスクがあります。

日本語のペナルティ：
日本語は英語に比べてトークン数が 約1.5〜2倍 多くカウントされやすい性質があります（新しい o200k_base などのトークナイザーで改善傾向にはありますが、依然として英語より割高です）。
対策としてのプロンプトキャッシュ：
最近の API（Anthropic Claude や OpenAI）が提供している「Prompt Caching （システムプロンプトや固定のナレッジ部分のトークン代を最大 90%割引する機能）」や、LLM 側でのコンテキスト圧縮の仕組みをアーキテクチャに組み込むことが、大規模運用における必須要件となっています。