通常のチャット形式(1往復ごとのシンプルなやりとり)と、AI Agent(自律的にタスクを分解し、 思考ループやツール実行を繰り返す形式)では、トークンの消費構造が根本的に異なる。
会社規模(想定アクティブユーザー数)に応じた月間の概算トークン消費量の比較と、 その算出根拠を解説します。
1. 会社規模別:月間トークン消費量の比較(試算)
以下は、1ユーザーあたり 1日10回の業務リクエスト を AI に行うと仮定した 一ヶ月(20営業日)の試算。
-
通常チャット: 1往復あたり 平均 2,000 トークン(入力 1,500 + 出力 500)
-
AI Agent: 1タスクあたり 平均 40,000 トークン(裏側での検索、プロンプト インジェクション、複数回の思考ループ Thought → Action → Observation を含む)
| 会社規模 (Active User) |
通常チャット (月/Token) |
AI Agent (月/Token) |
消費量の差 |
|---|---|---|---|
小規模 (20名) |
800万 |
1億6,000万 |
約20倍 |
中規模 (100名) |
4,000万 |
8億 |
約20倍 |
大規模 (1,000名) |
4億 |
80億 |
約20倍 |
2. トークン数急増の「根拠」とその内訳
通常チャットと AI Agent でこれほどの差が出る根拠は、「1回の指示に対して LLM が起動する 回数(ループ数)」と「コンテキストに抱え込む情報量」の違いにあります。
2.1. 思考プロセス(ReActフレームワーク等)によるループ
通常チャットは「ユーザー入力 ➔ AI 出力」の1回で終了します。
一方、AI Agent(Dify のワークフローや LangChain、Claude Code など)は、1つの指示に
対して以下のようなループを自律的に回します。
-
思考(Thought): 「このタスクを解決するには、まず社内DBを検索する必要がある」
-
行動(Action): 検索ツールの実行
-
観察(Observation): 検索結果の受け取り(ここで大量のコンテキストが入力される)
-
次の思考(Thought): 「得られたデータをもとに、次はこのファイルを生成しよう」
このループが1セッションで 3〜5回以上 回ることが一般的です。
2.2. コンテキスト(履歴)の累積
AI Agentは、ツールから返ってきたデータや、直前の自分の思考プロセスをすべて 「過去の会話履歴(Context)」としてプロンプトに積み上げながら次の推論を行います。
-
1回目のループ:入力 2,000 tk
-
2回目のループ:入力 2,000 tk + 1回目の結果 3,000 tk = 5,000 tk
-
3回目のループ:これまでの履歴 5,000 tk + 2回目の結果 4,000 tk = 9,000 tk
このように、1つのタスクを完了するまでに 入力トークンが雪だるま式に増加 します。
2.3. RAG(知識ベース検索)の結合
Agent が社内データ(PgVector や AWS Bedrock のナレッジベースなど)を参照する場合、 検索にヒットした上位数件のチャンク(文書の断片)がそのまま入力プロンプトに埋め 込まれます。これだけで、1回のステップにつき 数千〜数万トークン が一瞬で消費されます。
3. コスト・運用面での留意点
AI Agent の導入は業務自動化に劇的な効果をもたらしますが、通常チャットと同じ感覚で 全社展開すると、API コストが跳ね上がるリスクがあります。
-
日本語のペナルティ:
日本語は英語に比べてトークン数が 約1.5〜2倍 多くカウントされやすい性質が あります(新しいo200k_baseなどのトークナイザーで改善傾向にはありますが、 依然として英語より割高です)。 -
対策としてのプロンプトキャッシュ:
最近の API(Anthropic Claude や OpenAI)が提供している「Prompt Caching (システムプロンプトや固定のナレッジ部分のトークン代を最大 90%割引する機能)」 や、LLM 側でのコンテキスト圧縮の仕組みをアーキテクチャに組み込むことが、 大規模運用における必須要件となっています。