AI開発基盤用語集 | Time合同会社コラム

エージェントオーケストレーション

AIエージェントの計画、状態、記憶、ツール利用、データの流れを制御する層です。

ツール呼び出し

モデルが使うツールと引数を構造化して出力し、外部処理を実行させる仕組みです。

関数呼び出し

LLMが関数やAPI名と引数を指定し、外部結果を使って回答や行動を作る機能です。

関数スキーマ

tool callingで呼び出せる関数名、説明、引数、型、必須項目を定義するschemaです。

MCPクライアント

MCPサーバーへ接続し、外部データやツールを利用するAIアプリ側です。

MCPリソース

MCPでAIアプリに提供される読み取り可能なデータ単位です。

MCPツール

MCPでAIアプリが呼び出せる外部操作です。

ワークフローグラフ

AI処理のステップ、条件分岐、tool call、状態遷移をグラフで表す設計です。

RAGパイプライン

検索、文脈追加、生成を組み合わせるRAGの処理工程です。

リトリーバー

質問や目的に対して関連文書やチャンクを検索して取り出す部品です。

リランカー

最初の検索結果を再評価し、回答に使う順序を並べ替える部品です。

ハイブリッド検索

キーワード検索とベクトル検索など、複数の検索方式を組み合わせる検索です。

意味検索

文字列一致ではなく、意味の近さで情報を探す検索です。

ベクトルストア

embedding化された文書やチャンクを保存し、意味検索に使う保管場所です。

埋め込みモデル

テキストなどをベクトル表現へ変換するモデルです。

チャンク化

文書を検索やembeddingに適した単位へ分割する処理です。

メタデータフィルタリング

検索時にカテゴリ、権限、localeなどのmetadataで候補を絞る処理です。

グラウンディング

モデル出力を検証可能な情報源へ結びつけることです。

引用グラウンディング

回答に使った根拠文書や出典を引用として示す設計です。

コンテキストウィンドウ

モデルが生成時に参照できる入力と出力の合計範囲です。

コンテキスト圧縮

長い会話や作業履歴を要約し、必要な文脈だけ渡す設計です。

プロンプトキャッシュ

静的な指示や長い文書をキャッシュし、再利用する仕組みです。

トークン予算

プロンプト、検索文脈、履歴、出力に割り当てるトークン量の設計です。

システムプロンプト

モデルの役割、制約、優先順位を与える最上位の指示です。

構造化出力

LLM回答をJSONやschemaに合う形式で出すことです。

JSONスキーマ出力

JSON Schemaのような定義に沿ってLLM出力を生成させる設計です。

出力パーサー

LLM出力をJSON、表、DB登録形式などに変換・検証する処理です。

LLMジャッジ

別のLLMを評価者として使い、回答品質や形式適合を判定する評価方法です。

評価セット

LLMアプリの品質を測るためのテスト入力と期待条件の集合です。

ゴールデンデータセット

評価や回帰テストで基準にする高品質な正解データ集です。

回帰評価

変更で以前の振る舞いが壊れていないか確認するLLM評価です。

プロンプト回帰テスト

プロンプト変更後に出力品質や形式が劣化していないか確認するテストです。

LoRA

少ない学習パラメータで大規模モデルを調整するPEFT手法です。

QLoRA

量子化した基盤モデルにLoRAを組み合わせ、少ないGPUメモリで調整する手法です。

アダプター

基盤モデルに追加してタスク適応させる軽量な学習モジュールです。

パラメータ効率ファインチューニング

モデル全体ではなく少数の追加パラメータだけを学習するfine-tuningです。

量子化

モデル重みや計算を低ビット表現にして、メモリや推論コストを下げる最適化です。

KVキャッシュ

Transformer推論で過去tokenのKey/Valueを保持し、再計算を減らすcacheです。

プリフィル

入力プロンプト全体を処理して初期KV cacheを作る推論段階です。

デコードフェーズ

生成中に次tokenを一つずつ出していく推論段階です。

プリフィル・デコード分離

prefill処理とdecode処理を別workerや別リソースに分ける推論設計です。

連続バッチング

生成中の複数requestを動的にまとめ、GPU効率を上げるserving手法です。

Paged Attention

KV cacheをblock単位で管理し、長文や多数requestのmemory効率を高める実装です。

投機的デコード

小さいdraft modelなどで先読み候補を作り、大きいmodelで検証して高速化する手法です。

AIオブザーバビリティ

prompt、出力、tool call、latency、token、errorなどを観測する運用です。

AIトレーシング

AI処理の各step、検索、tool call、model応答、判断を時系列で追跡することです。

AIゲートウェイ

複数model/API呼び出しを集約し、認証、log、制限、routing、監査を行う層です。

モデルルーター

task、cost、speed、quality、権限に応じて使うmodelを選ぶ仕組みです。

モデルスナップショット

ある時点のmodel versionです。評価と記録に必要になります。

プロンプトインジェクション

外部文書や入力にAIの指示を乗っ取る命令を混ぜる攻撃です。

間接プロンプトインジェクション

AIが読む外部dataに悪意ある指示を埋め込む攻撃です。

ガードレール

AIの入出力、権限、形式、禁止事項、確認条件を制御する安全設計です。

ハルシネーション抑制

モデルが事実でない内容を生成するriskを下げる設計です。

Transformer

attentionを中心にした、現代LLMの基盤になっているnetwork構造です。

アテンション

入力中のどの部分を重視するかを計算する仕組みです。

自己アテンション

同じ系列内のtoken同士の関係を計算するattentionです。

トークナイザー

textをmodelが扱うtokenへ分割し、IDへ変換する部品です。

トークン化

文字列をmodel処理用のtoken列に変換する処理です。

マルチモーダルモデル

text、image、audio、videoなど複数種類の入出力を扱えるmodelです。

視覚言語モデル

image/videoとtextを対応づけて理解・生成するmodelです。

会話状態

会話中に維持される目的、制約、履歴、未完了taskなどの状態情報です。

長期記憶

会話をまたいで残すuser設定、用語、判断、過去成果物などの記憶です。

意味記憶

用語、概念、関係、知識のような意味情報を保持する記憶です。