エージェントオーケストレーション
AIエージェントの計画、状態、記憶、ツール利用、データの流れを制御する層です。
Time Columns
DX, Web, AI
Time Glossary
AI Development Infrastructure
AI Development Infrastructure
AIエージェント、RAG、LLM運用、評価、推論最適化、セキュリティをまとめる実務寄りの用語集です。
AIエージェントの計画、状態、記憶、ツール利用、データの流れを制御する層です。
モデルが使うツールと引数を構造化して出力し、外部処理を実行させる仕組みです。
LLMが関数やAPI名と引数を指定し、外部結果を使って回答や行動を作る機能です。
tool callingで呼び出せる関数名、説明、引数、型、必須項目を定義するschemaです。
MCPサーバーへ接続し、外部データやツールを利用するAIアプリ側です。
MCPでAIアプリに提供される読み取り可能なデータ単位です。
MCPでAIアプリが呼び出せる外部操作です。
AI処理のステップ、条件分岐、tool call、状態遷移をグラフで表す設計です。
検索、文脈追加、生成を組み合わせるRAGの処理工程です。
質問や目的に対して関連文書やチャンクを検索して取り出す部品です。
最初の検索結果を再評価し、回答に使う順序を並べ替える部品です。
キーワード検索とベクトル検索など、複数の検索方式を組み合わせる検索です。
文字列一致ではなく、意味の近さで情報を探す検索です。
embedding化された文書やチャンクを保存し、意味検索に使う保管場所です。
テキストなどをベクトル表現へ変換するモデルです。
文書を検索やembeddingに適した単位へ分割する処理です。
検索時にカテゴリ、権限、localeなどのmetadataで候補を絞る処理です。
モデル出力を検証可能な情報源へ結びつけることです。
回答に使った根拠文書や出典を引用として示す設計です。
モデルが生成時に参照できる入力と出力の合計範囲です。
長い会話や作業履歴を要約し、必要な文脈だけ渡す設計です。
静的な指示や長い文書をキャッシュし、再利用する仕組みです。
プロンプト、検索文脈、履歴、出力に割り当てるトークン量の設計です。
モデルの役割、制約、優先順位を与える最上位の指示です。
LLM回答をJSONやschemaに合う形式で出すことです。
JSON Schemaのような定義に沿ってLLM出力を生成させる設計です。
LLM出力をJSON、表、DB登録形式などに変換・検証する処理です。
別のLLMを評価者として使い、回答品質や形式適合を判定する評価方法です。
LLMアプリの品質を測るためのテスト入力と期待条件の集合です。
評価や回帰テストで基準にする高品質な正解データ集です。
変更で以前の振る舞いが壊れていないか確認するLLM評価です。
プロンプト変更後に出力品質や形式が劣化していないか確認するテストです。
少ない学習パラメータで大規模モデルを調整するPEFT手法です。
量子化した基盤モデルにLoRAを組み合わせ、少ないGPUメモリで調整する手法です。
基盤モデルに追加してタスク適応させる軽量な学習モジュールです。
モデル全体ではなく少数の追加パラメータだけを学習するfine-tuningです。
モデル重みや計算を低ビット表現にして、メモリや推論コストを下げる最適化です。
Transformer推論で過去tokenのKey/Valueを保持し、再計算を減らすcacheです。
入力プロンプト全体を処理して初期KV cacheを作る推論段階です。
生成中に次tokenを一つずつ出していく推論段階です。
prefill処理とdecode処理を別workerや別リソースに分ける推論設計です。
生成中の複数requestを動的にまとめ、GPU効率を上げるserving手法です。
KV cacheをblock単位で管理し、長文や多数requestのmemory効率を高める実装です。
小さいdraft modelなどで先読み候補を作り、大きいmodelで検証して高速化する手法です。
prompt、出力、tool call、latency、token、errorなどを観測する運用です。
AI処理の各step、検索、tool call、model応答、判断を時系列で追跡することです。
複数model/API呼び出しを集約し、認証、log、制限、routing、監査を行う層です。
task、cost、speed、quality、権限に応じて使うmodelを選ぶ仕組みです。
ある時点のmodel versionです。評価と記録に必要になります。
外部文書や入力にAIの指示を乗っ取る命令を混ぜる攻撃です。
AIが読む外部dataに悪意ある指示を埋め込む攻撃です。
AIの入出力、権限、形式、禁止事項、確認条件を制御する安全設計です。
モデルが事実でない内容を生成するriskを下げる設計です。
attentionを中心にした、現代LLMの基盤になっているnetwork構造です。
入力中のどの部分を重視するかを計算する仕組みです。
同じ系列内のtoken同士の関係を計算するattentionです。
textをmodelが扱うtokenへ分割し、IDへ変換する部品です。
文字列をmodel処理用のtoken列に変換する処理です。
text、image、audio、videoなど複数種類の入出力を扱えるmodelです。
image/videoとtextを対応づけて理解・生成するmodelです。
会話中に維持される目的、制約、履歴、未完了taskなどの状態情報です。
会話をまたいで残すuser設定、用語、判断、過去成果物などの記憶です。
用語、概念、関係、知識のような意味情報を保持する記憶です。