AI・機械学習用語集【中級】
機械学習アルゴリズム、深層学習アーキテクチャ、AIフレームワーク、モデル評価など、実践的なAI・機械学習技術を体系的に学習できます
用語数統計
AI・機械学習中級レベルについて
中級レベルでは、実際の機械学習プロジェクトで使用される具体的なアルゴリズム、フレームワーク、評価手法を学習します。TensorFlow、PyTorch、scikit-learnなどのツールの使い方から、CNN、RNN、Transformerなどの深層学習アーキテクチャ、そしてモデルの評価・改善手法まで、実践に必要な技術を幅広くカバーしています。
AI・機械学習中級用語一覧
32個の実践的な用語を詳細解説付きで紹介
-
教師あり学習
(きょうしありがくしゅう) Supervised Learning 中級正解ラベル付きのデータを使ってモデルを訓練する機械学習手法。分類と回帰の2つの主要なタスクがある。詳細説明:教師あり学習では、入力データと正解ラベルのペアから学習し、新しいデータに対して予測を行います。分類問題では離散的なカテゴリを予測し、回帰問題では連続値を予測します。
主要なアルゴリズム:
- 線形回帰・ロジスティック回帰
- 決定木・ランダムフォレスト
- サポートベクターマシン(SVM)
- k近傍法(k-NN)
- ニューラルネットワーク
-
教師なし学習
(きょうしなしがくしゅう) Unsupervised Learning 中級正解ラベルなしのデータから隠れたパターンや構造を発見する機械学習手法。クラスタリングや次元削減が代表的。詳細説明:正解が与えられないデータから、潜在的な構造やパターンを自動的に発見します。データの理解、可視化、前処理に重要な役割を果たします。
主要なタスク:
- クラスタリング(k-means、階層クラスタリング)
- 次元削減(PCA、t-SNE、UMAP)
- 異常検知
- 関連ルール学習
- 密度推定
-
強化学習
(きょうかがくしゅう) Reinforcement Learning 中級エージェントが環境との相互作用を通じて報酬を最大化する行動を学習する機械学習手法。試行錯誤により最適戦略を獲得。詳細説明:エージェント、環境、状態、行動、報酬の要素で構成され、マルコフ決定過程として定式化されます。ゲーム、ロボット制御、自動運転などで活用されています。
主要なアルゴリズム:
- Q学習
- 方策勾配法
- Actor-Critic
- Deep Q-Network (DQN)
- Proximal Policy Optimization (PPO)
-
CNN
(シーエヌエヌ) Convolutional Neural Network 中級畳み込み演算を用いた深層学習アーキテクチャ。画像認識において優秀な性能を発揮し、局所的な特徴を効率的に抽出。詳細説明:畳み込み層、プーリング層、全結合層から構成され、画像の空間的構造を保持しながら特徴抽出を行います。パラメータ共有により効率的な学習が可能です。
代表的なアーキテクチャ:
- LeNet(手書き数字認識)
- AlexNet(ImageNet優勝)
- VGG(深いネットワーク)
- ResNet(残差接続)
- EfficientNet(効率的設計)
-
RNN
(アールエヌエヌ) Recurrent Neural Network 中級再帰的構造を持つニューラルネットワーク。時系列データや系列データの処理に適しており、過去の情報を記憶できる。詳細説明:隠れ状態を持ち、前の時刻の情報を次の時刻に引き継ぐことで系列データを処理します。勾配消失問題の解決策としてLSTMやGRUが開発されました。
主要な発展形:
- Vanilla RNN(基本形)
- LSTM(Long Short-Term Memory)
- GRU(Gated Recurrent Unit)
- Bidirectional RNN(双方向)
- Attention付きRNN
-
LSTM
(エルエスティーエム) Long Short-Term Memory 中級長期依存性を学習できるRNNの改良版。ゲート機構により情報の記憶・忘却を制御し、勾配消失問題を解決。詳細説明:忘却ゲート、入力ゲート、出力ゲートの3つのゲート機構により、セル状態の更新を制御します。長期的な依存関係を効果的に学習できます。
主要な構成要素:
- セル状態(Cell State)
- 忘却ゲート(Forget Gate)
- 入力ゲート(Input Gate)
- 出力ゲート(Output Gate)
- 隠れ状態(Hidden State)
-
Transformer
(トランスフォーマー) Transformer 中級Attention機構のみで構成された深層学習アーキテクチャ。並列処理が可能で、自然言語処理で革命的な成果を上げる。詳細説明:「Attention Is All You Need」論文で提案され、RNNやCNNを使わずに注意機構のみで構築されます。BERT、GPT、T5などの基盤となっています。
主要な構成要素:
- Multi-Head Attention
- Position Encoding
- Encoder-Decoder構造
- Feed Forward Networks
- Layer Normalization
-
Attention機構
(アテンションきこう) Attention Mechanism 中級モデルが入力の重要な部分に「注意」を向ける仕組み。系列データ処理において、関連性の高い情報を動的に選択。詳細説明:Query、Key、Valueの概念を用いて、入力の各要素がどの程度重要かをスコア化し、重み付き和を計算します。機械翻訳や文書要約で大きな改善をもたらしました。
主要な種類:
- Additive Attention
- Scaled Dot-Product Attention
- Multi-Head Attention
- Self-Attention
- Cross-Attention
-
TensorFlow
(テンサーフロー) TensorFlow 中級Googleが開発したオープンソース機械学習フレームワーク。深層学習モデルの構築・訓練・デプロイを効率的に行える。詳細説明:計算グラフベースの設計により、CPUとGPUの両方で効率的に実行できます。Kerasという高レベルAPIも統合し、初心者にも使いやすくなっています。
主要な特徴:
- Eager Execution(即時実行)
- TensorFlow Lite(モバイル対応)
- TensorFlow.js(Web対応)
- TensorBoard(可視化ツール)
- 分散学習サポート
-
PyTorch
(パイトーチ) PyTorch 中級Facebookが開発した深層学習フレームワーク。動的計算グラフにより直感的で柔軟な開発が可能。研究分野で人気。詳細説明:Define-by-Run方式により、実行時にネットワーク構造を動的に変更でき、デバッグが容易です。Pythonライクな直感的なAPIが特徴です。
主要な利点:
- 動的計算グラフ
- Pythonとの親和性
- 自動微分(Autograd)
- 強力なGPUサポート
- 活発な研究コミュニティ
-
Scikit-learn
(サイキットラーン) Scikit-learn 中級Pythonの機械学習ライブラリ。分類、回帰、クラスタリングなど幅広いアルゴリズムを統一的なAPIで提供。詳細説明:機械学習の基本的なアルゴリズムを網羅し、データ前処理、モデル評価、パイプライン構築の機能も提供します。初学者から専門家まで幅広く利用されています。
主要な機能:
- 分類(SVM、Random Forest、Logistic Regression)
- 回帰(Linear Regression、Ridge、Lasso)
- クラスタリング(K-means、DBSCAN)
- 次元削減(PCA、t-SNE)
- モデル選択と評価
-
Keras
(ケラス) Keras 中級高レベル深層学習API。シンプルで直感的なインターフェースにより、ニューラルネットワークを簡単に構築・訓練できる。詳細説明:「人間中心」の設計思想により、最小限のコードで複雑なモデルを構築できます。現在はTensorFlowに統合され、tf.kerasとして提供されています。
主要な特徴:
- Sequential API(シーケンシャルモデル)
- Functional API(関数型API)
- Subclassing API(サブクラス化)
- 豊富な事前訓練済みモデル
- コールバック機能
-
Jupyter Notebook
(ジュピターノートブック) Jupyter Notebook 中級インタラクティブな開発環境。コード、文書、可視化を一つのドキュメントに統合し、データサイエンス・機械学習で広く使用。詳細説明:セル単位でコードを実行でき、結果をすぐに確認できます。Markdown、LaTeX、HTMLもサポートし、研究・教育・共有に優れています。
主要な利点:
- インタラクティブな実行環境
- 豊富な可視化機能
- 文書化とコードの統合
- 多言語対応(Python、R、Scala等)
- クラウドサービス対応
-
特徴量エンジニアリング
(とくちょうりょうエンジニアリング) Feature Engineering 中級機械学習モデルの性能向上のため、生データから有用な特徴量を作成・選択・変換する技術。モデルの予測精度に大きく影響。詳細説明:ドメイン知識を活用してデータを変換し、モデルが学習しやすい形に加工します。良い特徴量は複雑なモデルよりも大きな効果をもたらすことがあります。
主要な手法:
- 数値変換(正規化、標準化、対数変換)
- カテゴリカル変数の処理(One-Hot Encoding)
- 特徴量選択(Filter、Wrapper、Embedded)
- 特徴量の組み合わせ・交互作用
- 時系列特徴量(ラグ、移動平均)
-
データクリーニング
(データクリーニング) Data Cleaning 中級機械学習前の重要な前処理。データの欠損値、異常値、重複、不整合を特定・修正し、分析に適したデータセットを作成。詳細説明:現実のデータは不完全であることが多く、品質の悪いデータは機械学習モデルの性能を大幅に低下させます。データサイエンスプロジェクトの大部分を占める作業です。
主要な作業:
- 欠損値の処理(削除、補間、予測)
- 異常値・外れ値の検出と処理
- 重複データの除去
- データ型の統一
- テキストデータの正規化
-
正規化
(せいきか) Normalization 中級データの値を一定の範囲(通常0-1)にスケーリングする前処理技術。異なるスケールの特徴量を統一し、学習を安定化。詳細説明:機械学習アルゴリズムの多くは特徴量のスケールに敏感です。正規化により、すべての特徴量を同等に扱い、学習の収束を促進できます。
主要な手法:
- Min-Max正規化(0-1スケーリング)
- Z-score標準化(平均0、分散1)
- Robust Scaling(中央値・四分位範囲)
- Unit Vector Scaling(ベクトルの正規化)
- Quantile Uniform変換
-
次元削減
(じげんさくげん) Dimensionality Reduction 中級高次元データを低次元に変換する技術。次元の呪いを回避し、計算量削減、可視化、ノイズ除去に活用される。詳細説明:高次元データは「次元の呪い」により機械学習の性能が低下します。次元削減により本質的な情報を保持しながら次元数を減らし、効率的な学習を実現します。
主要な手法:
- PCA(主成分分析)
- t-SNE(t-distributed Stochastic Neighbor Embedding)
- UMAP(Uniform Manifold Approximation and Projection)
- LDA(線形判別分析)
- Autoencoder(自己符号化器)
-
交差検証
(こうさけんしょう) Cross-Validation 中級モデルの汎化性能を評価する統計的手法。データを複数の分割で訓練・検証を繰り返し、偏りのない性能評価を実現。詳細説明:単一の訓練・テスト分割では評価が不安定になる可能性があります。交差検証により、より信頼性の高いモデル評価とハイパーパラメータ調整が可能になります。
主要な手法:
- K-Fold Cross-Validation
- Stratified K-Fold(層化抽出)
- Leave-One-Out Cross-Validation
- Time Series Split(時系列データ用)
- Group K-Fold(グループ分け)
-
適合率
(てきごうりつ) Precision 中級分類モデルの評価指標。正例と予測したもののうち、実際に正例だった割合。偽陽性を抑制したい場合に重要。詳細説明:Precision = TP / (TP + FP)で計算されます。スパム検出、医療診断など、間違った陽性判定(誤検出)を避けたい場面で重要な指標です。
関連概念:
- TP(True Positive):正しい陽性予測
- FP(False Positive):間違った陽性予測
- 再現率(Recall)との組み合わせ
- F1スコア(調和平均)
- Precision-Recall曲線
-
再現率
(さいげんりつ) Recall 中級分類モデルの評価指標。実際の正例のうち、正しく検出できた割合。見逃しを防ぎたい場合に重要な指標。詳細説明:Recall = TP / (TP + FN)で計算されます。病気の診断、セキュリティ侵入検知など、見逃し(偽陰性)を避けたい場面で重要な指標です。
関連概念:
- TP(True Positive):正しい陽性予測
- FN(False Negative):見逃した陽性例
- 感度(Sensitivity)とも呼ばれる
- 適合率とのトレードオフ関係
- ROC曲線での評価
-
F1スコア
(エフワンスコア) F1-Score 中級適合率と再現率の調和平均。両方のバランスを考慮した分類性能の評価指標で、不均衡データでも有効。詳細説明:F1 = 2 × (Precision × Recall) / (Precision + Recall)で計算されます。適合率と再現率の両方が高い場合にのみ高い値となり、総合的な性能評価に適しています。
特徴と応用:
- 0から1の範囲(1が最高)
- 不均衡データセットでの評価
- マルチクラス分類でのMacro/Micro平均
- モデル比較の標準指標
- 早期停止の判定基準
-
ROC曲線
(アールオーシーきょくせん) ROC Curve 中級分類モデルの性能を可視化するグラフ。真陽性率と偽陽性率の関係を示し、閾値の変化による性能変化を表現。詳細説明:横軸に偽陽性率(FPR)、縦軸に真陽性率(TPR = 再現率)をプロットします。AUC(曲線下面積)により、モデルの判別能力を定量評価できます。
主要な概念:
- TPR(True Positive Rate)= 再現率
- FPR(False Positive Rate)= FP/(FP+TN)
- AUC(Area Under Curve)
- 完全なモデル:AUC = 1.0
- ランダム予測:AUC = 0.5
-
過学習
(かがくしゅう) Overfitting 中級モデルが訓練データに過度に適合し、新しいデータに対する汎化性能が低下する現象。機械学習で避けるべき重要な問題。詳細説明:訓練データの誤差は小さいが、テストデータの誤差が大きくなる状態です。モデルが訓練データのノイズまで学習してしまうことが原因です。
対策手法:
- 正則化(L1、L2正則化)
- ドロップアウト
- 早期停止(Early Stopping)
- データ拡張(Data Augmentation)
- モデルの複雑さ調整
-
画像認識
(がぞうにんしき) Image Recognition 中級コンピュータが画像の内容を自動的に識別・分類する技術。CNNの発達により飛躍的に性能が向上し、様々な分野で実用化。詳細説明:画像分類、物体検出、セマンティックセグメンテーションなど多様なタスクがあります。転移学習により、少ないデータでも高精度な認識が可能になりました。
主要なタスク:
- 画像分類(ImageNet、CIFAR-10)
- 物体検出(YOLO、R-CNN)
- 顔認識・表情認識
- 医療画像診断
- 自動運転での環境認識
-
物体検出
(ぶったいけんしゅつ) Object Detection 中級画像内の物体の位置と種類を同時に特定する技術。バウンディングボックスで物体を囲み、クラス分類を行う。詳細説明:画像分類とは異なり、複数の物体の位置と種類を同時に検出します。自動運転、監視システム、ロボティクスなどで重要な技術です。
代表的な手法:
- R-CNN(Region-based CNN)
- Fast R-CNN、Faster R-CNN
- YOLO(You Only Look Once)
- SSD(Single Shot MultiBox Detector)
- EfficientDet
-
顔認識
(かおにんしき) Facial Recognition 中級画像や動画から人間の顔を検出し、個人を識別する技術。生体認証、セキュリティ、ソーシャルメディアなどで広く活用。詳細説明:顔検出、特徴抽出、マッチングの段階で構成されます。深層学習により、角度、照明、表情の変化に頑健な認識が可能になりました。
主要な応用:
- スマートフォンのロック解除
- 空港・イベントのセキュリティ
- 写真の自動タグ付け
- 出勤管理システム
- 年齢・性別推定
-
OCR
(オーシーアール) Optical Character Recognition 中級光学文字認識。画像中の文字を自動的に読み取り、テキストデータに変換する技術。文書のデジタル化に不可欠。詳細説明:従来の手法に加え、深層学習(CNN + RNN)により、手書き文字や複雑なレイアウトの文書も高精度で読み取れるようになりました。
主要な応用:
- 文書のスキャン・デジタル化
- 名刺の自動読み取り
- レシート・請求書の自動処理
- ナンバープレート読み取り
- 古書・歴史資料のデジタル化
-
トークン化
(トークンか) Tokenization 中級自然言語処理の前処理技術。テキストを単語や文字などの意味のある単位(トークン)に分割し、機械学習で扱える形に変換。詳細説明:言語により異なる特徴があり、日本語では形態素解析、英語では空白区切りが基本です。近年はサブワード分割(BPE、SentencePiece)が主流となっています。
主要な手法:
- 単語分割(Word-level)
- 文字分割(Character-level)
- サブワード分割(BPE、WordPiece)
- 形態素解析(日本語)
- 正規表現ベース分割
-
感情分析
(かんじょうぶんせき) Sentiment Analysis 中級テキストから感情や意見の極性(ポジティブ・ネガティブ・ニュートラル)を自動判定する自然言語処理技術。詳細説明:レビュー分析、ソーシャルメディア監視、顧客フィードバック分析などで活用されます。語彙ベース手法から深層学習手法まで様々なアプローチがあります。
主要な応用:
- 商品レビューの分析
- ソーシャルメディア監視
- 顧客満足度調査
- 株価予測への応用
- 政治世論の分析
-
固有表現抽出
(こゆうひょうげんちゅうしゅつ) Named Entity Recognition (NER) 中級テキストから人名、地名、組織名、日付などの固有名詞を自動的に識別・抽出する自然言語処理技術。詳細説明:情報抽出の基盤技術で、知識グラフ構築、質問応答システム、文書要約などで重要な役割を果たします。CRF、BiLSTM-CRF、Transformerなどの手法が使用されます。
主要なエンティティ:
- 人名(PERSON)
- 地名(LOCATION)
- 組織名(ORGANIZATION)
- 日付・時刻(DATE, TIME)
- 金額・数値(MONEY, PERCENT)
-
MLOps
(エムエルオプス) Machine Learning Operations 中級機械学習モデルの開発・デプロイ・運用を自動化・効率化する実践手法。DevOpsの概念を機械学習に適用したもの。詳細説明:機械学習プロジェクトの継続的インテグレーション、継続的デプロイ、モニタリング、再学習の自動化により、本番環境での安定運用を実現します。
主要なプロセス:
- データ管理・バージョン管理
- モデル学習・評価の自動化
- モデルレジストリ・デプロイメント
- 性能監視・ドリフト検出
- A/Bテスト・段階的展開
-
モデルデプロイメント
(モデルデプロイメント) Model Deployment 中級訓練済み機械学習モデルを本番環境に配置し、実際のサービスで利用可能にするプロセス。MLOpsの重要な構成要素。詳細説明:開発環境で作成したモデルを、スケーラブルで信頼性の高い本番環境で運用するための様々な技術と手法が必要になります。
主要なデプロイ方法:
- REST API(Flask、FastAPI)
- クラウドサービス(AWS SageMaker、Azure ML)
- コンテナ化(Docker、Kubernetes)
- エッジデプロイ(モバイル、IoT)
- バッチ処理システム
-
バージョン管理
(バージョンかんり) Version Control 中級機械学習プロジェクトにおけるデータ、コード、モデルの変更履歴を管理する仕組み。再現性と協働開発を支援。詳細説明:ソフトウェア開発のGitに加え、機械学習特有のデータ・モデルのバージョン管理ツールが必要です。実験の再現性と チーム協業の効率化を実現します。
主要なツール:
- Git(コード管理)
- DVC(Data Version Control)
- MLflow(実験管理)
- Weights & Biases(実験追跡)
- Neptune、Comet(MLプラットフォーム)
-
モニタリング
(モニタリング) Monitoring 中級本番環境でのモデル性能、データ品質、システム健全性を継続的に監視する活動。性能劣化の早期検出に重要。詳細説明:機械学習モデルは時間とともに性能が劣化する可能性があります。データドリフト、モデルドリフト、概念ドリフトを検出し、適切な対応を取ることが重要です。
監視対象:
- 予測精度・性能指標
- データドリフト(入力分布の変化)
- モデルドリフト(予測分布の変化)
- システム指標(レイテンシ、スループット)
- ビジネス指標(KPI、ROI)