データサイエンスで最も広く使用されるプログラミング言語。pandas、numpy、matplotlib、scikit-learnなどの豊富なライブラリが特徴。
詳細を見る
Python(パイソン)は、データサイエンスにおいて最も人気の高いプログラミング言語です。pandas(データ操作)、numpy(数値計算)、matplotlib/seaborn(可視化)、scikit-learn(機械学習)、jupyter(対話的開発)などの強力なライブラリエコシステムを持ち、データの収集から分析、可視化、機械学習まで一貫して実行できます。シンプルな構文と豊富なコミュニティサポートが特徴です。
例: pandas, numpy, matplotlib, scikit-learn, jupyter
プログラミング
データ分析
機械学習
ライブラリ
Pythonのデータ操作・分析ライブラリ。DataFrameという表形式データ構造を提供し、データの読み込み、変換、集計、結合などを効率的に実行できる。
詳細を見る
pandas(パンダス)は、Pythonでのデータ操作・分析を効率化する必須ライブラリです。DataFrame(表形式データ)とSeries(1次元データ)という主要なデータ構造を提供し、CSVファイルの読み込み、データクリーニング、グループ化、集計、結合、時系列処理などを直感的なAPIで実行できます。SQLライクな操作も可能で、データサイエンティストの日常業務に不可欠なツールです。
例: DataFrame, groupby, merge, pivot_table, read_csv
データ操作
Python
表形式データ
前処理
Pythonの数値計算ライブラリ。多次元配列オブジェクトと高速な数学関数を提供し、科学計算の基盤となる。
詳細を見る
NumPy(ナムパイ)は、Pythonでの科学計算とデータサイエンスの基盤となる数値計算ライブラリです。多次元配列(ndarray)という高速なデータ構造と、線形代数、フーリエ変換、乱数生成などの数学関数を提供します。C言語で実装されているため高速であり、pandas、matplotlib、scikit-learnなど他の多くのライブラリの基盤としても使用されています。
例: ndarray, 行列計算, ベクトル演算, 統計関数
数値計算
Python
多次元配列
科学計算
統計計算とグラフィックスに特化したプログラミング言語。統計解析、データマイニング、可視化に強力な機能を提供。
詳細を見る
R言語(アールげんご)は、統計計算とデータ分析に特化したプログラミング言語・環境です。ggplot2(データ可視化)、dplyr(データ操作)、tidyr(データ整理)、caret(機械学習)などの豊富なパッケージを持ち、統計モデリング、仮説検定、回帰分析、時系列分析において特に強力です。学術研究や統計専門分野で広く使用されています。
例: ggplot2, dplyr, tidyr, caret, RStudio
統計言語
データ分析
可視化
統計モデリング
データベースからデータを抽出・操作するための標準的なクエリ言語。データサイエンスにおけるデータ取得・前処理の基本ツール。
詳細を見る
SQL(Structured Query Language)は、リレーショナルデータベースからデータを抽出・操作するための標準的なクエリ言語です。SELECT、JOIN、GROUP BY、HAVING、WHERE句などを用いて、大量のデータから必要な情報を効率的に取得できます。データサイエンスプロジェクトでは、分析前のデータ取得・前処理段階で必須のスキルであり、BigQuery、PostgreSQL、MySQLなど様々なデータベースで使用されます。
例: SELECT, JOIN, GROUP BY, 集計関数, サブクエリ
データベース
クエリ
データ抽出
前処理
統計的手法により仮説の妥当性を検証する手法。t検定、χ²検定、F検定などを用いて、データから科学的結論を導く。
詳細を見る
仮説検定(Hypothesis Testing)は、データに基づいて統計的仮説の妥当性を客観的に検証する統計手法です。帰無仮説(H0)と対立仮説(H1)を設定し、p値、有意水準(α)、検定統計量を用いて判定します。t検定(平均値の比較)、χ²検定(独立性・適合度)、F検定(分散の比較)など様々な手法があり、A/Bテスト、品質管理、医学研究などで活用されます。
例: t検定, χ²検定, p値, 有意水準, 帰無仮説
統計検定
科学的手法
客観性
意思決定
データの特徴を要約・記述する統計手法。平均、中央値、分散、標準偏差、四分位数などの統計量でデータの傾向を把握。
詳細を見る
記述統計(Descriptive Statistics)は、データセットの特徴を数値的に要約・記述する統計手法です。中心傾向(平均、中央値、最頻値)、散布度(分散、標準偏差、範囲、四分位数)、分布の形状(歪度、尖度)などの統計量を用いて、データの全体像を把握します。データ分析の初期段階で必須の手法であり、異常値の発見やデータ品質の評価にも活用されます。
例: 平均値, 中央値, 標準偏差, 四分位数, ヒストグラム
データ要約
統計量
探索的分析
基本統計
標本データから母集団の特性を推定する統計手法。信頼区間、仮説検定、回帰分析により、一般化可能な結論を導く。
詳細を見る
推測統計(Inferential Statistics)は、限られた標本データから母集団全体の特性を推定・予測する統計手法です。点推定、区間推定(信頼区間)、仮説検定、回帰分析などを用いて、サンプルの結果を一般化し、科学的な結論を導きます。標本抽出理論、中心極限定理、確率分布の知識が基盤となり、ビジネス意思決定や研究における重要な統計的推論を可能にします。
例: 信頼区間, 標本抽出, 中心極限定理, 統計的推論
統計推論
母集団推定
一般化
科学的手法
正解ラベル付きのデータでモデルを訓練する機械学習手法。分類(classification)と回帰(regression)の2つの主要なタスクがある。
詳細を見る
教師あり学習(Supervised Learning)は、入力データと正解ラベルのペアを用いてモデルを訓練する機械学習手法です。分類問題(カテゴリ予測)では決定木、ランダムフォレスト、SVM、ロジスティック回帰を、回帰問題(数値予測)では線形回帰、多項式回帰、ridge回帰などを使用します。訓練データから学習したパターンを用いて、未知のデータに対する予測を行います。
例: 決定木, ランダムフォレスト, SVM, 線形回帰
機械学習
予測モデル
分類
回帰
正解ラベルなしのデータからパターンや構造を発見する機械学習手法。クラスタリング、次元削減、異常検知などが主要なタスク。
詳細を見る
教師なし学習(Unsupervised Learning)は、正解ラベルのないデータからパターンや構造を自動的に発見する機械学習手法です。クラスタリング(k-means、階層クラスタリング)によるグループ化、次元削減(PCA、t-SNE)による可視化、異常検知(Isolation Forest)による外れ値検出などが代表的なタスクです。探索的データ分析、市場セグメンテーション、データ圧縮などで活用されます。
例: k-means, PCA, 異常検知, アソシエーション分析
パターン発見
クラスタリング
次元削減
探索的分析
Pythonの代表的なデータ可視化ライブラリ。グラフ、チャート、プロットを作成するための包括的な機能を提供。
詳細を見る
matplotlib(マットプロットリブ)は、Pythonでのデータ可視化における最も基本的で包括的なライブラリです。折れ線グラフ、棒グラフ、散布図、ヒストグラム、ヒートマップなど様々なプロットタイプを作成でき、詳細なカスタマイズが可能です。pyplot インターフェースにより直感的な操作ができ、他の可視化ライブラリ(seaborn、plotly)の基盤としても機能します。
例: pyplot, 折れ線グラフ, 散布図, ヒストグラム
データ可視化
Python
グラフ作成
プロット
matplotlibベースの統計的データ可視化ライブラリ。美しいデフォルトスタイルと統計機能を統合したグラフを簡単に作成できる。
詳細を見る
seaborn(シーボーン)は、matplotlibをベースとした統計的データ可視化ライブラリで、美しくて情報豊富な統計グラフを簡単に作成できます。box plot、violin plot、heatmap、pair plot、regression plotなどの統計可視化に特化した機能を提供し、pandasのDataFrameと直接連携できます。デフォルトで洗練されたスタイルを持ち、探索的データ分析において非常に強力なツールです。
例: heatmap, pairplot, boxplot, violin plot
統計可視化
Python
美しいグラフ
探索的分析
ビジネスインテリジェンス分野で広く使用されるデータ可視化ツール。ドラッグ&ドロップでインタラクティブなダッシュボードを作成できる。
詳細を見る
Tableau(タブロー)は、企業のビジネスインテリジェンスとデータ可視化において業界標準とされるツールです。プログラミング知識なしでドラッグ&ドロップ操作により、インタラクティブなダッシュボード、詳細な分析レポート、動的な可視化を作成できます。多様なデータソースとの接続、リアルタイム更新、Web公開機能を持ち、ビジネスユーザーとデータアナリストの両方に広く使用されています。
例: ダッシュボード, インタラクティブ可視化, BI, レポート
BIツール
ダッシュボード
可視化
ビジネス分析
Microsoftが提供するビジネスインテリジェンスツール。Excelとの高い親和性を持ち、セルフサービス分析とレポート作成を支援。
詳細を見る
Microsoft Power BI(パワービーアイ)は、Microsoftが提供するビジネスインテリジェンス・データ可視化プラットフォームです。Excel、Azure、Office 365との深い統合により、既存のMicrosoft環境でシームレスに動作します。Power Query(データ変換)、Power Pivot(データモデリング)、Power View(可視化)の機能を統合し、ビジネスユーザーでも高度な分析とレポート作成が可能です。
例: Power Query, Power Pivot, ダッシュボード, Excel連携
Microsoft
BI分析
Excel連携
レポート
異なる尺度のデータを統一的なスケールに変換する前処理技術。Min-Max正規化、Z-score標準化などの手法でモデル性能を向上させる。
詳細を見る
データ正規化(Data Normalization)は、異なる単位や範囲を持つ特徴量を統一的なスケールに変換する前処理技術です。Min-Max正規化(0-1範囲)、Z-score標準化(平均0、分散1)、ロバスト正規化(中央値・四分位数使用)などの手法があります。機械学習アルゴリズムの多くは特徴量のスケールに敏感であるため、正規化により学習効率とモデル性能の向上が期待できます。
例: Min-Max正規化, Z-score標準化, スケーリング, 前処理
前処理
スケール変換
標準化
モデル改善
機械学習モデルの性能向上のため、重要な特徴量を選別する技術。フィルター法、ラッパー法、埋め込み法の3つのアプローチがある。
詳細を見る
特徴選択(Feature Selection)は、大量の特徴量から予測に重要なものを選別し、モデルの性能向上と解釈性の改善を図る技術です。フィルター法(統計的指標による選択)、ラッパー法(モデル性能による選択)、埋め込み法(モデル学習時の選択)の3つのアプローチがあります。過学習の抑制、計算時間の短縮、モデルの解釈性向上といったメリットがあります。
例: フィルター法, ラッパー法, 埋め込み法, 特徴重要度
特徴エンジニアリング
モデル最適化
次元削減
解釈性
企業の各種システムから収集したデータを統合・蓄積する分析用データベース。OLAP処理に最適化され、ビジネスインテリジェンスの基盤となる。
詳細を見る
データウェアハウス(Data Warehouse)は、企業の様々なシステム(業務システム、ログ、外部データなど)から収集したデータを統合・蓄積し、分析用に最適化された大規模データベースです。OLAP(Online Analytical Processing)処理に特化し、履歴データの保持、一貫性のあるデータモデル、高速な集計処理を提供します。BI(ビジネスインテリジェンス)の基盤として、意思決定支援に重要な役割を果たします。
例: OLAP, ディメンション, ファクト, スタースキーマ
データ統合
分析基盤
BI
OLAP
構造化・非構造化を問わず大量のデータを元の形式で保存するストレージリポジトリ。柔軟性が高く、機械学習やビッグデータ分析に活用される。
詳細を見る
データレイク(Data Lake)は、構造化データ(データベース、スプレッドシート)から非構造化データ(テキスト、画像、動画、ログ)まで、あらゆる形式のデータを元の形式のまま大量に保存できるストレージリポジトリです。従来のデータウェアハウスと異なり、保存時にスキーマを定義する必要がなく(Schema-on-Read)、機械学習、ビッグデータ分析、探索的分析に柔軟に対応できます。
例: AWS S3, Azure Data Lake, Schema-on-Read, 非構造化データ
ビッグデータ
データ保存
柔軟性
機械学習
データの収集から変換、保存、配信までの一連の処理を自動化するワークフロー。ETL/ELTプロセスを含む効率的なデータ処理の仕組み。
詳細を見る
データパイプライン(Data Pipeline)は、複数のデータソースからデータを収集し、クリーニング、変換、統合を経て、最終的な保存先や分析ツールに配信する一連の自動化されたワークフローです。バッチ処理(定期実行)とストリーミング処理(リアルタイム)があり、Apache Airflow、dbt、Luigi、AWS Glueなどのツールで構築されます。データ品質の担保、処理の効率化、運用の自動化を実現します。
例: Apache Airflow, dbt, バッチ処理, ストリーミング
データ処理
自動化
ワークフロー
ETL
大規模データの分散保存・処理を可能にするオープンソースフレームワーク。HDFS(分散ファイルシステム)とMapReduce(並列処理)が核となる。
詳細を見る
Apache Hadoop(ハドゥープ)は、大規模データセットを複数のコンピュータクラスター上で分散保存・処理するためのオープンソースフレームワークです。HDFS(Hadoop Distributed File System)による分散ファイルシステムとMapReduceによる並列処理フレームワークを核とし、コモディティハードウェア上でペタバイト級のデータ処理を実現します。ビッグデータ処理の基盤技術として広く使用されています。
例: HDFS, MapReduce, YARN, クラスター
ビッグデータ
分散処理
オープンソース
クラスター
高速な大規模データ処理を実現する統合分析エンジン。メモリ内処理によりHadoopより高速で、機械学習やストリーミング処理もサポート。
詳細を見る
Apache Spark(スパーク)は、大規模データの高速処理を実現する統合分析エンジンです。インメモリ処理により従来のMapReduceより最大100倍高速で、Spark SQL(構造化データ処理)、MLlib(機械学習)、GraphX(グラフ処理)、Spark Streaming(ストリーミング処理)を統合プラットフォームとして提供します。Scala、Java、Python、Rでの開発が可能で、現代的なビッグデータ処理の標準となっています。
例: Spark SQL, MLlib, PySpark, インメモリ処理
高速処理
ビッグデータ
統合プラットフォーム
機械学習
従来のリレーショナルデータベース以外のデータベース技術の総称。ドキュメント、キー・バリュー、列指向、グラフ型などがある。
詳細を見る
NoSQL(ノーエスキューエル)は、従来のリレーショナルデータベース(SQL)とは異なるアプローチを取るデータベース技術の総称です。ドキュメント型(MongoDB)、キー・バリュー型(Redis)、列指向型(Cassandra)、グラフ型(Neo4j)の4つの主要タイプがあり、大量のデータ、高い可用性、水平スケーラビリティ、柔軟なデータモデルを必要とするモダンなアプリケーションで広く使用されています。
例: MongoDB, Redis, Cassandra, Neo4j
データベース
スケーラビリティ
柔軟性
ビッグデータ
統計解析に特化したソフトウェアパッケージ。GUIベースで統計手法を適用でき、社会科学、心理学、医学研究で広く使用される。
詳細を見る
SPSS(Statistical Package for the Social Sciences)は、統計解析に特化したソフトウェアパッケージで、特に社会科学、心理学、医学、市場調査の分野で広く使用されています。直感的なGUIにより、プログラミング知識なしで記述統計、t検定、分散分析、回帰分析、多変量解析などの高度な統計手法を適用できます。結果の解釈とレポート作成機能も充実しています。
例: GUI操作, 統計検定, 多変量解析, レポート作成
統計ソフト
社会科学
GUI
学術研究
データ分析におけるExcelの活用。ピボットテーブル、データ分析ツール、VBA、Power Queryなどの機能で統計分析と可視化を実現。
詳細を見る
Microsoft Excel は、データ分析の入門から中級レベルまで幅広く活用できるツールです。ピボットテーブル(クロス集計・多次元分析)、データ分析ツールパック(統計関数・回帰分析)、Power Query(データ取得・変換)、Power Pivot(大量データモデリング)、VBA(自動化・高度な処理)などの機能により、本格的なデータ分析が可能です。ビジネス現場での普及率が高く、データ分析の導入としても重要です。
例: ピボットテーブル, Power Query, データ分析ツール, VBA
表計算
ビジネス分析
可視化
統計分析
複数のコンピュータを連携させて大規模な計算問題を並列処理する技術。ビッグデータ処理と機械学習で重要な技術基盤となる。
詳細を見る
分散コンピューティング(Distributed Computing)は、複数のコンピュータ(ノード)をネットワークで接続し、大規模な計算タスクを分割して並列処理する技術です。Map-Reduce、Master-Worker、Peer-to-Peerなどのアーキテクチャパターンがあり、データローカリティ、フォルトトレランス、負荷分散が重要な要素です。Hadoop、Spark、Kubernetes上での機械学習やビッグデータ処理で広く活用されています。
例: クラスター, ノード, 並列処理, フォルトトレランス
並列処理
スケールアウト
ビッグデータ
高可用性
インタラクティブなデータ可視化ライブラリ。Web上で動作するリッチな可視化とダッシュボードを作成でき、Python、R、JavaScriptで利用可能。
詳細を見る
plotly(プロットリー)は、インタラクティブで高品質なデータ可視化を作成するライブラリです。ズーム、パン、ホバー、フィルタリングなどのインタラクション機能を持つグラフを簡単に作成でき、WebブラウザやJupyter Notebookで表示できます。3Dプロット、地理的可視化、アニメーション、リアルタイム更新にも対応し、Dash(ダッシュボードフレームワーク)と組み合わせてWebアプリケーションも構築できます。
例: インタラクティブグラフ, Dash, 3D可視化, アニメーション
インタラクティブ
Web可視化
ダッシュボード
リアルタイム
生データを分析に適した形式に変換する処理。集約、結合、型変換、エンコーディング、スケーリングなどの操作で分析品質を向上させる。
詳細を見る
データ変換(Data Transformation)は、収集した生データを分析や機械学習に適した形式に加工する重要なプロセスです。集約(グループ化・要約)、結合(複数データソースの統合)、正規化(スケール調整)、エンコーディング(カテゴリ変数の数値化)、型変換、派生変数の作成などの操作を行います。適切な変換により、データ品質の向上、分析精度の改善、処理効率の最適化を実現します。
例: 集約処理, データ結合, エンコーディング, 派生変数
前処理
データ加工
品質向上
分析準備
入力データを事前定義されたカテゴリに分類する教師あり学習タスク。二項分類と多項分類があり、決定木、SVM、ロジスティック回帰などのアルゴリズムを使用。
詳細を見る
分類(Classification)は、入力データに基づいて事前に定義されたクラス(カテゴリ)にデータポイントを割り当てる教師あり学習の基本タスクです。二項分類(2つのクラス)と多項分類(3つ以上のクラス)があり、決定木、ランダムフォレスト、SVM、ロジスティック回帰、ナイーブベイズ、k-NN、ニューラルネットワークなどのアルゴリズムが使用されます。スパム検出、画像認識、医療診断、品質管理などで広く活用されています。
例: スパム検出, 画像認識, 医療診断, 品質判定
教師あり学習
カテゴリ予測
パターン認識
機械学習
連続的な数値を予測する教師あり学習タスク。線形回帰、多項式回帰、リッジ回帰、ラッソ回帰などのアルゴリズムで実装される。
詳細を見る
回帰(Regression)は、入力変数(説明変数)と出力変数(目的変数)の関係をモデル化し、連続的な数値を予測する教師あり学習タスクです。線形回帰、多項式回帰、リッジ回帰、ラッソ回帰、エラスティックネット、SVR(サポートベクター回帰)、決定木回帰、ランダムフォレスト回帰などのアルゴリズムがあります。売上予測、価格予測、需要予測、株価予測などのビジネス応用で重要な役割を果たします。
例: 売上予測, 価格予測, 需要予測, 株価予測
数値予測
教師あり学習
関係モデリング
予測分析