回帰直線~全数調査|情報I用語-情報通信ネットワークとデータの活用6

疑似相関や正規分布など共通テスト対策の情報I用語

「情報通信ネットワークとデータの活用」分野の頻出用語を網羅しました。このページに含まれる単語は以下の通り。

回帰直線,回帰分析,階層構造,外れ値,外部キー,確率,間隔尺度,帰無仮説,疑似相関,共分散,欠損値,決定係数,結合,検索サイト,誤り検出符号,広域ネットワーク,最小二乗法,最頻値,雑音,散布図,時系列データ,質的データと量的データ,射影,主キー,主成分分析,集線装置,重回帰分析,順序尺度,条件付き確率,正規化,正規分布,折れ線グラフ,全数調査

情報Iの共通テストや高校の定期テスト対策に、これらの重要語句について分かりやすい詳しい説明を掲載しています。

回帰直線
データの関係を表す最適な直線
散布図上の点の傾向を最もよく表す直線です。たとえば、売上と広告費の関係を分析する際に、回帰直線を使って売上を予測します。直線の傾きは変数間の関係性を示します。
回帰分析
2つ以上の変数の関係をモデル化する手法
1つの変数(目的変数)を他の変数(説明変数)で予測する方法です。たとえば、広告費(説明変数)と売上(目的変数)の関係を調べる際に使われます。
階層構造
データを親子関係で整理する構造
上位と下位のデータをツリー状に整理した構造です。たとえば、フォルダとファイルの関係が階層構造に該当します。
外れ値
アウトライアー:他のデータから大きく外れた値
データの中で他の値と大きく異なる値を指します。外れ値は、分析結果に大きな影響を与える場合があるため、特定と対処が重要です。たとえば、身長データで1人だけ極端に高い数値が外れ値です。
外部キー
フォーリンキー:他のテーブルの主キーを参照する項目
異なるテーブル同士を関連付けるために使われるキーです。外部キーを設定することで、データの整合性を保つことができます。たとえば、注文テーブルの「顧客ID」が顧客テーブルの主キーを参照する外部キーです。
確率
ある事象が起こる可能性の数値
特定の事象が起こる可能性を0から1の数値で表します。たとえば、サイコロを振って3が出る確率は1/6(約0.166)です。確率は数理統計の基本的な概念です。
間隔尺度
データ間の差を計測できる尺度
順序に加えてデータ間の間隔が意味を持つが、0に絶対的な意味がない尺度です。たとえば、気温や年代が間隔尺度です。
帰無仮説
仮説検定で最初に立てる否定的な仮説
「差がない」や「効果がない」ことを前提とする仮説です。データ分析では、帰無仮説が正しくないと証明された場合に、新たな仮説が支持されます。たとえば、「薬の効果はプラセボと同じ」という仮説が帰無仮説です。
疑似相関
実際には関係がないデータ間の相関
2つの変数間に相関が見られるが、実際には因果関係がない状態を指します。たとえば、アイスクリーム販売量と溺死事故数の増加が同時に起きるケースです。
共分散
2つの変数の関係性を示す指標
2つのデータがどのように一緒に変化するかを測る指標です。たとえば、身長と体重の共分散が大きい場合、これらの値は一緒に増減する傾向があるといえます。
欠損値
データの一部が欠けている値
調査や記録で一部のデータが記入漏れや取得失敗で欠けている状態を指します。たとえば、アンケート回答で性別が記載されていない場合が欠損値です。
決定係数
データのモデルへの適合度を示す指標
回帰分析で、モデルがどれだけデータを説明できているかを示す値(0~1)です。たとえば、決定係数が0.9の場合、モデルは90%のデータの変動を説明できているといえます。
結合
複数の表を関連付けてデータを取得する操作
データベースで異なるテーブルの関連情報を統合する操作です。たとえば、「INNER JOIN」で共通のデータを結合します。
検索サイト
インターネット上の情報を探すサービス
キーワードを入力して、関連するウェブページや情報を探せるサイトです。たとえば、GoogleやYahoo!が検索サイトに該当します。
誤り検出符号
データ転送時のエラーを検出する仕組み
送信データに付加情報を加えて、転送中に発生したエラーを検出する方法です。たとえば、チェックサムやハミングコードが誤り検出符号に該当します。
広域ネットワーク
広範囲をカバーするネットワーク
「WAN(Wide Area Network)」とも呼ばれ、都市間や国際間をつなぐ大規模なネットワークです。たとえば、インターネットが広域ネットワークの例です。
最小二乗法
誤差を最小化して最適な直線を求める方法
観測データとモデルの予測値の差(誤差)の2乗を最小にするように直線を引く方法です。たとえば、直線回帰で回帰直線を求める際に使用されます。
最頻値
モード:最も頻繁に出現する値
データ内で最も頻繁に現れる値を指します。たとえば、「10, 20, 20, 30, 40」の場合、最頻値は「20」です。分布の特徴を理解するのに役立ちます。
雑音
データや通信に含まれる不要な情報
正確なデータや信号を妨げるノイズを指します。たとえば、電話で話しているときの雑音が該当します。
散布図
データの関係を視覚化する点のグラフ
2つの変数間の関係を点で表したグラフです。たとえば、身長と体重の関係を示す場合、1人のデータを1つの点としてプロットします。傾向や相関関係を視覚的に確認できます。
時系列データ
時間順に並んだデータ
時間とともに変化するデータで、一定間隔で測定されたものを指します。たとえば、月ごとの売上データや1日の気温の推移が時系列データです。
質的データと量的データ
カテゴリと数値で表されるデータの種類
質的データは性別や職業のようなカテゴリ情報、量的データは身長や体重のような数値情報です。たとえば、「男性/女性」は質的データ、「身長180cm」は量的データです。
射影
特定の列だけを選び出す操作
データベースのクエリで必要な列を抽出する操作です。たとえば、顧客テーブルから「名前」と「電話番号」だけを取り出すことが射影です。
主キー
プライマリキー:テーブル内のデータを一意に識別する項目
テーブル内の各レコードを一意に識別するためのキーです。同じ値を持つレコードが存在しないように設定されます。たとえば、社員IDや会員番号が主キーとして利用されます。
主成分分析
データの次元を削減する手法
多次元データを少ない次元に圧縮し、データの主要な特徴を抽出する方法です。たとえば、マーケティングで顧客の特徴を分析する際に、購買データを要約するのに使われます。
集線装置
複数のネットワーク機器を接続する装置
ネットワークケーブルを集めて接続し、データを中継する装置です。たとえば、小規模なLAN環境で使用されるハブが集線装置に該当します。
重回帰分析
複数の変数を用いた回帰分析
2つ以上の説明変数を用いて、目的変数を予測する回帰分析の手法です。たとえば、広告費と店舗数を使って売上を予測する際に使用されます。
順序尺度
データに順序があるが間隔が不定な尺度
データ間の順序はあるが、その間隔に一定の意味がない尺度です。たとえば、満足度調査の「非常に満足」「満足」「不満」が順序尺度です。
条件付き確率
他の事象が起きた場合の確率
ある事象が発生したときに、別の事象が起きる確率を指します。たとえば、雨の日に傘を持っている人の割合を求めるのが条件付き確率の例です。P(A|B)のように表されます。
正規化
データを整理して効率よく管理する手法
データの重複や矛盾を防ぐために、テーブルを分割して整理する手法です。これにより、データベースの効率が向上します。たとえば、顧客情報と注文情報を別々のテーブルに分けることが正規化の一例です。
正規分布
データが平均値を中心に左右対称に分布する形
平均値を中心として、左右対称の山型の分布を描くデータの分布です。多くの自然現象や測定値が正規分布に近い形になります。たとえば、身長や体重のデータは正規分布に近い場合が多いです。
折れ線グラフ
データの変化を線でつないで表すグラフ
時間や順序に沿ったデータの変化を視覚化する際に使われます。たとえば、1週間の気温の推移を示す際に使用されます。
全数調査
対象の全てを調査する方法
対象となる全てのデータを収集して分析する方法です。たとえば、国勢調査のように、全国民の情報を集める調査が全数調査に該当します。正確なデータを得られますが、コストや時間がかかることが課題です。