データの視覚化を理解するのに役立つヒストグラムの例

コンサル

最も基本的には、ヒストグラムを使用してグラフ上の数値 (ボリュームまたは人口) を表し、さまざまな値の範囲 (パーセンテージまたはカテゴリ) にどのように分布しているかを示します。これにより、個々の数値をすべて手動で分析しなくても、データの傾向と外れ値をすばやく特定できます。

この概念の良い例は、ヒストグラムを使用して特定の地域または国の人口密度を示すことです。単一のグラフを見ることで、どの地域が他の地域よりも人口密度が高く、追加のリソースやインフラストラクチャのサポートが必要になる可能性があるかをすばやく特定できます。

ヒストグラムを使用してデータをグラフ化またはプロットする場合、聴衆が情報のパターンや傾向を明確に「見る」ことができるように、最も適切な視覚要素を使用することが重要です。これを行うには、次のようなことを考慮する必要があります。

  • グラフに表示される各変数のラベル
  • 分析と比較を容易にするために、データの範囲をグループ化できる変数のビニングまたはクラス
  • 適切な配色 (可能であれば対照的な色) を使用して、人々がグラフ上のさまざまな項目を簡単に区別できるようにします。

ヒストグラムとは?

ヒストグラムは、データを表すために使用されるグラフの一種です。データの頻度を示すことにより、データセットの分布を視覚化するために使用されます。データ内のパターンを簡単に比較および識別できるため、データを視覚的に理解するのに最適な方法です。

この記事では、ヒストグラムがどのように機能するかをよりよく理解するために、ヒストグラムの例について説明します。

意味

ヒストグラムは、さまざまな高さのバーを使用してデータをグラフィカルに表現したものです。データセット内の変数の数と広がりに関する情報を表示し、データの概要を取得したり、外れ値を特定したりするために使用できます。X軸は値の範囲を表し、Y 軸は通常、それらの値がデータセットで発生する頻度を表します。

たとえば、毎年何人のイベントに参加したかを集計する場合、次のような一連の値が得られます。

  • 1999年 – 5名
  • 2000年 – 7人
  • 2001年 – 3名
  • 2002年 – 8名

次に、頻度を表す縦軸 (y 軸)と年を表す横軸 (x 軸)を設定して、この情報をグラフ化します。次に、これらの数値に対応するバーを描画して、ヒストグラムを作成できます。結果の画像は次のようになります。

1999 |

ヒストグラムの種類

ヒストグラムは、データセット内の値の分布と頻度を示すデータ視覚化の一種です。これらのダイアグラムは棒グラフの形をとっており、棒の高さがデータ ポイントの頻度に対応しています。x 軸は値を追跡し、y 軸は頻度 (またはこれらの値が発生する数) を追跡します。

ヒストグラムは、全体的なパターンを示すだけでなく、データの分布を比較したり、異常値や異常を特定したり、さまざまな種類や頻度のデータを区別したりするためにも使用できます。ヒストグラムは、科学者やマーケティングの専門家が統計分析のためによく使用し、オーディエンスや消費者の行動を比較します。

ヒストグラムには、1 変数 (1 変量) ヒストグラムと 2 変数 (2 変量)ヒストグラムの 2 つの主なタイプがあります。1 変量は一度に 1 つの変数を調べることを意味し、2 変量は 2 つの変数を一緒に調べることを意味します。

  • 単一変数ヒストグラム: 単一変数ヒストグラム (単変量ヒストグラムとも呼ばれます) は、データセット内の各カテゴリにいくつの値があるかを示すように設計されています。これには、何パーセントの人が特定の興味を持っているか、特定の活動に参加しているかを理解することが含まれる場合があります。
  • 二重変数ヒストグラム: 二重変数ヒストグラム (二変量ヒストグラムとも呼ばれます) は、2 つの変数間の関係を同時に説明するのに役立ちます。たとえば、これには、年齢が特定の地域の自動車所有率にどのように影響するかを視覚化することが含まれる場合があります。

ヒストグラムの作成方法

ヒストグラムは、データを視覚化する優れた方法です。データセット全体の値の分布をすばやく確認できます。また、データ内のパターンを識別するための強力なツールでもあります。

この記事では、ヒストグラムを作成する方法を示し、ヒストグラムのさまざまなコンポーネントについて説明します。

準備

ヒストグラムを作成するときは、データを視覚化する方法を計画することが重要です。適切な計画により、データが整理された効率的な方法で収集され、グラフが正しく設定されます。

開始する前に、次の点を考慮してください。

  • 収集する必要がある情報の種類
  • フォーマット方法
  • どのように表示したいか
  • チャートに含めたい特別な機能

グラフのフレームワークが作成されたら、データの収集を開始できます。グラフに含める必要があるすべての要素のインベントリを作成することから始めます。使用するカテゴリを確立し、各情報がグラフのどこに収まるかを把握します。次に、データをこれらのカテゴリにコンパイルして、ヒストグラムに表示されたときにすべてが整然と、明確かつ簡潔に見えるようにします。

このすべての準備が完了したら、グラフ自体を組み立てる前に、すべてのデータが確立されたカテゴリに収まることを再確認してください。この最後のステップにより、データ表現の精度が保証され、完了時にヒストグラムがそのメッセージを効果的に適切に伝達することが確認されます。

ヒストグラムの作成

データセットを操作する場合、ヒストグラムを使用して情報の視覚化を作成すると役立つ場合があります。ヒストグラムは、特定の値の数または頻度を表す数値データのグラフィカル表現です。これは、特定の変数の確率密度関数をモデル化したり、異なるデータセットから作成された分布を比較したりするのに役立ちます。

ヒストグラムを作成するには、データ セットを x 軸上のクラスに整理することから始めます。これを行うには、表示するクラスの数を決定し、値の範囲の長さをその数の等しいクラス幅に分割します。たとえば、0 ~ 100 の範囲の 10 個の数値がある場合、各クラスの上限が 25 (0 ~ 25)、50 (26 ~ 50)、および 75 (51 ~ 75) の 3 つのクラスが必要になる場合があります。

ヒストグラムのそれぞれのクラスを設定したら、縦の列を使用して、各クラスがデータセットに出現する頻度を表します。各列の下の領域は、他のすべての頻度に対する対応する頻度を表します (合計すると 100% になる必要があります)。たとえば、20 のうち 12 が 30% で発生する場合、12 は 3 つの縦のボックスで表され、各ボックスの面積は 10% になります。

このビジュアライゼーションを構築するときは、x 軸または y 軸のいずれかを歪めないように、すべての辺の長さが等しいままであることが重要です。完了したら、作業を確認し、それを使用して、同様の変数を含む個別のデータセット間の頻度と分布の傾向を特定し、相互に比較するために同じグラフに表示されているバリエーションを特定します。

ヒストグラムの例

ヒストグラムは、さまざまな高さのバーを使用してデータを視覚的に表示するチャートの一種です。このタイプのグラフは、特定の値の範囲内のデータの頻度を示すため、データセットの分布を説明するのに役立ちます。ヒストグラムを使用すると、ほとんどのデータが含まれる値の範囲をすばやく特定できます。

ヒストグラムの例をいくつか見てみましょう:

例 1: 度数分布

ヒストグラムとも呼ばれる度数分布は、特定の間隔での度数または発生数を表示するために使用されるグラフの一種です。一般に、長方形またはバーを使用して、測定された各間隔の発生頻度に等しい値を表します。

ヒストグラムは、複数のカテゴリまたはグループに分散されたデータをすばやく要約するのに役立ちます。ヒストグラムを見ていくつかの単純な特徴に注目することで、個人はデータから何を学び、どのように処理すべきかをすばやく判断できます。

例 1: 冬季の良好な気温
この例では、15 の異なる場所から収集された冬季の気温がヒストグラムにプロットされています。このグラフのピーク (最頻値) は、ほとんどの場所の平均気温が華氏 35 度 (摂氏 -1 度)前後であることを示しています。両端の外れ値は、これらの月の間に一部の場所が他の場所よりもはるかに寒かったことを示しています。

例 2: グループ化された度数分布

グループ化度数分布は、数値を範囲またはビンにグループ化するヒストグラムの一種です。これは、類似した特徴を持つデータセット内の人数を示すために使用できます。

たとえば、教室でのテストの点数の分布を表示したい場合があります。これを行うには、スコアを取得して異なるスコア範囲の「ビン」に分割し、各スコア範囲を受け取った人数を x 軸にプロットします。この場合、ヒストグラムは次のようになります。

  • 範囲 (x 軸): 0 ~ 10、11 ~ 20、21 ~ 30など。
  • 頻度 (y 軸):各学年の範囲に到達した生徒の数

この例でわかるように、ほとんどの学生は 11 から 20 の間のスコアを達成しました

例 3: 累積度数分布

累積度数分布は、同じタイプのヒストグラムでデータをグラフィカルに表すもう 1 つの方法です。累積度数分布は、データセット内の特定の値以下のオブザベーションの比率を表示します。このようなヒストグラムは、度数の累積合計 (多くの場合パーセンテージで表されます) を垂直列でプロットし、各バーはこの合計の合計を特定のレベルまで表します。通常、縦軸はパーセンテージを示し、横軸は常にクラスの増加を表します。

累積度数ヒストグラムは、データの全体的な傾向とパターンを示すのに役立ちます。たとえば、数学のテストから得られた大量の得点を確認している場合、累積度数分布プロットを確認することで、平均レベルの優秀さを超える成績を収めた生徒の数を簡単に特定できます。または、さまざまな教育システムまたはグループの累積合計を使用して、さまざまなテストの成績を経時的に比較します。

結論

データの視覚化は、データを調査して理解するための非常に貴重なツールです。特にヒストグラムは、データセットの主要な属性を簡単に識別するための強力な方法です。それらは、データセットの全体的な形状とその分布をすばやく確認し、不適切なデータ サンプルから結論を導き出そうとすることを防ぎ、データセットの属性を考慮してどのタイプのモデリング アプローチが最適かについてのヒントを提供します。

ヒストグラムは特定の範囲の値で結論を導き出すため、さらなる調査と仮説検定の両方のツールとして使用できることを覚えておくことが重要です。正しく使用することで、データに含まれる秘密を解き明かし、全体像への洞察を得ることができます。しかも、ほとんどスペースを占有しません!