ヒストグラムの描き方

コンサル

序章

ヒストグラムは、特定の範囲内の値の分布が一目でわかるため、データの視覚化に役立つツールです。X 軸に各値の頻度をプロットし、Y 軸にそれらの値の相対数をプロットすることにより、ヒストグラムはクラスター、ギャップ、および傾向をすばやく識別することができます。

ヒストグラムは、多くのソフトウェア アプリケーションで簡単に生成でき、正しく作成すると、データに意味のある洞察を提供できます。このガイドでは、 Microsoft Excelを使用してヒストグラムを描画する方法について説明し、データを操作する際のベスト プラクティスに関するヒントをいくつか紹介します。

ヒストグラムとは?

ヒストグラムは、特定の範囲内のデータの頻度を示すグラフです。データはさまざまな間隔または「ビン」にグループ化でき、各ビンの頻度はグラフの高さで表すことができます。大規模なデータセットを視覚化および要約するための便利なツールであり、ビジネス、エンジニアリング、および財務分析で頻繁に使用されます。

ヒストグラムは、構造が棒グラフに非常に似ています。どちらのグラフも一方の軸にカテゴリを表示し、もう一方の軸に数値を表示しますが、棒グラフは入力としてカテゴリ データ (クラスの成績や測定値など) を使用しますが、ヒストグラムは連続データ (テストの点数や価格など) を使用します。

ヒストグラムは通常、次のような 1 つのサンプルまたは母集団からの変数を分析するために使用されます。

  • 社内の年齢分布
  • 一定期間の売上
  • 毎時の温度測定値
  • 生徒のテストの点数
  • 異なる土地の長さ

ヒストグラムは、以下を表示することにより、データの形状、中心傾向、広がりに関する情報を提供します。

  • 各ビンに分類される個人または観測値の数または頻度
  • 分布範囲
  • 平均値_
  • 中央値(数字を小さい方から順に並べたときの中間点)
  • モード(最も一般的な観測)

ヒストグラムを描画する手順

ヒストグラムの作成は、データを視覚化する優れた方法です。ヒストグラムは、データセット内の値の分布または頻度を示すことができます。これは、データから洞察を得るための強力なツールです。

この記事では、ヒストグラムを描画する手順を説明します。データの収集からヒストグラムのプロットまで、各ステップを順を追って説明します。始めましょう:

  1. データを収集する
  2. データを整理する
  3. ビンのサイズを決定する
  4. ヒストグラムを描く

データを収集する

ヒストグラムを描画するには、まずグラフに表示するデータを収集する必要があります。これは、セット内の値の頻度を数えたり、人々の意見を調査したりすることを意味します。公開されたデータセットや研究記事などの既存のデータを使用したり、人々を調査したり、行動やテストや実験を観察したりして独自のデータを収集したりできます。

データを収集したら、整理するための時間を確保してください。ヒストグラムを使用してさまざまな種類の情報を視覚的に表現できるようにする必要があります。データが適切に編成されていないと、結果を正確に解釈することが難しくなります。データ セット内の各項目に独自の値を割り当てることが重要です。これにより、データ セット間に存在する傾向や類似点を簡単に特定できます。

データの編成には、数値順 (数字を使用する場合) またはアルファベット順 (単語を使用する場合) などの軸に沿って並べ替えることが含まれます。さらに、データを収集するときに使用した測定単位を含めてください。これにより、ヒストグラムを表示しているユーザーが、1 つの軸上で次に一緒に配置されたときに各情報が何を表しているかを理解しやすくなります。データが整理されて使用できるようになったら、次のステップに進み、グラフの各ポイントが配置されるビンを作成します。

クラス数の決定

ヒストグラムを完成させる前に、x 軸で使用するクラスの数を決定する必要があります。すべてのデータ ポイントを扱いやすいグラフに収めようとするのではなく、x 軸をサブグループに分割します。最初の試行が完了したときにデータが乱雑に見える場合は、クラス番号を調整する必要がある場合があります。

また、各クラスの間隔または範囲を決定する必要があります。間隔のサイズはチャート全体で一貫している必要があり、潜在的な間隔には次のものが含まれる場合があります。

  • 1単位 ( 1,2,3 )
  • 2 ユニット ( 2-4、4-6 )
  • 5 単位 ( 5-10 )
  • 10 単位 ( 10 – 20 )

間隔のサイズを決定したら、他の手順に進む前に、方眼紙グリッド上のデータの最小値と最大値に一致するクラスを描画してラベルを付けます。

クラス制限を見つける

ヒストグラムの描画は、すでに収集および整理されたデータから始まります。クラス制限は、一般にビンと呼ばれるクラス間隔と呼ばれる各グループの上限値と下限値を表します。クラス制限には、データセットの最高値と最低値を超えた値など、可能なすべての値を含めて、値が取り残されないようにする必要があります。

クラスの上限と下限を決定するには、まずデータ セットの最小値を取得し、そこから0.5を引きます。これは、最初のカテゴリまたはビンのクラスの下限になります。次に、その数値を取り、ビンのサイズ (サイズはユーザーが決定します) を追加し、それに0.5を追加します。これにより、そのビンのクラス上限が決まります。前のステップから上限クラス制限を取り、それをさらに 2 回繰り返します (新しい下限クラス制限のためにそこから0.5を引き、次に0.5を追加します)。アッパー用)。最小値/最大値を超える外れ値を含むデータ セットのすべての部分をカバーするまで、すべてのカテゴリまたはビンに対して同じプロセスを繰り返す必要があります。これにより、データ内のすべての数値がチャートのビンまたはカテゴリに含まれるようになり、何も取り残されなくなります。

クラスの幅を見つける

ヒストグラムを作成する最初のステップは、グループまたはクラスの上限と下限の差であるクラス幅を決定することです。これにより、データがどの程度正確であるべきかがわかります。たとえば、調査データが 2 つのカテゴリ (はいといいえ) に分類されている場合、クラス幅 1 を使用します (標準の棒グラフと同じです)。一方、小数点または 10 進数を含む情報を分析する場合は、より具体的なクラス幅 ( 0.1、0.2、または 0.5 など)を使用することをお勧めします。

データを効果的に説明するために必要なクラスの数を考慮することも重要です。一般的に言えば、データ セット全体に均等に分散された6 つのクラスから始めるのが最善です。クラスが少なすぎると、情報が正確に表現されません。クラスが多すぎると、グラフで実際に何が起こっているかを解釈するのが難しくなります。

ヒストグラムの適切なクラス幅を決定し、必要なクラス数を決定したら、各クラスに適切な上限と下限を選択して、すべての値をそれぞれの領域 (バー) に効果的にグループ化できるようにします。上限には、各セットの最高値を含める必要があります。下限には、各セットの最低値を含める必要があります。これにより、すべてのデータ ポイントが常にそれぞれの境界内に収まるようになります。

ヒストグラムを描く

ヒストグラムを描画する準備ができたら、いくつかの簡単な手順に従う必要があります。

  1. データを収集する– ヒストグラムで表現したい調査、実験、またはその他の調査方法からすべてのデータを収集します。続行する前に、データが整理されていて正確であることを確認することが重要です。
  2. 軸を描く– 方眼紙または白紙の紙に、90 度の角度で交差する 2 つの軸を描き、グラフを適切に拡大縮小して読みやすくします。軸にラベルを付け、数量の最小値と最大値などのパラメーターを示します。指定したスペースに収まるように、軸がデータ セットの値の範囲を正しく反映していることを確認してください。
  3. 頻度のプロット– 各軸 (通常は主単位に沿って) に必要なすべてのマークを挿入した後、垂直軸に沿って相対頻度のプロットを開始します。これは、要素がデータセットに出現する回数をカウントするだけで実行できます。この相対頻度を対応する x 値に対してプロットすると、ヒストグラムに 1 つのバーが作成されます。
  4. バーを塗りつぶす/間隔をハイライトする– データ セットからすべての要素を正常にプロットするまで、上記のようにグラフ化を続けます。今度は、色を追加したり (さまざまな頻度を識別しやすくするため)、頻度に応じてバーを陰影付けしたりするのに時間がかかります。これにより、視聴者は他の測定値と比較してほとんどの測定値がどこにあるかを簡単に理解できるようになり、さらに進んでそれを調査する人にとって全体的な読みやすさが向上します.

結論

データを分析して整理したら、次のステップはヒストグラムを作成することです。ヒストグラムは、さまざまな高さの縦棒を使用してデータを表し、母集団内のさまざまな値の分布と頻度を示すために使用できます。ヒストグラムを描画するために必要な主要な要素には、クラス幅、クラス境界、クラスごとの度数、合計度数などがあります。

ヒストグラムを効果的に作成するには、各ビンまたはグループに存在する観測値の数を評価して、区間またはクラスのサイズを決定します。経験則として、クラスの観測値は 5 つ未満であってはならず、15 を超えてはなりません。各区間またはクラスのサイズを決定したら、各区間またはクラス内の各観測値の頻度を集計します。次に、この頻度データを使用して、間隔の境界を X 軸ラベルとして棒グラフを描画します。最後に、グラフを描画するときに、両方の軸のタイトル (X 軸には‘Classes’というタイトルを付ける必要があります) と、グラフ全体のタイトルを追加します。

これらの手順を完了すると、データ セットを簡単に分析できる正確で有益なヒストグラムが作成されます。