ヒストグラムとは

コンサル

ヒストグラムは、特定の範囲内にあるデータ ポイントの数を表示するデータのグラフィカルな表現です。これは、特定の範囲にわたる特定のデータ セットの分布を示すために使用され、データセット内の外れ値極端な値を識別するのにも役立ちます。

ヒストグラムは、傾向の観察、予測、さまざまなデータ セットの比較に使用できます。このセクションでは、ヒストグラムの概要とそのさまざまな用途について説明します。

ヒストグラムとは

ヒストグラムは、四角形を使用して、ビンまたは間隔にグループ化された値の頻度を表示するデータのグラフィカル表現です。数値データの分布の視覚的な要約を提供し、歪度、クラスター、外れ値を識別するために使用できます。ヒストグラムは棒グラフとよく似ていますが、目的が異なります。

ヒストグラムは、数値データの分布を記述、比較、解釈するためにデータ分析で使用されます。言い換えれば、大量のデータ セットを 1 つの簡単に消化できるグラフに要約するのに役立ち、アナリストがデータ内のパターンを解釈し、そこから意思決定または予測を行うことが容易になります。

ヒストグラムは、次のようなあらゆる種類の定量データで使用できます。

  • 連続変数 (体重、身長、テストの点数)、
  • 離散変数 (所有する車の数) または
  • 循環変数 (経時的な株価)。

ヒストグラムは、特定の値が発生する頻度と、データセット間のギャップまたは重複がある場所を特定できるため、連続変数を要約するのに特に役立ちます。

ヒストグラムは棒グラフとどう違うのですか?

ヒストグラムは、さまざまな高さのバーを使用してデータをグラフィカルに表現したものです。ヒストグラムでは、各バーが数値を範囲にグループ化します。棒グラフが高いほど、その範囲に含まれるデータが多いことを示しています。ヒストグラムは、指定された値の範囲 (「ビン」と呼ばれる) 内にあるデータ ポイントの数を示すことにより、数値データの視覚的な解釈を提供します。ヒストグラムを見ると、データの分布と広がりをすばやく把握できます。

棒グラフと比較すると、ヒストグラムは、年齢層や性別などの異なるカテゴリ間の比較にはなりません。代わりに、一方の軸に異なる範囲またはビン内の数値頻度をプロットし、もう一方の軸にグループ化されたカテゴリを使用して数量レベルを識別します。これにより、グループ間で配布されているアイテムの数と、それらが何らかのパターンに従っているかどうかを確認できます。

違いは、1 つは 2 つの変数を比較するために使用され (棒グラフ)、もう 1 つはある変数の範囲にわたる分布を示すために使用される (ヒストグラム) ことです。ヒストグラムは、高さまたは面積を視覚的な指標として使用して、各ビンまたは範囲内でデータが発生する頻度を示すため、カテゴリ ラベルのカウントだけでなく、より多くの情報を提供します。

ヒストグラムの使用

ヒストグラムは、さまざまな値または値の範囲での発生頻度を表示するデータのグラフィカル表現です。データセットの分布を調べて推定し、パターン、傾向、または外れ値を検出するために使用されます。ヒストグラムは幅広いアプリケーションで使用され、データ分析の実行、比較、およびデータの視覚化に役立ちます。

この記事では、ヒストグラムを使用することの用途と利点について説明します。

データ分布の分析

ヒストグラムは、データの分布を分析する効果的な方法です。これらは、特定の値が特定のセットに出現する頻度を視覚的に表現します。ヒストグラムは、特定の範囲またはビンに分類される値をグループ化することによって、さまざまなデータ ポイント間の関係も示します。

たとえば、データ セットに 0 ~ 100 のマークが含まれていて、値を5 ポイント間隔(0 ~ 4、5 ~ 9、10 ~ 14 など)でグループ化するヒストグラムを作成すると、それぞれの頻度が見え始めます。データセットのパターンや傾向を探すことができます

ヒストグラムは、数値の分布に見られる対称性または対称性の欠如の尺度である歪度 を示すのに役立ちます。小さい数値ではなく大きい数値に傾向があるなど、データが一方または他方に偏っている場合、精度に影響を与え、値間の関係を分析するときにエラーが発生する可能性があります。ヒストグラムは、同じスコア範囲内の他の値からどれだけ離れているかを明確に示すことで、外れ値(通常のパターンに当てはまらない非常に高いスコアと非常に低いスコア) を識別するのにも役立ちます。この理解により、特定の状況で特定の数値が他の数値よりも一般的である理由について、貴重な洞察が得られます。

外れ値の特定

ヒストグラムは、データ セット内の異常値をすばやく特定するための優れたツールです。これらの外れ値は、データセットの正常範囲を上回るまたは下回る極端な値、またはデータの大部分とは大幅に異なる値のいずれかです。

データ セット内の外れ値を特定するには、値間の変動が大きい領域、またはヒストグラムのスパイクまたは谷を見つける必要があります。たとえば、ヒストグラムの 1 つのバーが他のすべてのバーの 2 倍の高さである場合、これらのポイントは外れ値である可能性があり、さらに調査する必要があります。頻繁に発生する場合は、データの収集方法、サンプリングの品質の問題、または詐欺や操作などのより大きな問題を示している可能性があります。

ヒストグラムを調べることで、考えられる問題をすばやく特定し、適切な是正措置を講じて結果を信頼できるようにすることができます。

データセットの比較

ヒストグラムは、データセットを分析してパターンを識別し、そこから結論を引き出す効果的な方法です。さまざまな値の頻度をプロットすることで、さまざまなデータ セットや傾向を比較することができます。ヒストグラムは、データの優れた視覚的表現を提供し、他の方法では数値に隠れたままになる可能性のある貴重な洞察を明らかにするのに役立ちます。

ヒストグラムをフォーマットするには、各クラスまたはビンに分類されるデータ ポイントの数を一貫してカウントする必要があります。これが完了すると、クラスが x 軸または y 軸のいずれかにプロットされ、その度数がもう一方の軸にプロットされます。基本的なグラフでは、多くの場合、各クラスが垂直線で分割された 1 種類の色のみが使用されますが、より高度なヒストグラムには、各クラス内で測定される情報の量に応じて、異なる濃淡を持つ複数の色付きのバーが含まれる場合があります。視覚的な影響をさらに高めるために、作成者はグリッド線または背景パターンを追加してグラフの特定の部分を強調し、異なるクラス グループ間で情報を簡単に比較できます。

ヒストグラムは次の場合に役立ちます。

  • 2 つのデータセットを対話的に比較すると、累積分布を並べて表示できるため、それらの類似点や相違点を簡単に見つけることができます。
  • 特定のデータセットの一般的な傾向に従わない可能性があるような外れ値ポイントの検出。外れ値ポイントは、すべてのデータ セグメントの平均を単純に見つけるよりも、さらなる調査が必要であり、より深い分析が必要になる場合があります。

これにより、ヒストグラムは、複雑なデータセットを迅速かつ正確に解釈するための非常に貴重なツールになります。

ヒストグラムの作成

ヒストグラムは、データセットの分布を要約するためにデータ分析で使用される重要なツールです。これは、特定の範囲内のデータの頻度を示すデータ セットのグラフ表示です。ヒストグラムを作成すると、データの分布をよりよく理解するのに役立ちます。

このセクションでは、データを簡単に分析できるようにヒストグラムを作成する方法を見ていきます。

クラス数の特定

ヒストグラムを作成するときの最も重要な手順の 1 つは、必要なクラスの数を特定することです。クラスは、ヒストグラム上のデータの個々の範囲であり、各値が特定のカテゴリに分類される頻度を視覚的に表現します。これには、0 ~ 5、6 ~ 10、11 ~ 15 などの範囲を含めることができます。

データセットに最適なクラス数を決定するには、スタージスまたはフリードマン-ディアコニスのルールを使用することをお勧めします。

スタージスの法則はかなり使いやすいです。データセットサイズの対数ベース 2 に 1 を足すだけで、クラスの数を計算します。たとえば、データが 200 個の値で構成されている場合、(対数ベース 2 200) + 1 = 8 を計算します。ヒストグラムでデータを正しく視覚化するための 8 つのクラス。

Freedman -Diaconis ルールでは、サイズだけでなく、データ セット内の変動性も考慮されます。このルールを使用するには、最初に四分位範囲 (25 パーセンタイルと 75 パーセンタイルの差) を計算し、これをルート n の 2 倍 (n はサイズに等しい) で割ります。これで、合計範囲を対応するビン幅で割ることにより、プロジェクトの正しいクラス数を見つけるために使用できる理想的なビン幅が計算されます: ((最大 – 最小) / 理想的なビン幅)。この方法を使用すると、すべてのクラス間隔で等間隔​​が可能になり、ヒストグラムから結果を表示する際の精度が向上します。

クラス幅の決定

クラス幅 (ビン サイズまたは間隔サイズとも呼ばれます) は、ヒストグラムを作成するときに使用される要因の 1 つです。これは、データ セット内の連続するクラス間の数値の差を指します。

データのクラス幅の計算は単純な計算です。最初に、データの最小値とデータ最大の範囲を決定する必要があります。一方を他方から引くと、データセット内のすべての数値の値の範囲が得られます。

次に、ヒストグラムに表示するクラスの数を決定する必要があります。一般に、5 ~ 20 の等間隔のクラスが理想的です。この数値を決定したら、範囲をそれで割り、切り上げまたは切り捨てて、ヒストグラムのすべてのクラス幅に適した意味のある数値を取得します。たとえば、範囲が 5 の 10 個のクラスは、1 を 0.5 で近似すると、0 ~ 0.5 になります。0.5 – 1; グラフ上の個別のクラス範囲として 1 ~ 1.5 など。

要約すると、クラス幅の計算には以下が含まれます。

  • 最大のデータ ポイントから最小のデータ ポイントを引くと、
  • グラフに表示するビン (またはクラス) の数を決定します。
  • それらを全範囲で均等に分割します。

各クラスのデータ ポイント数のカウント

ヒストグラムは、特定の各クラスのデータ ポイントの数を示すデータのグラフィカル表現です。X 軸はクラスの範囲を表し、Y 軸は各クラスに分類される観測の絶対数または相対数 (頻度) を示します。つまり、ヒストグラムの作成には、データセット内の各クラスに分類されるデータ ポイントの数をカウントし、この相対頻度をグラフで表すことが含まれます。

クラスは、データセットに表示される値の全範囲をカバーし、相互に排他的であるように選択する必要があります(つまり、データ ポイントが複数のクラスに含まれないようにする必要があります)。さらに、データセットのさまざまな側面や傾向を最適に視覚化し、比較するために、ほぼ同じ幅のクラスを用意すると便利な場合がよくあります。これらが決定されたら、好みや利便性に応じてスケール ダイアグラム、バー、またはパイを使用して、各クラスの相対頻度を表示する列を作成するだけです。

ヒストグラムの解釈

ヒストグラムは、さまざまなデータ グループの発生頻度を示すデータのグラフィカル表現です。これは、さまざまなデータ セットを理解し、比較し、分析するのに役立つツールです。ヒストグラムを見るのは気が引けるかもしれませんが、それを解釈する方法を学ぶことは、データに対する貴重な洞察を得るのに役立ちます。

このセクションでは、ヒストグラムの解釈方法について説明します。

データの形状の識別

ヒストグラム は頻度分布とも呼ばれ、データの分布または形状をグラフィカルに表します。これらは、指定された範囲またはビンでの特定の変数の出現頻度をプロットします。ヒストグラムにはさまざまな形状 (線形、単峰性、二峰性、多峰性)がありますが、データの形状からヒストグラム内の傾向やパターンについて多くを知ることができます。

  • 線形:線形ヒストグラムには、x 軸と y 軸のグラフにプロットしたときに直線として表示されるデータがあります。これは通常、ビンで表される各グループに同数の成体と若年層の応答があることを示しています。
  • ユニモーダル:このタイプのヒストグラムは、(頻度に基づく) 1 つのピークで構成されます。これは、データ セット内のほとんどの値が 1 つの特定の範囲または値に集まっていることを示しています。
  • バイモーダル:このヒストグラム形状では、2 つのピークがデータを 2 つの異なるグループに分け、頻度分布によって決定されます。これは通常、データ セットによって表される 2 つの異なる母集団があり、一方の母集団が他方の母集団よりも大幅に大きいことを示しています。
  • マルチモーダル:マルチモーダル ヒストグラムには、分布のサンプル空間に典型的な複数のクラスター化された母集団によって引き起こされる可能性のある 2 つ以上の識別可能なピークが含まれます。または、不完全な情報収集手法や、ヒストグラムの作成に使用されるサンプル ポイントが不均等に分散されているために発生するこの種のデータの歪みを解釈する際に考慮する必要がある、誤ったビン サイズなどのサンプリングの問題を示している可能性があります。

平均値と中央値の計算

ヒストグラムの平均値と中央値は、定量データの 2 つの単純ですが重要な尺度です。ヒストグラムの平均(平均)、ヒストグラム内のすべてのバーの合計をバーの総数で割った値として計算されます。これは、値の大部分がヒストグラムのどこにあるかを示すために行われます。

中央値は、その前後に同じ数の値を持つバーを見つけ、このバーを使用してこれら 2 つの点の間の中点を決定することによって計算されます。これは「キンク ポイント」として知られています。これら 2 つのメジャーを計算すると、どの値が最も頻繁に発生するかに関する貴重な情報が得られ、データのどの部分をさらに調査または破棄する必要があるかを判断するのに役立ちます。

これらの測定値は、さまざまな種類または量のデータが特定の結果にどのように影響するかを判断するなど、データセット内の個々の値が互いにどのように関連しているかを理解するのに役立ちます。また、さまざまな変数間の相関関係を調査したり、さまざまなカテゴリ間で傾向を比較したりする場合にも役立ちます。

外れ値の特定

ヒストグラムは、定量データセットの度数分布を表示するグラフです。2 つの軸があります。横軸 ( x 軸とも呼ばれます) と縦軸 (またはy 軸) です。横軸はデータ範囲内の値を表示し、縦軸は各値の出現頻度を表示します。

ヒストグラムは、データの異常や外れ値を特定するのに役立ちます。外れ値は、残りのデータ ポイントとは大きく異なる値です。これらは、データセットのどこで異常なことが起こっているかを示しています。ヒストグラムの外れ値を特定するには、他のすべてのバーよりも著しく高いか短いバーを探す必要があります。これは、その特定の値がデータセット内の他のすべての値と比較して異常に高いか低いことを示しています。

ヒストグラムの例

ヒストグラムは、長方形の棒を使用してデータを表示するグラフです。これらは、数値データの分布を表すために使用されます。ヒストグラムは、データを 1 次元または 2 次元ですばやく視覚化する優れた方法です。

ここでは、さまざまな状況でヒストグラムがどのように使用されるかを理解するために、ヒストグラムの例をいくつか紹介します。

試験の点数分布を調べる

ヒストグラムを使用して、データ セットの分布を調べ、異なるグループのパフォーマンスを比較できます。たとえば、試験の点数を調べる場合、ヒストグラムを使用すると、クラスまたは学校が取得した点数の範囲を視覚的に表すことができます。学生の数とそれに関連付けられたスコアがビン (グループ) に編成されている場合、それらは列を形成し、x 軸はスコアの範囲を示し、y 軸はそれらを達成した学生の数を示します。

ヒストグラムを見ると、異なるグループ間で試験の成績にどの程度のばらつきがあるかを知ることができます。グラフの形状と構造によって、特定のスコア セットが低すぎるか高すぎるかが決まります。ベル カーブとも呼ばれる正規分布では、ほとんどの値が中間の範囲に表示され、パフォーマンスの最高点と最低点はそれぞれ少なくなります。この種のグラフを調べることは、その特定のトピック分野でカリキュラムの理解や学生の関与を改善するために対策を講じる必要があるかどうかを判断するのに役立ちます.

所得分配の検討

収入の分布を調べる場合、ヒストグラムを使用して、特定の変数 (この場合は収入) の分布をグラフで表示します。縦棒グラフのように見えますが、縦軸に実際の値を表示するのではなく、発生頻度を示しています。これにより、何人の人がどのレベルの収入を得ているかをすばやく観察できます。

ヒストグラムには、水平方向垂直方向の2 つの軸があります。横軸には収入の範囲がラベル付けされ、「25,000 ドル未満」または「50,000 ドルから 75,000 ドルの間」などの間隔に分割されます。各所得区分に当てはまる人数。両側のバーはパーセンタイルを表し、参加者全体の何パーセントが指定された各範囲内にあるかを示します。

収入のヒストグラムの例を見ると、ほとんどの個人がスペクトルのどこに該当するかをすぐに特定できます。高い列で示されるピーク頻度は、ほとんどの参加者がより低い賃金に近づいていることを示しており、より高い収入を得ている人が少ないことを示しています。このタイプの表現は、特定の給与や賃金を誰が作っているかを理解する際に、さまざまな人口統計や地域を比較するのに役立ちます。

株価の分布を調べる

ヒストグラムを使用して、株価の分布を調べることができます。価格と株式の頻度をプロットするチャートを作成することにより、投資家は、価格が特定の領域に集中しているか、範囲全体に均一に分布しているかを一目で確認できます。このタイプの分析は、過大評価または過小評価された価格を示すパターンを特定するのに役立ちます。

ヒストグラムは、各価格レベルで取引された株式数を示します。グラフの左側に大きなクラスターまたはバーがある場合、これはほとんどの株式が安値で取引されており、右側のものほど大きく動いていないことを示しています。均一な分布は、高値株と安値株の間のギャップを示し、グラフ全体にバーが伸びません。グラフの形状は、片側に偏っている(過大評価を示している) か、より均一な形状をしており、より通常の価格水準を示しているかを示します。

また、2 つの変数がどのように相互作用するかを示す 2 次元ヒストグラムを作成することもできます。たとえば、株価の変化が市場のボラティリティとどのように相関しており、投資家がいつどの価格で株を売買するかという決定に影響を与える可能性があります。2 次元ヒストグラムは、株価の予想外の変化が発生する前に、取引を開始するのに十分な条件が整った時期を予測するための優れたツールを提供し、投資や取引活動に関する十分な情報に基づいた意思決定に必要なすべての情報を一目で提供します。