理想的には、データセットは、各行が1つの一意のサブジェクトまたはオブジェクトに対応し、各列が1つの変数に対応するように構造化されています。 しかし、データ収集者にとって便利で費用対効果の高いものに応じて、多くの異なる配置でデータを記録または収集することができます。 さらに、特定の分析または手順を使用するために、データを特定の形式で配置する必要がある場合があります。 ここでは、データセットの移調や再形成が行われます。
Simple transposes
最も単純な転置の場合は、行列の行と列を切り替えます。 従来のデータセットに適用すると、変数ごとに行が1つ、サブジェクトごとに列が1つになるようになります。たとえば、次の2×3行列(2行、3列)を考えてみましょう。
1 2 34 5 6
この行列を転置すると、3×2行列(3行、2列)に変換されます。:p>
1 42 53 6
行列1の最初の行が行列2の最初の列になることに注意してください。
Long datasets
“long”データセットには、サブジェクトごとに複数の行が含まれ、各サブジェクトを識別するために一意のIDを使用します。 パネル(または縦方向)データは、多くの場合、この”長い”形式で記録されます。
患者が予定のために来る診療所を考えてみましょう。 患者が診療所に入ると、各訪問は診療所の記録に記録されます。 つまり、”予定”データセットの各行はvisitに対応します。 単一の訪問レコードには、患者の名前、訪問日、およびその訪問中の患者の体重に関する情報が含まれている場合があります。tr>
Patient1 | Weight1 | Weight2 |
Patient2 | Weight1 | Weight2 |
. | . | . |
. | . | . |
. | . | . |
Patientn | Weight1 | Weight2 |
“長い”フォームデータを使用する場合
統計ソフトウェアパッケージは、通常、次のような手順
- 時系列
- 混合モデルとマルチレベルモデル
ワイドデータセット
観測ごとに1行のデータ(ワイドデータセット)があるが、特定の変数の一意の値を持つ複数行のデータ(つまり、長いデータセット)が必要な逆の状況を想像することもできます。
“ワイド”データを使用する場合
統計ソフトウェアパッケージでは、通常、次のような手順でデータが”ワイド”形式である必要があります。
- 対t検定
- 反復測定ANOVA
- 相関