Idealmente, os conjuntos de dados são estruturados de modo a que cada linha corresponde a um único assunto ou objeto, e cada coluna corresponde a uma única variável. No entanto, os dados podem ser gravados ou coletados em muitos arranjos diferentes, dependendo do que é conveniente ou rentável para o coletor de dados. Além disso, podemos precisar que nossos dados sejam organizados em um formato específico, a fim de usar uma análise ou procedimento específico. É aqui que a transposição ou reformulação de um conjunto de dados entra em jogo.
transposes simples
o caso mais simples possível de transposição muda as linhas e colunas de uma matriz. Se aplicado a um conjunto de dados tradicional, isso faria com que houvesse uma linha por variável, e uma coluna por assunto.
por exemplo, considere a seguinte matriz 2×3 (2 linhas, 3 colunas):
1 2 34 5 6
transpondo esta matriz iria transformá-la numa matriz 3×2 (3 linhas, 2 colunas):
1 42 53 6
Notice that the first row of matrix 1 becomes the first column of matrix 2.
conjuntos de dados longos
um conjunto de dados” longos ” contém mais de uma linha por assunto, e usa um ID único para identificar cada assunto. Os dados do painel (ou longitudinais) são frequentemente registados neste formato “longo”.considere uma clínica onde os pacientes entram para consultas. À medida que os pacientes entram na clínica, cada visita é registrada nos registros da clínica. Ou seja, cada linha do conjunto de dados “compromissos” corresponde à visita. Um único registro de visita pode conter informações sobre o nome do paciente, a data da visita e o peso do paciente durante essa visita.
Patient1 | Visit1 | Peso |
Patient1 | Visit2 | Peso |
Patient2 | Visit1 | Peso |
Patient2 | Visit2 | Peso |
. | . | . |
. | . | . |
. | . | . |
Patientn | Visitn | Peso |
Patientn | Visitn | Peso |
Se você deseja comparar o peso do paciente na visita 1 para o seu peso na visita 2, você pode querer transpor os dados para que cada paciente tem uma linha de dados que inclui os valores de peso (i.e., a wide dataset), like below:
Patient1 | Weight1 | Weight2 |
Patient2 | Weight1 | Weight2 |
. | . | . |
. | . | . |
. | . | . |
Patientn | Weight1 | Weight2 |
Quando usar o “longo” formulário de dados
pacotes de softwares Estatísticos, normalmente, requerem dados para estar no “longo” formato para procedimentos como:
- série de Tempo
- Misto e os modelos multiníveis
Ampla conjuntos de dados
Você também pode imaginar a situação inversa, em que você tem uma linha de dados por observação (de um amplo conjunto de dados), mas pretende várias linhas de dados com valores exclusivos de uma determinada variável (por exemplo, um longo conjunto de dados).
Quando usar o “grande” de dados
pacotes de softwares Estatísticos, normalmente, requerem dados para estar em “grande” formato para procedimentos como:
- t Pareado testes
- medidas Repetidas ANOVA
- Correlação