Le calcul de plusieurs nouvelles variables existantes des paires et de normaliser les nouvelles valeurs des variables par rapport aux autres variables dans la R

0

La question

J'aimerais créer de nouvelles [mot]_c des variables à partir de paires de variables, en soustrayant variable_b de variable_a, mais comme il y a 50 paires, il serait utile d'être en mesure de le faire sans avoir à écrire de tout nom.

Une fois, j'ai le [mot]_c colonnes, je tiens à standardiser [mot]_c et V[mot]Q.[nombre] les colonnes de sorte qu'ils peuvent être comparés. Je sais que chaque [mot]_a et [mot]_b colonne est un nombre de 1 à 100, et chaque V[mot]Q.[numéro] de la colonne est un nombre de 1 à 9.

Ainsi, par exemple, va à partir de:

Word_b  Word_a  Six_b  Six_a  Flute_b  Flute_a  VWordQ.13  VSixQ.22  VFluteQ.7 
<chr>   <chr>   <chr>  <chr>  <chr>    <chr>     <dbl>      <dbl>     <dbl>
60       1       1      30      1        1        6.53       5.14      6.68
70       10      3      50      50       10       NA         NA        5.60
51       31      1      48      52       1        5.60       5.95      NA

Pour cela (en plus de la V variables):

Word_b  Word_a  Word_c  Six_b  Six_a  Six_c  Flute_b  Flute_a  Flute_c ...
60       1       -50      1     30     29      1         1       0     ...
70       10      -60      3     50     47      50        10     -40    ...
51       31      -20      1     48     47      52        1      -51    ...

... Et puis la standardisation juste _c et V les colonnes.

(L'ordre des colonnes n'est pas important pour moi)

Exemple de données:

structure(list(Word_b = c("60", "70", "51", "73", "13", 
"60", "30"), Word_a = c("1", "10", "31", "30", "22", "5", 
"30"), Six_b = c("1", "3", "1", "0", "0", "0", "40"), Six_a = c("30", 
"50", "48", "41", "35", "0", "65"), Flute_b = c("1", "50", 
"52", "50", "45", "80", "30"), Flute_a = c("1", "10", "1", 
"0", "0", "0", "3"), VWordQ.13 = c(6.53, NA, 5.6, 5.6, 5.21, 
5.44, 6), VSixQ.22 = c(5.14, NA, 5.95, 3.25, 3.24, 3, 3), 
    VFluteQ.7 = c(6.68, NA, 5.6, 6.68, 6.92, NA, 6.68)), row.names = c(NA, 
-7L), class = c("tbl_df", "tbl", "data.frame"))
calculated-columns r standardized
2021-11-11 11:11:22
1

La meilleure réponse

1

La première partie de la tâche est accomplie.

library(tidyverse)

df = structure(list(Word_b = c("60", "70", "51", "73", "13", 
 "60", "30"), Word_a = c("1", "10", "31", "30", "22", "5", 
 "30"), Six_b = c("1", "3", "1", "0", "0", "0", "40"), Six_a = c("30", 
 "50", "48", "41", "35", "0", "65"), Flute_b = c("1", "50", 
 "52", "50", "45", "80", "30"), Flute_a = c("1", "10", "1", 
 "0", "0", "0", "3"), VWordQ.13 = c(6.53, NA, 5.6, 5.6, 5.21, 
 5.44, 6), VSixQ.22 = c(5.14, NA, 5.95, 3.25, 3.24, 3, 3), 
 VFluteQ.7 = c(6.68, NA, 5.6, 6.68, 6.92, NA, 6.68)), row.names = c(NA, 
 -7L), class = c("tbl_df", "tbl", "data.frame"))


df = df %>% type.convert(as.is = TRUE)

for(name in names(df) %>% str_match("(^.*)_([a,b])") %>% .[,2] %>% .[!is.na(.)] %>% unique()){
  df=df %>% mutate(!!as.name(paste0(name,"_c")) := 
                     !!as.name(paste0(name,"_a")) - 
                     !!as.name(paste0(name,"_b")))
}
df

sortie

# A tibble: 7 x 12
  Word_b Word_a Six_b Six_a Flute_b Flute_a VWordQ.13 VSixQ.22 VFluteQ.7 Word_c Six_c Flute_c
   <int>  <int> <int> <int>   <int>   <int>     <dbl>    <dbl>     <dbl>  <int> <int>   <int>
1     60      1     1    30       1       1      6.53     5.14      6.68    -59    29       0
2     70     10     3    50      50      10     NA       NA        NA       -60    47     -40
3     51     31     1    48      52       1      5.6      5.95      5.6     -20    47     -51
4     73     30     0    41      50       0      5.6      3.25      6.68    -43    41     -50
5     13     22     0    35      45       0      5.21     3.24      6.92      9    35     -45
6     60      5     0     0      80       0      5.44     3        NA       -55     0     -80
7     30     30    40    65      30       3      6        3         6.68      0    25     -27

Mais je ne comprends pas ce que signifie la standardisation juste _c et V les colonnes.

Petite mise à jour

Il peut être fait comme ceci

for(name in names(df) %>% str_match("(^.*)_([a,b])") %>% .[,2] %>% .[!is.na(.)] %>% unique()){
  df=df %>% mutate(!!as.name(paste0(name,"_c")) := scale(
                     !!as.name(paste0(name,"_a")) - 
                     !!as.name(paste0(name,"_b")))[,1])
}

df %>% mutate_at(vars(contains(".")), ~scale(.x)[,1]) 

sortie

# A tibble: 7 x 12
  Word_b Word_a Six_b Six_a Flute_b Flute_a VWordQ.13 VSixQ.22 VFluteQ.7 Word_c  Six_c Flute_c
   <int>  <int> <int> <int>   <int>   <int>     <dbl>    <dbl>     <dbl>  <dbl>  <dbl>   <dbl>
1     60      1     1    30       1       1     1.70     0.944     0.323 -0.915 -0.182  1.71  
2     70     10     3    50      50      10    NA       NA        NA     -0.949  0.912  0.0759
3     51     31     1    48      52       1    -0.277    1.58     -1.75   0.435  0.912 -0.374 
4     73     30     0    41      50       0    -0.277   -0.531     0.323 -0.361  0.547 -0.333 
5     13     22     0    35      45       0    -1.11    -0.538     0.784  1.44   0.182 -0.128 
6     60      5     0     0      80       0    -0.618   -0.726    NA     -0.776 -1.95  -1.56  
7     30     30    40    65      30       3     0.575   -0.726     0.323  1.13  -0.426  0.607 

J'espère que c'est ce que vous vouliez dire.

2021-11-11 20:47:33

Dans d'autres langues

Cette page est dans d'autres langues

Русский
..................................................................................................................
Italiano
..................................................................................................................
Polski
..................................................................................................................
Română
..................................................................................................................
한국어
..................................................................................................................
हिन्दी
..................................................................................................................
Türk
..................................................................................................................
Česk
..................................................................................................................
Português
..................................................................................................................
ไทย
..................................................................................................................
中文
..................................................................................................................
Español
..................................................................................................................
Slovenský
..................................................................................................................