Le calcul de plusieurs nouvelles variables existantes des paires et de normaliser les nouvelles valeurs des variables par rapport aux autres variables dans la R

Question 1

J'aimerais créer de nouvelles [mot]_c des variables à partir de paires de variables, en soustrayant variable_b de variable_a, mais comme il y a 50 paires, il serait utile d'être en mesure de le faire sans avoir à écrire de tout nom.

Une fois, j'ai le [mot]_c colonnes, je tiens à standardiser [mot]_c et V[mot]Q.[nombre] les colonnes de sorte qu'ils peuvent être comparés. Je sais que chaque [mot]_a et [mot]_b colonne est un nombre de 1 à 100, et chaque V[mot]Q.[numéro] de la colonne est un nombre de 1 à 9.

Ainsi, par exemple, va à partir de:

Word_b  Word_a  Six_b  Six_a  Flute_b  Flute_a  VWordQ.13  VSixQ.22  VFluteQ.7 
<chr>   <chr>   <chr>  <chr>  <chr>    <chr>     <dbl>      <dbl>     <dbl>
60       1       1      30      1        1        6.53       5.14      6.68
70       10      3      50      50       10       NA         NA        5.60
51       31      1      48      52       1        5.60       5.95      NA

Pour cela (en plus de la V variables):

Word_b  Word_a  Word_c  Six_b  Six_a  Six_c  Flute_b  Flute_a  Flute_c ...
60       1       -50      1     30     29      1         1       0     ...
70       10      -60      3     50     47      50        10     -40    ...
51       31      -20      1     48     47      52        1      -51    ...

... Et puis la standardisation juste _c et V les colonnes.

(L'ordre des colonnes n'est pas important pour moi)

Exemple de données:

structure(list(Word_b = c("60", "70", "51", "73", "13", 
"60", "30"), Word_a = c("1", "10", "31", "30", "22", "5", 
"30"), Six_b = c("1", "3", "1", "0", "0", "0", "40"), Six_a = c("30", 
"50", "48", "41", "35", "0", "65"), Flute_b = c("1", "50", 
"52", "50", "45", "80", "30"), Flute_a = c("1", "10", "1", 
"0", "0", "0", "3"), VWordQ.13 = c(6.53, NA, 5.6, 5.6, 5.21, 
5.44, 6), VSixQ.22 = c(5.14, NA, 5.95, 3.25, 3.24, 3, 3), 
    VFluteQ.7 = c(6.68, NA, 5.6, 6.68, 6.92, NA, 6.68)), row.names = c(NA, 
-7L), class = c("tbl_df", "tbl", "data.frame"))

Question 2

La première partie de la tâche est accomplie.

library(tidyverse)

df = structure(list(Word_b = c("60", "70", "51", "73", "13", 
 "60", "30"), Word_a = c("1", "10", "31", "30", "22", "5", 
 "30"), Six_b = c("1", "3", "1", "0", "0", "0", "40"), Six_a = c("30", 
 "50", "48", "41", "35", "0", "65"), Flute_b = c("1", "50", 
 "52", "50", "45", "80", "30"), Flute_a = c("1", "10", "1", 
 "0", "0", "0", "3"), VWordQ.13 = c(6.53, NA, 5.6, 5.6, 5.21, 
 5.44, 6), VSixQ.22 = c(5.14, NA, 5.95, 3.25, 3.24, 3, 3), 
 VFluteQ.7 = c(6.68, NA, 5.6, 6.68, 6.92, NA, 6.68)), row.names = c(NA, 
 -7L), class = c("tbl_df", "tbl", "data.frame"))


df = df %>% type.convert(as.is = TRUE)

for(name in names(df) %>% str_match("(^.*)_([a,b])") %>% .[,2] %>% .[!is.na(.)] %>% unique()){
  df=df %>% mutate(!!as.name(paste0(name,"_c")) := 
                     !!as.name(paste0(name,"_a")) - 
                     !!as.name(paste0(name,"_b")))
}
df

sortie

# A tibble: 7 x 12
  Word_b Word_a Six_b Six_a Flute_b Flute_a VWordQ.13 VSixQ.22 VFluteQ.7 Word_c Six_c Flute_c
   <int>  <int> <int> <int>   <int>   <int>     <dbl>    <dbl>     <dbl>  <int> <int>   <int>
1     60      1     1    30       1       1      6.53     5.14      6.68    -59    29       0
2     70     10     3    50      50      10     NA       NA        NA       -60    47     -40
3     51     31     1    48      52       1      5.6      5.95      5.6     -20    47     -51
4     73     30     0    41      50       0      5.6      3.25      6.68    -43    41     -50
5     13     22     0    35      45       0      5.21     3.24      6.92      9    35     -45
6     60      5     0     0      80       0      5.44     3        NA       -55     0     -80
7     30     30    40    65      30       3      6        3         6.68      0    25     -27

Mais je ne comprends pas ce que signifie la standardisation juste _c et V les colonnes.

Petite mise à jour

Il peut être fait comme ceci

for(name in names(df) %>% str_match("(^.*)_([a,b])") %>% .[,2] %>% .[!is.na(.)] %>% unique()){
  df=df %>% mutate(!!as.name(paste0(name,"_c")) := scale(
                     !!as.name(paste0(name,"_a")) - 
                     !!as.name(paste0(name,"_b")))[,1])
}

df %>% mutate_at(vars(contains(".")), ~scale(.x)[,1])

sortie

# A tibble: 7 x 12
  Word_b Word_a Six_b Six_a Flute_b Flute_a VWordQ.13 VSixQ.22 VFluteQ.7 Word_c  Six_c Flute_c
   <int>  <int> <int> <int>   <int>   <int>     <dbl>    <dbl>     <dbl>  <dbl>  <dbl>   <dbl>
1     60      1     1    30       1       1     1.70     0.944     0.323 -0.915 -0.182  1.71  
2     70     10     3    50      50      10    NA       NA        NA     -0.949  0.912  0.0759
3     51     31     1    48      52       1    -0.277    1.58     -1.75   0.435  0.912 -0.374 
4     73     30     0    41      50       0    -0.277   -0.531     0.323 -0.361  0.547 -0.333 
5     13     22     0    35      45       0    -1.11    -0.538     0.784  1.44   0.182 -0.128 
6     60      5     0     0      80       0    -0.618   -0.726    NA     -0.776 -1.95  -1.56  
7     30     30    40    65      30       3     0.575   -0.726     0.323  1.13  -0.426  0.607

J'espère que c'est ce que vous vouliez dire.

Marek Fiołka · Answer 1 · 2021-11-11T20:47:33

La première partie de la tâche est accomplie.

library(tidyverse)

df = structure(list(Word_b = c("60", "70", "51", "73", "13", 
 "60", "30"), Word_a = c("1", "10", "31", "30", "22", "5", 
 "30"), Six_b = c("1", "3", "1", "0", "0", "0", "40"), Six_a = c("30", 
 "50", "48", "41", "35", "0", "65"), Flute_b = c("1", "50", 
 "52", "50", "45", "80", "30"), Flute_a = c("1", "10", "1", 
 "0", "0", "0", "3"), VWordQ.13 = c(6.53, NA, 5.6, 5.6, 5.21, 
 5.44, 6), VSixQ.22 = c(5.14, NA, 5.95, 3.25, 3.24, 3, 3), 
 VFluteQ.7 = c(6.68, NA, 5.6, 6.68, 6.92, NA, 6.68)), row.names = c(NA, 
 -7L), class = c("tbl_df", "tbl", "data.frame"))


df = df %>% type.convert(as.is = TRUE)

for(name in names(df) %>% str_match("(^.*)_([a,b])") %>% .[,2] %>% .[!is.na(.)] %>% unique()){
  df=df %>% mutate(!!as.name(paste0(name,"_c")) := 
                     !!as.name(paste0(name,"_a")) - 
                     !!as.name(paste0(name,"_b")))
}
df

sortie

# A tibble: 7 x 12
  Word_b Word_a Six_b Six_a Flute_b Flute_a VWordQ.13 VSixQ.22 VFluteQ.7 Word_c Six_c Flute_c
   <int>  <int> <int> <int>   <int>   <int>     <dbl>    <dbl>     <dbl>  <int> <int>   <int>
1     60      1     1    30       1       1      6.53     5.14      6.68    -59    29       0
2     70     10     3    50      50      10     NA       NA        NA       -60    47     -40
3     51     31     1    48      52       1      5.6      5.95      5.6     -20    47     -51
4     73     30     0    41      50       0      5.6      3.25      6.68    -43    41     -50
5     13     22     0    35      45       0      5.21     3.24      6.92      9    35     -45
6     60      5     0     0      80       0      5.44     3        NA       -55     0     -80
7     30     30    40    65      30       3      6        3         6.68      0    25     -27

Mais je ne comprends pas ce que signifie la standardisation juste _c et V les colonnes.

Petite mise à jour

Il peut être fait comme ceci

for(name in names(df) %>% str_match("(^.*)_([a,b])") %>% .[,2] %>% .[!is.na(.)] %>% unique()){
  df=df %>% mutate(!!as.name(paste0(name,"_c")) := scale(
                     !!as.name(paste0(name,"_a")) - 
                     !!as.name(paste0(name,"_b")))[,1])
}

df %>% mutate_at(vars(contains(".")), ~scale(.x)[,1])

sortie

# A tibble: 7 x 12
  Word_b Word_a Six_b Six_a Flute_b Flute_a VWordQ.13 VSixQ.22 VFluteQ.7 Word_c  Six_c Flute_c
   <int>  <int> <int> <int>   <int>   <int>     <dbl>    <dbl>     <dbl>  <dbl>  <dbl>   <dbl>
1     60      1     1    30       1       1     1.70     0.944     0.323 -0.915 -0.182  1.71  
2     70     10     3    50      50      10    NA       NA        NA     -0.949  0.912  0.0759
3     51     31     1    48      52       1    -0.277    1.58     -1.75   0.435  0.912 -0.374 
4     73     30     0    41      50       0    -0.277   -0.531     0.323 -0.361  0.547 -0.333 
5     13     22     0    35      45       0    -1.11    -0.538     0.784  1.44   0.182 -0.128 
6     60      5     0     0      80       0    -0.618   -0.726    NA     -0.776 -1.95  -1.56  
7     30     30    40    65      30       3     0.575   -0.726     0.323  1.13  -0.426  0.607

J'espère que c'est ce que vous vouliez dire.

Le calcul de plusieurs nouvelles variables existantes des paires et de normaliser les nouvelles valeurs des variables par rapport aux autres variables dans la R

La question

La meilleure réponse

Dans d'autres langues

Cette page est dans d'autres langues

Populaires dans cette catégorie

Questions populaires dans cette catégorie