Générer la prédiction des intervalles de plus de 1 modèle linéaire dans R?

Question 1

Je cherche à générer des intervalles de prédiction à l'aide de la fonction predict() pour un nouveau jeu de données, mais à l'échelle de plus d'un modèle que j'ai créé pour un jeu de données. Je suis relativement inexpérimenté à l'aide de lapply, mais la figure, il devrait être utile dans ce processus:

#Calling in my libraries:
library(dplyr)

#Creating dataset:

DNase <- DNase

#Generating models, one for each "Run" in DNAse:
model_dna <- DNase %>% 
  group_by(Run) %>% 
  do(model_dna_group = lm(log(density) ~ log(conc), data = .)) %>%   ungroup()

#Creating a new data set to be used to generate predictions:
new_dna <- as.data.frame(DNase$conc) %>% 
  mutate(conc = DNase$conc * 2) %>% select(conc)

#Attempting to apply predict to these models for a new data frame:
new_dna_w_predictions <- lapply(
                           X = model_dna, 
                           FUN = predict, 
                           newdata = new_dna, 
                           interval = "prediction", 
                           level = 0.9
                          )

Toutefois, cela attire l'erreur suivante:

Erreur dans get(comme.caractère(FUN), mode = "fonction", envir = envir) : l'objet 'model_dna" de mode "fonction" n'a pas été trouvé

Je ne suis pas sûr de la meilleure façon de structurer cette lapply fonction, en particulier lorsqu'ils sont utilisés dans plus d'un modèle. Est-il généralement le moyen le plus propre à cette approche?

Question 2

Ici vous avez une pleine tidyverse solution:

# Calling in my libraries:
library(dplyr)
library(purrr)

# Creating dataset:
DNase <- DNase

# Creating a new data set to be used to generate predictions:
new_dna <- DNase %>% transmute(conc = conc * 2)  # simplified

# Generating models, one for each "Run" in DNAse:
model_dna <- DNase %>% 
  group_by(Run) %>% 
  summarise(model_dna_group = list(lm(log(density) ~ log(conc))))
  
model_dna
#> # A tibble: 11 x 2
#>    Run   model_dna_group
#>    <ord> <list>         
#>  1 10    <lm>           
#>  2 11    <lm>           
#>  3 9     <lm>           
#>  4 1     <lm>           
#>  5 4     <lm>           
#>  6 8     <lm>           
#>  7 5     <lm>           
#>  8 7     <lm>           
#>  9 6     <lm>           
#> 10 2     <lm>           
#> 11 3     <lm>


# Run predictions
model_dna %>%
  group_by(Run) %>% 
  summarise(map(model_dna_group, predict, newdata = new_dna, interval = "prediction", level = 0.9) %>% map_dfr(as_tibble),
            .groups = "drop")

#> # A tibble: 1,936 x 4
#>    Run       fit    lwr    upr
#>    <ord>   <dbl>  <dbl>  <dbl>
#>  1 10    -2.16   -2.48  -1.85 
#>  2 10    -2.16   -2.48  -1.85 
#>  3 10    -1.33   -1.64  -1.03 
#>  4 10    -1.33   -1.64  -1.03 
#>  5 10    -0.918  -1.22  -0.617
#>  6 10    -0.918  -1.22  -0.617
#>  7 10    -0.503  -0.804 -0.201
#>  8 10    -0.503  -0.804 -0.201
#>  9 10    -0.0873 -0.392  0.217
#> 10 10    -0.0873 -0.392  0.217
#> # ... with 1,926 more rows

^{Créé sur 2021-11-19 par le reprex paquet (v2.0.0)}

Avis:

après dplyr 1.0 vous n'avez pas besoin d'utiliser do de plus pour ce genre de cas
avec map et map_dfr vous pouvez calculer vos prévisions et de les adapter parfaitement dans votre tibble

Question 3

Votre objet model_dna est un ensemble de données.(plus précisément: un tibble), qui contient les lm-les objets dans sa deuxième colonne, "model_dna_group".

Dans le lapply-appel, vous devez vous reporter à cette colonne, et non pas l'ensemble de la trame de données. Lapply essaie d'utiliser predict sur les colonnes de la trame de données au lieu de la lm-les objets à l'intérieur de la deuxième colonne.

Afin de modifier votre appel comme suit et il fonctionne:

new_dna_w_predictions <- lapply(
                           X = model_dna$model_dna_group, 
                           FUN = predict, 
                           newdata = new_dna, 
                           interval = "prediction", 
                           level = 0.9
                          )

Edo · Answer 1 · 2021-11-19T18:05:38

Ici vous avez une pleine tidyverse solution:

# Calling in my libraries:
library(dplyr)
library(purrr)

# Creating dataset:
DNase <- DNase

# Creating a new data set to be used to generate predictions:
new_dna <- DNase %>% transmute(conc = conc * 2)  # simplified

# Generating models, one for each "Run" in DNAse:
model_dna <- DNase %>% 
  group_by(Run) %>% 
  summarise(model_dna_group = list(lm(log(density) ~ log(conc))))
  
model_dna
#> # A tibble: 11 x 2
#>    Run   model_dna_group
#>    <ord> <list>         
#>  1 10    <lm>           
#>  2 11    <lm>           
#>  3 9     <lm>           
#>  4 1     <lm>           
#>  5 4     <lm>           
#>  6 8     <lm>           
#>  7 5     <lm>           
#>  8 7     <lm>           
#>  9 6     <lm>           
#> 10 2     <lm>           
#> 11 3     <lm>


# Run predictions
model_dna %>%
  group_by(Run) %>% 
  summarise(map(model_dna_group, predict, newdata = new_dna, interval = "prediction", level = 0.9) %>% map_dfr(as_tibble),
            .groups = "drop")

#> # A tibble: 1,936 x 4
#>    Run       fit    lwr    upr
#>    <ord>   <dbl>  <dbl>  <dbl>
#>  1 10    -2.16   -2.48  -1.85 
#>  2 10    -2.16   -2.48  -1.85 
#>  3 10    -1.33   -1.64  -1.03 
#>  4 10    -1.33   -1.64  -1.03 
#>  5 10    -0.918  -1.22  -0.617
#>  6 10    -0.918  -1.22  -0.617
#>  7 10    -0.503  -0.804 -0.201
#>  8 10    -0.503  -0.804 -0.201
#>  9 10    -0.0873 -0.392  0.217
#> 10 10    -0.0873 -0.392  0.217
#> # ... with 1,926 more rows

^{Créé sur 2021-11-19 par le reprex paquet (v2.0.0)}

Avis:

après dplyr 1.0 vous n'avez pas besoin d'utiliser do de plus pour ce genre de cas
avec map et map_dfr vous pouvez calculer vos prévisions et de les adapter parfaitement dans votre tibble

benimwolfspelz · Answer 2 · 2021-11-19T17:22:23

Votre objet model_dna est un ensemble de données.(plus précisément: un tibble), qui contient les lm-les objets dans sa deuxième colonne, "model_dna_group".

Dans le lapply-appel, vous devez vous reporter à cette colonne, et non pas l'ensemble de la trame de données. Lapply essaie d'utiliser predict sur les colonnes de la trame de données au lieu de la lm-les objets à l'intérieur de la deuxième colonne.

Afin de modifier votre appel comme suit et il fonctionne:

new_dna_w_predictions <- lapply(
                           X = model_dna$model_dna_group, 
                           FUN = predict, 
                           newdata = new_dna, 
                           interval = "prediction", 
                           level = 0.9
                          )

Générer la prédiction des intervalles de plus de 1 modèle linéaire dans R?

La question

La meilleure réponse

Dans d'autres langues

Cette page est dans d'autres langues

Populaires dans cette catégorie

Questions populaires dans cette catégorie