Non-equi jointure de deux tables

0

La question

J'ai 2 dataframes où j'ai besoin de savoir combien de fois les entrées dans la maquette de$num tomber dans la gamme des x-y spécifiées dans la gamme dataframe.

id <- c(1:9)
num <- c(99,101,199,250,999,1500,3000,4000,5000)
mock <- data.frame(id, num)

x <- c(100,100,200,1000,4000,4000)
y <- c(198,200,300,2000,5000,5000)
range <- data.frame(x,y)

La sortie désirée est affichée ci-dessous

id num check
1 99   0
2 101  2
3 199  1
4 250  1
5 999  0
6 1500 1
7 3000 0
8 4000 2
9 5000 2

qui peut être obtenu par le code suivant

mock$check <- mapply(
    function(x){
        count = 0
        for (i in 1:nrow(range)){
            if (x >= range$x[i] & x <= range$y[i]){
                count = count + 1
            }
        }
        paste0(count)
    },
    mock$num
)

L'approche ci-dessus est pas approprié pour de grands ensembles de données en raison de la boucle et j'ai essayé d'utiliser un non-equi méthode join (via data.table). Cependant, je suis coincé comme de la façon de faire un non-equi jointure entre deux tables (pas sûr de savoir comment procéder pour...)

nonequi <- mock[range, on =.(num >= x, num <=y),]

Voudrais demander quelques conseils à ce problème. Reconnaissant de votre aide.

non-equi-join r
2021-11-24 06:40:20
2
2

Premier non-equi rejoindre ensuite résumer pour chaque id combien de fois il s'affiche et se joindre à dos mock pour trouver les id qui ont été laissés de côté. Pour ces identifiants nombre à zéro.

res <- setDT(mock)[setDT(range), .(id), on = .(num >= x, num <= y)][, .N, by = id][mock, on = .(id)][is.na(N), N := 0][]
2021-11-24 07:12:05
2

pas sûr au sujet de la vitesse d'exécution pour les grands tableaux de données

id <- c(1:9)
num <- c(99,101,199,250,999,1500,3000,4000,5000)
mock <- data.frame(id, num)

x <- c(100,100,200,1000,4000,4000)
y <- c(198,200,300,2000,5000,5000)
RANGE <- data.frame(x,y)

mock$check <- sapply(mock$num, function(z) sum(z >= RANGE$x & z <= RANGE$y))

mock
#>   id  num check
#> 1  1   99     0
#> 2  2  101     2
#> 3  3  199     1
#> 4  4  250     1
#> 5  5  999     0
#> 6  6 1500     1
#> 7  7 3000     0
#> 8  8 4000     2
#> 9  9 5000     2

Créé sur 2021-11-24 par le reprex paquet (v2.0.1)

2021-11-24 07:20:12

Dans d'autres langues

Cette page est dans d'autres langues

Русский
..................................................................................................................
Italiano
..................................................................................................................
Polski
..................................................................................................................
Română
..................................................................................................................
한국어
..................................................................................................................
हिन्दी
..................................................................................................................
Türk
..................................................................................................................
Česk
..................................................................................................................
Português
..................................................................................................................
ไทย
..................................................................................................................
中文
..................................................................................................................
Español
..................................................................................................................
Slovenský
..................................................................................................................