Nouveau dans Azure
et Databricks
Je suis en train d'essayer d'accéder à un grand ensemble de données, sur lequel je voudrais lancer un processus de R (écrit en data.table
et qui fonctionne bien en local).
Je ne suis pas à l'aise avec les bons termes ou comment l'ensemble de l'environnement Azure fonctionne, mais pour l'instant, mes données est présent dans 3 formats :
- table
- paquet
- csv
Première tentative (et le plus logique pour moi) : un classique fread
sur les fichiers csv.
Sur les petits fichiers, tout est bien. Sur les "gros" fichiers (3Go), il faut beaucoup, beaucoup de minutes tandis que localement, il ne faut qu'une poignée de secondes.
Pourquoi est-il beaucoup plus de temps que localement ?
Deuxième tentative avec SparkR
sur les fichiers csv et collect()
pour travailler avec data.table
Mais collect()
renvoie une erreur :
Est-il quelque chose que je peux faire pour régler cela ?
Troisième tentative : les mêmes que ci-dessus sur les fichiers delta, avec le même type d'erreur
Quatrième tentative : requête SQL à partir de SparkR
mais collect
renvoie toujours la même erreur
Est l'un de mes tentatives de meilleur qu'un autre ? Suis-je sur la bonne voie ? Ai-je raté quelque chose ?
Toute aide ou conseils seront très utiles.