Parcourir les fichiers à partir du dossier et de les traiter en scala

Question 1

J'ai un couple de fichiers dans un dossier, pour les différents pays. comme ci-dessous

Casedata_GBR_202110_timestamp.csv

Casedata_ARG_202110_timestamp.csv

maintenant, je dois processus de prendre ces fichiers processus par pays sage et de copie de dossiers respectifs. mon dossier de destination de la structure comme

2021-->11-->GBR

2021-->11-->ARG

Dans spark scala/scala m'aider à écrire du code pour traiter les fichiers par pays et à se déplacer de pays respectif dossier.

Question 2

Il semble que vous êtes à la recherche pour partitionBy définie sur DataFrameWriter. À partir de la scaladoc:

def partitionBy(colNames: String*): DataFrameWriter[T]

Partitions la sortie, dans les colonnes du système de fichiers. Si spécifié, la sortie est définie sur le système de fichier similaires à la Ruche du schéma de partitionnement. Par exemple, lorsque nous partition d'un ensemble de données par année, puis le mois, le répertoire de mise en page pourrait ressembler à:

year=2016/month=01/
year=2016/month=02/

Le partitionnement est l'un des plus largement utilisé des techniques pour optimiser la disposition des données. Il fournit une grossière de l'index pour sauter de données inutiles lit lorsque les requêtes ont des prédicats sur les colonnes partitionnées. Pour le partitionnement, le nombre de valeurs distinctes dans chaque colonne doit être généralement moins de dizaines de milliers de personnes.

Ceci est applicable pour tous les fichiers sources de données (par exemple, Parquet, JSON), à partir de l'Étincelle 2.1.0.

Jarrod Baker · Answer 1 · 2021-11-24T08:25:52

Il semble que vous êtes à la recherche pour partitionBy définie sur DataFrameWriter. À partir de la scaladoc:

def partitionBy(colNames: String*): DataFrameWriter[T]

Partitions la sortie, dans les colonnes du système de fichiers. Si spécifié, la sortie est définie sur le système de fichier similaires à la Ruche du schéma de partitionnement. Par exemple, lorsque nous partition d'un ensemble de données par année, puis le mois, le répertoire de mise en page pourrait ressembler à:

year=2016/month=01/
year=2016/month=02/

Le partitionnement est l'un des plus largement utilisé des techniques pour optimiser la disposition des données. Il fournit une grossière de l'index pour sauter de données inutiles lit lorsque les requêtes ont des prédicats sur les colonnes partitionnées. Pour le partitionnement, le nombre de valeurs distinctes dans chaque colonne doit être généralement moins de dizaines de milliers de personnes.

Ceci est applicable pour tous les fichiers sources de données (par exemple, Parquet, JSON), à partir de l'Étincelle 2.1.0.

est-il de toute façon à obtenir comme 2016/01 et foreach aider à itérer un par un fichier
j'ai pour traiter un par un fichier dans dataframe et les copier dans le blob

Parcourir les fichiers à partir du dossier et de les traiter en scala

La question

La meilleure réponse

Dans d'autres langues

Cette page est dans d'autres langues

Populaires dans cette catégorie

Questions populaires dans cette catégorie