J'ai essayé d'extraire des tableaux à partir de fichiers Pdf qui ne sont pas au bon format que je pense. Les tableaux de ces fichiers ont un format de tableau mais pas fermé correctement avec verical frontières. Je vais joindre l'exemple de fichier pdf et de sortie avec les deux bibliothèques. Quand j'ai essayé d'utiliser la table pour la table de détection, un vide datadrame est retourné sur toutes les pages en pdf.
entrez 0 pour les pages uniques, 1 pour tous, 2 pour page spécifique: 2 entrez le numéro de page: 25 pas de tables trouvé sur cette page par tabula.
Et quand j'utilise camelot il n'y a même pas de réponse quand je l'utilise flovor='lattice'
entrez 0 pour les pages uniques, 1 pour toutes les pages, 2 pages dans les tableaux sont détectés par tabula, 3 pour des pages spécifiques: 3 entrez 0 pour un treillis ou d'1 pour stream: 0 entrez le numéro de page: 25 pas de tables trouvé sur cette page par camelot.
et quand j'utilise flovor='stream'
, Je reçois un dataframe que a chaque ligne de lire ligne par ligne, avec séparées par une tabulation des données, mais il faudra inclure du texte normal dans la mesure où dataframe.
entrez 0 pour les pages uniques, 1 pour toutes les pages, 2 pages dans les tableaux sont détectés par tabula, 3 pour des pages spécifiques: 3 entrez 0 pour le treillis ou 1 pour les flux: 1 entrez le numéro de page: 25
J'ai juste besoin d'un moyen efficace pour détecter la table et d'en extraire les mêmes données vertical joignant la table de lignes ne sont pas présents. Les deux tabula et camelot bibliothèques fonctionnent très bien si la table est dans le bon format délimitée par des lignes verticales et horizontales.