Extraire un tableau d'un "PDF" pour le mettre dans "WORD"

PUSSY
Lexique
25 Octobre 2010
5 489
FR-17800 Charente maritime
  • Auteur de la discussion
  • #1
Bonjour,

Ce n'est pas directement lié à l'usinage, mais cela peux servir pour des documents à mettre en ressource.
L’inconvénient des programmes "en ligne" de conversion PDF > WORD est qu'ils donnent une "image".
C'est déjà embêtant pour du texte (mais les lecteurs PDF permettent de copier le texte, donc pas de problème), mais pour les tableaux, c'est très gênant :
l'image n'est pas modifiable et le copier-coller autorisé par les lecteurs PDF "ne marche pas" !
J'ai trouvé un programme en ligne qui opère une reconnaissance de caractères sur le PDF pour ensuite le convertir.
De ce fait, le tableau issu de la conversion est intégralement reproduit (à quelques bugs parfois) et est modifiable comme un tableau créé par Word !
En tant qu'invité, vous ne pouvez convertir que 15 pages par heure (page / page).
Si vous vous inscrivez, vous avez droit à 50 pages (en théorie en un seul fichier mais ça n'a pas fonctionné pour moi, alors j'ai fait p/p).
Apres, il faut "acheter" des pages.
Pour une utilisation occasionnelle, je le recommande :

Exemples d'un tableau recopié depuis la conversion dans le document final.
Quelques rajouts à faire !
L'original (PDF) :
1573581868625.png

Doc final :
1573581624323.png


Cordialement,
PUSSY
 
remi30132
Ouvrier
8 Août 2016
437
nimes
Sinon si tu as une version récente de Word tu peux directement ouvrir le PDF à avec word .
Il te restera juste à faire un copier coller
 
JASON
Compagnon
14 Novembre 2010
1 588
MARSEILLE
Bonjour,
Sinon si tu as une version récente de Word tu peux directement ouvrir le PDF à avec word .
Il te restera juste à faire un copier coller
Tout à fait exact et pour ceux qui ont des anciennes versions, il y a moult convertisseurs PDF/WORD en ligne.
JASON
 
rabotnuc
Compagnon
16 Avril 2008
4 173
fr-50cherbourg
bonjour,
il y a des pdf avec texte caché et des pdf sans texte caché (dit "pdf image") . Pour ceux avec texte caché, la récupération du texte ne pose pas de pb, pour ceux sans texte caché, il faut effectivement un outil de reconnaissance de caractères (OCR). Du coup, il faudrait être plus précis sur les "Outil de conversion pdf/word".
Sinon il existe beaucoup d'OCR dispo sur le net et effectivement un des points durs c'est les tableaux, celui ci-dessus semble bien s'en sortir. Ces outils sont applicables à toutes les images et pas seulement les pdf image.
 
PUSSY
Lexique
25 Octobre 2010
5 489
FR-17800 Charente maritime
  • Auteur de la discussion
  • #6
Sinon si tu as une version récente de Word
Comme beaucoup, je n'ai pas et je préfère investir dans de l'outillége que dans un logiciel qui ne m'apportera pas beaucoup plus que ce que j'ai actuellement (hors mis les PDF).

il y a moult convertisseurs PDF/WORD en ligne.
Il y a, avec l'inconvénient qu'ils sont incapables de restituer un tableau exploitable.

Cordialement,
PUSSY
 
mvt
Compagnon
8 Juin 2014
1 834
FR-91 - RER B
Bonjour,

merci pour l'info.
Sur les pdf "texte", LibreOffice sait les ouvrir sans soucis.
Les pdf image aussi, mais là, on a que les images d'où la nécessité d'un OCR.
 
simon74
Compagnon
3 Mai 2016
1 108
Savoie
Il faut savoir que l'idee meme du PDF est celle d'un "reference electronique", sans la possibilité de modifier le contenu (apart eventuellement mettre les annotations locals), qui peut etre imprimé* a l'identique n'importe ou et avec n'importe lequelle lecteur PDF. La technologie "dessous" est celle de PostScript, un language originellement creé pour l'imprimerie. Dans postscript (et PDF), on peut representer les caracteres individuelles, qui donne la possibilité de rechercher ou extraire* la texte d'origine** ainsi que de l'agrandir ou reduire sans degradation de qualité, on peut faire des graphiques vectorielles qui s'agrandir comme les caracteres, et on peut representer des images "bitmap", generalement en format TIFF a 150 ou 300dpi - celle-ci reste un image sans possibilité d'extraire quoi que ce soit, et ne peut etre agrandi sans degradation.

L'important d'un PDF est de ne pas etre soumis aux polices installé ou pas sur l'ordi, versions de systeme d'exploitation ou logiciel, ect. Il se reproduit a l'identique, partout.

Suivant comment ca a ete cree, un document plutot "textuel" peut consister a que les images, avec ou sans une texte derriere qui peut etre recherché / extrait.

Extraire la texte des PDF est toujours approximatif. Si c'est par OCR, ca ne vaut generalement rien pour les choses techniques. Vu ton exemple dessus, ou 4 45/49 as devenu 44%. Et meme en extraction de texte directe, ca aura pu devenir 445/49, pas mieux. Le mieux - extraire les pages interessants dans leur totalité.

Pour le metre dans Word? Word, ainsi que sa soeur conjoint Excel, c'est un abces sur le cul de l'informatique.

* ce fonctionalité peut etre bloqué pour un document
** mais en regle general, sans aucun formatage, 2¾ en document peut devenir 234 ou 23/4 une fois sorti.
 
geger
Compagnon
9 Mars 2009
1 707
FR-34
Bonjour @PUSSY ,
Je ne suis pas sûr d'avoir compris l'avantage dans #1:
On avait une image dans un PDF, et après conversion on a toujours une image ... :smt017?
(la question —cruciale, certes— de l'OCR mise à part)

Est-il possible de charger un tableau, trouvé sur le web, présenté sous forme de tableau,
pour l'exploiter, vérifier, modifier, étendre dans une aplication de tableur, comme cité précédemment:
Excel, c'est un abces sur le cul de l'informatique.
par exemple...

(pas seulement la présentation, donc),
mais les liens de "calcul" existant entre les cellules,

c'est ce qui m'intéresse, et qui fait pour moi tout l'intérêt d'un tableur :wink:
 
PUSSY
Lexique
25 Octobre 2010
5 489
FR-17800 Charente maritime
On avait une image dans un PDF, et après conversion on a toujours une image
J'ai bien été obligé de mettre une image pour vous montrer comment le tableau avait été importé :
Le bleu montre que le tableau est reconnu par word (il est sélectionné en entier) et les traits blancs que les cases sont bien distinctes.

mais les liens de "calcul" existant entre les cellules,
c'est ce qui m'intéresse, et qui fait pour moi tout l'intérêt d'un tableur
Il faut savoir qu'un tableau EXCEL mis dans Word ne "fonctionne" pas "seul". En cliquant dessus, on retourne dans EXCEL qui seul peut le modifier !

@simon74, Mon but premier était de traduire le document original 'qui est en anglais) et je voulais offrir quelque chose de plus "clair" qu'une image, mais refaire tous les tableau est une tâche titanesque (d'où l'essai de transfert).
 
PUSSY
Lexique
25 Octobre 2010
5 489
FR-17800 Charente maritime
Je rappelle aux intervenants qui parlent de tout et de rien, mais hors sujet, que le but initial était de transférer un tableau (de résultats) pour avoir une présentation modifiable, de meilleurs qualité qu'une simple image sans avoir à recréer les tableaux, sous WORD et non sous EXCEL
Si vous continuez à polluer les posts, personne ne voudra plus intervenir sur le forum, moi le premier !

A bon entendeur, salut.
 
  • Réagir
Reactions: jms
Guy69
Compagnon
3 Mars 2009
1 169
FR-71170
OK. as tu eu ta réponse?

<EDIT: si la réponse #3 ne te convient pas (pour moi c'est la meilleure) peux tu préciser quelle version de Word tu as?>

Cordialement
Guy
 
Dernière édition:
Fred69
Compagnon
2 Décembre 2008
4 144
F-69 sud-ouest Lyon
Comme ça a été dit plusieurs fois, Word (2013 + ?) sait très bien ouvrir un pdf et permet sa modification facilement.
Comme je l'avais demandé en #18 tu n'as pas mit ton fichier pdf en fichier joint, ce qui aurait permis des essais avec différentes méthodes.
Si tu n'as qu'une ancienne version de Word, un membre pouvait te l'ouvrir et te le transférer ...

1574004364003.png
 
Haut