Text aus PDF extrahieren mit Python

Question

1 Antwort

Diese Community basiert auf dem Prinzip der Selbstregulierung. Beiträge werden von Nutzern erstellt, bewertet und verbessert – ganz ohne zentrale Moderation.

Wer hilfreiche Fragen stellt oder gute Antworten gibt, sammelt Punkte. Mit steigender Punktzahl erhalten Mitglieder automatisch mehr Rechte, zum Beispiel

Kommentare verfassen
Fragen und Antworten bewerten
Themen von Fragen bearbeiten
Fragen, Antworten und Kommentare bearbeiten
Inhalte ausblenden

So entsteht eine Plattform, auf der sich Qualität durchsetzt – getragen von einer engagierten Gemeinschaft.

Anonym · Answer 1

Mit dem Paket pypdf2 kannst du Text aus PDF Dokumenten extrahieren solange er nicht handgeschrieben bzw. fotografiert ist.

import PyPDF2

pdf_path = 'Lebenslauf.pdf'

pdf_file = open(pdf_path, 'rb')

pdf_reader = PyPDF2.PdfReader(pdf_file)

all_text = ''
for page_num in range(len(pdf_reader.pages)):
    page = pdf_reader.pages[page_num]
    all_text += page.extract_text()

pdf_file.close()

print(all_text)

Text aus PDF extrahieren mit Python

Bitte logge dich ein oder melde dich neu an um zu kommentieren.

Deine Antwort

1 Antwort

Bitte logge dich ein oder melde dich neu an um zu kommentieren.

Text aus PDF extrahieren mit Python

Bitte logge dich ein oder melde dich neu an um zu kommentieren.

Deine Antwort

1 Antwort

Bitte logge dich ein oder melde dich neu an um zu kommentieren.

Ähnliche Fragen