lima-city: Webhosting, Domains und Cloud
0 Pluspunkte 0 Minuspunkte
Wie kann ich mit Python den Text aus einem PDF Dokument extrahieren?
von  

1 Antwort

0 Pluspunkte 0 Minuspunkte

Mit dem Paket pypdf2 kannst du Text aus PDF Dokumenten extrahieren solange er nicht handgeschrieben bzw. fotografiert ist.

import PyPDF2

pdf_path = 'Lebenslauf.pdf'

pdf_file = open(pdf_path, 'rb')

pdf_reader = PyPDF2.PdfReader(pdf_file)

all_text = ''
for page_num in range(len(pdf_reader.pages)):
    page = pdf_reader.pages[page_num]
    all_text += page.extract_text()

pdf_file.close()

print(all_text)
von  
Diese Community basiert auf dem Prinzip der Selbstregulierung. Beiträge werden von Nutzern erstellt, bewertet und verbessert – ganz ohne zentrale Moderation.

Wer hilfreiche Fragen stellt oder gute Antworten gibt, sammelt Punkte. Mit steigender Punktzahl erhalten Mitglieder automatisch mehr Rechte, zum Beispiel

  • Kommentare verfassen
  • Beiträge bewerten
  • Inhalte bearbeiten
  • Inhalte ausblenden

So entsteht eine Plattform, auf der sich Qualität durchsetzt – getragen von einer engagierten Gemeinschaft. Unser Ziel: Guter Inhalt. Für alle.

2.3k Fragen

2.8k Antworten

260 Kommentare

12 Nutzer