0 Pluspunkte 0 Minuspunkte
Wie kann ich mit Python den Text aus einem PDF Dokument extrahieren?
von  

1 Antwort

0 Pluspunkte 0 Minuspunkte

Mit dem Paket pypdf2 kannst du Text aus PDF Dokumenten extrahieren solange er nicht handgeschrieben bzw. fotografiert ist.

import PyPDF2

pdf_path = 'Lebenslauf.pdf'

pdf_file = open(pdf_path, 'rb')

pdf_reader = PyPDF2.PdfReader(pdf_file)

all_text = ''
for page_num in range(len(pdf_reader.pages)):
    page = pdf_reader.pages[page_num]
    all_text += page.extract_text()

pdf_file.close()

print(all_text)
von