Mit dem Paket pypdf2 kannst du Text aus PDF Dokumenten extrahieren solange er nicht handgeschrieben bzw. fotografiert ist.
import PyPDF2
pdf_path = 'Lebenslauf.pdf'
pdf_file = open(pdf_path, 'rb')
pdf_reader = PyPDF2.PdfReader(pdf_file)
all_text = ''
for page_num in range(len(pdf_reader.pages)):
page = pdf_reader.pages[page_num]
all_text += page.extract_text()
pdf_file.close()
print(all_text)