0 Pluspunkte 0 Minuspunkte

Wie kann ich den reinen Text einer HTML Seite lesen ohne dabei die HTML Elemente mit zu speichern? Wenn z.B ein

<html>
<head>
<title>Beispiel</title>
</head>
<body>
<p>Hallo <span>Welt</span>.</p>
</body>
</html>

im Text enthalten ist soll nur

Beispiel
Hallo Welt.

davon gelesen werden.

von  

1 Antwort

0 Pluspunkte 0 Minuspunkte

Um den reinen Textinhalt einer HTML-Seite zu extrahieren, ohne die HTML-Tags und -Elemente zu speichern, kannst du die sogenannte "Textextraktion" verwenden.

from bs4 import BeautifulSoup

html = """
<html>
<head>
<title>Beispiel</title>
</head>
<body>
<p>Hallo <span>Welt</span>.</p>
</body>
</html>
"""

soup = BeautifulSoup(html, 'html.parser')
text_content = soup.get_text()

print(text_content)
von