0
Αφαιρέστε τα HTML tags από ένα string
Άλλαξα την πηγή των γιορτών για το twitter εορτολόγιο που έχω κάνει γιατί δεν μου φάνηκε πολύ πλήρης η λίστα που χρησιμοποίησα. Τώρα παίρνω την πληροφορία από ένα γνωστό website, διαβάζοντας την πρώτη σελίδα του, η οποία φυσικά είναι HTML.
Με αυτόν τον κώδικα μπορούμε πολύ εύκολα να κρατήσουμε μόνο τo κείμενο και να αφαιρέσουμε όλα τα HTML tags, που αρχίζουν με < και τελειώνουν με >, όπως και τα spaces .
def remove_html_tags(data): p = re.compile(r'<.*?>| ') return p.sub('', data)
Ελαφρώς τροποποιημένος από τo site "Life is short - you need Python"