0

Αφαιρέστε τα HTML tags από ένα string

Άλλαξα την πηγή των γιορτών για το twitter εορτολόγιο που έχω κάνει γιατί δεν μου φάνηκε πολύ πλήρης η λίστα που χρησιμοποίησα. Τώρα παίρνω την πληροφορία από ένα γνωστό website, διαβάζοντας την πρώτη σελίδα του, η οποία φυσικά είναι HTML.

Με αυτόν τον κώδικα μπορούμε πολύ εύκολα να κρατήσουμε μόνο τo κείμενο και να αφαιρέσουμε όλα τα HTML tags, που αρχίζουν με < και τελειώνουν με >, όπως και τα spaces &nbsp;.

 
def remove_html_tags(data):
    p = re.compile(r'<.*?>|&nbsp;')
    return p.sub('', data)
 

Ελαφρώς τροποποιημένος από τo site "Life is short - you need Python" ;)