提取HTML中的文本

提出HTML中的文本

使用NTLK,参考自Shatu的代码如下:

1
2
3
4
5
6
7
import nltk
from urllib import urlopen

url = "http://news.bbc.co.uk/2/hi/health/2284783.stm"
html = urlopen(url).read()
raw = nltk.clean_html(html)
print(raw)

将HTML文件转化为Markdown

参考aaronsw/html2text/html2text.py

参考