提出HTML中的文本
使用NTLK,参考自Shatu的代码如下:1
2
3
4
5
6
7import nltk
from urllib import urlopen
url = "http://news.bbc.co.uk/2/hi/health/2284783.stm"
html = urlopen(url).read()
raw = nltk.clean_html(html)
print(raw)
将HTML文件转化为Markdown
参考aaronsw/html2text/html2text.py