使用webbrowser
打开剪贴板中的网站链接
import webbrowser
import pyperclip
url = pyperclip.paste()
webbrowser.open(url)
从web下载文件
使用requests.get()下载一个网页
import requests
res = requests.get('http://jinjis.cn/index.html')
print(type(res))
print(res.status_code == requests.codes.ok)
print(len(res.text))
print(res.text[:200])
运行结果:
保存下载的文件
使用循环和iter_content()方法,在同目录下新建webfile.txt,以'wb'方式写入二进制数据
WebFile = open('webfile.txt', 'wb')
for text in res.iter_content(10000):
WebFile.write(text)
WebFile.close()
运行结果:
使用BeautifulSoup模块
使用select()寻找元素
webpage = bs4.BeautifulSoup(res.text)
# webpage = bs4.BeautifulSoup(example.html)
logo_span = webpage.select('.logo-span')
print(type(logo_span))
print(logo_span)
运行结果:
aItems = webpage.select('a')
print(type(aItems))
for aItem in aItems:
print(aItem)
运行结果:
通过元素属性获取数据
liItem = webpage.select('li')[0]
print(liItem)
print(liItem.attrs)
print(liItem.get('class'))
运行结果: