python保存网页图片
这个是个比较简单的例子,网页中的图片地址都是使用’http://。。。。.jpg’这种方式直接定义的。
使用前,可以先建立好一个文件夹用于保存图片,本例子中使用的文件夹是 d:\\pythonpath这个文件夹
代码如下:
# -*- coding: utf-8 -*-
import os,re,urllib,uuid
#首先定义云端的网页,以及本地保存的文件夹地址
urlpath=’http://gamebar.com/’
localpath=’d:\\pythonpath’
#从一个网页url中获取图片的地址,保存在
#一个list中返回
def geturllist(urlparam):
urlstream=urllib.urlopen(urlparam)
htmlstring=urlstream.read()
if( len(htmlstring)!=0 ):
patternstring=r’http://.{0,50}\.jpg’
searchpattern=re.compile(patternstring)
imgurllist=searchpattern.findall(htmlstring)
return imgurllist
#生成一个文件名字符串
def generatefilename():
return str(uuid.uuid1())
#根据文件名创建文件
def createfilewithfilename(localpathparam,filename):
totalpath=localpathparam+’\\’+filename
if not os.path.exists(totalpath):
file=open(totalpath,’a+’)
file.close()
return totalpath
#根据图片的地址,下载图片并保存在本地
def getandsaveimg(imgurl):
if( len(imgurl)!= 0 ):
filename=generatefilename()+’.jpg’
urllib.urlretrieve(imgurl,createfilewithfilename(localpath,filename))
#下载函数
def downloadimg(url):
urllist=geturllist(url)
for urlstring in urllist:
getandsaveimg(urlstring)
downloadimg(urlpath)
保存的文件如下:
网页的一部分保存为图片
主要思路是selenium+phantomjs(中文网页需要设置字体)+pil切图
def webscreen():
url = ‘http://www.xxx.com’
driver = webdriver.phantomjs()
driver.set_page_load_timeout(300)
driver.set_window_size(1280,800)
driver.get(url)
imgelement = driver.find_element_by_id(‘xxxx’)
location = imgelement.location
size = imgelement.size
savepath = r’xxxx.png’
driver.save_screenshot(savepath)
im = image.open(savepath)
left = location[‘x’]
top = location[‘y’]
right = left + size[‘width’]
bottom = location[‘y’] + size[‘height’]
im = im.crop((left,top,right,bottom))
im.save(savepath)