首页 编程教程正文

【原创源码】【python】爬虫小白教程之回车桌面图片下载

piaodoo 编程教程 2020-02-22 22:16:59 1277 0 python教程

本文来源吾爱破解论坛

本帖最后由 zb848 于 2020-2-20 22:11 编辑

爬虫小白教程之回车桌面图片下载
作者:随波逐流


前几天在论坛发了个帖子,<第一PPT抓取工具+人教版1-9年级课件抓取工具> 地址:https://www.52pojie.cn/forum.php?mod=viewthread&tid=1106967&page=1#pid29950597
有人问我要教程,我就写了个   本教程主要给小白用,大神跳过。  
爬虫用什么程序,还能是什么,python呗。


第一课:图片资源页面分析
1、找到图片地址:在回车桌面找一张图片页面,如:https://www.enterdesk.com/bizhi/50790.htmlChrome打开,按F12键打开检查页,点击一下左上角第一个箭头按钮,再点击图片页面正面的小图片就定位到小图片的在网页代码中的地址,如下图

未命名-1.gif (336.76 KB, 下载次数: 2)

下载附件  保存到相册

2020-2-20 20:57 上传



小图片地址是https://up.enterdesk.com/edpic_360_360/32/5a/2f/325a2f10c236e3e3f5a15d82ca314daf.jpg
再点击图片上面的“查看清晰大图”进入大图页面,点击“高清显示”,就看到高清大图了,再一样按F12,

找到高清大图片地址:https://up.enterdesk.com/edpic_source/32/5a/2f/325a2f10c236e3e3f5a15d82ca314daf.jpg


看到红色的不同之处,就是说我只要把小图地址中的/edpic_360_360换成/edpic_source就能得到大图地址。


找到user-agent同样是按F12,在network的headers下requests heades下可看到user-agent标志。这个标志是干什么用的,就相当于你电脑的标识,当访问网站时网站就会认为你是台电脑,就让你通过。如果没有带这个标识,某些网站的反爬虫机制就会阻止你访问。一些特别严格的网站反爬虫机制还会需要requests heades下的其他元素做标识判别你是不是爬虫。



第二课:单页图片爬取下载代码 enterdesk_01.py

查看网页代码所有小图片地址的路径,所有小图片都是在一个class='swiper-wrapper'    的DIV中,在这个DIV下又包含多个DIV,每个这样的DIV就包含一张小图的img元素,在img中的src就是小图片地址。
那Xpath的路径就是//div[@class='swiper-wrapper']/div/a/img/@src

@src  表示取img元素中的src的值。

因为有多张图片,我们可以构建一个列表img_list来存储所有图片地址信息。
如: img_list=[img1_url,img2_url,…………]

图片标题是在<h1class="myarc_h1">风车请吹走我的烦恼</h1>   这段代码中。

xpath路径就是//h1[@class='myarc_h1']/text()

text()表示取h1元素下的所有内容。

我们创建一个字符串ing_name存储标题。

[Python] 纯文本查看 复制代码

#随波逐流原创代码:回车桌面图片下载
import os
import requests
from lxml import etree   #requests,lxml控件需要pip安装。什么?不会。小孩子一边玩去。

url="https://www.enterdesk.com/bizhi/50790.html"
headers={"user-agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36"}

response=requests.get(url,headers=headers)  #获取网页
html_str=response.content.decode()   #将页面内容转换成字符串
html=etree.HTML(html_str)             #构造了一个XPath解析对象并对HTML文本进行自动修正

img_list=html.xpath("//div[@class='swiper-wrapper']/div/a/img/@src") #创建图片地址列表,获取图片地址
#print(img_list)   #到这里可打印一下看看获取到的图片地址列表是否正确,最后可注释掉这行
img_name=html.xpath("//h1[@class='myarc_h1']/text()")[0].replace(" ","") #获取图片标题,replace替换掉标题中的空格
#print(img_name)     #到这里可打印一下看看获取到的图片名称是否正确,最后可注释掉这行
try:
    os.mkdir("{}".format(img_name))   #在程序目录下创建一个以“图片标题”命名的文件夹用来保存这一组图片
except:
    pass

for url in img_list:
    url=url.replace("edpic_360_360","edpic_source")   #将小图地址替换成大图地址
    filename=url.split("/")[-1]    #获取图片文件名,split是删除网址中/号前所有字符包括/
    #print(filename)      #可打印一下文件名看是否获取成功,最后可注释掉这行
    f = requests.get(url, headers=headers)         #获取网页地址
    with open(".\\{0}\\{1}".format(img_name,filename), "wb") as code:    # 下载文件
        code.write(f.content)
        print("【{}】高清图片下载完成。".format(filename))

print("全部图片下载完成,保存在程序目录下【{}】文件夹下".format(img_name))



随波逐流原创代码:回车桌面图片下载

import os
import requests
from lxml import etree   #requests,lxml控件需要pip安装。什么?不会。小孩子一边玩去。

url="https://www.enterdesk.com/bizhi/50790.html"
headers={"user-agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36"}

response=requests.get(url,headers=headers)  #获取网页
html_str=response.content.decode()   #将页面内容转换成字符串
html=etree.HTML(html_str)             #构造了一个XPath解析对象并对HTML文本进行自动修正

img_list=html.xpath("//div[@class='swiper-wrapper']/div/a/img/@src") #创建图片地址列表,获取图片地址
print(img_list)   #到这里可打印一下看看获取到的图片地址列表是否正确,最后可注释掉这行
img_name=html.xpath("//h1[@class='myarc_h1']/text()")[0].replace(" ","") #获取图片标题,replace替换掉标题中的空格
print(img_name)     #到这里可打印一下看看获取到的图片名称是否正确,最后可注释掉这行
try:
os.mkdir("{}".format(img_name))   #在程序目录下创建一个以“图片标题”命名的文件夹用来保存这一组图片
except:
pass

for url in img_list:
url=url.replace("edpic_360_360","edpic_source")  #将小图地址替换成大图地址
filename=url.split("/")[-1]    #获取图片文件名,split是删除网址中/号前所有字符包括/
print(filename)      #可打印一下文件名看是否获取成功,最后可注释掉这行
f = requests.get(url, headers=headers)         #获取网页地址
with open(".\{0}\{1}".format(img_name,filename), "wb") as code:    # 下载文件
code.write(f.content)
print("【{}】高清图片下载完成。".format(filename))

print("全部图片下载完成,保存在程序目录下【{}】文件夹下".format(img_name))






第三课:多级页面爬取。上面说的是一个页面下载一组图片,但我们往往需要的是下载一个类型的图片,如这个页面的上级目录是 壁纸-风景 https://www.enterdesk.com/zhuomianbizhi/fengjing/ 怎么下载这个类目下的所有地址呢?很简单啊,向上面的方法一样,先获取页面的每个资源页面地址,用循环重复上面下载单页面的步骤,就将所有页面下载了。

嗨学网 【原创源码】【python】爬虫小白教程之回车桌面图片下载.txt (1.55 KB, 下载次数: 5) 2020-2-20 22:02 上传 点击文件名下载附件
下载积分: 吾爱币 -1 CB



版权声明:

本站所有资源均为站长或网友整理自互联网或站长购买自互联网,站长无法分辨资源版权出自何处,所以不承担任何版权以及其他问题带来的法律责任,如有侵权或者其他问题请联系站长删除!站长QQ754403226 谢谢。

有关影视版权:本站只供百度云网盘资源,版权均属于影片公司所有,请在下载后24小时删除,切勿用于商业用途。本站所有资源信息均从互联网搜索而来,本站不对显示的内容承担责任,如您认为本站页面信息侵犯了您的权益,请附上版权证明邮件告知【754403226@qq.com】,在收到邮件后72小时内删除。本文链接:http://www.piaodoo.com/8098.html

评论

搜索

游戏网站源码,织梦网站源码,wordpress,wordpress主题,wordpress下载,wordpress插件,wordpress.com,wordpress模板,wordpress教程,wordpress 主题,wordpress安装,wordpress 模板,wordpress 插件,wordpress主题下载,wordpress企业主题,wordpress seo,wordpress主题开发,wordpress theme,wordpress论坛,wordpress 企业主题,wordpress主机,wordpress中文主题,wordpress cms主题,wordpress plugin,wordpress 主题下载,wordpress 主机,wordpress空间,wordpress mu,wordpress 模版,wordpress汉化主题,wordpress淘宝客主题,wordpress 空间,wordpress代码,WORDPRESS HOSTING,wordpress优点,wordpress安卓客户端,wordpress技巧,wordpress换空间,wordpress themes,网站模板,ppt模板网站,模板网站,企业网站模板,网站设计模板,免费网站模板,个人网站模板,ppt模板下载网站,网站模板下载,公司网站模板,门户网站模板,学校网站模板,网站首页模板,网站模板免费下载,旅游网站模板,网站后台模板,免费网站模板下载,传奇网站模板,网站建设模板,外贸网站模板,网站 模板,个人主页网站模板,个人网站模板下载,政府网站模板,音乐网站模板,导航网站模板,免费企业网站模板,企业网站模板下载,手表网站模板,韩国网站模板,汽车网站模板,教育网站模板,网站后台管理模板,班级网站模板,新闻网站模板,房产中介网站模板,旅游网站模板下载,工艺品网站模板,电子商务网站模板,旅游网站设计模板,团购网站模板,flash网站模板,个人网站设计模板,婚庆网站模板,广告公司网站模板,商业网站模板,手机网站模板,免费模板网站推荐,ppt免费模板网站推荐,织梦网站模板,html网站模板建站,网站html模板,免费个人网站模板,公司网站源码,sns源码,彩票网站源码,周易网站源码,源码基地,交友源码,学校网站源码,asp.net 源码,源码天下,jsp网站源码,论坛源码下载,广告联盟源码,建站源码,delphi源码,源码爱好者,酷源码,net源码,源码超市,医疗网站源码,flash源码,搜源码,源码程序,dede源码,新闻网站源码,易语言源码大全,旅游网站源码下载,flash 源码,免费源码论坛,android游戏源码,电脑维修网站源码,30源码网,股票软件源码,卖源码,源码教程,安居客 源码,vip源码,家教源码,.net源码下载,Web源码,网络公司源码,佛教网站源码,android源码学习,房产源码,钓鱼网站源码,775源码屋,web游戏源码,成品网站 源码78w78不用下载,h5游戏网站源码,asp网站源码下载,webgame源码,电子商务网站源码,vb.net源码,乐嘿源码,8a商业源码论坛,fbreader源码,在线客服系统 源码,google源码,.net网站源码,快递查询源码,源码搜藏网,dede整站源码,周易 源码,52源码论坛,财经网站源码,织梦下载站源码,qq钓鱼网站源码,flash游戏源码,房产网源码,源码搜搜,电子商务源码,团购网站源码,团购网源码,jsp源码下载,jsp源码,h站源码,8a源码,婚纱摄影网站源码,易语言盗号源码,x站源码,qq空间psd源码,免费商业源码,笑话网站源码,源码集合,源码家园,啊哦源码,星期六源码,源码熊,阿奇源码,百分百源码网,一手日源码资源,旅行网站源码,b站工程源码泄露,新站长源码,8a商业源码,asp论坛源码,flash源码下载,404源码社区,创业网站源码,php网页源码,易支付源码,成品网站w灬源码,免费CMS成品网站源码,成品网站W灬源码1688仙踪林,成品APP短视频源码下载网站,成品网站源码1688可靠吗,免费B2B网站源码,成品APP直播源码下载,国外儿童网站源码在线,成品网站W灬源码1688,源码,成品网站w灬 源码1688,免费源码网站都有哪些,成品网站源码78W78隐藏通道1,网站源码,源码网,源码网站,源码时代,源码之家,源码下载,php源码,易语言源码,源码论坛,源码是什么,商城源码,论坛源码,源码交易,源码站,源码库,免费源码,免费网站ja**源码大全,ja**源码,成品网站w灬源码1377,a5源码,站长源码,成品网站源码78W78隐藏通道1APP,源码分享,网站源码下载,源码中国,asp源码,源码社区,企业网站源码,php源码下载,成品app直播源码搭建,在线观看视频网站源码2021,旅游网站源码,安卓源码,通达信选股公式源码,神马影院php源码,c#源码,成品网站w灬源码1688网页,php 源码,网页游戏源码,android源码下载,源码吧,视频源码大全,成品短视频APP源码搭建,asp源码下载,私服源码,电脑维修源码,个人主页源码,源码出售,php网站源码,刀客源码,网址导航源码,导航网站源码,源码天空,asp 源码,软件源码,精品源码,成品网站源码1688自动跳转,个人网站源码,源码哥,在线考试系统源码,cms源码,c# 源码,商业源码,vb源码,门户网站源码,音乐网站源码,中国源码,安卓源码下载,asp网站源码,在线客服源码,电影网站源码,免费源码下载,整站源码,源码交易网,易语言源码网,.net源码,在线客服系统源码,淘客源码,卡盟源码,网站源码出售,vb源码下载,莎莎源码,熊猫烧香源码,asp.net源码,商业源码网,外贸网站源码,61源码网,zblog模板,zblog企业模板,帝国cms模板,帝国cms插件,discuz模板