您的位置 : 资讯 > 软件教程 > 讲解编写Python爬虫抓取暴走漫画上gif图片的实例代码

讲解编写Python爬虫抓取暴走漫画上gif图片的实例代码

来源:菜鸟下载 | 更新时间:2025-04-28

这篇文章讲解编写python爬虫抓取暴走漫画上gif图片的实例代码,示例代码为python3,利用到了urllib模块、request模块和beautifulsoup模块,需

这篇文章讲解编写python爬虫抓取暴走漫画上gif图片的实例代码,示例代码为python3,利用到了urllib模块、request模块和beautifulsoup模块,需要的朋友可以参考下

本文要介绍的爬虫是抓取暴走漫画上的GIF趣图,方便离线观看。爬虫用的是python3.3开发的,主要用到了urllib、request和BeautifulSoup模块。

urllib模块提供了从万维网中获取数据的高层接口,当我们用urlopen()打开一个URL时,就相当于我们用Python内建的open()打开一个文件。但不同的是,前者接收一个URL作为参数,并且没有办法对打开的文件流进行seek操作(从底层的角度看,因为实际上操作的是socket,所以理所当然地没办法进行seek操作),而后者接收的是一个本地文件名。

Python的BeautifulSoup模块,可以帮助你实现HTML和XML的解析先说一下,一般写网页爬虫,即抓取网页的html源码等内容,然后分析,提取相应的内容。这种分析html内容的工作,如果只是用普通的正则表达式re模块去一点点匹配的话,对于内容简单点的网页分析,还是基本够用。但是对于工作量很大,要解析内容很繁杂的html,那么用re模块,就会发现无法实现,或很难实现。而使用beautifulsoup模块去帮你实现分析html源码的工作的话,你就会发现,事情变得如此简单,极大地提高了分析html源码的效率。注:BeautifulSoup是第三方库,我使用的是bs4。urllib2在python3中被分配到了urllib.request中,文档中的原文如下。Note:The urllib2 module has been split across several modules in Python 3 named urllib.requestand urllib.error.爬虫源代码如下

# -*- coding: utf-8 -*-import urllib.requestimport bs4,ospage_sum = 1 #设置下载页数path = os.getcwd()path = os.path.join(path,'暴走GIF')if not os.path.exists(path):  os.mkdir(path)                 #创建文件夹url = "http://baozoumanhua.com/gif/year"   #url地址headers = {                     #伪装浏览器  'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko)'         ' Chrome/32.0.1700.76 Safari/537.36'}for count in range(page_sum):  req = urllib.request.Request(    url = url+str(count+1),    headers = headers  )  print(req.full_url)  content = urllib.request.urlopen(req).read()  soup = bs4.BeautifulSoup(content)          # BeautifulSoup  img_content = soup.findAll('img',attrs={'style':'width:460px'})  url_list = [img['src'] for img in img_content]   #列表推导 url  title_list = [img['alt'] for img in img_content]  #图片名称  for i in range(url_list.__len__()) :    imgurl = url_list[i]    filename = path + os.sep +title_list[i] + ".gif"    print(filename+":"+imgurl)             #打印下载信息    urllib.request.urlretrieve(imgurl,filename)    #下载图片

登录后复制

立即学习“Python免费学习笔记(深入)”;

在第15行可以修改下载页数,将此文件保存为baozougif.py,使用命令python baozougif.py运行后在同目录下会生成「暴走GIF」的文件夹,所有的图片会自动下载到该目录中。

菜鸟下载发布此文仅为传递信息,不代表菜鸟下载认同其观点或证实其描述。

展开
逆转足球游戏
逆转足球游戏
类型:体育竞技 运营状态:公测 语言:简体中文
足球 竞技 卡通
前往下载

相关文章

更多>>

热门游戏

更多>>

手机扫描此二维码,

在手机上查看此页面

关于本站 下载帮助 版权声明 网站地图

版权投诉请发邮件到 cn486com#outlook.com (把#改成@),我们会尽快处理

Copyright © 2019-2020 菜鸟下载(www.cn486.com).All Reserved | 备案号:湘ICP备2022003375号-1

本站资源均收集整理于互联网,其著作权归原作者所有,如有侵犯你的版权,请来信告知,我们将及时下架删除相应资源