Python实现的爬取百度贴吧图片功能完整示例

 更新时间:2019年05月10日 11:57:42   作者:xuezhangjun   我要评论
这篇文章主要介绍了Python实现的爬取百度贴吧图片功能,结合完整实例形式分析了Python实现的百度贴吧图片爬虫相关操作技巧,需要的朋友可以参考下

本文实例讲述了Python实现的爬取百度贴吧图片功能。分享给大家供大家参考,具体如下:

#coding:utf-8
import requests
import urllib2
import urllib
```
from lxml import etree
class Tieba:
  def __init__(self):
    self.tiebaName = raw_input("请输入需要爬取的贴吧:")
    self.beginPage = int(raw_input("请输入爬取的起始页:"))
    self.endPage = int(raw_input("请输入爬取的结束页:"))
    self.baseURL =""
    #self.headers = {"User-Agent" : "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.86 Safari/537.36"}
    self.headers = {"User-Agent" : "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1 Trident/5.0;"} def startWork(self):
    """
      发送贴吧每一页的url请求
    """
    for page in range(self.beginPage, self.endPage + 1):
      pn = (page - 1) * 50
      keyword = {"kw" : self.tiebaName, "pn" : pn}
      kw = urllib.urlencode(keyword)
      url = self.baseURL + "/f?" + kw
      #print url
      html = self.loadRequest(url)
      self.loadPage(html)
  def loadRequest(self, url):
    """
      发送请求,返回响应
      url: 发送请求的url地址
    """
    request = urllib2.Request(url, headers = self.headers)
    #request = urllib2.Request(url)
    response = urllib2.urlopen(request)
    return response.read()
  def loadPage(self, html):
    """
      提取每个帖子的url,并发送请求,获取响应
      html: 贴吧每一页的html
    """
    content = etree.HTML(html)
    print '------'
    print content
    # xpath 返回的所有匹配成功后的结果的列表
    #pagelink_list = content.xpath("//div[@class='threadlist_lz clearfix']/div/a[@class='j_th_tit']/@href")
    pagelink_list = content.xpath("//div[@class='col2_right j_threadlist_li_right']//div/a/@href")
    pagelink_list = content.xpath("//div[@class='t_con cleafix']//div/a/@href")
    for link in pagelink_list:
      print link
      self.loadImage(self.loadRequest(self.baseURL + link))
  def loadImage(self, html):
    """
      提取帖子里用户发送的图片的url地址
      html: 每个帖子的html
    """
    content = etree.HTML(html)
    imagelink_list = content.xpath("//div[@class='p_content ']//img[@class='BDE_Image']/@src")
    for link in imagelink_list:
      self.writeImage(self.loadRequest(link), link[-10:])
  def writeImage(self, data, filename):
    """
      将图片的响应数据,写入到本地磁盘里
      data: 图片的响应数据
      filename: 文件名(图片url的后10位)
    """
    print "正在保存图片...%s" % filename
    with open(filename, "wb") as f:
      f.write(data)
if __name__ == "__main__":
  tieba = Tieba()
  tieba.startWork()

更多关于Python相关内容可查看本站专题:《Python Socket编程技巧总结》、《Python正则表达式用法总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总

希望本文所述对大家Python程序设计有所帮助。

相关文章

  • python删除列表中重复记录的方法

    python删除列表中重复记录的方法

    这篇文章主要介绍了python删除列表中重复记录的方法,涉及Python操作列表的相关技巧,需要的朋友可以参考下
    2015-04-04
  • python3解析库pyquery的深入讲解

    python3解析库pyquery的深入讲解

    做过前端开发的同志都应该知道或了解过jquery,jQuery 是一个用来处理DOM的JavaScript库。pyquery说白了就是jquery的Python版本。下面这篇文章主要给大家介绍了关于python3解析库pyquery的相关资料,需要的朋友可以参考下
    2018-06-06
  • 使用Python脚本将文字转换为图片的实例分享

    使用Python脚本将文字转换为图片的实例分享

    这篇文章主要介绍了使用Python脚本将文字转换为图片的实例分享,主要用到了PIL库,需要的朋友可以参考下
    2015-08-08
  • python 判断矩阵中每行非零个数的方法

    python 判断矩阵中每行非零个数的方法

    今天小编就为大家分享一篇python 判断矩阵中每行非零个数的方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-01-01
  • python实现控制COM口的示例

    python实现控制COM口的示例

    今天小编就为大家分享一篇python实现控制COM口的示例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-07-07
  • tornado 多进程模式解析

    tornado 多进程模式解析

    这篇文章主要介绍了tornado 多进程模式解析,具有一定借鉴价值,需要的朋友可以参考下
    2018-01-01
  • Python和php通信乱码问题解决方法

    Python和php通信乱码问题解决方法

    Python是在windows下的客户端,用的是cp936编码,php用的是utf-8编码,如果单纯使用urllib.urlencode编码之后post发送的话,php接收过来的中文会是类似\xb0\xe1这种形式的编码
    2014-04-04
  • python中nan与inf转为特定数字方法示例

    python中nan与inf转为特定数字方法示例

    这篇文章主要给大家介绍了将python中nan与inf转为特定数字的方法,文中给出了详细的示例代码和运行结果,对大家的理解和学习具有一定的参考学习价值,需要的朋友们下面来一起看看吧。
    2017-05-05
  • Python中的自定义函数学习笔记

    Python中的自定义函数学习笔记

    这篇文章主要介绍了Python中的自定义函数学习笔记,本文讲解了定义函数、callable函数、help函数等内容,需要的朋友可以参考下
    2014-09-09
  • python获得两个数组交集、并集、差集的方法

    python获得两个数组交集、并集、差集的方法

    这篇文章主要介绍了python获得两个数组交集、并集、差集的方法,实例分析了Python操作list集合的技巧,具有一定参考借鉴价值,需要的朋友可以参考下
    2015-03-03

最新评论