网DAI之家简单爬取

用requests和bs做个简单的爬取网DAI之家的例子。

只做笔记用。

#!/usr/bin/python3

import requests
from bs4 import BeautifulSoup
import re
import xlwt

class wdzj_spider:
    pingTaiInfo = []

    def request(self, url):
        headers = {'User-Agent': "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1"}
        return requests.get(url, headers=headers)

    def saveToExcel(self, infoList, fileName='resultme.xls', sheetName='www.wdzj.com'):

        # 对于要写入的每一个元素，先找他的title在哪列，写入到对应的列去
        rowNo = 1
        excelTitle = {}

        book = xlwt.Workbook()  # 打开一个excel
        if book is None:
            print("创建文件{0}失败".format(fileName))
            return None
        sheet = book.add_sheet(sheetName)  # 根据顺序获取sheet
        if sheet is None:
            print("创建表单{0}失败".format(sheetName))
            return None

        for info in infoList:
            for item in info.items():
                if str(item[0]) in excelTitle:
                    colNo = excelTitle[item[0]]
                else:
                    colNo = len(excelTitle)
                    excelTitle[str(item[0])] = colNo
                sheet.write(rowNo, colNo, str(item[1]))
            rowNo = rowNo + 1
        for m in excelTitle.items():
            sheet.write(0, m[1], m[0])
        book.save(fileName)
        return rowNo

    def getDataplaneFromPage(self, Link):
        mainHtml = self.request(Link)
        dataInfo = {}
        #默认编码有问题，需手动转码
        txtUTF8 = str(mainHtml.content, 'utf-8')
        mainBS = BeautifulSoup(txtUTF8, "lxml",from_encoding="utf8")
        lis = mainBS.find_all('li', attrs={'class':'normal'})
        for tr in lis:
            divs = tr.find_all('div')
            dataInfo[divs[1].text.strip()] = divs[0].text.strip()
        # print("数据={0}".format(dataInfo))
        return dataInfo

    def getGongshangFromPage(self, Link):
        mainHtml = self.request(Link)
        gongshangInfo = {}
        #默认编码有问题，需手动转码
        txtUTF8 = str(mainHtml.content, 'utf-8')
        mainBS = BeautifulSoup(txtUTF8, "lxml",from_encoding="utf8")
        trs = mainBS.find('div', attrs={'class':'lcen'}).find_all('tr')
        for tr in trs:
            tdTitles = tr.find_all('td', attrs={'class':'t'})
            tds = tr.find_all('td')
            index = 1
            for td in tdTitles:
                gongshangInfo[td.text] = tds[index].text.strip('    \n\r')
                index = index + 2
        # print("工商信息={0}".format(gongshangInfo))
        return gongshangInfo

    def getLinkFromPage(self, pingtaiName, pingtaiLink):
        shujuInfo = {}
        lianxifangshiInfo = {}
        pingtaiHtml = self.request(pingtaiLink)
        #默认编码有问题，需手动转码
        txtUTF8 = str(pingtaiHtml.content, 'utf-8')
        mainBS = BeautifulSoup(txtUTF8, "lxml",from_encoding="utf8")
        briefText = mainBS.find("div", class_="cen-zk").get_text().strip('    \n\r')
        briefInfo={"P2P平台名称":pingtaiName, "简介":briefText}
        # print("简介={0}".format(briefText))
        gongshangLink = 'https://'+mainBS.find('a', text='工商/备案')['href'].lstrip('/')
        dataA = mainBS.find('div', attrs={'class':'common-header-nav'}).find('a', text='数据')

        lianxifangshiTitles =mainBS.find('div', attrs={'class':"da-lxfs zzfwbox"}).find_all('div', class_='l')
        lianxifangshiContents = mainBS.find('div', attrs={'class': "da-lxfs zzfwbox"}).find_all('div', class_='r')

        for i in range(0, len(lianxifangshiTitles)):
            lianxifangshiInfo[lianxifangshiTitles[i].get_text().strip('    \n\r')] = lianxifangshiContents[i].get_text().strip('    \n\r')
        # print("联系方式={0}".format(lianxifangshiInfo))

        if dataA:
            dataLink =  'https://' + dataA['href'].lstrip('/')
            shujuInfo = self.getDataplaneFromPage(dataLink)

        gongshangInfo = self.getGongshangFromPage(gongshangLink)
        self.pingTaiInfo.append({**briefInfo, **gongshangInfo, **shujuInfo, **lianxifangshiInfo})

    def getAllPage(self):
        startUrl = 'https://www.wdzj.com/dangan/search?filter=&sort=1&currentPage=1'
        mainHtml = self.request(startUrl)
        pageStr = BeautifulSoup(mainHtml.text, "lxml").find("span", class_="all").text
        searchObj = re.search(r'1/([0-9]+)', pageStr, re.M | re.I)
        pageCount = searchObj.group(1)

        startUrl = 'https://www.wdzj.com/dangan/search?filter=&sort=1&currentPage='
        baseUrl = 'https://www.wdzj.com'

        print("总页数：{0}".format(pageCount))
        for i in range(1, int(pageCount)+1):
        # for i in range(1, 2):

            urlPage = startUrl + str(i)
            pageHtml = self.request(urlPage)
            pageStrs = BeautifulSoup(pageHtml.text, "lxml").find('ul',attrs={'class':'terraceList'}).find_all('h2')

            print("---------------------------------")
            print("开始爬取第{0}页，共存在{1}个平台数据".format(i, len(pageStrs)))
            for p in pageStrs:
                a = p.find('a')
                self.getLinkFromPage(a.get_text(), baseUrl+a['href'])
                print("#", end='',flush=True)
            print("\n结束爬取第{0}页，共爬取{1}个平台数据".format(i,len(pageStrs)))
        self.saveToExcel(self.pingTaiInfo,fileName='p2p.xls')

if __name__ == '__main__':
    w = wdzj_spider()
    w.getAllPage()

做下修改

 #!/usr/bin/python3

 import requests

 from bs4 import BeautifulSoup

 import re

 import xlwt

 class wdzj_spider:

     pingTaiInfo = []

     book=None

     sheet=None

     excelTitle = {}

     rowNo = 1

     def request(self, url):

         headers = {'User-Agent': "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1"}

         return requests.get(url, headers=headers)

     def openExcel(self, fileName='resultme.xls',sheetName='www.wdzj.com'):

         self.book = xlwt.Workbook()  # 打开一个excel

         if self.book is None:

             print("创建文件{0}失败".format(fileName))

             return None

         self.sheet = self.book.add_sheet(sheetName)  # 根据顺序获取sheet

         if self.sheet is None:

             print("创建表单{0}失败".format(sheetName))

             return None

     def closeExcel(self, fileName='resultme.xls'):

         for m in self.excelTitle.items():

             self.sheet.write(0, m[1], m[0])

         self.book.save(fileName)

     def saveToExcel(self, infoList, fileName='resultme.xls'):

         # 对于要写入的每一个元素，先找他的title在哪列，写入到对应的列去

         for info in infoList:

             for item in info.items():

                 if str(item[0]) in self.excelTitle:

                     colNo = self.excelTitle[item[0]]

                 else:

                     colNo = len(self.excelTitle)

                     self.excelTitle[str(item[0])] = colNo

                 self.sheet.write(self.rowNo, colNo, str(item[1]))

             self.rowNo = self.rowNo + 1

         self.book.save(fileName)

         return self.rowNo

     def getDataplaneFromPage(self, Link):

         mainHtml = self.request(Link)

         dataInfo = {}

         #默认编码有问题，需手动转码

         txtUTF8 = str(mainHtml.content, 'utf-8')

         mainBS = BeautifulSoup(txtUTF8, "lxml",from_encoding="utf8")

         lis = mainBS.find_all('li', attrs={'class':'normal'})

         for tr in lis:

             divs = tr.find_all('div')

             dataInfo[divs[1].text.strip()] = divs[0].text.strip()

         # print("数据={0}".format(dataInfo))

         return dataInfo

     def getGongshangFromPage(self, Link):

         mainHtml = self.request(Link)

         gongshangInfo = {}

         #默认编码有问题，需手动转码

         txtUTF8 = str(mainHtml.content, 'utf-8')

         mainBS = BeautifulSoup(txtUTF8, "lxml",from_encoding="utf8")

         trs = mainBS.find('div', attrs={'class':'lcen'}).find_all('tr')

         for tr in trs:

             tdTitles = tr.find_all('td', attrs={'class':'t'})

             tds = tr.find_all('td')

             index = 1

             for td in tdTitles:

                 gongshangInfo[td.text] = tds[index].text.strip('    \n\r')

                 index = index + 2

         # print("工商信息={0}".format(gongshangInfo))

         return gongshangInfo

     def getLinkFromPage(self, pingtaiName, pingtaiLink):

         shujuInfo = {}

         lianxifangshiInfo = {}

         pingtaiHtml = self.request(pingtaiLink)

         #默认编码有问题，需手动转码

         txtUTF8 = str(pingtaiHtml.content, 'utf-8')

         mainBS = BeautifulSoup(txtUTF8, "lxml",from_encoding="utf8")

         briefText = mainBS.find("div", class_="cen-zk").get_text().strip('    \n\r')

         briefInfo={"P2P平台名称":pingtaiName, "简介":briefText}

         # print("简介={0}".format(briefInfo))

         gongshangLink = 'https://'+mainBS.find('a', text='工商/备案')['href'].lstrip('/')

         dataA = mainBS.find('div', attrs={'class':'common-header-nav'}).find('a', text='数据')

         lianxifangshiBox = mainBS.find('div', attrs={'class':"da-lxfs zzfwbox"})

         lianxifangshiTitles=[]

         lianxifangshiContents=[]

         if lianxifangshiBox:

             lianxifangshiTitles =lianxifangshiBox.find_all('div', class_='l')

             lianxifangshiContents = lianxifangshiBox.find_all('div', class_='r')

         for i in range(0, len(lianxifangshiTitles)):

             lianxifangshiInfo[lianxifangshiTitles[i].get_text().strip('    \n\r')] = lianxifangshiContents[i].get_text().strip('    \n\r')

         # print("联系方式={0}".format(lianxifangshiInfo))

         if dataA:

             dataLink =  'https://' + dataA['href'].lstrip('/')

             shujuInfo = self.getDataplaneFromPage(dataLink)

         gongshangInfo = self.getGongshangFromPage(gongshangLink)

         self.pingTaiInfo.append({**briefInfo, **gongshangInfo, **shujuInfo, **lianxifangshiInfo})

     def getAllPage(self):

         startUrl = 'https://www.wdzj.com/dangan/search?filter=&sort=1&currentPage=1'

         mainHtml = self.request(startUrl)

         pageStr = BeautifulSoup(mainHtml.text, "lxml").find("span", class_="all").text

         searchObj = re.search(r'1/([0-9]+)', pageStr, re.M | re.I)

         pageCount = searchObj.group(1)

         startUrl = 'https://www.wdzj.com/dangan/search?filter=&sort=1&currentPage='

         baseUrl = 'https://www.wdzj.com'

         print("总页数：{0}".format(pageCount))

         fileName = 'p2p.xls'

         self.openExcel(fileName)

         for i in range(1, int(pageCount)+1):

         # for i in range(1, 2):

             urlPage = startUrl + str(i)

             pageHtml = self.request(urlPage)

             pageStrs = BeautifulSoup(pageHtml.text, "lxml").find('ul',attrs={'class':'terraceList'}).find_all('h2')

             print("---------------------------------")

             print("开始爬取第{0}页，共存在{1}个平台数据".format(i, len(pageStrs)))

             count=0

             for p in pageStrs:

                 a = p.find('a')

                 try:

                     self.getLinkFromPage(a.get_text(), baseUrl+a['href'])

                     count = count + 1

                 except:

                     print("爬取第{0}个数据，名称<{1}>失败".format(count+1, a.get_text()))

                 print("#", end='',flush=True)

             print("\n结束爬取第{0}页，共爬取{1}个平台数据".format(i,count))

             self.saveToExcel(self.pingTaiInfo, fileName=fileName)

             self.pingTaiInfo.clear()

         self.closeExcel(fileName)

 if __name__ == '__main__':

     w = wdzj_spider()

     w.getAllPage()

网DAI之家简单爬取的更多相关文章

用BeautifulSoup简单爬取BOSS直聘网岗位
用BeautifulSoup简单爬取BOSS直聘网岗位爬取python招聘 import requests from bs4 import BeautifulSoup def fun(path): ...
Golang+chromedp+goquery 简单爬取动态数据
目录 Golang+chromedp+goquery 简单爬取动态数据 Golang的安装下载golang软件解压golang 配置golang 重新导入配置 chromedp框架的使用实际的代 ...
java爬虫-简单爬取网页图片
刚刚接触到“爬虫”这个词的时候是在大一,那时候什么都不明白,但知道了百度.谷歌他们的搜索引擎就是个爬虫. 现在大二.再次燃起对爬虫的热爱,查阅资料,知道常用java.python语言编程,这次我选择了 ...
Python简单爬取Amazon图片-其他网站相应修改链接和正则
简单爬取Amazon图片信息这是一个简单的模板,如果需要爬取其他网站图片信息,更改URL和正则表达式即可 1 import requests 2 import re 3 import os 4 de ...
用python爬虫简单爬取笔趣网：类“起点网”的小说
首先:文章用到的解析库介绍 BeautifulSoup: Beautiful Soup提供一些简单的.python式的函数用来处理导航.搜索.修改分析树等功能. 它是一个工具箱,通过解析文档为用户提供 ...
练习： bs4 简单爬取 + matplotlib 折线图显示（关键词，职位数量、起薪）
要看一种技术在本地的流行程度,最简单的就是找招聘网站按关键词搜索. 比如今天查到的职位数量是vue 1296个,react 1204个,angular 721个.国际上比较流行的是react,本地市场 ...
python网络爬虫--简单爬取糗事百科
刚开始学习python爬虫,写了一个简单python程序爬取糗事百科. 具体步骤是这样的:首先查看糗事百科的url:http://www.qiushibaike.com/8hr/page/2/?s=4 ...
一、python简单爬取静态网页
一.简单爬虫框架简单爬虫框架由四个部分组成:URL管理器.网页下载器.网页解析器.调度器,还有应用这一部分,应用主要是NLP配合相关业务. 它的基本逻辑是这样的:给定一个要访问的URL,获取这个ht ...
python scrapy简单爬虫记录(实现简单爬取知乎)
之前写了个scrapy的学习记录,只是简单的介绍了下scrapy的一些内容,并没有实际的例子,现在开始记录例子使用的环境是python2.7, scrapy1.2.0 首先创建项目在要建立项目的目 ...

随机推荐

nginx关闭日志功能access_log关闭
网上一堆错误示例,我就不吐槽了,未经验证的各种关闭配置.emmm.... 错误示例: error_log off ; access_log on; 以上这些会产生名字为 off/on 的日志文件... ...
ReactNative真机运行
前提条件:USB 调试你需要开启 USB 调试才能在你的设备上安装你的 APP. 首先,确定你已经打开设备的 USB 调试开关确保你的设备已经成功连接.可以输入adb devices来查看: $ ...
Java 之反射机制
反射:框架设计的灵魂框架:是一个可以供我们使用的半成品软件.可以在框架的基础上进行软件开发,简化编码. 反射:将类的各个组成部分封装为其他对象,这就是反射机制. 好处: 1. 可以在程序运行过程中, ...
arm的基本介绍
2440是arm9核,是基于v4 架构 6410是arm11核基于v6架构 210是a8的核基于v7架构前面的是经典阵营,比较老.Arm11之后改为contex系列. Arm7的水准和M3相 ...
JAVA 多线程（一）
进程和线程进程:是一个正在执行中的程序.每一个进程执行都有一个执行顺序,该执行顺序是一个执行路径,或者叫一个控制单元. 线程:就是进程中的一个独立的控制单元. 线程在控制着进程的执行. 在计算机中多 ...
Django之简介
一.MVC模型与MTV模型 MVC模型就是Web服务器开发领域里著名的MVC模式,所谓MVC就是把Web应用分为模型(M),控制器(C)和视图(V)三层,他们之间以一种插件式的.松耦合的方式连接在一起 ...
[ansible-playbook]离线安装ansible 2.3
痛点: 测试环境无法连上外网升级ansible 预计阅读时间:5分钟参考文档 http://docs.ansible.com/ansible/latest/intro_installation.ht ...
基于Java+Selenium的WebUI自动化测试框架（二）-----页面操作接口
在有了基础的Position类之后,我们需要考虑我们在寻找完页面元素之后,需要做什么.这个“做”什么,可以理解为我们在页面上需要对应的一系列动作.比如:点击,输入,切换窗口,寻找元素,判断元素是否存在 ...
k8s的pod的资源调度
1.常用的预选策略 2.优选函数 3.节点亲和调度 3.1.节点硬亲和性 3.2.节点软亲和性 4.Pod资源亲和调度 4.1.Pod硬亲和度 4.2.Pod软亲和度 4.3.Pod反亲和度 5.污点 ...
使用Anaconda管理Python环境
修改镜像源 conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/ conda con ...

网DAI之家简单爬取

网DAI之家简单爬取的更多相关文章

随机推荐

热门专题