Python网络爬虫 - 爬取中证网银行相关信息

最终版：07_中证网（Plus -Pro）.py

# coding=utf-8

import requests

from bs4 import BeautifulSoup

import io

import sys

import os

sys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding='gb18030')  # 改变标准输出的默认编码

for qq in range(8):

    # query = input("【中证网】请输入你想搜索的内容：")

    query = '苏州银行'

    #年份

    year = [2014,2015,2016,2017,2018,2019,2020,2021]

    #总页数

    pages = [2,1,1,1,11,1,19,7]

    year = year[qq]

    pages = pages[qq]

    if not os.path.isdir(f'D:/桌面/爬虫-银行/中国证券网/{query}'):  # 如果没有此文件夹

        os.mkdir(f'D:/桌面/爬虫-银行/中国证券网/{query}')  # 创建此文件夹

    m = 0

    for p in range(1, pages + 1):

        url = f'http://search.cs.com.cn/search?page={p}&channelid=215308&searchword={query}&keyword={query}&token=12.1462412070719.47&perpage=10&outlinepage=5&&andsen=&total=&orsen=&exclude=&searchscope=&timescope=&timescopecolumn=&orderby=&timeline=={year}'

        dic = {

            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.71 Safari/537.36"}

        resp = requests.get(url, headers=dic, )

        resp.encoding = 'utf-8'

        # print(resp)

        print(f'\n>>>--------------------第{p}页---------------------<<<\n')

        print(f'\n>>>--------------------第{p}页---------------------<<<\n')

        print(f'\n>>>--------------------第{p}页---------------------<<<\n')

        # print(resp.text)

        page = BeautifulSoup(resp.text, "html.parser")  # 指定html解析器

        alist = page.find_all("table")

        datalist = []

        for ii in alist:

            ss=ii.find('td', style='font-size: 12px;line-height: 24px;color: #333333;margin-top: 4px;')

            # print('ss=\n\n',ss)

            if ss != None:

                ss = ss.get_text()

                datalist.append(ss)

        # print('data:',datalist,len(datalist))

        if not os.path.isdir(f'D:/桌面/爬虫-银行/中国证券网/{query}/{year}'):  # 如果没有此文件夹

            os.mkdir(f'D:/桌面/爬虫-银行/中国证券网/{query}/{year}')  # 创建此文件夹

        for ii in range(len(datalist)):

            fp = open(f'D:/桌面/爬虫-银行/中国证券网/{query}/{year}/({year}){ii + m + 1}.txt', 'w+', encoding='utf-8')

            fp.write(datalist[ii] + '\n')  # 只包含文本

            print(datalist[ii])

            print(f'\n> > >{year}年，第{p}页，第{ii + 1}篇，成功! < < <')

            fp.close()

        m = m + len(datalist) + 1

print('----------------------------')

print(f'------\n{year}年,爬取完毕----')

print('----------------------------')

历史优化记录：01_中证网.py

# coding=utf-8

import requests

from bs4 import BeautifulSoup

import io

import sys

sys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding='gb18030')  # 改变标准输出的默认编码

query = input("【中证网】请输入你想搜索的内容：")

pages = int(input("要爬取的页数(不小于1)："))

if pages < 1:

    exit()

url = f'http://search.cs.com.cn/search?channelid=215308&perpage=&templet=&token=12.1462412070719.47&searchword={query}'

dic = {

    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.89 "

                  "Safari/537.36 SLBrowser/7.0.0.6241 SLBChan/30"}

resp = requests.get(url, headers=dic, )

resp.encoding = 'utf-8'

# print(resp)

# print(resp.text)

page = BeautifulSoup(resp.text, "html.parser")  # 指定html解析器

alist = page.find("table").find_all("a")

# print(alist)

weblist = []

for a in alist:

    if a.get('href')[:5] == "https":

        weblist.append(a.get('href'))

# ----------------单页每个文章---------------------------------

m = 0

for ii in range(len(weblist)):

    url_a = weblist[ii]

    # print('0=',url_a)

    dic_a = {

        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.89 "

                      "Safari/537.36 SLBrowser/7.0.0.6241 SLBChan/30"}

    resp_a = requests.get(url_a, headers=dic_a, )

    resp_a.encoding = 'gbk'

    # print('New:\n',resp_a.text)

    page_a = BeautifulSoup(resp_a.text, "html.parser")  # 指定html解析器

    # print('123:\n',page_a)

    page_b = page_a.find('section').find_all('p')

    # print(page_b)

    fp=open(f'D:/桌面/爬虫-银行/中国证券网/中国银行/{ii+1}.txt','w+',encoding='utf-8')

    txt_list = []

    for txt_a in page_b:

        # print(txt_a.text)

        txt_list.append(txt_a.text)

    # +++++++++++++++++++++++++++++++++++++++++++++++++++++++++

    # ++++++++++++++++++++++文本写入+++++++++++++++++++++++++++++++

    for i in range(len(txt_list)):

        fp.write(txt_list[i] + '\n')  # 只包含文本

    fp.close()

    print(f'>>{ii+1}成功!')

    m = ii+1

# +-+++-----------++++++++++-----多页------++++++++++++----------++++

if pages > 1:

    for p in range(pages):

        url_s = f"http://search.cs.com.cn/search?page={p+1}&channelid=215308&searchword={query}"

        resp = requests.get(url, headers=dic, )

        resp.encoding = 'utf-8'

        # print(resp)

        # print(resp.text)

        page = BeautifulSoup(resp.text, "html.parser")  # 指定html解析器

        alist = page.find("table").find_all("a")

        # print(alist)

        weblist = []

        for a in alist:

            if a.get('href')[:5] == "https":

                weblist.append(a.get('href'))

        # ----------------单页每个文章---------------------------------

        for ii in range(len(weblist)):

            url_a = weblist[ii]

            # print('0=',url_a)

            dic_a = {

                "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.89 "

                              "Safari/537.36 SLBrowser/7.0.0.6241 SLBChan/30"}

            resp_a = requests.get(url_a, headers=dic_a, )

            resp_a.encoding = 'gbk'

            # print('New:\n',resp_a.text)

            page_a = BeautifulSoup(resp_a.text, "html.parser")  # 指定html解析器

            # print('123:\n',page_a)

            page_b = page_a.find('section').find_all('p')

            # print(page_b)

            fp = open(f'D:/桌面/爬虫-银行/中国证券网/中国银行/{ii + 1 + m}.txt', 'w+', encoding='utf-8')

            txt_list = []

            for txt_a in page_b:

                # print(txt_a.text)

                txt_list.append(txt_a.text)

            # +++++++++++++++++++++++++++++++++++++++++++++++++++++++++

            # ++++++++++++++++++++++文本写入+++++++++++++++++++++++++++++++

            for i in range(len(txt_list)):

                fp.write(txt_list[i] + '\n')  # 只包含文本

            print(f'>>{ii + 1 + m}成功!')

            m = m + ii + 1

fp.close()

print('---------------\n>>>爬取完毕<<<')

历史优化记录：02_中证网.py

# coding=utf-8

import requests

from bs4 import BeautifulSoup

import io

import sys

sys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding='gb18030')  # 改变标准输出的默认编码

query = input("【中证网】请输入你想搜索的内容：")

pages = int(input("要爬取的页数(不小于1)："))

if pages < 1:

    exit()

url = f'http://search.cs.com.cn/search?page=1&channelid=215308&searchword={query}'

dic = {

    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.89 "

                  "Safari/537.36 SLBrowser/7.0.0.6241 SLBChan/30"}

resp = requests.get(url, headers=dic, )

resp.encoding = 'utf-8'

# print(resp)

# print(resp.text)

page = BeautifulSoup(resp.text, "html.parser")  # 指定html解析器

alist = page.find("table").find_all("a")

# print(alist)

weblist = []

for a in alist:

    if a.get('href')[:5] == "https":

        weblist.append(a.get('href'))

# ----------------单页每个文章---------------------------------

m = 0

for ii in range(len(weblist)):

    url_a = weblist[ii]

    # print('0=',url_a)

    dic_a = {

        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.89 "

                      "Safari/537.36 SLBrowser/7.0.0.6241 SLBChan/30"}

    resp_a = requests.get(url_a, headers=dic_a, )

    resp_a.encoding = 'gbk'

    # print('New:\n',resp_a.text)

    page_a = BeautifulSoup(resp_a.text, "html.parser")  # 指定html解析器

    # print('123:\n',page_a)

    page_b = page_a.find('section').find_all('p')

    # print(page_b)

    fp=open(f'D:/桌面/爬虫-银行/中国证券网/中国银行/0/(2021){ii+1}.txt','w+',encoding='utf-8')

    txt_list = []

    for txt_a in page_b:

        # print(txt_a.text)

        txt_list.append(txt_a.text)

    # +++++++++++++++++++++++++++++++++++++++++++++++++++++++++

    # ++++++++++++++++++++++文本写入+++++++++++++++++++++++++++++++

    for i in range(len(txt_list)):

        fp.write(txt_list[i] + '\n')  # 只包含文本

    fp.close()

    print(f'>>{ii+1}成功!')

    m = ii+1

# +-+++-----------++++++++++-----多页------++++++++++++----------++++

# +-+++-----------++++++++++-----多页------++++++++++++----------++++

if pages > 1:

    for p in range(pages):

        url_s = f"http://search.cs.com.cn/search?page={p+1}&channelid=215308&searchword={query}"

        resp = requests.get(url, headers=dic, )

        resp.encoding = 'utf-8'

        # print(resp)

        # print(resp.text)

        page = BeautifulSoup(resp.text, "html.parser")  # 指定html解析器

        alist = page.find("table").find_all("a")

        # print(alist)

        weblist = []

        for a in alist:

            if a.get('href')[:5] == "https":

                weblist.append(a.get('href'))

        # ----------------单页每个文章---------------------------------

        for ii in range(len(weblist)):

            url_a = weblist[ii]

            # print('0=',url_a)

            dic_a = {

                "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.89 "

                              "Safari/537.36 SLBrowser/7.0.0.6241 SLBChan/30"}

            resp_a = requests.get(url_a, headers=dic_a, )

            resp_a.encoding = 'gbk'

            # print('New:\n',resp_a.text)

            page_a = BeautifulSoup(resp_a.text, "html.parser")  # 指定html解析器

            # print('123:\n',page_a)

            page_b = page_a.find('section').find_all('p')

            # print(page_b)

            fp = open(f'D:/桌面/爬虫-银行/中国证券网/中国银行/0/(2021){ii + 1 + m}.txt', 'w+', encoding='utf-8')

            txt_list = []

            for txt_a in page_b:

                # print(txt_a.text)

                txt_list.append(txt_a.text)

            # +++++++++++++++++++++++++++++++++++++++++++++++++++++++++

            # ++++++++++++++++++++++文本写入+++++++++++++++++++++++++++++++

            for i in range(len(txt_list)):

                fp.write(txt_list[i] + '\n')  # 只包含文本

            print(f'>>{ii + 1 + m}成功!')

        m = m + ii + 1

fp.close()

print('---------------\n>>>爬取完毕<<<')

历史优化记录：03_中证网.py

# coding=utf-8

import requests

from bs4 import BeautifulSoup

import io

import sys

sys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding='gb18030')  # 改变标准输出的默认编码

query = input("【中证网】请输入你想搜索的内容：")

pages = int(input("要爬取的页数(不小于1)："))

if pages < 1:

    exit()

m = 0

for p in range(1,pages+1):

    url = f'http://search.cs.com.cn/search?page={p}&channelid=215308&searchword={query}&perpage=10&outlinepage=5&&andsen=&total=&orsen=&exclude=&searchscope=&timescope=&timescopecolumn=&orderby=&timeline==2021'

    dic = {

        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.71 Safari/537.36"}

    resp = requests.get(url, headers=dic, )

    resp.encoding = 'utf-8'

    # print(resp)

    print(f'\n>>>--------------------第{p}页---------------------<<<\n')

    print(f'\n>>>--------------------第{p}页---------------------<<<\n')

    print(f'\n>>>--------------------第{p}页---------------------<<<\n')

    # print(resp.text)

    page = BeautifulSoup(resp.text, "html.parser")  # 指定html解析器

    alist = page.find("table").find_all('a')

    weblist = []

    for a in alist:

        if a.get('href')[:5] == "https":

            weblist.append(a.get('href'))

    # print('weblist==',weblist)

# ----------------单页每个文章---------------------------------

    for ii in range(len(weblist)):

        url_a = weblist[ii]

        # print('0=',url_a)

        dic_a = {

            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.71 Safari/537.36"}

        resp_a = requests.get(url_a, headers=dic_a, )

        resp_a.encoding = 'gbk'

        # print('New:\n',resp_a.text)

        page_a = BeautifulSoup(resp_a.text, "html.parser")  # 指定html解析器

        # print('123:\n',page_a)

        page_b = page_a.find('section').find_all('p')

        # print(page_b)

        fp=open(f'D:/桌面/爬虫-银行/中国证券网/中国银行/2021/(2021){ii+m+1}.txt','w+',encoding='utf-8')

        txt_list = []

        for txt_a in page_b:

            # print('txt_a===',txt_a.text)

            txt_list.append(txt_a.text)

        print(f'\n-++++++++++++++++++第{ii+1}篇文章++++++++++++++++-\n',txt_list,len(txt_list))

        # +++++++++++++++++++++++++++++++++++++++++++++++++++++++++

        # ++++++++++++++++++++++文本写入+++++++++++++++++++++++++++++++

        for i in range(len(txt_list)):

            fp.write(txt_list[i] + '\n')  # 只包含文本

        # print('-----------------------------------')

        print(f'\n> > >{ii+1}成功! < < <')

        fp.close()

    m=m+len(weblist)+1

print('---------------\n>>>爬取完毕<<<')

历史优化记录：04_中证网(网址筛选问题).py

# coding=utf-8

import requests

from bs4 import BeautifulSoup

import io

import sys

sys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding='gb18030')  # 改变标准输出的默认编码

query = input("【中证网】请输入你想搜索的内容：")

pages = int(input("要爬取的页数(不小于1)："))

if pages < 1:

    exit()

m = 0

for p in range(1,pages+1):

    url = f'http://search.cs.com.cn/search?page={pages}&channelid=215308&searchword={query}&keyword={query}&token=12.1462412070719.47&perpage=10&outlinepage=5&&andsen=&total=&orsen=&exclude=&searchscope=&timescope=&timescopecolumn=&orderby=&timeline==2020'

    dic = {

        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.71 Safari/537.36"}

    resp = requests.get(url, headers=dic, )

    resp.encoding = 'utf-8'

    # print(resp)

    print(f'\n>>>--------------------第{p}页---------------------<<<\n')

    print(f'\n>>>--------------------第{p}页---------------------<<<\n')

    print(f'\n>>>--------------------第{p}页---------------------<<<\n')

    # print(resp.text)

    page = BeautifulSoup(resp.text, "html.parser")  # 指定html解析器

    alist = page.find("table").find_all('a')

    print('alist:',alist)

    weblist = []

    for a in alist:

        if a.get('href')[4:] == "http":

            weblist.append(a.get('href'))

    print('weblist==',weblist)

# ----------------单页每个文章---------------------------------

    for ii in range(len(weblist)):

        url_a = weblist[ii]

        # print('0=',url_a)

        dic_a = {

            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.71 Safari/537.36"}

        resp_a = requests.get(url_a, headers=dic_a, )

        resp_a.encoding = 'gbk'

        # print('New:\n',resp_a.text)

        page_a = BeautifulSoup(resp_a.text, "html.parser")  # 指定html解析器

        # print('123:\n',page_a)

        page_b = page_a.find('section').find_all('p')

        # print(page_b)

        fp=open(f'D:/桌面/爬虫-银行/中国证券网/中国银行/2020/(2020){ii+m+1}.txt','w+',encoding='utf-8')

        txt_list = []

        for txt_a in page_b:

            # print('txt_a===',txt_a.text)

            txt_list.append(txt_a.text)

        print(f'\n-++++++++++++++++++第{ii+1}篇文章++++++++++++++++-\n',txt_list,len(txt_list))

        # +++++++++++++++++++++++++++++++++++++++++++++++++++++++++

        # ++++++++++++++++++++++文本写入+++++++++++++++++++++++++++++++

        for i in range(len(txt_list)):

            fp.write(txt_list[i] + '\n')  # 只包含文本

        # print('-----------------------------------')

        print(f'\n> > >{ii+1}成功! < < <')

        fp.close()

    m=m+len(weblist)+1

print('---------------\n>>>爬取完毕<<<')

历史优化记录：05_中证网.py

# coding=utf-8

import requests

from bs4 import BeautifulSoup

import io

import sys

sys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding='gb18030')  # 改变标准输出的默认编码

query = input("【中证网】请输入你想搜索的内容：")

year = int(input('要爬取的年份：'))

pages = int(input("要爬取的页数(不小于1)："))

if pages < 1:

    exit()

m = 0

for p in range(1, pages + 1):

    url = f'http://search.cs.com.cn/search?page={p}&channelid=215308&searchword={query}&keyword={query}&token=12.1462412070719.47&perpage=10&outlinepage=5&&andsen=&total=&orsen=&exclude=&searchscope=&timescope=&timescopecolumn=&orderby=&timeline=={year}'

    dic = {

        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.71 Safari/537.36"}

    resp = requests.get(url, headers=dic, )

    resp.encoding = 'utf-8'

    # print(resp)

    print(f'\n>>>--------------------第{p}页---------------------<<<\n')

    print(f'\n>>>--------------------第{p}页---------------------<<<\n')

    print(f'\n>>>--------------------第{p}页---------------------<<<\n')

    # print(resp.text)

    page = BeautifulSoup(resp.text, "html.parser")  # 指定html解析器

    alist = page.find("table").find('tr').find_all('a')

    # print('alist:', alist)

    weblist = []

    for a in alist:

        if a.get('href')[:4] == "http":

            weblist.append(a.get('href'))

    print('weblist==', weblist)

    # ----------------单页每个文章---------------------------------

    for ii in range(len(weblist)):

        url_a = weblist[ii]

        # print('0=',url_a)

        dic_a = {

            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.71 Safari/537.36"}

        resp_a = requests.get(url_a, headers=dic_a, )

        resp_a.encoding = 'gbk'

        # print('New:\n',resp_a.text)

        page_a = BeautifulSoup(resp_a.text, "html.parser")  # 指定html解析器

        # print('123:\n',page_a)

        page_b = page_a.find_all('p')

        # print(page_b)

        fp = open(f'D:/桌面/爬虫-银行/中国证券网/中国银行/{year}/({year}){ii + m + 1}.txt', 'w+', encoding='utf-8')

        txt_list = []

        for txt_a in page_b:

            # print('txt_a===',txt_a.text)

            txt_list.append(txt_a.text)

        print(f'\n-++++++++++++++++++第{ii + 1}篇文章++++++++++++++++-\n', txt_list, len(txt_list))

        # +++++++++++++++++++++++++++++++++++++++++++++++++++++++++

        # ++++++++++++++++++++++文本写入+++++++++++++++++++++++++++++++

        for i in range(len(txt_list)):

            fp.write(txt_list[i] + '\n')  # 只包含文本

        # print('-----------------------------------')

        print(f'\n> > >{ii + 1}成功! < < <')

        fp.close()

    m = m + len(weblist) + 1

print('---------------\n>>>爬取完毕<<<')

历史优化记录：06_中证网（Plus）.py

# coding=utf-8

import requests

from bs4 import BeautifulSoup

import io

import sys

import os

sys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding='gb18030')  # 改变标准输出的默认编码

# query = input("【中证网】请输入你想搜索的内容：")

query = '交通银行'

year = int(input('要爬取的年份：'))

pages = int(input("要爬取的页数(不小于1)："))

if pages < 1:

    exit()

m = 0

for p in range(1, pages + 1):

    url = f'http://search.cs.com.cn/search?page={p}&channelid=215308&searchword={query}&keyword={query}&token=12.1462412070719.47&perpage=10&outlinepage=5&&andsen=&total=&orsen=&exclude=&searchscope=&timescope=&timescopecolumn=&orderby=&timeline=={year}'

    dic = {

        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.71 Safari/537.36"}

    resp = requests.get(url, headers=dic, )

    resp.encoding = 'utf-8'

    # print(resp)

    print(f'\n>>>--------------------第{p}页---------------------<<<\n')

    print(f'\n>>>--------------------第{p}页---------------------<<<\n')

    print(f'\n>>>--------------------第{p}页---------------------<<<\n')

    # print(resp.text)

    page = BeautifulSoup(resp.text, "html.parser")  # 指定html解析器

    alist = page.find_all("table")

    datalist = []

    for ii in alist:

        ss=ii.find('td', style='font-size: 12px;line-height: 24px;color: #333333;margin-top: 4px;')

        # print('ss=\n\n',ss)

        if ss != None:

            ss = ss.get_text()

            datalist.append(ss)

    # print('data:',datalist,len(datalist))

    if not os.path.isdir(f'D:/桌面/爬虫-银行/中国证券网/{query}/{year}'):  # 如果没有此文件夹

        os.mkdir(f'D:/桌面/爬虫-银行/中国证券网/{query}/{year}')  # 创建此文件夹

    for ii in range(len(datalist)):

        fp = open(f'D:/桌面/爬虫-银行/中国证券网/{query}/{year}/({year}){ii + m + 1}.txt', 'w+', encoding='utf-8')

        fp.write(datalist[ii] + '\n')  # 只包含文本

        print(datalist[ii])

        print(f'\n> > >第{p}页，第{ii + 1}篇，成功! < < <')

        fp.close()

    m = m + len(datalist) + 1

print('----------------------------')

print(f'------\n{year}年,爬取完毕----')

print('----------------------------')

Python网络爬虫 - 爬取中证网银行相关信息的更多相关文章

如何利用Python网络爬虫爬取微信朋友圈动态--附代码（下）
前天给大家分享了如何利用Python网络爬虫爬取微信朋友圈数据的上篇(理论篇),今天给大家分享一下代码实现(实战篇),接着上篇往下继续深入. 一.代码实现 1.修改Scrapy项目中的items.py ...
利用Python网络爬虫爬取学校官网十条标题
利用Python网络爬虫爬取学校官网十条标题案例代码: # __author : "J" # date : 2018-03-06 # 导入需要用到的库文件 import urll ...
如何用Python网络爬虫爬取网易云音乐歌曲
今天小编带大家一起来利用Python爬取网易云音乐,分分钟将网站上的音乐down到本地. 跟着小编运行过代码的筒子们将网易云歌词抓取下来已经不再话下了,在抓取歌词的时候在函数中传入了歌手ID和歌曲名两 ...
04 Python网络爬虫 <<爬取get/post请求的页面数据>>之requests模块
一. urllib库 urllib是Python自带的一个用于爬虫的库,其主要作用就是可以通过代码模拟浏览器发送请求.其常被用到的子模块在Python3中的为urllib.request和urllib ...
Python网络爬虫-爬取微博热搜
微博热搜的爬取较为简单,我只是用了lxml和requests两个库 url=https://s.weibo.com/top/summary?Refer=top_hot&topnav=1& ...
python网络爬虫&&爬取网易云音乐
#爬取网易云音乐 url="https://music.163.com/discover/toplist" #歌单连接地址 url2 = 'http://music.163.com ...
如何利用Python网络爬虫抓取微信朋友圈的动态（上）
今天小编给大家分享一下如何利用Python网络爬虫抓取微信朋友圈的动态信息,实际上如果单独的去爬取朋友圈的话,难度会非常大,因为微信没有提供向网易云音乐这样的API接口,所以很容易找不到门.不过不要慌 ...
如何利用Python网络爬虫抓取微信好友数量以及微信好友的男女比例
前几天给大家分享了利用Python网络爬虫抓取微信朋友圈的动态(上)和利用Python网络爬虫爬取微信朋友圈动态——附代码(下),并且对抓取到的数据进行了Python词云和wordart可视化,感兴趣 ...
利用Python网络爬虫抓取微信好友的所在省位和城市分布及其可视化
前几天给大家分享了如何利用Python网络爬虫抓取微信好友数量以及微信好友的男女比例,感兴趣的小伙伴可以点击链接进行查看.今天小编给大家介绍如何利用Python网络爬虫抓取微信好友的省位和城市,并且将 ...

随机推荐

Sublime Text3中文环境设置
Sublime Text3中文环境设置 1.首先打开安装好的的Sublime软件,选择Preferences下面的Package Contorol选项出现弹窗方框 2.在弹窗输入install pac ...
虚拟内存之后pagefile.sys不断的再增大快占满整个Ｃ盘，应该如何将处理？
"pagefile.sys"是页面交换文件,这个文件不能删除,不过我们可以改变其大小和存放位置. 1.右击"这台电脑/属性". 2.然后在对话框的"高 ...
36 异常机制自定义异常实际应用中的经验总结尽量添加finally语句块去释放占用的资源
自定义异常概念使用Java内置的异常可以描述在编辑时出现的大部分异常情况.除此之外,用户还可以自定义异常.用户自定义异常类,只需继承Exception类即可. 在程序中使用自定义异常类,大体可分为 ...
git同步代码到另一分支
将dev分支的代码同步到master 方法一:用git命令 1.git checkout master 2.git merge dev 3.git push --set-upstream origin ...
使用Resource文件实现应用程序多语言
写在前面: 1.创建资源文件资源文件命名规则为:文件名(自定义)+cultrueInfo.Name+.resx后缀名如:A.en-US.resx A.zh-CN.resx 这样命名应用程序代码会根 ...
UC_OS II学习笔记
是一个可以基于ROM运行的.可裁减的.抢占式.实时.多任务OS内核: 可剥夺型的实时内核在任何时候都运行就绪了的最高优先级的任务. 一个任务,也称作一个线程,是一个简单的程序,该程序可以认为 CPU ...
网络IO模型非阻塞IO模型
网络IO模型非阻塞IO模型同步一件事做完后再做另一件事情异步同时做多件事情相对论多线程多进程协程异步的程序宏观角度:异步并发聊天阻塞IO 阻塞IO的问题一旦阻塞就不能做其他 ...
django处理跨域
django处理Ajax跨域访问时使用javascript进行ajax访问的时候,出现如下错误出错原因:javascript处于安全考虑,不允许跨域访问.下图是对跨域访问的解释: 概念: 这里说的j ...
利用DNSLog实现无回显注入
测试一些网站的时候,一些注入都是无回显的,我们可以写脚本来进行盲注,但有些网站会ban掉我们的ip,这样我们可以通过设置ip代理池解决, 但是盲注往往效率很低,所以产生了DNSlog注入 DNSLOG ...
那么回到我们开始的问题，通常一棵B+树可以存放多少行数据？
这里我们先假设B+树高为2,即存在一个根节点和若干个叶子节点,那么这棵B+树的存放总记录数为:根节点指针数*单个叶子节点记录行数. 上文我们已经说明单个叶子节点(页)中的记录数=16K/1K=16.( ...

Python网络爬虫 - 爬取中证网银行相关信息

最终版：07_中证网（Plus -Pro）.py

历史优化记录：01_中证网.py

历史优化记录：02_中证网.py

历史优化记录：03_中证网.py

历史优化记录：04_中证网(网址筛选问题).py

历史优化记录：05_中证网.py

历史优化记录：06_中证网（Plus）.py

Python网络爬虫 - 爬取中证网银行相关信息的更多相关文章

随机推荐

热门专题