Python3实现QQ机器人自动爬取百度文库的搜索结果并发送给好友（主要是爬虫）

一、效果如下：

二、运行环境：

win10系统；python3；PyCharm

三、QQ机器人用的是qqbot模块

用pip安装命令是： pip install qqbot (前提需要有requests库)

实现自己的机器人：网上好几种写法，很简单，不过有时候环境不同会出现错误，下面是亲测可以运行的：

from qqbot import QQBotSlot as qqbotslot, RunBot

@qqbotslot

def onQQMessage(bot, contact, member, content):

       if content == "-hello":#content是好友发的信息
           bot.SendTo(contact,"我是，QQ机器人")
   if __name__ == "__main__":
        RunBot()
四、爬取百度文库    
    需要模块：import urllib.request,urllib,re
   获取原网页代码：
   提前说下百度文库网页编码是gb2312
   def baidu(self,world):

        data={}
        data['word'] = world 
        url_World=urllib.parse.urlencode(data,encoding="GBK")
        url = "https://wenku.baidu.com/search?"+url_World+"&org=0&ie=gbk"
        page = urllib.request.urlopen(url)
        html = page.read()
        html = html.decode('gbk')
     代码解析：
       data['word'] = world #world是搜索的内容，也就是关键词
        url不必多说就是网页链接
        但是二者之间多了一行代码：url_World=urllib.parse.urlencode(data,encoding="GBK")
        看一下百度文库搜索"大学"：https://wenku.baidu.com/search?word=%B4%F3%D1%A7&org=0&ie=gbk
        其中%B4%F3%D1%A7 就是"大学"的十六进制。
       也就是说我们想搜索“大学”的相关内容需要把“大学”的中文转成上面格式，如果不转会出现什么状况
        我们直接把中文“大学”塞到链接里去访问：https://wenku.baidu.com/search?word=大学&lm=0&od=0&fr=top_home&ie=gbk

         会有乱码这个乱码直接导致后面获取原网页解码错误也就是：

        html = html.decode('gbk')
        解码是让中文能够正常显示，但是上面的乱码是不能通过gbk编码进行解码的，也就会出现错误。
        所以不能直接把参数world直接放进去。
        而urllib.parse.urlencode(data)这行代码就是把中文转成url格式的。
        不过默认的编码是utf-8，直接把data放进去会按照utf-8进行转的话会得到如下链接：
           https://wenku.baidu.com/search?word=%E5%A4%A7%E5%AD%A6&org=0&ie=gbk
           此链接得到网页效果是和之前把中文放进链接效果一样
        网上找到的基本上都是这样的写法，不过百度文库是采用gb2312编码所以需要在那行转码代码中再添加一个编码参数就能够达到目的
            如下：urllib.parse.urlencode(data,encoding="GBK")
        这样无论是url转码还是后面的解码都会正常运行了。
        此过程就能够得到正常的搜索结果的原网页了
    用正则获取想要的信息：
         
          上面代码就能把需要的是标题和相应的链接给提取出来
    其他的就是容错问题了。
    全部代码如下：

from qqbot import QQBotSlot as qqbotslot, RunBot

import urllib.request,urllib,re

class pyth(object):

    def baidu(self,world):

        data={}

        data['word'] = world

        url_World=urllib.parse.urlencode(data,encoding="GBK")

        url = "https://wenku.baidu.com/search?"+url_World+"&org=0&ie=gbk"

        page = urllib.request.urlopen(url)

        html = page.read()

        html = html.decode('gbk')

        title= re.compile(r'<span title=".*?" class="ic ic-.*?title="(.*?)"',re.S)

        url1= re.compile(r'<span title=".*?" class="ic .*?<a href="(.*?)"',re.S)

        title1= re.findall(title,html)

        url11= re.findall(url1,html)

        pri = "百度文库搜索结果："

        if len(title1)>2:

            for i in range(2):

                pri += "\n"+title1[i]+"\n链接："+url11[i];

        else:

            pri = "相关内容过少，请换个题目"

        return pri

@qqbotslot

def onQQMessage(bot, contact, member, content):

    if "搜索" in content[0:2]:

        if len(content)>2:

            world = content.split("搜索",1)[1].encode('gbk')

            run=pyth()

            run.baidu(world)

            jieguo = run.baidu(world).encode("utf-8")

        bot.SendTo(contact,jieguo)

if __name__ == "__main__":

    RunBot()

Python3实现QQ机器人自动爬取百度文库的搜索结果并发送给好友（主要是爬虫）的更多相关文章

python 利用selenium爬取百度文库的word文章
今天学习如何使用selenium库来爬取百度文库里面的收费的word文档 from selenium import webdriver from selenium.webdriver.common.k ...
python+selenium+bs4爬取百度文库内文字 && selenium 元素可以定位到，但是无法点击问题 && pycharm多行缩进、左移
先说一下可能用到的一些python知识一.python中使用的是unicode编码, 而日常文本使用各类编码如:gbk utf-8 等等所以使用python进行文字读写操作时候经常会出现各种错误, ...
python+selenium爬取百度文库不能下载的word文档
有些时候我们需要用到百度文库的某些文章时,却发现需要会员才能下载,很难受,其实我们可以通过爬虫的方式来获取到我们所需要的文本. 工具:python3.7+selenium+任意一款编辑器前期准备:可 ...
python+requests爬取百度文库ppt
实验网站:https://wenku.baidu.com/view/c7752014f18583d04964594d.html 在下面这种类型文件中的请求头的url打开后会得到一个页面你会得到如下图 ...
python爬取百度文库所有内容
转载自 GitHub 的 Jack-Cherish 大神基本环境配置版本:python3 系统:Windows 相关模块: import requests import re import jso ...
python 爬取百度url
#!/usr/bin/env python # -*- coding: utf-8 -*- # @Date : 2017-08-29 18:38:23 # @Author : EnderZhou (z ...
Python爬虫 - 爬取百度html代码前200行
Python爬虫 - 爬取百度html代码前200行 - 改进版, 增加了对字符串的.strip()处理源代码如下: # 改进版, 增加了 .strip()方法的使用 # coding=utf-8 ...
如何手动写一个Python脚本自动爬取Bilibili小视频
如何手动写一个Python脚本自动爬取Bilibili小视频国庆结束之余,某个不务正业的码农不好好干活,在B站瞎逛着,毕竟国庆嘛,还让不让人休息了诶-- 我身边的很多小伙伴们在朋友圈里面晒着出去游玩 ...
百度图片爬虫-python版-如何爬取百度图片?
上一篇我写了如何爬取百度网盘的爬虫,在这里还是重温一下,把链接附上: http://www.cnblogs.com/huangxie/p/5473273.html 这一篇我想写写如何爬取百度图片的爬虫 ...

随机推荐

Shell读取配置文件的方法
参考:http://www.cnblogs.com/binbinjx/p/5680214.html 做批量软件安装自动化时,都喜欢用配置文件的方式改变参数,那怎么通过shell读取配置文件的配置呢?参 ...
流API--缩减操作
在Stream流操作中,比如说min(),max(),count()方法,这几个操作都会将一个流缩减成一个值,流API将这些操作称为特例缩减.另外,流API同时泛华了缩减这种概念,提供了reduce( ...
WebSphere--连接管理器
连接管理器使您可以控制并减少由 Web 应用程序使用的资源.相对于非 Web 应用程序,基于 Web 的应用程序对数据服务器的访问会导致更高的和不可预料的系统开销,这是由于 Web 用户更为频繁的连接 ...
一个Android上的以滑动揭示的方式显示并切换图片的View
SlideView是一个Android上的以滑动揭示的方式显示并切换图片的View,以视觉对比的方式把一套相似的图片展示出来. 示例翻页图片揭示效果: 特性设置一组(List<ImageIn ...
(纯代码)快速创建wcf rest 服务
因为有一个小工具需要和其它的业务对接数据,所以就试一下看能不能弄一个无需配置快速对接的方法出来,百(以)度(讹)过(传)后(讹),最后还是对照wcf配置对象调试出来了: 1.创建WebHttpBind ...
MySQL查看和修改表的存储引擎
1 查看系统支持的存储引擎 show engines; 2 查看表使用的存储引擎两种方法: a.show table status from db_name where name='table_na ...
DispatcherServlet介绍
<property name="features"> <list> <value>WriteMapNullValue</value> ...
struts2 action 页面与action参数的传递的三种方式
第一种: 初始页面: <form action="LoginAction.action" method="post"> 用户名:<input ...
Java 生产者消费者模式详细分析
*/ .hljs { display: block; overflow-x: auto; padding: 0.5em; color: #333; background: #f8f8f8; } .hl ...
tomcat无法打开8080页面
tomcat已启动 app已经正常执行但不能打开8080管理页面可能是在webapps目录下没有ROOT目录

Python3实现QQ机器人自动爬取百度文库的搜索结果并发送给好友（主要是爬虫）

Python3实现QQ机器人自动爬取百度文库的搜索结果并发送给好友（主要是爬虫）的更多相关文章

随机推荐

热门专题