Socket网络编程--网络爬虫(2)
上一小节,我们实现了下载一个网页。接下来的一步就是使用提取有用的信息。如何提取呢?一个比较好用和常见的方法就是使用正则表达式来提取的。想一想我们要做个什么样的网络爬虫好呢?我记得以前好像博客园里面有人写过一个提取博客园用户名的博客。我这次就实现这个好了。
第一步我们要分析博客园一个URL的组成,我们每一个用户对应都有这样的一个主目录http://www.cnblogs.com/XXXXXXX 这样的一个主页(现在有了http://XXXXXXX.cnblogs.com这样的主页了,但是不常用)。所以我们判断一个字符串是不是博客园的有效用户,我们的做法就是提取一个像上面一样的URL,然后截取后面的用户名即可。
带正则表达式的网页下载程序
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <sys/types.h>
#include <sys/socket.h>
#include <unistd.h>
#include <netdb.h>
#include <netinet/in.h>
#include <arpa/inet.h>
#include <regex.h>//正则表达式 #define BUF_SIZE 512 int reptile_regex(char * buf,char *pattern); char ch[];//100k int main(int argc,char *argv[])
{
struct sockaddr_in servAddr;
struct hostent * host;
int sockfd;
char sendBuf[BUF_SIZE],recvBuf[BUF_SIZE];
int sendSize,recvSize; host=gethostbyname(argv[]);
if(host==NULL)
{
perror("dns 解析失败");
}
servAddr.sin_family=AF_INET;
servAddr.sin_addr=*((struct in_addr *)host->h_addr);
servAddr.sin_port=htons(atoi(argv[]));
bzero(&(servAddr.sin_zero),); sockfd=socket(AF_INET,SOCK_STREAM,);
if(sockfd==-)
{
perror("socket 创建失败");
} if(connect(sockfd,(struct sockaddr *)&servAddr,sizeof(struct sockaddr_in))==-)
{
perror("connect 失败");
} //构建一个http请求
sprintf(sendBuf,"GET / HTTP/1.1 \r\nHost: %s \r\nConnection: Close \r\n\r\n",argv[]);
if((sendSize=send(sockfd,sendBuf,BUF_SIZE,))==-)
{
perror("send 失败");
}
//获取http应答信息
memset(recvBuf,,sizeof(recvBuf));
memset(ch,,sizeof(ch));
char pattern[]={};
strcpy(pattern,"http://www.cnblogs.com/[[:alnum:]]*/");
while(recvSize=recv(sockfd,recvBuf,BUF_SIZE,)>)
{
//printf("%s",recvBuf);
strcat(ch,recvBuf);
memset(recvBuf,,sizeof(recvBuf));
}
reptile_regex(ch,pattern); return ;
} //第一个参数是要匹配的字符串,第二个参数是匹配的规则,返回匹配的个数
int reptile_regex(char * buf,char *pattern)
{
size_t nmatch=;//最多匹配100个一次
regmatch_t pm[];//与上面对应
regex_t reg;//正则表达式指针
regcomp(®,pattern,);//编译匹配模式
int z=regexec(®,buf,nmatch,pm,);
if(z==REG_NOMATCH)
{
;//本次没有匹配到
}
else
{
for(int i=;i<&&pm[i].rm_so!=-;++i)
{
for(int j=pm[i].rm_so;j<pm[i].rm_eo;++j)
{
printf("%c",buf[j]);
}
//上面的遍历可以用下面函数代替
//printf("%d=%s\n",i,substr(buf,pm[i].rm_so,pm[i].rm_eo));
printf("\n");
}
}
regfree(®);
return ;
}
本来一开始以为这样就可以了,可是没想到每次都是匹配到第一个而已,后面怎么都匹配不到,还以为是正则写错了,但是就那么几个怎么可能错了。最后找到一篇博客,才知道,一次调用regexec是没有办法全部匹配出来的。要进行多次。哎,怎么这么麻烦呀。
带正则表达式的网页下载程序修改版
将reptile_regex函数修改如下即可实现多次匹配
int reptile_regex(char * buf,char *pattern)
{
size_t nmatch=;//最多匹配100个一次
regmatch_t pm[];//与上面对应
regex_t reg;//正则表达式指针
char * str;
str=buf;
regcomp(®,pattern,);//编译匹配模式
while(regexec(®,str,nmatch,pm,)!=REG_NOMATCH)
{
for(int j=pm[].rm_so;j<pm[].rm_eo;++j)
{
printf("%c",str[j]);
}
//printf("%d=%s\n",i,substr(buf,pm[i].rm_so,pm[i].rm_eo));
printf("\n");
str=str+pm[].rm_eo;
}
regfree(®);
return ;
}
好了,现在可以多次匹配了,但是又出现一个问题了,问题就是会有重复的用户名出现。如何避免呢?一个办法是把用户名保存起来,然后来一个用户名就一个一个进行比较,看是否有相同,如果都没有就加入到用户名组里面去。依次类推。不过一般爬虫爬到的用户名都会比较多,如果这样O(N)的比较效率不是很高,可以通过HASH降低为O(1)。但是设计一个hash函数比较麻烦,为了方便,我就使用一个map来处理,效率还好有O(logN)。
防止重复后的网页下载程序
...
int main(int argc,char *argv[])
{
...
map<string,int> user;//第一个是用户名,第二个保存被加入的次数 ...
reptile_regex(ch,pattern,user);
map<string,int>::iterator it;
for(it=user.begin();it!=user.end();++it)
{
cout<<it->first<<endl;
} return ;
} //第一个参数是要匹配的字符串,第二个参数是匹配的规则,返回匹配的个数
int reptile_regex(char * buf,char *pattern,map<string,int> & user)
{
size_t nmatch=;
regmatch_t pm[];
regex_t reg;//正则表达式指针
char * str;
char ch[];
int i,j;
str=buf;
regcomp(®,pattern,);//编译匹配模式
while(regexec(®,str,nmatch,pm,)!=REG_NOMATCH)
{
//http://www.cnblogs.com/
i=pm[].rm_so+;
for(j=i;j<pm[].rm_eo;++j)
{
//printf("%c",str[j]);
ch[j-i]=str[j];
}
ch[j-i]=;
string st(ch);
user[st]++;
//printf("%s",ch);
//printf("%d=%s\n",i,substr(buf,pm[i].rm_so,pm[i].rm_eo));
//printf("\n");
str=str+pm[].rm_eo;
}
regfree(®);
return ;
}
这样就把所有查询到的用户名都保存在users中了。而且对应的int还保存了查询到的次数。这个还可以在以后用来判断该用户的博客是否经常被人提及到的一个参考值。
参考资料:
正则表达式匹配多个问题: http://blog.163.com/lixiangqiu_9202/blog/static/53575037201412311211291/
本文地址: http://www.cnblogs.com/wunaozai/p/3900169.html
Socket网络编程--网络爬虫(2)的更多相关文章
- [转] - Linux网络编程 -- 网络知识介绍
(一)Linux网络编程--网络知识介绍 Linux网络编程--网络知识介绍客户端和服务端 网络程序和普通的程序有一个最大的区别是网络程序是由两个部分组成的--客户端和服务器端. 客户 ...
- JAVA基础知识之网络编程——-网络基础(Java的http get和post请求,多线程下载)
本文主要介绍java.net下为网络编程提供的一些基础包,InetAddress代表一个IP协议对象,可以用来获取IP地址,Host name之类的信息.URL和URLConnect可以用来访问web ...
- UNIX网络编程——网络IPC:套接字
UNIX网络编程——网络IPC:套接字 Contents 套接字接口 套接字描述符 寻址 字节序 地址格式 地址查询 绑定地址 建立连接 数据传输 套接字选项 带外数据 UNIX域套接字 使用套接字的 ...
- Socket网络编程--网络爬虫(1)
我们这个系列准备讲一下--网络爬虫.网络爬虫是搜索引擎系统中十分重要的组成部分,它负责从互联网中搜集网页,采集信息,这些网页信息用于建立索引从而为搜索引擎提供支持,它决定着整个引擎系统的内容是否丰富, ...
- 网络编程—网络基础概览、socket,TCP/UDP协议
网络基础概览 socket概览 socket模块—TCP/UDP的实现 TCP/UDP总结 网络基础概览 osi七层协议各层主要的协议 # 物理层传输电信号1010101010 # 数据链路层,以太网 ...
- linux网络编程--网络编程的基本函数介绍与使用【转】
本文转载自:http://blog.csdn.net/yusiguyuan/article/details/17538499 我们深谙信息交流的价值,那网络中进程之间如何通信,如我们每天打开浏览器浏览 ...
- python网络编程——网络IO模型
1 网络IO模型介绍 服务器端编程经常需要构造高性能的IO模型,常见的IO模型有四种: (1)同步阻塞IO(Blocking IO):即传统的IO模型. (2)同步非阻塞IO(Non-bl ...
- JAVA基础知识之网络编程——-网络通信模型(IO模型)
<Unix网络编程:卷1>中介绍了5中I/O模型,JAVA作为运行在宿主机上的程序,底层也遵循这5中I/O模型规则.这5中I/O模型分别是: 阻塞式IO 非阻塞式IO I/O复用 信号驱动 ...
- UNIX网络编程——网络I/O模型
在学习UNIX网络编程的时候.一開始分不清 同步 和 异步,所以还是总结一下,理清下他们的差别比較好. IO分类 IO依据对IO的调度方式可分为堵塞IO.非堵塞IO.IO复用.信号驱动IO.异步IO. ...
随机推荐
- Java Swing 实时刷新JTextArea,以显示不断append的内容?
方法一: 在代码中执行完textArea.append("message")后,如果你想让这个更新立刻显示在界面上而不是等swing的主线程返回后刷新,我们一般会在该语句后调用te ...
- hdu 1576 A/B 【扩展欧几里得】【逆元】
<题目链接> <转载于 >>> > A/B Problem Description 要求(A/B)%9973,但由于A很大,我们只给出n(n=A%9973)( ...
- rdesktop方法(Linux to Windows)
我的配置: rdesktop -g 960x1080 -a 16 -u aura-bd -0 192.168.62.241 1. 准备工作: ubuntu端: sudo apt-get install ...
- NetworkX
常用网站: 官方文档 Github (latest development) NetworkX官方介绍: ======== NetworkX (NX) is a Python package for ...
- 无状态shiro认证组件(禁用默认session)
准备内容 简单的shiro无状态认证 无状态认证拦截器 import com.hjzgg.stateless.shiroSimpleWeb.Constants; import com.hjzgg.st ...
- C# DataTable分页函数
/// <summary> /// 对DataTable进行分页,起始页为1 /// </summary> /// <param name="dt"& ...
- iOS 11开发教程(二十二)iOS11应用视图实现按钮的响应(2)
iOS 11开发教程(二十二)iOS11应用视图实现按钮的响应(2) 此时,当用户轻拍按钮后,一个叫tapButton()的方法就会被触发. 注意:以上这一种方式是动作声明和关联一起进行的,还有一种先 ...
- SQL SERVER字符串中的空格去除
1.LTRIM 删除起始空格后返回字符表达式. 语法 LTRIM ( character_expression ) 参数 character_expression 是字符或二进制数据表达式 ...
- 洛谷.3374.[模板]树状数组1(CDQ分治)
题目链接 简易CDQ分治教程 //每个操作分解为一个有序数对(t,p),即(时间,操作位置),时间默认有序,用CDQ分治处理第二维 //对于位置相同的操作 修改优先于查询 //时间是默认有序的 所以可 ...
- 洛谷.3690.[模板]Link Cut Tree(动态树)
题目链接 LCT(良心总结) #include <cstdio> #include <cctype> #include <algorithm> #define gc ...