linux c++模拟简易网络爬虫实例
废话不多说,直接上代码
/* * To change this license header, choose License Headers in Project Properties. * To change this template file, choose Tools | Templates * and open the template in the editor. */ /* * File: main.cpp * Author: yangchao * */ #include <iostream> #include <string> #include <netdb.h> #include <string.h> #include <stdlib.h> using namespace std; void parseHostAndPagePath(const string url,string &hostUrl,string &pagePath){ hostUrl=url; pagePath="/"; int pos=hostUrl.find("http://"); if(-1!=pos) hostUrl=hostUrl.replace(pos,7,""); pos=hostUrl.find("https://"); if(-1!=pos) hostUrl=hostUrl.replace(pos,8,""); pos=hostUrl.find("/"); if(-1!=pos) { pagePath=hostUrl.substr(pos); hostUrl=hostUrl.substr(0,pos); } } string getPageContent(const string url){ struct hostent *host; string hostUrl,pagePath; parseHostAndPagePath(url,hostUrl,pagePath); if(0==(host=gethostbyname(hostUrl.c_str()))) { cout<<"gethostbyname error\n"<<endl; exit(1); } struct sockaddr_in pin; int port=80; bzero(&pin,sizeof(pin)); pin.sin_family=AF_INET; pin.sin_port=htons(port); pin.sin_addr.s_addr=((struct in_addr*)(host->h_addr))->s_addr; int isock; if((isock=socket(AF_INET,SOCK_STREAM,0))==-1) { cout<<"open socket error\n"<<endl; exit(1); } string requestHeader; requestHeader="GET "+pagePath+" HTTP/1.1\r\n"; requestHeader+="Host: "+hostUrl+"\r\n"; requestHeader+="Accept: */*\r\n"; requestHeader+="User-Agent: Mozilla/4.0(compatible)\r\n"; requestHeader+="connection:Keep-Alive\r\n"; requestHeader+="\r\n"; if(connect(isock,(const sockaddr*)&pin,sizeof(pin))==-1){ cout<<"connect error\n"<<endl; exit(1); } if(send(isock,requestHeader.c_str(),requestHeader.size(),0)==-1){ cout<<"send error\n"<<endl; exit(1); } struct timeval timeout={1,0}; setsockopt(isock,SOL_SOCKET,SO_RCVTIMEO,(char*)&timeout,sizeof(struct timeval)); char c; bool flag=true; while(recv(isock,&c,1,0)>0){ if('\r'==c){ continue; }else if('\n'==c){ if(false==flag) break; flag=false; }else{ flag=true; } } int len,BUFFER_SIZE=512; char buffer[BUFFER_SIZE]; string pageContent=""; while((len=recv(isock,buffer,BUFFER_SIZE-1,0))>0){ buffer[len]='\0'; pageContent+=buffer; } return pageContent; } int main(int argc, char** argv) { cout<<getPageContent("http://www.hao123.com")<<endl; return 0; }
以上这篇linux c++模拟简易网络爬虫实例就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持我们。
上一篇:C\C++ 获取当前路径实例详解
栏 目:C语言
下一篇:C++实现稀疏矩阵的压缩存储实例
本文标题:linux c++模拟简易网络爬虫实例
本文地址:https://www.xiuzhanwang.com/a1/Cyuyan/1478.html
您可能感兴趣的文章
- 04-02c语言没有round函数 round c语言
- 01-10深入理解C++中常见的关键字含义
- 01-10使用C++实现全排列算法的方法详解
- 01-10c++中inline的用法分析
- 01-10用C++实现DBSCAN聚类算法
- 01-10全排列算法的非递归实现与递归实现的方法(C++)
- 01-10C++大数模板(推荐)
- 01-10浅谈C/C++中的static与extern关键字的使用详解
- 01-10深入C/C++浮点数在内存中的存储方式详解
- 01-10深入解析Linux下\r\n的问题
阅读排行
本栏相关
- 04-02c语言函数调用后清空内存 c语言调用
- 04-02func函数+在C语言 func函数在c语言中
- 04-02c语言的正则匹配函数 c语言正则表达
- 04-02c语言用函数写分段 用c语言表示分段
- 04-02c语言中对数函数的表达式 c语言中对
- 04-02c语言编写函数冒泡排序 c语言冒泡排
- 04-02c语言没有round函数 round c语言
- 04-02c语言分段函数怎么求 用c语言求分段
- 04-02C语言中怎么打出三角函数 c语言中怎
- 04-02c语言调用函数求fibo C语言调用函数求
随机阅读
- 04-02jquery与jsp,用jquery
- 08-05dedecms(织梦)副栏目数量限制代码修改
- 01-10使用C语言求解扑克牌的顺子及n个骰子
- 01-10delphi制作wav文件的方法
- 08-05织梦dedecms什么时候用栏目交叉功能?
- 08-05DEDE织梦data目录下的sessions文件夹有什
- 01-10SublimeText编译C开发环境设置
- 01-10C#中split用法实例总结
- 01-11ajax实现页面的局部加载
- 01-11Mac OSX 打开原生自带读写NTFS功能(图文