VC驿站

 找回密码
 加入驿站

QQ登录

只需一步,快速开始

搜索
查看: 959|回复: 1

[求助] 网络编程_爬虫

[复制链接]
69_avatar_middle
在线会员 发表于 2016-7-22 01:23:22 | 显示全部楼层 |阅读模式
10驿站币
参考爬http的爬虫代码,只要GET + source + HTTP/1.1 +host ,然后接受返回的消息就是网页内容。
现在很多网站都相机改成https的了,我试了还是用爬http的代码爬了一下https的网站,但是得到的是  Your request has bad syntax or is inherently impossible to satisfy.
抓包看了一下,
1、www.zhihu.com
三次握手后(应该是connect之后自带的三次握手之后吧?),作为访问端发送的还是第一个包还是 GET / HTTP /1.1\r\n和其他的一些内容。但是这里其他的内容有:Host,Connection,Accept,Upgrade-Insecure-Requests,User-Agent,Referer,Accept-Encoding,Accept-Language,Cookie,udid,_zap,d_c0,l_cap_id(抓的是访问知乎首页的包),服务器返回的是 HTTP/1.1 302 Found 和一些参数包括cookie之类的东西.
然后客户端和服务器互相发了两次TCP包(是不是也是tcp/ip帮我们已经实现的保持通联的或者确认的包?),之后就是client hello 、server hello

2、www.taobao.com
三次握手之后,直接就是 client hello和server hello

问题:
1、访问https网站到底需不需要先GET。如果需要的话,像访问知乎中Cookie,udid,_zap,d_c0,l_cap_id等参数是怎么确定的?(因为我直接用GET + source + HTTP/1.1 +host,返回的是 Your request has bad syntax or is inherently impossible to satisfy)





上一篇:SYSTEMTIME指针问题
下一篇:windows程序设计大神进
98_avatar_middle
online_moderator 发表于 2016-7-26 11:58:03 | 显示全部楼层
HTTPS 增加一层安全层,用来数据加密。真正的http是加密后的,所以跟HTTP 协议根本没有关系,你还是先看一下HTTPS 一些基本的知识。
您需要登录后才可以回帖 登录 | 加入驿站 qq_login

本版积分规则

关闭

站长提醒上一条 /2 下一条

QQ|小黑屋|手机版|VC驿站 ( 辽ICP备09019393号tongdun|网站地图wx_jqr

GMT+8, 2019-4-19 09:23

Powered by Discuz! X3.4

© 2009-2019 cctry.com

快速回复 返回顶部 返回列表