怎么样在电脑上检查http端口(如何正确认识 HTTP)
#头条创作挑战赛#
HTTP(HyperTextTransferProtocol)是超文本传输协议。它是应用层协议,同其他应用层协议一样,是为了实现某一类具体应用的协议,并由某一运行在用户空间的应用程序来实现其功能。HTTP是一种协议规范,这种规范记录在文档上,为真正通过HTTP进行通信的HTTP的实现程序。
HTTP包含命令和传输信息,不仅可用于Web访问,也可用于其他因特网,内联网应用系统之间的通信,从而实现各类应用资源超媒体访问的集成。
HTTP也是一个客户端、服务器端请求和应答的标准(TCP)。客户端是终端用户,服务器端是网站。通过使用Web浏览器、网络爬虫或其他工具,客户端发起一个到服务器上指定端口(默认端口为80)的HTTP请求。当在浏览器的地址框中输入一个URL或是单击一个超级链接时,URL就确定了要浏览的地址。浏览器通过超文本传输协议(HTTP),将Web服务器上站点的网页代码提取出来,并翻译成漂亮的网页。
HTTP是基于客户/服务器模式,且面向连接的。HTTP定义了Web客户端如何从Web服务器请求Web页面,以及服务器如何把Web页面传送给客户端。HTTP采用了请求/响应模型。客户端向服务器发送一个请求,请求中包含请求的方法、URL、协议版本、请求头部和请求数据。服务器以一个状态行作为响应,响应的内容包括协议的版本、成功或错误代码、服务器信息、响应头部和响应数据。
典型的HTTP请求/响应的处理步骤如下:
(1)客户端与Web服务器建立连接:一个HTTP客户端,通常是浏览器,与Web服务器的HTTP端口(默认为80)建立一个TCP连接。例如,https://www.baidu.com。
(2)客户端向Web服务器发送HTTP请求:通过TCP连接,客户端向Web服务器发送一个文本的请求,该请求头由请求行、请求头部、空行和请求数据四部分组成。
(3)Web服务器接收请求并返回相应的文件作为应答:Web服务器解析请求,定位请求资源。服务器将资源复本写到TCP,由客户端读取。一个响应头由状态行、响应头部、空行和响应数据四部分组成。
(4)客户端与Web服务器关闭连接:如果connection模式为close,则服务器主动关闭TCP连接,客户端被动关闭连接,释放TCP连接;如果connection模式为keep-alive,则该连接会保持一段时间,在该时间内可以继续接收请求。(5)客户端浏览器解析HTML内容:客户端浏览器首先解析状态行,查看请求是否成功的状态代码。然后解析每一个响应头,客户端浏览器读取响应数据HTML,根据HTML的语法对其进行格式化,并在浏览器窗口中显示。
HTTP/1.1中共定义了8种方法来以不同方式操作指定的资源。GET和POST是最常见的HTTP方法。此外,还包括DELETE、HEAD、OPTIONS、PUT、TRACE和CONNECT方法。这里介绍一下常用的HTTP方法,其对爬取网页有很大的作用。
(1)GET请求方式:使用GET方法时,请求参数和对应的值附加在URL后面,利用一个“?”11Scrapy网络爬虫知识介绍第2章代表URL的结尾及附带参数的开始,参数用key=value键值对的方式书写,参数和参数之间用“&”符号隔开。一般GET请求参数的大小受限,最大不超过1024。由于参数明文地显示在了URL上面,因此不太适合传递私密的数据。
(2)POST请求方式:POST方法将请求参数封装在HTTP请求的请求体中,以名称/值的形式出现,可以传输大量的数据,在URL中看不到具体的请求数据,比较安全,适合数据量大的数据发送。POST请求一般用于表单数据的提交或上传文件。
HTTP状态码由3个十进制数字组成,第一个十进制数字定义了状态码的类型,后两个十进制数字没有分类的作用。HTTP状态码表示请求是否被理解或被满足。HTTP状态码共分为5种类型:
(1)1xx:信息性状态码,表示接收的请求正在处理。
(2)2xx:成功状态码,表示请求已被成功地接收并处理。
(3)3xx:重定向状态码,表示需要进行附加操作才能完成请求。
(4)4xx:客户端错误状态码,表示请求有语法错误或请求无法实现
(5)5xx:服务器错误状态码,表示服务器在处理请求的过程中发生了错误。
下面是常见的HTTP状态码:
(1)200:客户端请求成功。
(2)301:永久性重定向。该状态码表示请求的资源已被分配了新的URL,以后应使用资源现在所指的URL。
(3)303:该状态码表示由于请求对应的资源存在着另一个URL,应使用GET方法定向获取请求的资源。
(4)400:服务器未能理解请求。
(5)403:对被请求页面的访问被禁止。
(6)404:服务器无法找到被请求的页面。
(7)500:服务器发生不可预期的错误,即内部服务器错误。
(8)503:请求未完成。服务器临时过载或宕机,不能处理客户端的请求。一段时间后可能会恢复正常。