HttpGet 请求爬去网页内容,返回乱码问题

论坛 期权论坛 脚本     
匿名网站用户   2020-12-20 19:01   11   0

问题:

HttpGet请求爬去网页内容,因为是模拟浏览器操作,所以将浏览器的header也都设置到了代码里;结果返回的内容乱码。

g1 = new HttpGet("https://mp.yidianzixun.com/");
//此行设置影响response解析的内容是乱码
//g1.setHeader("accept-encoding","gzip, deflate, br");
g1.setHeader("accept-language", "zh-CN");
.
.
.

HttpResponse response = httpClient.execute(g1);
String result = EntityUtils.toString(response.getEntity(),"utf-8");

查找资料:

GZIP最早由Jean-loup Gailly和Mark Adler创建,用于UNIX系统的文件压缩。我们在Linux中经常会用到后缀为.gz的文件,它们就是GZIP格式的。

现今已经成为Internet 上使用非常普遍的一种数据压缩格式,或者说一种文件格式。 HTTP协议上的GZIP编码是一种用来改进WEB应用程序性能的技术。大流量的WEB站点常常使用GZIP压缩技术来让用户感受更快的速度。

当有人来访问这个服务器中的网站时,服务器中的这个功能就将网页内容压缩后传输到来访的电脑浏览器中显示出来.一般对纯文本内容可压缩到原大小的40%.这样传输就快了。

总结:

因此我们在代码中设置了压缩,则接受到的是压缩之后的数据,因此就呈现出乱码;在header中取消压缩的设置,将不会压缩,已原文本的形式展现,就不再出现乱码的情况。

分享到 :
0 人收藏
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

积分:1136255
帖子:227251
精华:0
期权论坛 期权论坛
发布
内容

下载期权论坛手机APP