python2 requests中文乱码

论坛 期权论坛 编程之家     
选择匿名的用户   2021-6-2 17:48   1524   0

情况有多种:

1、只包含中文和ascii字符,网上流行的先设置encoding再取content或者text,这里不介绍了;

2、包含了中文、非ascii字符、甚至诡异的不可见字符占位文档首部。这种情况你们在网上很难找到解决办法(这是我借鉴了其他人再整理出来的)

解决办法:

2.1、不管乱码有多严重,先用一个兼容性很强的编码unicode_escape解剖开

2.2、根据之前的报错结合解剖过的unicode_escape编码内容检查错误。

这一步是解决问题的关键,我将给你们看看我遇到的案发现场

车祸现场1:文档首部充斥着不可见字符,我收到了\ufeff的报错信息,replace掉解决

车祸现场2:\xa9非中文字符,也非ascii字符,我收到了\xa9的报错信息,replace掉解决

2.3、解决错误,再decode('unicode_escape')。

问题解决。借鉴链接:

https://www.cnblogs.com/hahaxzy9500/p/7685955.html
https://www.cnblogs.com/xiaoqi/p/5101795.html

分享到 :
0 人收藏
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

积分:3875789
帖子:775174
精华:0
期权论坛 期权论坛
发布
内容

下载期权论坛手机APP