使用ruby爬虫提取数据的特殊字符以及乱码(已解决)

论坛 期权论坛 脚本     
匿名技术用户   2020-12-27 13:22   784   0

情况一:在html中有些字符是预留的,例如'<'小于号就会显示'&amp;lt;',我们要把这些预留的符号转成我们想要的,包括一些不可见的字符,应该怎么做呢

首先 我们 gem install htmlentities 安装这个gem ,下面看这个例子

1 require 'htmlentities'
2 HTMLEntities.new.decode "&iexcl;I&#39;m highly&nbsp;annoyed with character references!"
3 "I'm highly annoyed with character references!"

  再看一个例子

情况二:有些编码是ASCII-8BIT 我们不能使用它来存进数据库,会报错

首先,可以将它转换成name.force_encoding("Shift_JIS") 然后就ok啦

   

转载于:https://www.cnblogs.com/zhe-hello/p/9776676.html

分享到 :
0 人收藏
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

积分:7942463
帖子:1588486
精华:0
期权论坛 期权论坛
发布
内容

下载期权论坛手机APP