HaDoop_Pig_Store格式

论坛 期权论坛 脚本     
匿名网站用户   2020-12-20 07:40   11   0
PigStorage 默认情况 对应使用制定分隔符分割的文本格式,默认为 tab
BinStorage map/reduce job 的存储方式,用户也可以使用(可以 load 也可以 store),builtin;
JsonLoader/JsonStorage 前者需要指定 schema,builtin
TextLoader 用来读入文本,每行一个 chararray,builtin
AvroStorage org.apache.pig.piggybank.storage.avro 用来读取和存储 avro格式的文件,读取也需要 schema,或者指定或者有个 schema 文件
CVSLoader org.apache.pig.piggybank.storage 用来载入 CVS 文件
DBStorage org.apache.pig.piggybank.storage 用于写入 DB,需要指定数据库驱动和使用的 SQL 语句
HadoopJobHistoryLoader (同上),
IndexedStorage (同上),支持 per-record seek 的存储
MultiStorage (同上),产生多个 output directory,根据用户指定的规则进行拆分
RegExLoader/MyRegExLoader (同上),根据 RE 对 log 进行分析
SequenceFileLoader (同上),用来读取 sequence file
XMLLoader (同上),用来 load XML 文件的内容,需要提供 schema。
HBaseStorage org.apache.pig.backend.hadoop.hbase 用来从 HBase 里面读入和写入数据
HDataStorage org.apache.pig.backend.hadoop.datastorage
TableLoader/TableStorer org.apache.hadoop.zebra.pig 用来处理 zebra 格式的数据
分享到 :
0 人收藏
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

积分:1136255
帖子:227251
精华:0
期权论坛 期权论坛
发布
内容

下载期权论坛手机APP