| PigStorage |
默认情况 |
对应使用制定分隔符分割的文本格式,默认为 tab |
| BinStorage |
|
map/reduce job 的存储方式,用户也可以使用(可以 load 也可以 store),builtin; |
| JsonLoader/JsonStorage |
|
前者需要指定 schema,builtin |
| TextLoader |
|
用来读入文本,每行一个 chararray,builtin |
| AvroStorage |
org.apache.pig.piggybank.storage.avro |
用来读取和存储 avro格式的文件,读取也需要 schema,或者指定或者有个 schema 文件 |
| CVSLoader |
org.apache.pig.piggybank.storage |
用来载入 CVS 文件 |
| DBStorage |
org.apache.pig.piggybank.storage |
用于写入 DB,需要指定数据库驱动和使用的 SQL 语句 |
| HadoopJobHistoryLoader |
|
(同上), |
| IndexedStorage |
|
(同上),支持 per-record seek 的存储 |
| MultiStorage |
|
(同上),产生多个 output directory,根据用户指定的规则进行拆分 |
| RegExLoader/MyRegExLoader |
|
(同上),根据 RE 对 log 进行分析 |
| SequenceFileLoader |
|
(同上),用来读取 sequence file |
| XMLLoader |
|
(同上),用来 load XML 文件的内容,需要提供 schema。 |
| HBaseStorage |
org.apache.pig.backend.hadoop.hbase |
用来从 HBase 里面读入和写入数据 |
| HDataStorage |
org.apache.pig.backend.hadoop.datastorage |
|
| TableLoader/TableStorer |
org.apache.hadoop.zebra.pig |
用来处理 zebra 格式的数据 |