HBase नमूना तालिका

के खरोंच से एक सरल HBase तालिका बनाने हैं!

एक HBase तालिका बनाने के कई तरीके हैं और यह पॉप्युलेट:थोक लोड, HBase खोल, HBaseStorageHandler, आदि
यहाँ हम .tsv फ़ाइल को पार्स करने ImportTsv वर्ग जो उद्देश्य का उपयोग करने वाले जाएगा एक में डालने के लिए मौजूदा HBase तालिका।

सबसे पहले, चलो कुछ डेटा हड़पने करते हैं!

डाउनलोड access.tsv अपने क्लस्टर में से किसी मशीन के लिए:। इस नमूने टैब से अलग डेटा के साथ एक 2GB ज़िपित फ़ाइल तिथि, का उल्लेख-यूआरएल और http-कोड है, वाले कॉलम rowkey, और HDFS पर डाल दिया

[root@sandbox ~]# gunzip access.tsv.gz
[root@sandbox ~]# hdfs dfs -copyFromLocal ./access.tsv /tmp/

अब हम HBase खोल में तालिका बनाने के लिए है, यह इस उदाहरण के लिए केवल एक ही ColumnFamily शामिल होंगे

[root@sandbox ~]# hbase shell
hbase(main):001:0> create 'access_demo','cf1'
0 row(s) in 14.2610 seconds

और तदर्थ वर्ग के साथ आयात शुरू करते हैं, स्तंभों का चयन (मत भूलना HBASE_ROW_KEY जो स्तंभ के किसी भी हो सकता है, इसलिए यह पहली बार यहाँ है)।
सिंटेक्स है HBase JAVA_CLASS -DPARAMETERS TABLE_NAME फ़ाइल

सूचना है कि आप ', -Dimporttsv.separator =' tsv विभाजक निर्दिष्ट कर सकते हैं और आप स्पष्ट रूप से अलग कॉलम परिवारों cf1 जोड़ सकते हैं कि:फ़ील्ड 1, cf1:field2, cf2:फ़ील्ड 3, cf2:फ़ील्ड 4

[root@sandbox ~]# hbase org.apache.hadoop.hbase.mapreduce.ImportTsv -Dimporttsv.columns=HBASE_ROW_KEY,cf1:date,cf1:refer-url,cf1:http-code access_demo /tmp/access.tsv

2015-05-21 19:55:38,144 INFO [main] mapreduce.Job: Job job_1432235700898_0002 running in uber mode : false
2015-05-21 19:55:38,151 INFO [main] mapreduce.Job: map 0% reduce 0%
2015-05-21 19:56:00,718 INFO [main] mapreduce.Job: map 7% reduce 0%
2015-05-21 19:56:03,742 INFO [main] mapreduce.Job: map 21% reduce 0%
2015-05-21 19:56:06,785 INFO [main] mapreduce.Job: map 65% reduce 0%
2015-05-21 19:56:10,846 INFO [main] mapreduce.Job: map 95% reduce 0%
2015-05-21 19:56:11,855 INFO [main] mapreduce.Job: map 100% reduce 0%
2015-05-21 19:56:13,948 INFO [main] mapreduce.Job: Job job_1432235700898_0002 completed successfully

आइए जांच:

[root@sandbox ~]# hbase shell
hbase(main):001:0> list
TABLE
access_demo
iemployee
sales_data
3 row(s) in 9.7180 seconds

=> ["access_demo", "iemployee", "sales_data"]
hbase(main):002:0> scan 'access_demo'
ROW COLUMN+CELL
# rowkey column=cf1:date, timestamp=1432238079103, value=date
# rowkey column=cf1:http-code, timestamp=1432238079103, value=http-code
# rowkey column=cf1:refer-url, timestamp=1432238079103, value=refer-url
74.201.80.25/san-rafael-ca/events/sho column=cf1:date, timestamp=1432238079103, value=2008-01-25 16:20:50
w/80343522-eckhart-tolle
74.201.80.25/san-rafael-ca/events/sho column=cf1:http-code, timestamp=1432238079103, value=200
w/80343522-eckhart-tolle
74.201.80.25/san-rafael-ca/events/sho column=cf1:refer-url, timestamp=1432238079103, value=www.google.com/search
w/80343522-eckhart-tolle
calendar.boston.com/ column=cf1:date, timestamp=1432238079103, value=2008-01-25 19:35:50
calendar.boston.com/ column=cf1:http-code, timestamp=1432238079103, value=200

यह बात है!