आधार R में, उपयोग करने के लिए फ़ंक्शन reshape
. होगा , और आप अपने डेटा को "लॉन्ग" से "वाइड" में कनवर्ट कर रहे होंगे।
reshape(mydf, direction = "wide", idvar="perid", timevar="date")
# perid rating.2005 rating.2006 rating.2007 rating.2008 rating.2009 rating.2010 rating.2011
# 1 10001 RD GN GD <NA> <NA> <NA> <NA>
# 4 10002 <NA> <NA> <NA> GD YW GN GN
# 8 10003 GD GN YW <NA> <NA> <NA> <NA>
वैकल्पिक रूप से, आप dcast
. देख सकते हैं "reshape2" पैकेज से और कोशिश करें:
library(reshape2)
dcast(mydf, perid ~ date, value.var="rating")
# perid 2005 2006 2007 2008 2009 2010 2011
# 1 10001 RD GN GD <NA> <NA> <NA> <NA>
# 2 10002 <NA> <NA> <NA> GD YW GN GN
# 3 10003 GD GN YW <NA> <NA> <NA> <NA>
बेहतर गति के लिए, अपने data.frame
को रूपांतरित करें एक data.table
. पर और dcast.data.table
. का उपयोग करें इसके बजाय।
library(reshape2)
library(data.table)
DT <- data.table(mydf)
dcast.data.table(DT, perid ~ date, value.var = "rating")
# perid 2005 2006 2007 2008 2009 2010 2011
# 1: 10001 RD GN GD NA NA NA NA
# 2: 10002 NA NA NA GD YW GN GN
# 3: 10003 GD GN YW NA NA NA NA
आपकी टिप्पणियों से, ऐसा लगता है कि आपने कॉलम 1 और 2 के संयोजनों के बीच मूल्यों को दोहराया है, जिसका अर्थ है कि डिफ़ॉल्ट रूप से, dcast
length
का उपयोग करेगा इसके एकत्रीकरण समारोह के रूप में।
इसे पार करने के लिए, आपको एक द्वितीयक आईडी (या "समय", वास्तव में) कॉलम बनाना होगा, जो इस तरह किया जा सकता है।
सबसे पहले, कुछ नमूना डेटा। 1 और 2 पंक्तियों में पहले दो स्तंभों के डुप्लीकेट संयोजन पर ध्यान दें।
mydf <- data.frame(
period = c(10001, 10001, 10002, 10002, 10003, 10003, 10001, 10001),
date = c(2005, 2005, 2006, 2007, 2005, 2006, 2006, 2007),
rating = c("RD", "GN", "GD", "GD", "YW", "GN", "GD", "YN"))
mydf
# period date rating
# 1 10001 2005 RD
# 2 10001 2005 GN
# 3 10002 2006 GD
# 4 10002 2007 GD
# 5 10003 2005 YW
# 6 10003 2006 GN
# 7 10001 2006 GD
# 8 10001 2007 YN
जब आप dcast
को आजमाते हैं , यह प्रत्येक संयोजन के अंतर्गत संख्या को केवल "गिनती" है।
## Not what you want
dcast(mydf, period ~ date, value.var="rating")
# Aggregation function missing: defaulting to length
# period 2005 2006 2007
# 1 10001 2 1 1
# 2 10002 0 1 1
# 3 10003 1 1 0
या तो तय करें कि कौन सी डुप्लीकेट पंक्ति को छोड़ दिया जाना चाहिए, या, यदि सभी डेटा आपके डेटासेट में है, तो इस तरह एक "समय" चर जोड़ें:
mydf$time <- ave(1:nrow(mydf), mydf$period, mydf$date, FUN = seq_along)
mydf
# period date rating time
# 1 10001 2005 RD 1
# 2 10001 2005 GN 2
# 3 10002 2006 GD 1
# 4 10002 2007 GD 1
# 5 10003 2005 YW 1
# 6 10003 2006 GN 1
# 7 10001 2006 GD 1
# 8 10001 2007 YN 1
अब, dcast
ठीक काम करना चाहिए। ये रहा अर्ध-लंबा संस्करण...
dcast(mydf, period + time ~ date, value.var="rating")
# period time 2005 2006 2007
# 1 10001 1 RD GD YN
# 2 10001 2 GN <NA> <NA>
# 3 10002 1 <NA> GD GD
# 4 10003 1 YW GN <NA>
... और एक सेमी-वाइड संस्करण।
dcast(mydf, period ~ date + time, value.var="rating")
# period 2005_1 2005_2 2006_1 2007_1
# 1 10001 RD GN GD YN
# 2 10002 <NA> <NA> GD GD
# 3 10003 YW <NA> GN <NA>