SqlAlchemy और cx_Oracle का उपयोग करके Oracle डेटाबेस में पांडा डेटाफ़्रेम लिखते समय to

डिफ़ॉल्ट रूप से पंडों + SQLAlchemy सभी object save को सहेजते हैं (स्ट्रिंग) कॉलम CLOB . के रूप में Oracle DB में, जो सम्मिलन करता है बेहद धीमा।

यहां कुछ परीक्षण दिए गए हैं:

import pandas as pd
import cx_Oracle
from sqlalchemy import types, create_engine

#######################################################
### DB connection strings config
#######################################################
tns = """
  (DESCRIPTION =
    (ADDRESS = (PROTOCOL = TCP)(HOST = my-db-scan)(PORT = 1521))
    (CONNECT_DATA =
      (SERVER = DEDICATED)
      (SERVICE_NAME = my_service_name)
    )
  )
"""

usr = "test"
pwd = "my_oracle_password"

engine = create_engine('oracle+cx_oracle://%s:%example@sqldat.com%s' % (usr, pwd, tns))

# sample DF [shape: `(2000, 11)`]
# i took your 2 rows DF and replicated it: `df = pd.concat([df]* 10**3, ignore_index=True)`
df = pd.read_csv('/path/to/file.csv')

डीएफ जानकारी:

In [61]: df.shape
Out[61]: (2000, 11)

In [62]: df.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2000 entries, 0 to 1999
Data columns (total 11 columns):
id               2000 non-null int64
name             2000 non-null object
premium          2000 non-null float64
created_date     2000 non-null datetime64[ns]
init_p           2000 non-null float64
term_number      2000 non-null int64
uprate           1000 non-null float64
value            2000 non-null int64
score            2000 non-null float64
group            2000 non-null int64
action_reason    2000 non-null object
dtypes: datetime64[ns](1), float64(4), int64(4), object(2)
memory usage: 172.0+ KB

आइए देखें कि इसे Oracle DB में संग्रहीत करने में कितना समय लगेगा:

In [57]: df.shape
Out[57]: (2000, 11)

In [58]: %timeit -n 1 -r 1 df.to_sql('test_table', engine, index=False, if_exists='replace')
1 loop, best of 1: 16 s per loop

Oracle DB में (CLOB's पर ध्यान दें):

AAA> desc test.test_table
 Name                            Null?    Type
 ------------------------------- -------- ------------------
 ID                                       NUMBER(19)
 NAME                                     CLOB        #  !!!
 PREMIUM                                  FLOAT(126)
 CREATED_DATE                             DATE
 INIT_P                                   FLOAT(126)
 TERM_NUMBER                              NUMBER(19)
 UPRATE                                   FLOAT(126)
 VALUE                                    NUMBER(19)
 SCORE                                    FLOAT(126)
 group                                    NUMBER(19)
 ACTION_REASON                            CLOB        #  !!!

आइए अब पांडा को सभी object को सेव करने का निर्देश दें कॉलम VARCHAR डेटा प्रकार के रूप में:

In [59]: dtyp = {c:types.VARCHAR(df[c].str.len().max())
    ...:         for c in df.columns[df.dtypes == 'object'].tolist()}
    ...:

In [60]: %timeit -n 1 -r 1 df.to_sql('test_table', engine, index=False, if_exists='replace', dtype=dtyp)
1 loop, best of 1: 335 ms per loop

इस बार यह लगभग था। 48 गुना तेज

Oracle DB में चेक इन करें:

 AAA> desc test.test_table
 Name                          Null?    Type
 ----------------------------- -------- ---------------------
 ID                                     NUMBER(19)
 NAME                                   VARCHAR2(13 CHAR)        #  !!!
 PREMIUM                                FLOAT(126)
 CREATED_DATE                           DATE
 INIT_P                                 FLOAT(126)
 TERM_NUMBER                            NUMBER(19)
 UPRATE                                 FLOAT(126)
 VALUE                                  NUMBER(19)
 SCORE                                  FLOAT(126)
 group                                  NUMBER(19)
 ACTION_REASON                          VARCHAR2(8 CHAR)        #  !!!

आइए 2000.000 पंक्तियों DF के साथ इसका परीक्षण करें:

In [69]: df.shape
Out[69]: (200000, 11)

In [70]: %timeit -n 1 -r 1 df.to_sql('test_table', engine, index=False, if_exists='replace', dtype=dtyp, chunksize=10**4)
1 loop, best of 1: 4.68 s per loop

मेरे परीक्षण (सबसे तेज़ नहीं) परिवेश में 200K पंक्तियों DF के लिए ~5 सेकंड का समय लगा।

निष्कर्ष: dtype . को स्पष्ट रूप से निर्दिष्ट करने के लिए निम्नलिखित ट्रिक का उपयोग करें object . के सभी DF कॉलम के लिए डेटाफ़्रेम को Oracle DB में सहेजते समय dtype। अन्यथा इसे CLOB डेटा प्रकार के रूप में सहेजा जाएगा, जिसके लिए विशेष उपचार की आवश्यकता होती है और यह बहुत धीमा हो जाता है

dtyp = {c:types.VARCHAR(df[c].str.len().max())
        for c in df.columns[df.dtypes == 'object'].tolist()}

df.to_sql(..., dtype=dtyp)

SqlAlchemy और cx_Oracle का उपयोग करके Oracle डेटाबेस में पांडा डेटाफ़्रेम लिखते समय to_sql () को गति दें