使用pyODBC的fast_executemany加速pandas.DataFrame.to_sql

9 浏览2023年2月13日

匿名的 2023年2月14日

0 Comments

我想将一个大型的pandas.DataFrame发送到一个运行MS SQL的远程服务器。我现在的做法是将一个data_frame对象转换为一个元组列表，然后使用pyODBC的executemany()函数发送。大致如下：

import pyodbc as pdb
list_of_tuples = convert_df(data_frame)
connection = pdb.connect(cnxn_str)
cursor = connection.cursor()
cursor.fast_executemany = True
cursor.executemany(sql_statement, list_of_tuples)
connection.commit()
cursor.close()
connection.close()

然后我开始思考是否可以通过使用data_frame.to_sql()方法来加快速度（或者至少更易读）。我想出了以下解决方案：

import sqlalchemy as sa
engine = sa.create_engine("mssql+pyodbc:///?odbc_connect=%s" % cnxn_str)
data_frame.to_sql(table_name, engine, index=False)

现在代码更易读了，但是上传速度至少慢150倍...

在使用SQLAlchemy时有没有一种方法来反转fast_executemany？

我使用的是pandas-0.20.3，pyODBC-4.0.21和sqlalchemy-1.1.13。

如何在使用SQLAlchemy 1.3.18和Sybase时实现类似fast_executemany的功能，以提高插入速度？

在SQL Server中使用pyodbc进行快速插入。

SQLAlchemy/pandas在SQLServer中的to_sql方法 -- 在主数据库中创建表

使用SQLAlchemy和pandas将数据写入MySQL数据库，使用to_sql函数。

如何使用pyodbc加快向MS SQL Server进行批量插入的速度

在处理大量行时，MySQLdb的executemany出现错误。

sqlalchemy pandas to_sql OperationalError

Pandas在使用read_sql_table时占用过多的内存。

使用to_sql将数据从pandas dataframe导入SQL数据库时，PC卡住了。

将数据从pandas导入到SQL服务器中使用PYODBC。

Python cx_Oracle查询速度

SQLAlchemy使用生成器执行批量操作

从 pyodbc 读取数据到 pandas。

如何在不耗尽内存的情况下从SQL查询创建大型Pandas数据框？

如何从pandas导出UTF8字符到MS SQL

如何将DataFrame写入到postgres表中

如何将pandas数据框分成其他数据块？

如何将一个pandas dataframe插入到已存在的数据库表中？

从MySQL快速获取表格到Pandas的方法

mssql服务器数据库在pandas的iterrows中插入的行数超出预期，在Ubuntu机器上使用ODBC驱动程序。

使用pyODBC的fast_executemany加速pandas.DataFrame.to_sql

0 答案