Pandas压缩保存DataFrame到csv(节省磁盘空间)

直接把一个大的DataFrame保存到磁盘是很占空间的。

随机生成一个大的DataFrame:

df = pd.DataFrame(pd.np.random.randn(50000,300))

把它保存到csv

df.to_csv('random_data.csv', index=False)

保存完后,csv的文件大小大概为300M,这是非常占用磁盘空间。

pandas压缩保存csv

一般做法是设置compression='gzip',对csv进行压缩保存:

df.to_csv('random_data.gz', compression='gzip', index=False)

压缩后的文件大小,大约缩小到136M

pandas读取压缩的文件

df = pd.read_csv('random_data.gz')


版权声明:著作权归作者所有。

相关推荐

Pandas dataframe重命名列名

Pandas重命名有三种方法:1、使用columns重命名>>> df = pd.DataFrame({'$a':[1,2], '$b': [10,20]}) >>> df.columns = ['a', 'b'] >>> df  &n

Android无损压缩图片方法

这是把图片以无损的方式压缩。public String compressImage(String imageUri) { String filePath = getRealPathFromURI(imageUri); Bitmap scaledBitmap = null; BitmapFactory.Options options =

Android保存及恢复Activity的状态

Android保存Activity状态有两种方式:activity保存以及持久化保存。这里主要介绍activity保存。保存Activity状态基于Activity保存状态需要重写onSaveInstanceState(Bundle savedInstanceState)方法。示例:@Override public void onSaveInstanceState(B