您当前的位置:首页 > IT编程 > python
| C语言 | Java | VB | VC | python | Android | TensorFlow | C++ | oracle | 学术与代码 | cnn卷积神经网络 | gnn | 图像修复 | Keras | 数据集 | Neo4j | 自然语言处理 | 深度学习 | 医学CAD | 医学影像 | 超参数 | pointnet | pytorch |

自学教程:利用python合并csv文件的方式实例

51自学网 2022-07-22 18:47:48
  python
这篇教程利用python合并csv文件的方式实例写得很实用,希望能帮到您。

1.用concat方法合并csv

将两个相同的csv文件进行数据合并,通过pandas的read_csv和to_csv来完成,即采用concat方法:

#加载第三方库import pandas as pdimport numpy as np#读取文件df1 = pd.read_csv("文件-1.csv")df2 = pd.read_csv("文件-2.csv")#合并df = pd.concat([df1,df2])df.drop_duplicates()  #数据去重#保存合并后的文件df.to_csv('文件.csv',encoding = 'utf-8')

也可以增加一列标签,以区别两个合并后的数据:

#加载第三方库import pandas as pdimport numpy as np#读取文件df1 = pd.read_csv("文件-1.csv")df1["来自文件"] = "文件-1"df2 = pd.read_csv("文件-2.csv")df2["来自文件"] = "文件-2"#合并df = pd.concat([df1,df2])df.drop_duplicates()  #数据去重#保存合并后的文件df.to_csv('文件.csv',encoding = 'utf-8')

2.glob模块批量合并csv

在利用合并少量文件时,可以使用上面的concat方法。但是遇到大量的相同文件需要合并,此时应该进行批量合并,这可以减少工作量,提高操作效率。

利用Python批量合并csv,这里介绍使用的方法是引入glob模块。

glob模块是最简单的模块之一,内容少,它可以查找符合特定规则的文件路径名。

通过glob方法遍历所有文件,读取数据并追加保存到文件中。

import numpy as npimport pandas as pdimport globimport re csv_list = glob.glob('*.csv')print('共发现%s个CSV文件'% len(csv_list))print('正在处理............')for i in csv_list:    fr = open(i,'r',encoding='utf-8').read()    with open('文件合集.csv','a',encoding='utf-8') as f:        f.write(fr)print('合并完毕!')

以上方法是合并csv文件,要合并excel文件同理。

补充:Python处理(加载、合并)多个csv文件

数据集介绍:本数据集是某化工系统的数据,一共有很多个月的,我这里就拿一个月的数据集,August_data(八月的数据集),一共有31个csv文件。   

方法一  for循环遍历+os.listdir(directory_path)+[ for file in tqdm] + os.path.join(path,file)

import pandas as pdimport numpy as np from tqdm import tqdmimport os def get_data(path):    df_list = []    for file in tqdm(os.listdir(path)):##进度条        file_path = os.path.join(path, file)        df = pd.read_csv(file_path)        df_list.append(df)    df = pd.concat(df_list)    return df cPath = './August_data'# cPath = 'F:/BaiduNetdiskDownload/宁东电厂数据及分析要求/宁东脱销系统优化-上海交大/SCR数据-2020-1/8月数据' #F:/BaiduNetdiskDownload/宁东电厂数据及分析要求/宁东脱销系统优化-上海交大/SCR数据-2020-1/8月数据# uPath = str(cPath)#uPath = unicode(cPath,'utf-8')# dirs = os.listdir(TEST_PATH)# print(dirs)test_df = get_data(cPath)print(test_df.head())# test_df.to_csv(path_or_buf="test.csv",index=False)#保存为CSV文件

方法二   glob方法

#!/usr/bin/env python# coding=utf-8 import globimport timeimport csvimport pandas as pdfrom tqdm import tqdm# a new file #open all the CSV file#遍历文件夹下所有csv文件TEST_PATH = './August_data' csv_list = glob.glob(f'{TEST_PATH}/*.csv')print('共有%s个CSV文件'% len(csv_list))# print (csv_list) def get_data():    df_list = []    for csv_file in csv_list:        df = pd.read_csv(csv_file)        df_list.append(df)    df = pd.concat(df_list)    print("Loading Oer")    return dfget_data()

总结

到此这篇关于利用python合并csv文件的文章就介绍到这了,更多相关python合并csv文件内容请搜索wanshiok.com以前的文章或继续浏览下面的相关文章希望大家以后多多支持wanshiok.com!


Python标准库time使用方式详解
python中*args与**kwarsg及闭包和装饰器的用法
51自学网,即我要自学网,自学EXCEL、自学PS、自学CAD、自学C语言、自学css3实例,是一个通过网络自主学习工作技能的自学平台,网友喜欢的软件自学网站。
京ICP备13026421号-1