溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊×

獲取短信驗證碼

其他方式登錄

點擊登錄注冊即表示同意《億速云用戶服務條款》

用戶登錄×

賬戶密碼登錄

請使用微信掃描上方二維碼

使用幫助

請求超時！

請點擊重新獲取二維碼

怎么將一個CSV格式的文件分割成兩個CSV文件

發布時間：2022-08-01 09:28:17 來源：億速云閱讀：471 作者：iii 欄目：開發技術

這篇文章主要介紹“怎么將一個CSV格式的文件分割成兩個CSV文件”的相關知識，小編通過實際案例向大家展示操作過程，操作方法簡單快捷，實用性強，希望這篇“怎么將一個CSV格式的文件分割成兩個CSV文件”文章能幫助大家解決問題。

將一個CSV格式的文件分割成兩個CSV文件

本項目可以按照比例將一個csv文件分割成兩個csv文件，效果是：在C:\algo_file文件夾下，將該文件夾下的data.csv文件分成train.csv和vali.csv

完整代碼：

定義split_csv函數

import csv
import os
def split_csv(path, total_len, per):
    # 如果train.csv和vali.csv存在就刪除
    if os.path.exists('C:\\algo_file\\train.csv'):
        os.remove('C:\\algo_file\\train.csv')
    if os.path.exists('C:\\algo_file\\vali.csv'):
        os.remove('C:\\algo_file\\vali.csv')
    with open(path, 'r', newline='') as file:
        csvreader = csv.reader(file)
        i = 0
        for row in csvreader:
            if i < round(total_len * per/100):
                # train.csv存放路徑
                csv_path = os.path.join("C:\\algo_file", 'train.csv')
                print(csv_path)
                # 不存在此文件的時候，就創建
                if not os.path.exists(csv_path):
                    with open(csv_path, 'w', newline='') as file:
                        csvwriter = csv.writer(file)
                        csvwriter.writerow(row)
                    i += 1
                # 存在的時候就往里面添加
                else:
                    with open(csv_path, 'a', newline='') as file:
                        csvwriter = csv.writer(file)
                        csvwriter.writerow(row)
                    i += 1
            elif (i >= round(total_len * per/100)) and (i < total_len):
            	# vali.csv存放路徑
                csv_path = os.path.join("C:\\algo_file", 'vali.csv')
                print(csv_path)
                # 不存在此文件的時候，就創建
                if not os.path.exists(csv_path):
                    with open(csv_path, 'w', newline='') as file:
                        csvwriter = csv.writer(file)
                        csvwriter.writerow(row)
                    i += 1
                # 存在的時候就往里面添加
                else:
                    with open(csv_path, 'a', newline='') as file:
                        csvwriter = csv.writer(file)
                        csvwriter.writerow(row)
                    i += 1
            else:
                break
    print("訓練集和驗證集分離成功")
    return

調用上述函數

if __name__ == '__main__':
    path = 'C:\\algo_file\\data.csv'
    total_len = len(open(path, 'r').readlines())# csv文件行數
    per = 80 # 分割比例%
    split_csv(path, total_len, per)

按照訓練集占80%（驗證集20%）比例，對C:\algo_file文件夾下的data.csv進行分割，在該文件下得到train.csv 和 vali.csv。

最后

本項目只是以C:\algo_file文件夾為例，實際上data.csv所在路徑，train.csv所在路徑，vali.csv所在路徑包括文件名都可以更改。

將CSV文件以某列為條件分類切割

項目中有一個數據文件數量龐大，一個文件中按照年月日分成幾十萬條數據，想試試能不能用python把它簡單切割一下，按照日期分類切成小的csv文件。

于是在網上找了很多資料，結合自己的一些修改，整理了一下，方便以后再用。

大概步驟

1、讀取文件

2、找出需要分類的列

3、將此列中重復的內容刪除，每類剩余一條

4、把該列所有符合某一類的內容存入一個csv文件中

上代碼

import pandas as pd
# 讀取文件數據
df=pd.read_csv('D:\\接收的文件\\lqf.csv', sep=',',engine='python',header=[0])
# 列csv文件中所有列
df.columns = ['year', 'date', 'statefips', 'countyfips', 'ctfips', 'latitude', 'longitude', 'DS_PM_pred', 'DS_PM_stdd']
#  刪除date列中的重復項，也就是說剩下的date都是已經分好的類別
date_cate = df.drop_duplicates(subset=['date'])
print(date_cate.date)
print(range(len(date_cate)))    # date中的所有類，也就是文件數
for name in date_cate.date:
    print(name)
    # 當date為某一個類時，存入一個小的csv文件中，文件名為類名
    df[df.date == name].to_csv("D:\\接收的文件\\data\\"+u"%s" %name+".csv")

header=[0] #代表第一行為表頭不計入其中，可根據表格修改。

?。。。。。。?）?。。。。?！遍歷文件夾中所有的文件然后進行切割，沒啥用，自己做個存檔而已 ↓↓↓↓↓

import pandas as pd
import os
j = 347
for info in os.listdir('D:\\接收的文件\year_02'):
    domain = os.path.abspath(r'D:\\接收的文件\year_02') # 獲取文件夾的路徑
    info = os.path.join(domain, info) # 將路徑與文件名結合起來就是每個文件的完整路徑
    # 讀取文件數據
    df = pd.read_csv(info, sep=',', engine='python', header=[0])
    # 列csv文件中所有列
    df.columns = ['year', 'date', 'statefips', 'countyfips', 'ctfips', 'latitude', 'longitude', 'DS_PM_pred', 'DS_PM_stdd']
    grouped = df.groupby('date')
    # delete duplicated data
    ind_frame = df.drop_duplicates(subset=['date'])
    # print(ind_frame.date)
    # print(range(len(ind_frame)))
    for name in ind_frame.date:
        # print(name)
        j += 1
        print("已經掃描到第" + '{}'.format(j)+'個文件')
        df[df.date == name].to_csv("D:\\接收的文件\\data2\\" + u"%s" %name+".csv")

關于“怎么將一個CSV格式的文件分割成兩個CSV文件”的內容就介紹到這里了，感謝大家的閱讀。如果想了解更多行業相關的知識，可以關注億速云行業資訊頻道，小編每天都會為大家更新不同的知識點。

向AI問一下細節

推薦閱讀：

免責聲明：本站發布的內容（圖片、視頻和文字）以原創、轉載和分享為主，文章觀點不代表本網站立場，如果涉及侵權請聯系站長郵箱：is@yisu.com進行舉報，并提供相關證據，一經查實，將立刻刪除涉嫌侵權內容。

上一篇新聞：
C#中參數的傳遞方式是什么
下一篇新聞：
Golang斷言與閉包如何使用

猜你喜歡

AI
助
手

產品服務

地區劃分

專題活動

幫助支持

關于我們

售后咨詢

7*24小時在線電話：400-100-2938

7*24小時在線 QQ：800811969

關注億速云

億速云公眾號

手機網站二維碼

亚洲午夜精品一区二区_中文无码日韩欧免_久久香蕉精品视频_欧美主播一区二区三区美女