Python新手问题——大txt文件按条件将多行合并

Question

数据格式如下：······1107 1385331000000 1.31425116071267541107 1385331000000 0.00216831966616601571107 1385331600000 0.0021683196661660157 1107 1385331600000 1.48678059856709231107 1385331600000 0.0...

黄舟 · Answer

Je l'ai résolu moi-même. Même si cela peut être compliqué, cela peut répondre aux besoins

__author__ = 'Administrator'
file = open('day24.txt', 'a+')
s = "area       time            data
"
file.write(s)
file.close


file = open('sms-call-internet-mi-2013-11-24-24.txt','r')
line = file.readline()
list1 = []#时间
num1 = []#data
area = []

while 1:
    line = file.readline()
    if line == '':
        break
    a = line.split()
    if int(a[0]) == 1:
        if a[2] == "NA":
            a[2] = '0'
        area.append(a[0])
        if a[1] in list1:
            num1[list1.index(a[1])] = float(num1[list1.index(a[1])])+float(a[2])
        else:
            list1.append(a[1])
            num1.append(a[2])
    elif int(a[0]) < 10001:

        if a[2] == "NA":
            a[2] = '0'
        if a[0] not in area:
            area.append(a[0])

            file1 = open('day24.txt', 'a+')

            for i in list1:
                file1.write("%-8s%-16s%.20f
" % (area[area.index(a[0])-1], i, float(num1[list1.index(i)])))
            file1.close
            file1 = open('day24.txt', 'r')
            file1.close
            list1 = []
            num1 = []

        if a[1] in list1:
            num1[list1.index(a[1])] = float(num1[list1.index(a[1])])+float(a[2])

        else:
            list1.append(a[1])
            num1.append(a[2])
    else:
        break
file.close

file = open('day24.txt', 'a+')
for j in list1: 
    file.write("%-8s%-16s%.20f
" % (a[0], j, float(num1[list1.index(j)])))
file.close
file = open('day24.txt', 'r')
file.close

ringa_lee · Answer

S'il est basé sur des séries chronologiques, utilisez simplement le générateur pour lire le fichier original, générer de nouvelles lignes puis le sortir.

ringa_lee · Answer

les pandas peuvent résoudre vos besoins, lire les données dans un dataframe puis les traiter

怪我咯 · Answer

Cela dépend de la quantité de données dont vous disposez

Utilisez la traversée des descripteurs de fichiers, n'utilisez pas readlines() (la mémoire peut ne pas être suffisante)
Utilisez une structure de données similaire à un dictionnaire pour stocker vos informations. Si la mémoire n'est pas suffisante, vous devez trouver un moyen d'écrire les informations intermédiaires sur le disque, etc.

L'idée générale est la suivante

from collections import Counter
c = Counter()
f = ['1107 1385332800000 1.2847329440609827',
'1107 1385332800000 0.0021683196661660157',
'1107 1385333400000 1.2891586380834603',
'1108 1385247600000 0.026943168177151356',
'1108 1385247600000 6.184696475262653',
'1108 1385248200000 0.05946288920050806' ]

'''
with open('xxoo.txt') as f:  # f 文件遍历句柄，相当于上面的 list f
    for i in f:
        s = i.split()
        c[s[0]] += s[2]
'''


for i in f:  # 这里是遍历 f， 这里遍历的是 list f， 你实际情况要用上面的 f
    s = i.split()  # 这里是空格分割，可以使用 print s 看看结果
    c[s[0]] += float(s[2])  # c 用来统计

for i in c:
    print i, c[i]

PHPz · Answer

Ce que vous faites, c'est regrouper les statistiques en fonction de deux indicateurs : l'étiquette et l'heure. Utilisez pandas pour lire, utilisez to_datetime pour convertir l'horodatage en colonne d'heure, puis utilisez groupby pour classer l'étiquette. et l'heure en même temps, et résumez-le.

黄舟 · Answer

Veuillez utiliser cette idée
https://www.zhihu.com/questio...

阿神 · Answer

Je pense que votre format de données peut être analysé un peu avant de le faire
1 La première colonne représente la date, vous pouvez l'utiliser comme clé du premier niveau du tableau de résultats, result[date]<🎜. >2. La deuxième colonne doit être l'horodatage (minutes), donc si vous avez besoin du résultat par heure, vous initialisez 24 éléments pour chaque élément de résultat [données], et la clé est le nombre d'heures (vous pouvez utiliser le nombre d'heures correspondant) La valeur du tampon est utilisée comme clé), et la valeur de la clé correspond à la somme des données dans cette heure, c'est-à-dire resultdate
3 Après avoir initialisé le tableau de résultats, c'est simple. . Il vous suffit de parcourir le fichier et de le traiter ligne par ligne. Chaque ligne, lisez d'abord la valeur de la première colonne, telle que 1107,
puis exécutez le résultat[1107]. Lisez ensuite la deuxième colonne, recherchez la clé d'horodatage correspondante et additionnez-la simplement.
4. Enfin, parcourez le tableau de résultats et affichez le résultat.

天蓬老师 · Answer

Il vous faut :

from itertools import groupby

Cela peut être fait en moins de dix lignes de code.

Python新手问题——大txt文件按条件将多行合并

répondre à tous(8)je répondrai