Heim  >  Artikel  >  Backend-Entwicklung  >  Schritt für Schritt mit Python Dateien mit langen Pfaden unter Windows löschen

Schritt für Schritt mit Python Dateien mit langen Pfaden unter Windows löschen

王林
王林nach vorne
2023-04-12 13:31:081183Durchsuche

0x01 Artikelhintergrund

In letzter Zeit nähert sich der Speicher eines Geschäftssystems des Unternehmens des Autors seiner Grenze und der Server wird bald nicht mehr lauffähig sein, da das Geschäftssystem A mehrere Subsysteme enthält A1 und A2, A3... Aus Designgründen werden die Zwischenspeicherdateien dieser Subsysteme alle im selben übergeordneten Verzeichnis gespeichert. Der einzige Unterschied besteht darin, dass die Namen der von verschiedenen Subsystemen generierten Dateien und Ordner nach benannt sind Subsystem. Beginnen Sie mit dem Namen. Beispielsweise heißen die vom A1-Subsystem generierten Dateien alle A1xxxxxx​ und die vom A2-Subsystem generierten Dateinamen lauten alle A2xxxxxx. Jetzt müssen wir die historischen Dateien einiger dieser Subsysteme löschen, um Dutzende Terabyte an Daten zusammenzuspeichern. Dies kann nur durch Programmautomatisierung erreicht werden. Natürlich habe ich an Python gedacht. Tatsächlich glaube ich nicht, dass die Notwendigkeit, Dateien einfach zu löschen, eine lange Diskussion wert ist, aber ich bin auf einige spezielle und interessante Probleme und einige interessante Lösungen gestoßen, die ich Ihnen daher gerne mitteilen möchte, z. B. das Löschen sehr langer Dateien unter Windows-Systeme, wie z. B. von Lesen Sie die offizielle englische Dokumentation, um Lösungen usw. zu finden. Kommen wir zum Punkt.

0x02 Verwenden Sie Python, um Dateien zu löschen.

Es gibt viele Möglichkeiten, Dateien mit Python zu löschen. Der direkteste und bequemste Weg ist, die integrierte Funktion aufzurufen: #🎜🎜 #

    os.remove() Dateien löschen
  • os.rmdir() Einen leeren Ordner löschen
  • shutil.rmtree() Einen Ordner löschen und Der Ordner Alle Inhalte darunter (einschließlich Unterverzeichnisse und Dateien)
Das heißt, die Lösung dieses Problems konzentriert sich auf die Behandlung der oben genannten drei Funktionen. Was das Problem betrifft, auf das wir gestoßen sind, enthält das Geschäftssystem A mehrere Subsysteme A1, A2, A3 ... Aus Designgründen werden die Zwischenspeicherdateien dieser Subsysteme alle im selben übergeordneten Verzeichnis gespeichert. Die Namen von Dateien und Ordnern, die von verschiedenen Subsystemen generiert werden, beginnen alle mit dem Subsystemnamen. Beispielsweise heißen die vom A1-Subsystem generierten Dateien alle A1xxxxxx und die vom A2-Subsystem generierten Dateinamen lauten alle A2xxxxx. Der Zweck besteht nun darin, die vom angegebenen Subsystem generierten Dateien zu löschen und die Dateien anderer Subsysteme beizubehalten.

Die Aufschlüsselung der Anforderungen löst tatsächlich die folgenden 4 Probleme:

1. Wie lösche ich eine Datei?

2. Wie erkennt man, dass eine Datei oder ein Ordner von einem bestimmten Subsystem generiert wird?

3. Wie kann man feststellen, ob es sich bei einem Pfad um eine Datei oder ein Verzeichnis handelt?

4. Wie finde ich die von allen angegebenen Subsystemen generierten Dateien und Ordner?

Für Frage 1 können Sie, wie am Anfang dieses Abschnitts erläutert, die in Python integrierte Funktion zum Löschen verwenden:

os.remove("path") # 删除指定文件
os.rmdir("path") # 删除一个空文件夹
shutil.rmtree("path") #删除一个文件夹及该文件夹下所有内容(包括子目录及文件)

Für Frage 2, aufgrund des spezifischen Subsystems Die Benennungsmethoden für Dateien und Ordner sind feste Muster. Beispielsweise lauten die vom A1-Subsystem generierten Dateinamen alle A1xxxxx, sodass sie durch Schlüsselwortabgleich identifiziert werden können. Eine mögliche Möglichkeit ist:

if keywords in filepath: # 如果文件名包含关键字keywords
os.remove(filepath) # 删除文件
else:
pass

Da bei Frage 3 die Methoden zum Löschen von Verzeichnissen und Dateien inkonsistent sind, muss vor dem Löschen ermittelt werden, ob es sich bei einem Pfad um ein Verzeichnis oder eine Datei handelt, und diese auswählen Geeignete Löschmethode entsprechend ihrem Typ. Dies kann in Python mithilfe von Funktionen wie **os.path.isdir()** beurteilt werden, hauptsächlich den folgenden Funktionen:

os.path.isdir("path") # 返回true则为目录,false则为文件
os.path.isfile("path") # 返回true则为文件,false则为目录

Für Frage 4: So finden Sie alle zu löschenden Dateien. Bei diesem Problem handelt es sich tatsächlich um ein Problem beim Durchlaufen von Dateien in einem bestimmten Verzeichnis, dh beim Durchlaufen aller Ordner und Dateien in einem bestimmten Verzeichnis. Für dieses Problem gibt es im Allgemeinen zwei Lösungen, eine ist die Tiefendurchquerungsmethode und die andere ist die Breitendurchquerungsmethode. In diesem Beispiel ist die Effizienz der beiden Methoden gleich, da wir schließlich alle durchqueren werden Dateien. Darüber hinaus ist Python glücklicherweise zu leistungsfähig und hat uns dabei geholfen, eine Methode zum Durchlaufen des Verzeichnisses „Breite zuerst“ und zum Durchlaufen aller Dateien im Pfadverzeichnis zu implementieren Eine typische Verwendung ist wie folgt:

import os

path = "C:\A\"

for root, dirs, files in os.walk(path):
print(root)
print(dirs)
print(files)

Im obigen Beispiel repräsentiert root den aktuell durchlaufenen Pfad, dirs repräsentiert alle Unterverzeichnisse unter dem aktuellen Pfad und files repräsentiert alle Unterdateien unter dem aktuellen Pfad. Auf diese Weise können alle angegebenen Verzeichnisse durchlaufen werden.

Die Probleme wurden zerlegt, um die Code-Implementierung abzuschließen:

import os
import shutil

path = "C:\A\"
keyword = "A1"

for root, dirs, files in os.walk(path):
for dir in dirs:
if keyword in dir:
rmpath = os.path.join(root, dir)
print("删除文件夹: %s" % rmpath)
shutil.rmtree(rmpath)
for file in files:
if keyword in file:
rmpath = os.path.join(root, file)
print("删除文件: %s" % rmpath)
os.remove(rmpath)

Das heißt, durch Die Breitenmethode (os.walk()) durchläuft das angegebene Verzeichnis und bestimmt nacheinander, ob alle Unterverzeichnisse und Dateien im Verzeichnis die Schlüsselwortbedingungen erfüllen, und löscht sie, wenn dies der Fall ist.

Der Laufeffekt ist:

Es scheint, dass die Anforderung an diesem Punkt grundsätzlich gelöst ist, aber im eigentlichen Test Ich habe festgestellt, dass einige sehr tiefe Verzeichnisse nicht gelöscht wurden. Beim Löschen des Verzeichnisses ist ein Fehler aufgetreten. Die Fehlerbeschreibung lautet wie folgt: Schritt für Schritt mit Python Dateien mit langen Pfaden unter Windows löschen

Unexpected error: (< type 'exceptions.WindowsError'>, WindowsError(3, 'The system cannot find the path specified'), < traceback object at 0x0000000002714F88>)

大致意思就是python找不到这个路径,可是为什么呢?为此,我继续进行一番资料查询,后来大致定位了是由于文件路径过长导致的,是由于windows系统用户态的默认路径长度不能超过256个字节导致的。但是官方说256个字节是最长,但为何能创建超过256的呢,所以既然能创建,那就一定能删除,但是需要一些方法,经过一番学习,找到了好几种方法,下面介绍其中一种最为实用的方法,另外几个比如使用压缩软件压缩后删除(百度知道的结果)适合手动但不适合编程解决。这个方法在下一节中继续讲述。

0x03 windows 文件系统关于长路径文件的相关定义

为解决windows下的长文件删除的问题,最为权威的资料莫过于windows官方的描述,我阅读了微软关于文件名长度的这一块的定义及说明,找到解决方案,微软的原文如下:

Schritt für Schritt mit Python Dateien mit langen Pfaden unter Windows löschen

关键意思如下:

1.Windows API 提供的文件路径理论上最长是 32767 个字节,普通状态下给用户使用是不超过256个字符,说是为了使用户操作更加方便。这里不得不吐槽一下了,确实操作方便了,但是方便的同时也可能带来不便,明明定义了32767这么长的字节,只给用256,未免太抠搜了一点

2.用户如果想要打破这个长度限制,可以通过一个特殊方式告诉windows系统自己想要使用超长文件,这个特殊的方式就是在绝对路径前加上** "?" **字符串。

3.这篇文档后面还有描述在windows10以后如何通过注册表的方式接触文件名长度限制,这里就没有截图了,因为不通用,win7怎么办呢?有兴趣的同学可以查看其原文链接阅读:https://docs.microsoft.com/en-US/windows/win32/fileio/maximum-file-path-limitation?tabs=cmd

好了,看到这,解决方法呼之欲出,其实简单得不能太简单,直接在绝对路径前加上一个"?"即可:

# 获取目标路径的绝对路径,并在路径前加上\?,
# 以解除windows的文件长度限制
path = '\\?\' + os.path.abspath(path)

0x04 改造 python 程序,删除长路径文件

根据上一节,对python程序进一步进行改造,加入windows长文件名限制解除,最后的完美删除工具就成型了:

import os
import shutil

path = "C:\A\"
keyword = "A1"

# 获取目标路径的绝对路径,并在路径前加上\?,
# 以解除windows的文件长度限制
path = '\\?\' + os.path.abspath(path)

for root, dirs, files in os.walk(path):
for dir in dirs:
if keyword in dir:
rmpath = os.path.join(root, dir)
print("删除文件夹: %s" % rmpath)
shutil.rmtree(rmpath)
for file in files:
if keyword in file:
rmpath = os.path.join(root, file)
print("删除文件: %s" % rmpath)
os.remove(rmpath)

虽然代码很短,只添加了一行,但是这一行,却完成了一个超级核心的任务,真可谓是灵魂一行啊,最后该工具中如在生产环境中发挥了其出色的作用,使服务器继续运转如飞了。

0x04 总结思考

啰嗦的话就不多说了,说几点思考 :

1.遇到问题将问题进行分解,拆分成一个个小问题逐步击破 。

2.要善于阅读官方技术文档,有时候解决一个问题的核心可能很简单,代码可能也就一行两行,但是就是藏在某个角落,不仔细去阅读还真不一定找得出来 。

3.python是个好东西,要有将问题转化成使用python去解决的习惯,习惯成自然,python可能在工作中就发挥大作用了呢。

0x05 参考资料

1.https://docs.microsoft.com/en-US/windows/win32/fileio/maximum-file-path-limitation?tabs=cmd  

2.https://stackoverflow.com/questions/6996603/how-to-delete-a-file-or-folder-in

Das obige ist der detaillierte Inhalt vonSchritt für Schritt mit Python Dateien mit langen Pfaden unter Windows löschen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:51cto.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen