本篇文章给大家带来了关于GIT仓库瘦身及GIT LFS迁移说明的相关知识,希望对大家有帮助。
背景
之前一些git项目上 CI/CD,发现jenkins git clone失败,设置depth及clone时间之类的无果。只能考虑仓库瘦身之类的策略。发现仓库有不少的二进制文件,且这些二进制文件变更还挺频繁,这种操作会导致git仓库成倍增长极速膨胀,git本身只适合管理文本文件。
另外说一则有趣的往事,之前有个同事是图形编程,这个语言源码是图片形式的,而且一个文件又特别大,上git管理,小公司项目变更又频繁,导致没多久公司内部搭的git服务器硬盘居然就给他的几个git仓库给占满了。
GIT LFS (Large File Storage)
虽然git一直不适合管理二进制文件,不过现在 git 也好像默认提供了git lfs 这个专门用来管理大文件的插件。
基本原理简单来说就是使用类似一个文件指针(文本)代替实际的文件存储,git只存储文件指针的变更历史而不是整个二进制文件,并且在使用的时候,自动提供hook,方便在如clone、pull、reset等操作会自动去获取这些文件指针的源二进制文件,同样更新二进制文件commit的时候,git 会自动将源文件转成文件指针进git log,同时源文件上传lfs。所以在用户层面,GIT LFS的使用其实是无感的。
迁移
上面简单介绍了一下GIT LFS,接下来直接将如何迁移,至于为什么直接讲迁移而不是从0开始如何使用LFS。
是因为往往是git仓库用着用着发现,仓库好大、clone好慢,然后才是想着用LFS。
迁移需要我们有仓库的管理员权限,并且将保护分支之类取消保护;
具体LFS迁移主要分为以下几步。
迁移前最好做好备份,并且和团队同事沟通好,毕竟操作涉及-f高危操作,容易背锅。
GIT LFS 服务端配置
部分自建git 服务的话,可能需要服务端配置开启LFS,比如gitlab。
GIT LFS 客户端安装
windows 的git安装包自带了该插件,不需要另外安装,其他平台可自行安装,链接。
在命令行尝试以下命令。
git lfs
如果有类似help文档信息输出,就是已经有git lfs客户端了。
git-lfs/2.11.0 (GitHub; windows amd64; go 1.14.2; git 48b28d97)git lfs <command> [<args>]Git LFS is a system for managing and versioning large files in association with a Git repository. Instead of storing the large files within the Git repository as blobs, Git LFS stores special "pointer files" in the repository, while storing the actual file contents on a Git LFS server. The contents of the large file are downloaded automatically when needed, for example when a Git branch containing the large file is checked out.Git LFS works by using a "smudge" filter to look up the large file contents based on the pointer file, and a "clean" filter to create a new version of the pointer file when the large file's contents change.It also uses a pre-push hook to upload the large file contents to the Git LFS server whenever a commit containing a new large file version is about to be pushed to the corresponding Git server.
而后需要执行以下命令配置LFS全局环境,只需要配置一次,同时也会去更新当前仓库的hooks
git lfs install
迁移本地历史仓库
lfs迁移基本思想:lfs重写本地历史—>force push覆写远端,达到迁移的效果。
所以我们最好将本地仓库与远端同步,并且将所有的远端分支都创建本地分支;
而后cd到自己本地仓库,执行以下下命令,–include里面是glob表达式,自行添加想LFS管理的文件名,–everything代表所有本地分支
git lfs migrate import --include="*.bin,*.lib,*.so,*.dll,*.a,*.param,*.zip,*.gz" --everything
migrate: Sorting commits: ..., done. migrate: Rewriting commits: 100% (193/193), done. develop bacb490a80ea46d73bd3866c2e7cf7ad199ce5eb -> 72884bcb4629417bad73ea3d485d08a0708909cd feature/npu-platform a3645632756becc527c7f4d58514b3c479f824d3 -> e227900a3903b3a6955e4dffee48daeceac6cdff master 1ccdecdcb4b5d6224a6e24c6f87793bfcc15ee4c -> 1d9fc2139600ef3d92a20d65bb5db89021b8c488 0.1.0 07c6b2aa732506f1cc88cedb551f37f376b6efa6 -> 8e55193221dfca9f6bb28ccd9cca85af9c5958c9 1.0.0 0f694efcd7aa9df641836e1ea6eebbb730b940b5 -> 3f9e77575120b6e56b34790c998a362116da75f5 migrate: Updating refs: ..., done.
重写完本地分支、tag之类的,
我们在这里可以先执行 git lfs ls-files查看有哪些文件被转成了lfs管理,检查是否有遗漏
这个时候无论在哪个分支,都会出现 .gitattributes 文件,且都会被添加上类似以下内容。
*.bin filter=lfs diff=lfs merge=lfs -text *.lib filter=lfs diff=lfs merge=lfs -text *.so filter=lfs diff=lfs merge=lfs -text *.dll filter=lfs diff=lfs merge=lfs -text *.a filter=lfs diff=lfs merge=lfs -text *.param filter=lfs diff=lfs merge=lfs -text *.zip filter=lfs diff=lfs merge=lfs -text *.gz filter=lfs diff=lfs merge=lfs -text
同时可以看到我们二进制文件全部都转成了以下形式文本
version https://git-lfs.github.com/spec/v1 oid sha256:9171c8350d72ccca6ad60ac80b577157ad1f9fd44ca05744216e02ccbfcdf491 size 10260
确认无误,之后就可以推送到远端;
由于lfs的迁移会重写所有的commit,并且修改hash值,因此需要我们需要加上–froce
这步需要取消保护分支(保护分支无法-f)
git push --force --all
这样远程仓库的lfs迁移就完成了
迁移一些补充说明
- 迁移者的本地仓库lfs文件转源文件:经过以上步骤,由于我们将所有文件都已经转成文件指针,我们需要将文件下载回来才能正常使用该仓库。
需要注意,其他人重新clone 或者同步 lfs迁移过的remote仓库 是不需要该步,只针对迁移作者本地的仓库。
git lfs pull
- 团队中其他成员迁移前的本地仓库同步: 由于远程仓库的历史已经被全部重写,所以无法直接同步,最好是删除本地分支,重新拉取远程分支,如果本地已经有部分commit需要提交,可以重名本地分支,拉取远程再做cherry pick。git tag 同理,删除迁移前的tag。
- 本地仓库清理:上面的迁移成功将二进制文件迁移成git lfs 对象,git log 也不在存储源文件文件变更而是指针变更,但是在本地.git文件夹中仍存在之前不再需要的git log 缓存,执行以下命令做清理。
git reflog expire --expire-unreachable=now --all git gc --prune=now
清理前后仓库对比
lfs直观来讲更多的是针对仓库大clone慢的问题,我这边lfs迁移前后各备份各一个小型远程仓库做测试,
用的测试仓库二进制文件比较小,总大50m内,且变更次数也在个位数。
clone下来的仓库大小对比。
和我预估差不多,总的来说更适合二进制文件频繁变更,如果单纯是文件大,但文件不变更的话,在clone的时候区别不大,毕竟lfs在clone仍有下载源文件的步骤,除开下载,操作文件指针对git来说理论仍会有性能提升,但是可能感知不强。
推荐学习:《Git教程》
以上是十分钟学会GIT仓库瘦身及GIT LFS迁移说明的详细内容。更多信息请关注PHP中文网其他相关文章!

Git和GitHub在软件开发中的角色和功能是管理代码和协作开发。Git通过commit、branch和merge等功能高效管理代码版本,而GitHub则提供代码托管和协作工具,如PullRequest和Issues,提升团队协作效率。

GitHub是开发者发现、分享和贡献代码的首选平台。1)通过搜索功能查找特定代码库,如Python项目。2)创建仓库并推送代码分享给全球开发者。3)通过Fork和PullRequest参与开源项目并贡献代码。

Git是一种版本控制系统,GitHub是基于Git的在线平台。使用Git和GitHub进行代码管理和团队协作的步骤包括:1.初始化Git仓库:gitinit。2.添加文件到暂存区:gitadd.。3.提交更改:gitcommit-m"Initialcommit"。4.关联GitHub仓库:gitremoteaddoriginhttps://github.com/username/repository.git。5.推送代码到GitHub:gitpush-uoriginmaste

GitHub对软件开发和协作的影响深远:1.它基于Git的分布式版本控制系统,提高了代码安全性和开发灵活性;2.通过PullRequest等功能,提升了团队协作效率和知识共享;3.GitHubActions等工具帮助优化开发流程,提高代码质量。

在GitHub上分享、管理和贡献代码的方法包括:1.创建仓库并推送代码,编写README和LICENSE文件;2.使用分支、标签和合并请求管理代码;3.Fork仓库、修改并提交PullRequest贡献代码。通过这些步骤,开发者可以有效利用GitHub提升开发效率和协作能力。

Git是一个分布式版本控制系统,GitHub是一个基于Git的协作平台。Git用于版本控制和代码管理,GitHub则提供额外的协作功能,如代码审查和项目管理。

Git是分布式版本控制系统,GitHub是基于Git的在线平台。Git用于版本控制、分支管理和合并,GitHub提供代码托管、协作工具和社交网络功能。

Git是后端版本控制系统,GitHub是基于Git的前端协作平台。Git管理代码版本,GitHub提供用户界面和协作工具,两者协同工作提升开发效率。


热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

Video Face Swap
使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

热工具

螳螂BT
Mantis是一个易于部署的基于Web的缺陷跟踪工具,用于帮助产品缺陷跟踪。它需要PHP、MySQL和一个Web服务器。请查看我们的演示和托管服务。

Atom编辑器mac版下载
最流行的的开源编辑器

DVWA
Damn Vulnerable Web App (DVWA) 是一个PHP/MySQL的Web应用程序,非常容易受到攻击。它的主要目标是成为安全专业人员在合法环境中测试自己的技能和工具的辅助工具,帮助Web开发人员更好地理解保护Web应用程序的过程,并帮助教师/学生在课堂环境中教授/学习Web应用程序安全。DVWA的目标是通过简单直接的界面练习一些最常见的Web漏洞,难度各不相同。请注意,该软件中

WebStorm Mac版
好用的JavaScript开发工具

EditPlus 中文破解版
体积小,语法高亮,不支持代码提示功能