git log用法技巧(python)

git详尽的官方文档
git log官方文档
使用alias自定义输出
git log –pretty=oneline a.c
git log –oneline a.c

【清单方式展示每个文件修改行数】(不会汇总所有文件的信息)
git log –pretty=tformat: –numstat

【统计两个提交(或分支)间的差异清单】
git diff commit_1 commit_2 –stat 展示的是相对路径,末尾有所有文件修改行数的汇总信息
git diff commit_1 commit_2 –numstat 展示的是绝对路径,有每个文件修改行数的明细信息

【踩坑笔记】:
git log “–all”参数可以实现一个仓库所有分支的统计
在python字段串里,如果想调用的git命令行包含了大括号,像: ${remote#origin/}, 初始化变量时要写为 ${{remote#origin/}},否则python会报 KeyError 的错

gitk — a.c 以图形格式展示文件的提交历史

git show commit_id 查看变更内容

查看当前目录下的提交记录,保存在llog10.txt中:
git log -n 10 –stat . > log10.txt
参数: -n 表示最近几次提交,例如:-n 10表示最近10次提交

git log 格式化输出各参数含义:
git log展示过滤技巧
举例:git log –pretty=format:” %an “就只展示每个提交的作者名称

查看所有本地的git 配置:
git config –list

GIT【代码掌控度统计】【按作者统计】【按文件类型统计】
参考文章
git log –author=xxxx –since=2021-09-01 –until=2021-12-31 –format=’%aN’ | sort -u | while read name; do echo -en “$name\t”; git log –author=”$name” –pretty=tformat: –numstat | grep “\(|.c++\|.h\|.pro\)$” | awk ‘{ add += $1; subs += $2; loc += $1 – $2 } END { printf “added lines: %s, removed lines: %s, total lines: %s\n”, add, subs, loc }’ -; done

【相关python脚本】
Python实现一个Git日志统计分析的小工具
python-gitlab 统计代码行数

GitPython官方文档
gitpython接口演示1 接口演示2

zip解压后文件名乱码

解压zip文件后,中文文件名存在乱码问题解决方案

zipfile解压中文乱码问题解决

实用程序,解压中文乱码问题的解决

python 编码、解码原理的历史缘由

Python 3 查看字符编码方法

encode()和decode()的区别:
参考
Python3严格区分文本(str)和二进制数据(Bytes),文本总是Unicode,用str类型,二进制数据则用Bytes类型表示。
以Unicode表示的str通过encode()方法可以编码为指定的bytes

decode 指 解码:用于将 bytes 类型的二进制数据转换为 str 类型
encode 指 编码:用于将 str 类型转换成 bytes 类型

str和bytes之间的转换
str.encode(‘encoding’) -> bytes
bytes.decode(‘encoding’) -> str

注意:
str可以encode为Bytes,但是Bytes不一定可以decode为str。实际上Bytes.decode(‘latin1’)可以称为str,也就是说decode使用的编码决定了decode()的成败,同样的,UTF-8编码的Bytes字符串用GBK去decode()也会出错。

字符串在Python内部的表示是unicode编码,因此,在做编码转换时,通常需要以unicode作为中间编码, 即先将其他编码的字符串解码(decode)成unicode,再从unicode编码(encode)成另一种编码。

【例 1】将 str 类型字符串“C语言中文网”转换成 bytes 类型:
>>> str = “C语言中文网”
>>> str.encode()
b’C\xe8\xaf\xad\xe8\xa8\x80\xe4\xb8\xad\xe6\x96\x87\xe7\xbd\x91′

此方式默认采用 UTF-8 编码,也可以手动指定其它编码格式,例如:
>>> str = “C语言中文网”
>>> str.encode(‘GBK’)
b’C\xd3\xef\xd1\xd4\xd6\xd0\xce\xc4\xcd\xf8′

【例 2】
>>> str = “C语言中文网”
>>> bytes=str.encode()
>>> bytes.decode()
‘C语言中文网’

注意,如果编码时采用的不是默认的 UTF-8 编码,则解码时要选择和编码时一样的格式,否则会抛出异常,例如:
>>> str = “C语言中文网”
>>> bytes = str.encode(“GBK”)
>>> bytes.decode() #默认使用 UTF-8 编码,会抛出以下异常
Traceback (most recent call last):
File “”, line 1, in
bytes.decode()
UnicodeDecodeError: ‘utf-8’ codec can’t decode byte 0xd3 in position 1: invalid continuation byte
>>> bytes.decode(“GBK”)
‘C语言中文网’

总的意思:想要将其他的编码转换成utf-8必须先将其解码成unicode然后重新编码成utf-8,它是以unicode为转换媒介的 如:s=’中文’ 如果是在utf8的文件中,该字符串就是utf8编码,如果是在gb2312的文件中,则其编码为gb2312。这种情况下,要进行编码转换,都需要先用 decode方法将其转换成unicode编码,再使用encode方法将其转换成其他编码。通常,在没有指定特定的编码方式时,都是使用的系统默认编码创建的代码文件

【参考】
两个差异
Python3的str 默认不是bytes,所以不能decode,只能先encode转为bytes,再decode
python2的str 默认是bytes,所以能decode

一个结论
所以str.decode 本质是bytes类型的str的decode
python3经常出现 AttributeError: ‘str’ object has no attribute ‘decode’

记忆小技巧
编码就是encode,把你认识的转为,机器人认识的
解码decode,就是吧一堆机器认识的,解释为人能读懂的

【参考1:encode与decode之间的转码详解】
【参考2:python3大作战之encode与decode讲解】

【python3 在Windows下的编码问题:encode 和 decode】

Python 3.X 乱码解决(一文搞定Python3.x 乱码问题)

GitLab 带commit历史迁移至 Gerrit

最终验证可行的方案:

1. git clone Gerrit空仓库

2. git remote set-url gitlab_url (旧仓库)

3. git branch -r | grep -v ‘\->’ | while read remote; do git branch –track “${remote#origin/}” “$remote”; done

跟踪远程所有分支
关于 ${}特殊用法的介绍,参考链接
上述语句中,${remote#origin/} 的作用与 ${remote#*/} 相同

4. git pull –all –allow-unrelated-histories

指定允许拉取不相关的代码过来Merge, 有多个分支时,要把多个分支都拉下来,注意用户名: git config username
注释: git pull = git fetch + git merge

5. git remote set-url Gerrit_url

(指定新 Gerrit 代码库的地址)

6. git push -u origin –all
git push -u origin –tags

把代码推送给 Gerrit 仓库

觉得这张图对关系的描述比较清晰,放着参考用:

历史参考资料:

GitLab项目迁移到Gerrit

通过Git命令从GitLab将某分支拷贝到Gerrit

这篇文章写得比较有自己的观点:

gitlab迁移到gerrit

重点是说明了如下关键信息:

推送所有分支和标签到gerrit上:
git push –all ; git push –tags

注:这里不能用git push –mirror 是因为gerrit服务端新建的库有个refs/meta/config 包含有权限信息,不能删除(gerrit禁止删除了,如果不禁止,则push –mirror时其权限信息就丢失了)。

迁移所需权限:
Reference:
refs/*
Push Annotated Tag
Push Signed Tag
Forge Committer Identity
Create Reference
Read
Push

github monitor项目 邮件发送调试问题处理笔记

Django项目中,import project_name失败,造成 project apps目录下的 tt.py processors.py 无法单独执行

解决方案:
注意到 Dockerfile 里通过执行如下shell来启动django服务:
/home/chen/code/Github-Monitor/docker/run.sh

查看该 run.sh

发现里面有一句:
export PYTHONPATH=/home/docker/Github-Monitor/server/

刚好配合 processors.py 开头中注释说的:
# 调试时去掉下面的注释、命令行执行 PYTHONPATH=. venv/bin/python github_monitor/apps/monitor/processors.py
# import django, os
# os.environ.setdefault(“DJANGO_SETTINGS_MODULE”, “github_monitor.settings”)
# django.setup()

对比目录结构:
/home/chen/code/Github-Monitor/server/github_monitor/apps/monitor

判断要在docker exec -it container_id /bin/bash中的如下目录:
/home/docker/Github-Monitor/server
执行: PYTHONPATH=. python3 github_monitor/apps/monitor/processors.py
只有这样才能成功单独运行单个文件

对应宿主机的目录为: /home/chen/code/Github-Monitor/server/

====================================================
下面的这个配置值经过测试可以正常触发扫描任务的邮件提醒
# Email Settings for 163
# If you do not fill it in, it is None/False
EMAIL_HOST=”smtp.163.com” # smtp host
EMAIL_PORT=”25″ # smtp port
FROM_EMAIL=”xxx@163.com” # 发件人
EMAIL_HOST_USER=”xxx@163.com” # email user, 如为匿名发送,将值设为空字符即可
EMAIL_HOST_PASSWORD=”xxxxxxxx” # email password, 使用授权码,避免暴露邮箱登陆密码
EMAIL_USE_TLS=”True” # 与SMTP服务器通信时是否使用TLS(安全)连接, 可选True/False
EMAIL_USE_SSL=”False” # 与SMTP服务器通信时是否使用SSL(安全)连接, 可选True/False

# Email Settings for QQ
# If you do not fill it in, it is None/False
EMAIL_HOST=”smtp.qq.com” # smtp host
EMAIL_PORT=”465″ # smtp port
FROM_EMAIL=”xxx@qq.com” # 发件人
EMAIL_HOST_USER=”xxx@qq.com” # email user, 如为匿名发送,将值设为空字符即可
EMAIL_HOST_PASSWORD=”xxxxxxxx” # email password, 使用授权码,避免暴露邮箱登陆密码
EMAIL_USE_TLS=”False” # 与SMTP服务器通信时是否使用TLS(安全)连接, 可选True/False
EMAIL_USE_SSL=”True” # 与SMTP服务器通信时是否使用SSL(安全)连接, 可选True/False

python threading 线程相关笔记

import threading

假设主线程: t, 子线程: t1


import threading 
import time 

class MyThread(threading.Thread): 
        def __init__(self,id): 
                threading.Thread.__init__(self)
                self.id = id 

        def run(self): 
                for i in range(5):
                        time.sleep(1)
                        print("in t: %d" %self.id )

if __name__ == "__main__": 
        t1=MyThread(555) 
        t1.start() 
        for i in range(5): 
                time.sleep(1)
                print(i) 

执行结果:
0
in t: 555
1
in t: 555
2
in t: 555
3
in t: 555
4
in t: 555

多次执行后,可发现 主线程 跟 子线程 的执行顺序是不固定的。如果要控制 主线程 跟 子线程 的执行顺序,可以考虑在 t1.start()之后用 join()。


if __name__ == "__main__": 
        t1=MyThread(555) 
        t1.start() 
        t1.join()
        for i in range(5): 
                time.sleep(1)
                print(i)

1.t1.join([timeout])的作用:主线程 t 会在调用的地方等待,直到子线程 t1 完成操作后,才可以接着往下执行。
可选参数 timeout 代表线程运行的最大时间,即如果超过这个时间,主线程会从 t1.join()后面接着执行。经过测试,当 timeout 到达时,如果子线程 t1 还没有执行完成,这时就会出现 t 和 t1 同时执行的情况。如果在主线程的 t1.start() 之前没有设置 t1.setDaemon(True),还会出现主线程已执行结束,但子线程还在执行,或者有可能无限挂起。(这一点跟网上很多人说的 timeout 到达后,子线程无论是否执行完毕都会被回收的说法不一致。相关文章
验证代码:


import threading 
import time 

class MyThread(threading.Thread): 
        def __init__(self,id): 
                threading.Thread.__init__(self)
                self.id = id 

        def run(self): 
                for i in range(15):
                        time.sleep(1)
                        print("in t: %d" %self.id )

if __name__ == "__main__": 
        t1=MyThread(555) 
        #t1.setDaemon(True)
        t1.start() 
        t1.join(5)
        for i in range(5): 
                time.sleep(1)
                print(i)

2.t1.setDaemon()的作用:把主线程 t 设置为守护线程,要是主线程 t 执行结束了,就不管子线程 t1 是否完成,一并和主线程 t 退出。
必须在 t1.start() 方法调用之前设置,如果不设置为守护线程,程序有可能会被无限挂起。


if __name__ == "__main__": 
    t1=MyThread(555) 
    t1.setDaemon(True)
    t1.start() 
    for i in range(5): 
            time.sleep(1)
            print(i)