zip解压后文件名乱码

解压zip文件后,中文文件名存在乱码问题解决方案

zipfile解压中文乱码问题解决

实用程序,解压中文乱码问题的解决

python 编码、解码原理的历史缘由

Python 3 查看字符编码方法

encode()和decode()的区别:
参考
Python3严格区分文本(str)和二进制数据(Bytes),文本总是Unicode,用str类型,二进制数据则用Bytes类型表示。
以Unicode表示的str通过encode()方法可以编码为指定的bytes

decode 指 解码:用于将 bytes 类型的二进制数据转换为 str 类型
encode 指 编码:用于将 str 类型转换成 bytes 类型

str和bytes之间的转换
str.encode(‘encoding’) -> bytes
bytes.decode(‘encoding’) -> str

注意:
str可以encode为Bytes,但是Bytes不一定可以decode为str。实际上Bytes.decode(‘latin1’)可以称为str,也就是说decode使用的编码决定了decode()的成败,同样的,UTF-8编码的Bytes字符串用GBK去decode()也会出错。

字符串在Python内部的表示是unicode编码,因此,在做编码转换时,通常需要以unicode作为中间编码, 即先将其他编码的字符串解码(decode)成unicode,再从unicode编码(encode)成另一种编码。

【例 1】将 str 类型字符串“C语言中文网”转换成 bytes 类型:
>>> str = “C语言中文网”
>>> str.encode()
b’C\xe8\xaf\xad\xe8\xa8\x80\xe4\xb8\xad\xe6\x96\x87\xe7\xbd\x91′

此方式默认采用 UTF-8 编码,也可以手动指定其它编码格式,例如:
>>> str = “C语言中文网”
>>> str.encode(‘GBK’)
b’C\xd3\xef\xd1\xd4\xd6\xd0\xce\xc4\xcd\xf8′

【例 2】
>>> str = “C语言中文网”
>>> bytes=str.encode()
>>> bytes.decode()
‘C语言中文网’

注意,如果编码时采用的不是默认的 UTF-8 编码,则解码时要选择和编码时一样的格式,否则会抛出异常,例如:
>>> str = “C语言中文网”
>>> bytes = str.encode(“GBK”)
>>> bytes.decode() #默认使用 UTF-8 编码,会抛出以下异常
Traceback (most recent call last):
File “”, line 1, in
bytes.decode()
UnicodeDecodeError: ‘utf-8’ codec can’t decode byte 0xd3 in position 1: invalid continuation byte
>>> bytes.decode(“GBK”)
‘C语言中文网’

总的意思:想要将其他的编码转换成utf-8必须先将其解码成unicode然后重新编码成utf-8,它是以unicode为转换媒介的 如:s=’中文’ 如果是在utf8的文件中,该字符串就是utf8编码,如果是在gb2312的文件中,则其编码为gb2312。这种情况下,要进行编码转换,都需要先用 decode方法将其转换成unicode编码,再使用encode方法将其转换成其他编码。通常,在没有指定特定的编码方式时,都是使用的系统默认编码创建的代码文件

【参考】
两个差异
Python3的str 默认不是bytes,所以不能decode,只能先encode转为bytes,再decode
python2的str 默认是bytes,所以能decode

一个结论
所以str.decode 本质是bytes类型的str的decode
python3经常出现 AttributeError: ‘str’ object has no attribute ‘decode’

记忆小技巧
编码就是encode,把你认识的转为,机器人认识的
解码decode,就是吧一堆机器认识的,解释为人能读懂的

【参考1:encode与decode之间的转码详解】
【参考2:python3大作战之encode与decode讲解】

【python3 在Windows下的编码问题:encode 和 decode】

Python 3.X 乱码解决(一文搞定Python3.x 乱码问题)

git revert 踩坑记

参考文档:当你决定去 revert 一个merge commit

例子:
1. 提交记录:
http://www.yebaochen.com/wp-content/uploads/2021/06/git-revert-1.jpeg
2. commit id 记录:
http://www.yebaochen.com/wp-content/uploads/2021/06/git-revert-2.jpeg

当要revert 一个merge commit, git 自己无法决定revert之后,要以哪个parent分支的代码为准。所以必须用 -m 参数来指定。
假如当前在 master 分支,要合并 feature 分支的代码: git merge feature
这时 master 就是1, feature 就是2
git revert commit-id -m 1就是告诉git, revert之后,以master分支原来的代码为准。
反之,git revert commit-id -m 2 就是告诉git, revert之后,以feature分支原来的代码为准。

1. 如何查看当前的commit有几个祖先:
git show cae5381

commit cae5381823aad7c285d017e5cf7e8bc4b7b12240
Merge: edf99ca 125cfdd
Author: ULIVZ
Date: Thu Apr 12 18:27:21 2018 +0800

Merge tag ‘thumbup-feature’

2. 处理方式1: git revert cae5381 -m 1
输出log:
Revert “Merge tag ‘thumbup-feature'”

This reverts commit cae5381823aad7c285d017e5cf7e8bc4b7b12240, reversing
changes made to edf99ca31755a27b0a43b290263ed810833a95c4.

实际效果:
[master f0aac26] Revert “Merge tag ‘thumbup-feature'”
2 files changed, 2 deletions(-)
delete mode 100644 file3
delete mode 100644 file4

file3 和 file4 是 feature branch 上的 commit 引入的文件,被正确地删掉了

拉下来测试第二种处理方式:
3. 处理方式2: git revert cae5381 -m 2
git reset –hard d208cba (回到原来的状态)
git revert cae5381 -m 2

实际效果:
[master 2c5a0ee] Revert “Merge tag ‘thumbup-feature'”
2 files changed, 2 deletions(-)
delete mode 100644 file5
delete mode 100644 file6

这种 revert 把 master 在 feature branch 期间进行的 commit 都给干掉了

linux 比较目录差异

文档来源
以下是本文有些地方涉及到的目录结构。

[root@node1 ~]# tree directory1 directory2
directory1
├── 1.png
├── 2.png
└── 3.png
directory2
├── 2.png
├── 3.png
└── 4.png

[root@node1 ~]# tree directory1 directory2
directory1
├── 1.png
├── 2.png
└── 3.png
directory2
├── 2.png
├── 3.png
└── 4.png

1.命令行输出的结果
方法一:使用diff
diff -r directory1 directory2
但是diff会对每个文件中的每一行都做比较,所以文件较多或者文件较大的时候会非常慢。请谨慎使用。

方法二:使用diff结合tree
diff <(tree -Ci –noreport /mnt/f/自然马) <(tree -Ci –noreport /mnt/i/自然马)
/mnt/i/自然马
87a88
> xyz.avi
488d488
< rsync.txt
534d533
< 542D0.mp4
diff <(tree -Ci –noreport /mnt/f/自然马) <(tree -Ci –noreport /mnt/i/自然马)
/mnt/i/自然马
87a88
> xyz.avi
488d488
< rsync.txt
534d533
< 542D0.mp4
说明:

tree的-C选项是输出颜色,如果只是看一下目录的不同,可以使用该选项,但在结合其他命令使用的时候建议不要使用该选项,因为颜色也会转换为对应的编码而输出;
-i是不缩进,建议不要省略-i,否则diff的结果很难看,也不好继续后续的文件操作;
–noreport是不输出报告结果,建议不要省略该选项。
该方法效率很高。

方法三:find结合diff
find directory1 -printf “%P\n” | sort > file1
find directory2 -printf “%P\n” | sort | diff file1 –
2d1
4.png
find directory1 -printf “%P\n” | sort > file1
find directory2 -printf “%P\n” | sort | diff file1 –
2d1
4.png

说明:
则相反,是directory2中有而directory1中没有。
不要省略-printf “%P\n”,此处的%P表示find的结果中去掉前缀路径,详细内容man find。例如,find /root/ -printf “%P\n”的结果中将显示/root/a/xyz.txt中去掉/root/后的结果:a/xyz.txt。
效率很高,输出也简洁。
如果不想使用-printf,那么先进入各目录再find也行。

[root@node1 ~]# (cd /root/a;find . | sort >/tmp/file1)
[root@node1 ~]# (cd /root/b;find . | sort | diff /tmp/file1 -)
2d1
./4.png
上面将命令放进括号中执行是为了在子shell中切换目录,不用影响当前所在目录。

方法四:使用rsync
rsync -rvn –delete directory1/ directory2 | sed -n ‘2,/^$/{/^$/!p}’
deleting a/xyz.avi
rsync.txt
新建文件夹/542D0.mp4

其中deleting所在的行就是directory2中多出的文件。其他的都是directory中多出的文件。
如果想区分出不同的是目录还是文件。可以加上”-i”选项。

rsync -rvn -i –delete directory1/ directory2 | sed -n ‘2,/^$/{/^$/!p}’
*deleting a/xyz.avi
>f+++++++++ rsync.txt
>f+++++++++ 新建文件夹/542D0.mp4
其中>f+++++++++中的f代表的是文件,d代表的目录。

上面的rsync比较目录有几点要说明:
一定不能缺少-n选项,它表示dry run,也就是试着进行rsync同步,但不会真的同步。
第一个目录(directory1/)后一定不能缺少斜线,否则表示将directory1整个目录同步到directory2目录下。
其它选项,如”-r -v –delete”也都不能缺少,它们的意义想必都知道。
sed的作用是过滤掉和文件不相关的内容。
以上rsync假定了比较的两个目录中只有普通文件和目录,没有软链接、块设备等特殊文件。如果有,请考虑加上对应的选项或者使用-a替代-r,否则结果中将出现skipping non-regular file的提示。但请注意,如果有软链接,且加了对应选项(-l或-a或其他相关选项),则可能会出现fileA–>fileB的输出。
效率很高,因为rsync的原因,筛选的可定制性也非常强。

2.图形化的比较结果
方法一:使用vimdiff
vimdiff <(cd directory1; find . | sort) <(cd directory2; find . | sort)
# 或者
vimdiff <(find directory1 -printf "%P\n"| sort) <(find directory2 -printf "%P\n"| sort)

方法二:使用meld
meld是python写的一个图形化文件/目录比较工具,所以必须先安装图形界面或设置好图形界面接受协议。它的功能非常丰富,和win下的beyond compare有异曲同工之妙。

meld具体的使用方式就不介绍了。

3.将两目录中不同的文件筛选出来
个人建议使用命令行输出的结果中的方法方法三和方法四,因为它们都能很好地保留目录前缀。

以方法三为例:
find directory1 -printf “%P\n” | sort > file1
find directory2 -printf “%P\n” | sort | diff file1 –
以下是实验所需目录结构:
[root@node1 ~]# tree /root/a;tree /root/b
/root/a
├── 1.png
├── 2.png
└── 3.png

0 directories, 3 files
/root/b
├── 2.png
├── 3.png
├── 4.png
└── xen
└── scripts
└── block-drbd

首先比较这两个目录得到文件列表的差异。

find /root/a -printf “%P\n” | sort > /tmp/file1
find /root/b -printf “%P\n” | sort | diff /tmp/file1 – >diff.txt
然后从diff.txt中过滤出/root/a中多出的文件和/root/b中多出的文件。

# /root/a中多出的文件
awk ‘//{printf(“%s%s\n”,”/tmp/etc/”,$2)}’ diff.txt
/tmp/etc/4.png
/tmp/etc/xen
/tmp/etc/xen/scripts
/tmp/etc/xen/scripts/block-drbd
需要注意的是,如果多了某个目录,则这个目录和其内所有文件都会列出来。如果要将多出的文件复制到其他地方,应当要注意这一点。

如果只想要比较出/root/a和/root/b下的文件和目录的不同,不再递归到子目录中比较。那么可以在find上继续加工一番:
find /root/a -maxdepth 1 -printf “%P\n” | sort > /tmp/file1
find /root/b -maxdepth 1 -printf “%P\n” | sort | diff /tmp/file1 – >diff.txt
# /root/a中多出的文件
awk ‘//{printf(“%s%s\n”,”/tmp/etc/”,$2)}’ diff.txt
/tmp/etc/4.png
/tmp/etc/xen
这样一来,/root/b中多出的文件就是4.png和xen,xen目录中的文件不再列出。

linux生成md5

linux终端里查看出来的md5值都是”32位小写”格式的值
命令:md5sum
参数:
-b或–binary: 把输入文件作为二进制文件看待。
-t或–text: 把输入的文件作为文本文件看待(默认)。
-c或–check: 用来从文件中读取md5信息检查文件的一致性。(不细说了参见info)
–status: 这个选项和check一起使用,在check的时候,不输出,而是根据返回值表示检查结果。
-w或–warn: 在check的时候,检查输入的md5信息又没有非法的行,如果有则输出相应信息

$ echo -n “123456” |md5sum
e10adc3949ba59abbe56e057f20f883e *-

注意:
echo -n : 不打印换行符。(注意: echo -n 后面的-n参数必须加上, 这样算出的字符串的md5值才正确)

windows10 C盘空间清理

今天刷抖音的时候,看到一条视频说的是windows系统有自带清理C盘的功能,
按着步骤实际操作了下,确实简单有效。

记录下步骤,方便后续使用:
设置->系统->存储->临时文件->删除文件

存储 这个页面里,与”临时文件”并列的”其他”,可用于查看大文件夹,十分方便排查指定磁盘里可以优化的项。

shell 条件判断之参数的运用

这篇文章的内容全文引用自: 链接

Shell 语言中的if条件

一、if的基本语法:
if [ command ];then
符合该条件执行的语句
elif [ command ];then
符合该条件执行的语句
else
符合该条件执行的语句
fi
二、文件/文件夹(目录)判断
[ -b FILE ] 如果 FILE 存在且是一个块特殊文件则为真。
[ -c FILE ] 如果 FILE 存在且是一个字特殊文件则为真。
[ -d DIR ] 如果 FILE 存在且是一个目录则为真。
[ -e FILE ] 如果 FILE 存在则为真。
[ -f FILE ] 如果 FILE 存在且是一个普通文件则为真。
[ -g FILE ] 如果 FILE 存在且已经设置了SGID则为真。
[ -k FILE ] 如果 FILE 存在且已经设置了粘制位则为真。
[ -p FILE ] 如果 FILE 存在且是一个名字管道(F如果O)则为真。
[ -r FILE ] 如果 FILE 存在且是可读的则为真。
[ -s FILE ] 如果 FILE 存在且大小不为0则为真。
[ -t FD ] 如果文件描述符 FD 打开且指向一个终端则为真。
[ -u FILE ] 如果 FILE 存在且设置了SUID (set user ID)则为真。
[ -w FILE ] 如果 FILE存在且是可写的则为真。
[ -x FILE ] 如果 FILE 存在且是可执行的则为真。
[ -O FILE ] 如果 FILE 存在且属有效用户ID则为真。
[ -G FILE ] 如果 FILE 存在且属有效用户组则为真。
[ -L FILE ] 如果 FILE 存在且是一个符号连接则为真。
[ -N FILE ] 如果 FILE 存在 and has been mod如果ied since it was last read则为真。
[ -S FILE ] 如果 FILE 存在且是一个套接字则为真。
[ FILE1 -nt FILE2 ] 如果 FILE1 has been changed more recently than FILE2, or 如果 FILE1 exists and FILE2 does not则为真。
[ FILE1 -ot FILE2 ] 如果 FILE1 比 FILE2 要老, 或者 FILE2 存在且 FILE1 不存在则为真。
[ FILE1 -ef FILE2 ] 如果 FILE1 和 FILE2 指向相同的设备和节点号则为真。

三、字符串判断
[ -z STRING ] 如果STRING的长度为零则为真 ,即判断是否为空,空即是真;
[ -n STRING ] 如果STRING的长度非零则为真 ,即判断是否为非空,非空即是真;
[ STRING1 = STRING2 ] 如果两个字符串相同则为真 ;
[ STRING1 != STRING2 ] 如果字符串不相同则为真 ;
[ STRING1 ]  如果字符串不为空则为真,与-n类似

四、数值判断
INT1 -eq INT2 INT1和INT2两数相等为真 ,=
INT1 -ne INT2 INT1和INT2两数不等为真 ,
INT1 -gt INT2 INT1大于INT1为真 ,>
INT1 -ge INT2 INT1大于等于INT2为真,>=
INT1 -lt INT2 INT1小于INT2为真 ,<

INT1 -le INT2 INT1小于等于INT2为真,b且a
if (( a > b )) && (( a $b ]] && [[ $a b或a
if (( a > b )) || (( a $b ]] || [[ $a b && a

六、举例
if利用read传参判断
exp2:查看分数
#!/bin/bash
#echo -n “please input your score:”
#read score
#echo “input score is $ score ”
read -p “please input a score:” score
echo -e “your score [$score] is judging by sys now”
if [ “$score” -ge “0” ]&&[ “$score” -lt “60” ];then
echo “sorry,you are lost!”
elif [ “$score” -ge “60” ]&&[ “$score” -lt “85” ];then
echo “just soso!”
elif [ “$score” -le “100” ]&&[ “$score” -ge “85” ];then
echo “good job!”
else
echo “input score is wrong , the range is [0-100]!”
fi