GitOPEN's Home.

Little Tips 记录

Word count: 392 / Reading time: 2 min
2018/07/26 Share

前言

我的博客好久没有更新过了!太过时的东西,我都想把它们干掉。

这里就用来记录在编程过程中遇到的小问题或者小技巧。

碎片

过滤字符串中的emoji表情和符号[Python]

最近在抓取了几十万条微博数据,目的是对其进行情感分析,这就需要过滤掉内容中表情等特殊符号。在Google了一圈以后,发现很多方法过滤的效果不好,因此自己记录一下,如何更加全面的过滤掉表情符号。这个方法综合使用了正则表达式和emoji库。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
import emoji
def filter_emoji(text):
"""
过滤表情。
Author: GitOPEN
"""
try:
regex = re.compile(u'[\U00010000-\U0010ffff]')
except re.error:
regex = re.compile(u'[\uD800-\uDBFF][\uDC00-\uDFFF]')
text = regex.sub(u'', text)
return ''.join(word for word in text if word not in emoji.UNICODE_EMOJI)
# 测试:随机输入3个人物emoji,3个自然,3个食物,3个符号,3个物体,3个旗帜
emoji_text = '🤡👨‍👮世界,我是周董🙉🦎🦀,🍑🍔🍤你好吗?❤️㊗️🆘我很好,日子过得还算不错!📡🕯🔨你呢?🇧🇷🇻🇬🇺🇸'
print(filter_emoji(emoji_text))

git 设置代理

由于众所周知的原因,git速度实在是蜗速,只有几KB/s。挂上小飞机✈️,按照下面设置,速度瞬间飞起!当然你得有一架好飞机~😀
如果你的✈️非得不够高,那么请参考之前我的推荐《快的飞起小飞滴~》

1
2
git config --global http.proxy 'socks5://127.0.0.1:1080'
git config --global https.proxy 'socks5://127.0.0.1:1080'

取消git代理:

1
2
git config --global --unset http.proxy
git config --global --unset https.proxy


欣慰帮到你 一杯热咖啡
【奋斗的Coder!】企鹅群
【奋斗的Coder】公众号
CATALOG
  1. 1. 前言
  2. 2. 碎片
    1. 2.1. 过滤字符串中的emoji表情和符号[Python]
    2. 2.2. git 设置代理