forthxu 发布的文章

Mac OS普通用户启动80端口

作者: forthxu
时间: August 31, 2017
分类: 默认分类
评论

由于系统限制非root用户不能启动1024以下端口，而我们平时使用Mac一般都是非root用户，所以如果想启动80端口必须用root用户，这时候用命令行就可以解决，但是拿Intellij Idea来说，可以在控制台却换到root权限用命令行来启动IDEA，但是这样的话很多信息都是和root用户相关的，比如mavan仓库地址，IDEA配置默认都在root用户目录下面了，而你登录的用户又是非root用户，查看修改和管理都相当麻烦，于是可以通过端口转发功能，把本地的80请求转发到你配置的1024以上的端口上，效果一样

sudo vim /etc/pf.conf

添加

rdr on lo0 inet proto tcp from any to 127.0.0.1 port 80 -> 127.0.0.1 port 8080

到 pf.conf文件的 rdr-anchor "com.apple/*" 这一行后面。
其中 lo0 通过 ifconfig 看自己那个设备绑定的是127.0.0.1, lo0是这个网络设备的名字。 8080是要转发的端口

sudo pfctl -f /etc/pf.conf sudo pfctl -e

邮箱小号Gmail sub-account

作者: forthxu
时间: August 24, 2017
分类: 默认分类
1 条评论

這篇文章介紹一個製造 Gmail “小號” 的方法，就是可以製造很多地址不同，但是實際導向同一個電郵地址的方法。

用這個方法，就可以在不註冊新的電郵地址的情況下，製造很多個 “小號”。一則在其他地方可以用不同電郵地址註冊多個帳號，二則方便管理透過不同地址發給自己的郵件。

本文所述的方法，其實網上已經很多人說過，而且都大概 5-10 年前的文章了，不過 Gmail 每年都有很多新使用者，所以現在重新介紹一下。

Gmail 跟其他常見的電郵地址最不同的地方，就是不支持底線 “_” ，相反卻支持點 “.” 和加號 “+” 。而這個製造小號的方法，就是有效利用 “.” 和 “+”。

為安全起見，以下的電郵地址，中間的 “@” 均以 “#” 代替。例如 abc123 # gmail.com。

法則一：gmail 可以改為 googlemail

以前有一些國家註冊的 Gmail 是以 googlemail.com 為地址的，作者本人都註冊過一個。不過現在兩個地址基本上完全通用了。

換句話說，對於 Gmail 而言，abc123 # gmail.com 和 abc123 # googlemail.com 是同一個地址。寄到後者的電郵，一律在前者的地址可以查看。

如此一來，由原來的一個地址，現在有兩個地址可以用了。

法則二：“@” 前面的部份，可以在任意位置加上任意個點 “.”

換句話說，對 Gmail 而言，有 “.” 和沒有 “.” 都是一樣的。

例如 abc123 # gmail.com，可以改為以下任何一個：
abc.123 # gmail.com
abc...123 # gmail.com
.a.b.c.1.2.3. # gmail.com
...abc...123... # gmail.com

對於 Gmail 而言，上面所有地址跟 abc123 # gmail.com 是沒有分別的。於是乎，這個方法可以為自己創造無限多個小號了。

不過需要注意，有些網站的註冊郵箱並不支持前面帶 “.” 的電郵地址，例如 .abc123 # gmail.com 不能用，但是可以用 abc.123 # gmail.com。

法則三：用戶名和 “@” 之間，可以用 “+” 插入任何字串，而且可以加插任意多個 “+”

換句話說，“+” 和 “@” 中間的任何字串，都會被 Gmail 忽略。

例如 abc123 # gmail.com，可以改為以下任何一個：
abc123+def456 # gmail.com
abc123+a+b+c+1+2+3 # gmail.com
abc123+Ax+By+C # gmail.com

真正的粉絲，還可以用這個 (誤) ：
abc123+1s # gmail.com

用這個方法，可以讓自己在不同網站的註冊名稱不同，例如
abc123+XDA # gmail.com
abc123+Facebook # gmail.com

甚至可以作為臨時電郵地址，例如
abc123+temp+1 # gmail.com
abc123+temp+2 # gmail.com

這樣子，只要開始收到垃圾郵件，看看收件人就可以知道是那個網站出賣了你的個人資料了。

不過需要注意，不是所有服務也支持帶有 “+” 的電郵地址。例如酷安就不支持了。

這個方法，同樣可以為自己創造無限多個小號，而且比較多元化和比較有系統。

法則四：上面三個法則可以任意搭配

例如，abc123 # gmail.com 可以改為以下任何一個：
abc.123+Maki # googlemail.com
abc...123+Ma.ki+Ni.co # gmail.com
abc123.+.Nico.Nico.Ni. # gmail.com
abc.1.2.3+Yosoro.+.Zura # gmail.com

這樣，就可以創造多元化無限創意的小號了。

雖然本文的方法已經存在了好幾年，不過對於 Gmail 新手來說，應該還是有點用的。

原文：http://telegra.ph/Gmail-Cloning-08-20

distinct 和 group by的使用

作者: forthxu
时间: August 18, 2017
分类: web后端
评论

公司同事有一个小项目的30w数据搜索用到like和排重查询比较慢，我对语句做了下优化。

mysql> desc shop;
+--------------+---------------------+------+-----+---------+----------------+
| Field        | Type                | Null | Key | Default | Extra          |
+--------------+---------------------+------+-----+---------+----------------+
| id           | int(10) unsigned    | NO   | PRI | NULL    | auto_increment |
| uid          | bigint(20) unsigned | NO   | MUL | 0       |                |
| sid          | bigint(20) unsigned | YES  | MUL | 0       |                |
| nick         | char(128)           | YES  | MUL |         |                |
| shop_type    | char(1)             | YES  |     | C       |                |
| shop_score   | int(10) unsigned    | YES  |     | 0       |                |
| shop_level   | int(10) unsigned    | YES  |     | 0       |                |
| category_id1 | int(10)             | YES  | MUL | 0       |                |
| category_id2 | int(10) unsigned    | NO   | MUL | 0       |                |
| shop_title   | varchar(128)        | YES  |     |         |                |
| shop_avatar  | varchar(255)        | YES  |     |         |                |
| sort         | int(6)              | NO   |     | 0       |                |
| locate       | varchar(45)         | NO   |     |         |                |
| disabled     | tinyint(1)          | NO   |     | 0       |                |
+--------------+---------------------+------+-----+---------+----------------+
14 rows in set (0.01 sec)

mysql> explain select * from shop,(select distinct sid from shop where disabled = 0 and shop_title like '%迪卡侬%' limit 10) shopx where shop.sid=shopx.sid group by shop.sid;
+----+-------------+------------+------+---------------+---------+---------+-----------+--------+----------------------------------------------+
| id | select_type | table      | type | possible_keys | key     | key_len | ref       | rows   | Extra                                        |
+----+-------------+------------+------+---------------+---------+---------+-----------+--------+----------------------------------------------+
|  1 | PRIMARY     | <derived2> | ALL  | NULL          | NULL    | NULL    | NULL      |     10 | Using where; Using temporary; Using filesort |
|  1 | PRIMARY     | shop       | ref  | INX_sid       | INX_sid | 9       | shopx.sid |      1 | NULL                                         |
|  2 | DERIVED     | shop       | ALL  | INX_sid       | NULL    | NULL    | NULL      | 269483 | Using where; Using temporary                 |
+----+-------------+------------+------+---------------+---------+---------+-----------+--------+----------------------------------------------+
3 rows in set (0.01 sec)

mysql> explain select  * from shop where disabled = 0 and shop_title like '%迪卡侬%' group by sid limit 10;
+----+-------------+-------+-------+---------------+---------+---------+------+------+-------------+
| id | select_type | table | type  | possible_keys | key     | key_len | ref  | rows | Extra       |
+----+-------------+-------+-------+---------------+---------+---------+------+------+-------------+
|  1 | SIMPLE      | shop  | index | INX_sid       | INX_sid | 9       | NULL |   10 | Using where |
+----+-------------+-------+-------+---------------+---------+---------+------+------+-------------+
1 row in set (0.00 sec)


mysql> select SQL_NO_CACHE distinct sid from shop where disabled = 0 and shop_title like '%迪卡侬%' limit 10;
9 rows in set (0.45 sec)

mysql> select SQL_NO_CACHE * from shop,(select distinct sid from shop where disabled = 0 and shop_title like '%迪卡侬%' limit 10) shopx where shop.sid=shopx.sid group by shop.sid;
...
9 rows in set (0.46 sec)

mysql> select SQL_NO_CACHE  * from shop where disabled = 0 and shop_title like '%迪卡侬%' group by sid limit 10;
...
9 rows in set (4.96 sec)

nginx gzip压缩和gulp js压缩的效果

作者: forthxu
时间: June 16, 2017
分类: 默认分类
评论

-rwxr--r-- 1 forthxu forthxu 262K Jun 16 14:57 jquery-3.2.1.js //原始大小
-rw-r--r-- 1 forthxu forthxu 78K Jun 16 15:02 jquery-3.2.1.js.gz //原始文件gzip后的大小
-rwxr--r-- 1 forthxu forthxu 86K Jun 16 15:15 jquery-3.2.1.min-d6a2dcf9a6.js //javascript压缩后的大小
-rw-r--r-- 1 forthxu forthxu 30K Jun 16 15:16 jquery-3.2.1.min-d6a2dcf9a6.js.gz //javascript压缩后在使用gzip压缩的大小

gzip -c jquery-3.2.1.js > jquery-3.2.1.js.gz

gulp.task('testjs', function() {
    return gulp.src('../../public/test/jquery-3.2.1.js')
            //.pipe(concat('all.js'))// 合并
            .pipe(uglify())// 优化
            .pipe(rename(function(path) {// 重命名
                path.basename+='.min';
            }))
            .pipe(rev())//生成版本号
            .pipe(gulp.dest('../../public/test/'))
});

gzip -c jquery-3.2.1.min-d6a2dcf9a6.js > jquery-3.2.1.min-d6a2dcf9a6.js.gz

CSS实现分隔线中间带文字的方法，取代fieldset-legend

作者: forthxu
时间: June 15, 2017
分类: web前端
评论

小小分隔线单标签实现

小小分隔线巧用色实现

小小分隔线 inline-block实现

小小分隔线浮动来实现

———————————小小分隔线字符来实现————————————

<div class="demo-container demo">
<style type="text/css">
.demo{
    width: 600px;
    margin：10px;
}
.line_01{
    padding: 0 20px 0;
    margin: 20px 0;
    line-height: 1px;
    border-left: 200px solid #ddd;
    border-right: 200px solid #ddd;
    text-align: center;
}
.line_02{
    height: 1px;
    border-top: 1px solid #ddd;
    text-align: center;
}
.line_02 span{
    position: relative;
    top: -12px;
    background: #fff;
    padding: 0 20px;
}
.line_03{
    width:600px;
}
.line_03 b{
    background: #ddd;
    margin-top: 4px;
    display: inline-block;
    width: 180px;
    height: 1px;
    _overflow: hidden;
    vertical-align: middle;
}
.line_03 span{
    display: inline-block;
    width: 220px;
    vertical-align: middle;
text-align: center;
}
.line_04{
    width:600px;
}
.line_04{
    overflow: hidden;
    _zoom: 1;
}
.line_04 b{
    background: #ddd;
    margin-top: 12px;
    float: left;
    width: 26%;
    height: 1px;
    _overflow: hidden;
}
.line_04 span{
    padding: 0 10px;
    width: 32%;
    float: left;
    text-align: center;
}
.line_05{
    letter-spacing: -1px;
    color: #ddd;
}
.line_05 span{
    letter-spacing: 0;
    color: #222;
    margin:0 20px;
}
</style>

<div class="line_01">小小分隔线 单标签实现</div>
<br>
<br>
<div class="line_02"><span>小小分隔线 巧用色实现</span></div>
<br>
<br>
<div class="line_03"><b></b><span>小小分隔线 inline-block实现</span><b></b></div>
<br>
<br>
<div class="line_04"><b></b><span>小小分隔线 浮动来实现</span><b></b></div>
<br>
<br>
<div class="line_05">———————————<span>小小分隔线 字符来实现</span>————————————</div>
<br>
<br>
</div>

DNS学习

作者: forthxu
时间: May 23, 2017
分类: web后端
评论

https://github.com/forthxu/mydns

mydns

DNS查询器,主要用来学习dns协议和c#软件开发。

每当我们在浏览器上敲入任何一个域名访问某个网站的时候，我们都要使用Dns协议进行一次”域名:IP”的查询;作为命令行使用者，与dns有关用的最多的就是Nslookup 命令吧；作为程序员，以c#程序员为例，要得到一个域名的ip大概也是这么一行“System.Net.Dns.GetHostByName(string UriHostName)”。

在这简单使用的背面，很少人会真了解其协议的规则，这也许就是高度封装给程序员带来的一点麻烦吧。下面来了解一下dns协议的内容。

DNS结构：

整个dns分为5个部分，分别为Header、Question、Answer、Authority、Additional。

其中头部的大小是固定的为12字节。这5个部分不是全部都是必须的，在向服务器发送查询请求的时候，只需要前2个。回复的时候也不一定包含5个（按查询的内容和返回的信息而定）。

Header 部分：

header头部分是必须的，无论发送查询或者返回结果都需要该部分，且长度一定，为12字节。结果如下图

ID:长度为16位，是一个用户发送查询的时候定义的随机数，当服务器返回结果的时候，返回包的ID与用户发送的一致。

QR:长度1位，值0是请求，1是应答。

Opcode:长度4位，值0是标准查询，1是反向查询，2是服务器状态查询。

AA:长度1位，授权应答(Authoritative Answer) - 这个比特位在应答的时候才有意义，指出给出应答的服务器是查询域名的授权解析服务器。

TC:长度1位，截断(TrunCation) - 用来指出报文比允许的长度还要长，导致被截断。

RD:长度1位，期望递归(Recursion Desired) - 这个比特位被请求设置，应答的时候使用的相同的值返回。如果设置了RD，就建议域名服务器进行递归解析，递归查询的支持是可选的。

RA:长度1位，支持递归(Recursion Available) - 这个比特位在应答中设置或取消，用来代表服务器是否支持递归查询。

Z:长度3位，保留值，值为0.

RCode:长度4位，应答码，类似http的stateCode一样，值0没有错误、1格式错误、2服务器错误、3名字错误、4服务器不支持、5拒绝。

QDCount:长度16位，报文请求段中的问题记录数。

ANCount:长度16位，报文回答段中的回答记录数。

NSCOUNT :长度16位，报文授权段中的授权记录数。

ARCOUNT :长度16位，报文附加段中的附加记录数。

Question 部分：

这部分的内容是你要查询的内容。也是必须的。

QName：是你要查询的域名，属于不定长字段。他的格式是可变长度数据格式，一般为“长度（1字节）+N字节内容（N由前面的长度定义，不超过63，下面可变数据格式有说明）+～～～+长度0。以一个长度单位N为开始，然后连续的N字节为其内容，然后又是一个N2长度的一字节，然后后面又是N2个字节内容，直到遇到长度为0的长度标记。

假设QName字段的内容是 forth.xu ，则字节内容为：

05 66 6f 72 74 68 02 78 75 0

第一个字节是长度：5，那么接下来的5个字节都是内容66 6f 72 74 68 ，ascii码转过来是“forth”。然后又是长度2，后面2个字节的内容78 75 字母为xu，然后是长度0，表示结束了。最后还要把两段文字组合起来中间加点号成forth.xu。

QType：长度16位，表示查询类型。取值大概如下：

enum QueryType //查询的资源记录类型。

{

A=0x01, //指定计算机 IP 地址。

NS=0x02, //指定用于命名区域的 DNS 名称服务器。

MD=0x03, //指定邮件接收站（此类型已经过时了，使用MX代替）

MF=0x04, //指定邮件中转站（此类型已经过时了，使用MX代替）

CNAME=0x05, //指定用于别名的规范名称。

SOA=0x06, //指定用于 DNS 区域的“起始授权机构”。

MB=0x07, //指定邮箱域名。

MG=0x08, //指定邮件组成员。

MR=0x09, //指定邮件重命名域名。

NULL=0x0A, //指定空的资源记。

WKS=0x0B, //描述已知服务。

PTR=0x0C, //如果查询是 IP 地址，则指定计算机名；否则指定指向其它信息的指针。

HINFO=0x0D, //指定计算机 CPU 以及操作系统类型。

MINFO=0x0E, //指定邮箱或邮件列表信息。

MX=0x0F, //指定邮件交换器。

TXT=0x10, //指定文本信息。

UINFO=0x64, //指定用户信息。

UID=0x65, //指定用户标识符。

GID=0x66, //指定组名的组标识符。

ANY=0xFF //指定所有数据类型。

};

QClass:长度为16位，表示分类。

enum QueryClass //指定信息的协议组。

{

IN=0x01, //指定 Internet 类别。

CSNET=0x02, //指定 CSNET 类别。（已过时）

CHAOS=0x03, //指定 Chaos 类别。

HESIOD=0x04,//指定 MIT Athena Hesiod 类别。

ANY=0xFF //指定任何以前列出的通配符。

};

Answer、Authority、Additional：

接下来的3个结构，格式可以说相同。都是如下图的结构和字段。

Name:回复查询的域名，不定长。这里的名字和Question结构的名字是一样的，但是为了节省资源，在question结构是这样，在之后的结构中，如果name字段的内容前面有出现了，那么他就不会再浪费空间去重复记录，而是指向某个前面出现了name的位置。如：

在question结构中的name字段的内容为forth.xu，即“05 66 6f 72 74 68 02 78 75 0”。然后在第3个结构中的answer中，第一个字段name的内容也是forth.xu，那么他会指向question中的name地址，让我们去那个地址读name内容。所以此时answer结构的name字段的内容为：

C0 0C

C0：这时不是表示接下来的内容有多长，而是接下来的内容在偏移量中，

0C:十进制是12的意思，就是偏移12个字节。从头开始12位，因为Header结构是固定的12字节，所以偏移0C就是到了Question的Name字段，即上面的“05 66 6f 72 74 68 02 78 75 0”。

Type：同上QType。

Class：同上QClass。

TTL：生存时间。4字节，指示RDATA中的资源记录在缓存的生存时间。

RDLength:资源的长度。

RDdata：资源的内容。

可变长度数据格式说明：

可变长度有两种内容格式：

长度方式：

1字节长度N + N字节内容 [+ 1字节长度N + N字节内容] + 0x00

N最多不超过63也就是2^6，因为最前面两位用来表示地址方式的偏移量。

地址方式：

第一字节大于等于0xc0开头，表示指针偏移量，所以偏移量的计算其实并不是指c0后面跟着的一个字节，不然一个字节的偏移量最多只有256个位置。

比如偏移量超过255，是300 ，他的小端格式为0x012c，那么他在内存中的表示应该是这样的：0xc12c。

这个300偏移量应该是这样计算的：

300 = 0x012c(小头) = 00000001 00101100(小头) = 00101100 00000001(大头) = 0x2c01(大头)

0xc0 & 0x2c01(大头) = 11000000 & 00101100 00000001 = 00101100 11000001(大头) = 11000001 00101100(小头) = 0xC12C

也就是：

0xc0 & (((0x012c << 8) & 0xff) & (0x012c >> 8)) = 0xC12C

同理反向计算：

((0xC12C & ~0xc0) & 0xff) << 8 & (0xC12C & ~0xc0) >> 8 = 0x012c = 300

需要注意是可变长度的格式有3中结尾方式：

长度+内容+～+长度0
偏移标识+偏移量
长度+内容+～+偏移标识+偏移量

现在来说说这个程序了

我按dns协议的结构把项目分成 MyDnsHeader.cs、MyDnsQuestion.cs、MyDnsRecord.cs 这样的3个大结构。

发送dns请求时只需要构造MyDnsHeader和MyDnsQuestion结构，然后通过GetBytes()函数得到构造好的字节数组，然后通过udp发送出去。然后接受来自服务器的响应，将接收到的字节数组通过Parse（byte[] recvData)方法让3个结构去解析，最后通过这些结构的属性字段获取相应的查询信息。

其中的资源记录，目前能分析 A记录、SOA记录、TXT记录、CNAME记录、MX记录、NS记录。

界面截图：

设计和实施 DNS 服务器和客户端服务时可能用到的RFC相关规范：
RFC 标题
RFC1034 域名 - 概念和工具
RFC1035 域名 - 实现和规范
RFC1123 Internet 主机 - 应用和支持的要求
RFC1886 支持 IP 版本 6 的 DNS 扩展名
RFC1995 DNS 中的增量区域传输
RFC1996 提示通知区域更改的机制 (DNS NOTIFY)
RFC2136 域名系统中的动态更新 (DNS UPDATE)
RFC2181 对 DNS 规范的说明
RFC2308 DNS 查询的负缓存 (DNS NCACHE)
RFC2535 域名系统安全扩展 (DNSSEC)
RFC2671 DNS 的扩展机制 (EDNS0)
RFC2782 指定服务位置的 DNS RR (DNS SRV)
RFC2930 DNS 的密钥建立 (TKEY RR)
RFC3645 DNS (GSS-TSIG) 密钥事务身分验证的通用安全服务算法
RFC3646 IPv6 (DHCPv6) 动态主机配置协议的 DNS 配置选项

MySQL数据库名、表名、列名、别名、字段值大小写规则

作者: forthxu
时间: April 19, 2017
分类: web后端
评论

MySQL在Window下数据库名、表名、列名、别名大小写规则不敏感。

MySQL在Linux下数据库名、表名、列名、别名大小写规则是这样的：
　　1、数据库名与表名是严格区分大小写的；
　　2、表的别名是严格区分大小写的；
　　3、列名与列的别名在所有的情况下均是忽略大小写的；
　　4、字段值默认字符集情况下是大小写不敏感的。

同时MySQL中数据库名和表名的大小写敏感受参数lower_case_table_names影响，为0时不做处理敏感的地方区分大小写，为1时，表示将转化为小写后存储，查询会做转化，因此不区分大小写，此配置的操作对Window系统的MySQL同样有效。

Linux之所以会有架构敏感，全因为Linux的文件存储系统。数据库名和表名在系统的存储形式分别是文件夹和文件，因此会敏感。

字段值的大小写由mysql的校对规则来控制。提到校对规则，就不得不说字符集。字符集是一套符号和编码，校对规则是在字符集内用于比较字符的一套规则。
一般而言，校对规则以其相关的字符集名开始，通常包括一个语言名，并且以_ci（大小写不敏感）、_cs（大小写敏感）或_bin（二元）结束。比如 utf8字符集，utf8_general_ci,表示不区分大小写，这个是utf8字符集默认的校对规则；utf8_general_cs表示区分大小写，utf8_bin表示二进制比较，同样也区分大小写。

关于TCP可靠性的一点思考，借此浅谈应用层协议设计

作者: forthxu
时间: January 5, 2017
分类: 默认分类
评论

本文主要讨论如何设计一个可靠的RPC协议。TCP是可靠的传输协议，不会丢包，不会乱序，这是课本上讲述了无数遍的道理。基于TCP的传输理论上来说都是可靠的，但是实际这也得看场景。当我做网络游戏的时候也是一直把它当一个可靠的传输协议来用，从没考虑过TCP丢包的问题。直到当我面临像网络存储、机器学习这样领域时，我发现TCP变得“不可靠”了。

具体来说：

发送方能不能知道已发送的数据对方是不是都收到了？或者，收到了多少？答：不能
如果怀疑对方没收到，有没有办法可以确认对方没有收到？答：不能
我想发送的是“123”，对方收到的会不会是“1223”？答：是的，会这样，而且无法避免。
第一个问题看起来很傻，众所周知TCP有ACK啊，ACK就是用来对方通知接收到了多少个字节的。可是，实际情况是，ACK是操作系统的事儿，它收到ACK后并不会通知用户态的程序。发送的流程是这样的：

应用程序把待发送的数据交给操作系统
操作系统把数据接收到自己的buffer里，接收完成后通知应用程序发送完成
操作系统进行实际的发送操作
操作系统收到对方的ACK
问题来了，假如在执行完第二步之后，网络出现了暂时性故障，TCP连接断了，你该怎么办？如果是网络游戏，这很简单，把用户踢下线，让他重新登录去，活该他网不好。但是如果比较严肃的场合，你当然希望能支持TCP重连。那么问题就来了，应用程序并不知道哪些数据发丢了。

以Windows I/O completion ports举个例子。一般的网络库实现是这样的：在调用WSASend之前，malloc一个WSABuffer，把待发送数据填进去。等到收到操作系统的发送成功的通知后，把buffer释放掉（或者转给下一个Send用）。在这样的设计下，就意味着一旦遇上网络故障，丢失的数据就再也找不回来了。你可以reconnect，但是你没办法resend，因为buffer已经被释放掉了。所以这种管理buffer的方式是一个很失败的设计，释放buffer应当是在收到response之后。

Solution：不要依赖于操作系统的发送成功通知，也不要依赖于TCP的ACK，如果你希望保证对方能收到，那就在应用层设计一个答复消息。再或者说，one-way RPC都是不可靠的，无论传输层是TCP还是UDP，都有可能会丢。

第二个问题，是设计应用层协议的人很需要考虑的，简单来说，“成功一定是成功但失败不一定是失败”。我想举个例子。假如你现在正在通过网银给房东转账交房租，然后网银客户端说：“网络超时，转账操作可能失败”。你敢重新再转一次吗？我打赌你不敢。

再举个例子，假设你设计了一个分布式文件存储服务。这个服务只有一条“Append”协议：

客户端向服务器发送文件名和二进制data。
服务器把文件打开(不存在则创建），写入数据，然后返回“OK”。中途遇到任何错误则返回“FAIL”
假设你现在有一个20TB的文件，你按照1 GB、1 GB的方式往上传。每发送1 GB，收到OK后，继续发送下1 GB。然后不幸的是中途遇到一个FAIL，你该怎么办？能断点续传吗？NO。因为服务器有可能在写入成功的情况下也返回FAIL（或者网络超时，没有任何回复）。所以你不能重发送未完成的请求。如果你选择从头传，而文件又特别大，那么你可能永远都不会成功。

Solution：采用positioned write。即在客户端发给服务器的请求里加上文件偏移量（offset）。缺点是：若你想要多个客户端同时追加写入同一个文件，那几乎是不可能的。

第三个问题：我想发送的是“123”，对方收到的会不会是“1223”？你想要支持重连、重试，那么你得容忍这种情况发生。

Solution：在应用层给每个message标记一个id，让接收者去重即可

接下来讨论下如何关闭连接。简单来说：谁是收到最后一条消息的人，谁来主动关闭tcp 连接。另一方在recv返回0字节之后close，千万不要主动的close。

在协议设计上，分两种情况：

协议是一问一答（类似于HTTP），且发“问”（request）的总是同一方。一方只问，另一方只答
有显式的EOF消息通知对方shutdown。
如果不满足以上两点的任何一点，那么就没有任何一方能判断它收到的消息是不是最后一条，那协议设计有问题，要改！

（p.s. Windows上还有一种方法，就是用半关连接shutdown(SD_SEND)来标志结束，但是操作起来比较复杂，还不如改协议来的快，容易debug）

原文：http://weibo.com/ttarticle/p/show?id=2309404060342857671095
扩展：http://www.ideawu.net/blog/archives/782.html

DNS预获取 dns-prefetch 提升页面载入速度

作者: forthxu
时间: December 24, 2016
分类: web前端
评论

DNS Prefetch，即DNS预获取，是前端优化的一部分。一般来说，在前端优化中与 DNS 有关的有两点： 一个是减少DNS的请求次数，另一个就是进行DNS预获取 。

DNS 作为互联网的基础协议，其解析的速度似乎很容易被网站优化人员忽视。现在大多数新浏览器已经针对DNS解析进行了优化，典型的一次DNS解析需要耗费 20-120 毫秒，减少DNS解析时间和次数是个很好的优化方式。DNS Prefetching 是让具有此属性的域名不需要用户点击链接就在后台解析，而域名解析和内容载入是串行的网络操作，所以这个方式能 减少用户的等待时间，提升用户体验 。

默认情况下浏览器会对页面中和当前域名（正在浏览网页的域名）不在同一个域的域名进行预获取，并且缓存结果，这就是隐式的 DNS Prefetch。如果想对页面中没有出现的域进行预获取，那么就要使用显示的 DNS Prefetch 了。

目前大多数浏览器已经支持此属性，支持版本如下：

列表项目

Safari: 5+
Chrome: All
Firefox: 3.5+
Opera: Unknown
IE: 9+ (called “Pre-resolution” on blogs.msdn.com)

其中 Chrome 和 Firefox 3.5+ 内置了 DNS Prefetching 技术并对DNS预解析做了相应优化设置。所以即使不设置此属性，Chrome 和 Firefox 3.5+ 也能自动在后台进行预解析。

目前很多大型站点也应用了这一优化，例如：

淘宝：

支付宝：

网易：

DNS Prefetch 应该尽量的放在网页的前面，推荐放在后面。具体使用方法如下：

<meta http-equiv="x-dns-prefetch-control" content="on">
<link rel="dns-prefetch" href="//www.itechzero.com">
<link rel="dns-prefetch" href="//api.share.baidu.com">
<link rel="dns-prefetch" href="//bdimg.share.baidu.com">

需要注意的是，虽然使用 DNS Prefetch 能够加快页面的解析速度，但是也不能滥用，因为有开发者指出禁用DNS 预读取能节省每月100亿的DNS查询。

只需要在用户在第一次打开网站时使用DNS Prefetch，没有必要每个页面都使用DNS Prefetch，否则就是重复DNS读取了，反而还无形中增加了DNS查询的次数，效果适得其反。(此处有疑)

如果需要禁止隐式的 DNS Prefetch，可以使用以下的标签：

<meta http-equiv="x-dns-prefetch-control" content="off">

文章主要来源前端优化一（已打不开）

参考：
事半功倍：你应该知道的HTML5五大特性
 减少域名DNS解析时间将网页加载速度提升新层次-DNS缓存/预读取/拆分域名
 浏览器的加载过程

Python2字符编码问题小结

作者: forthxu
时间: December 21, 2016
分类: 默认分类
评论

Python docs - Unicode HOWTO

Python docs - Built-in Types

Stack Overflow - Why does Python print unicode characters when the default encoding is ASCII?

理论

编码中的Unicode和UTF-8

Unicode是字符集，UTF-8是Unicode的一种编码方式，并列的还包括UTF-16、UTF-32等。

某个字符的Unicode通过查询标准得到，其UTF-8编码由Unicode码计算得到。

Python2中的str和unicode

str和unicode是两个不同的类。

str存储的是已经编码后的字节序列，输出时看到每个字节用16进制表示，以\x开头。每个汉字会占用3个字节的长度。

>>> a = '啊哈哈'
>>> type(a)
<type 'str'>
>>> a
'\xe5\x95\x8a\xe5\x93\x88\xe5\x93\x88'
>>> len(a)
9
>>> a[2]
'\x8a'

unicode是“字符”串，存储的是编码前的字符，输出是看到字符以\u开头。每个汉字占用一个长度。定义一个Unicode对象时，以u
开头。

>>> b = u'哟呵呵'
>>> type(b)
<type 'unicode'>
>>> b
u'\u54df\u5475\u5475'
>>> len(b)
3
>>> b[2]
u'\u5475'

str可以通过decode()方法转化为unicode对象，参数指明编码方式。

>>> a.decode('utf-8')
u'\u554a\u54c8\u54c8'

unicode可以通过encode()方法转化为str对象，参数指明编码方式。

>>> b.encode('utf-8')
'\xe5\x93\x9f\xe5\x91\xb5\xe5\x91\xb5'

默认编码

Python2中的默认编码，有多个不同的变量。

代码文件开头的coding

 # -*- coding: utf-8 -*-

或

 # coding=utf-8

指明代码文件中的字符编码，用于代码文件中出现中文的情况。

 % cat hello.py
 #! /usr/bin/env python
 # coding=utf-8
 print '泥壕'
 
 % python hello.py
 泥壕

如果不设置，默认是ascii，当出现中文字符时就不能正常识别。

 % cat hello.py
 #! /usr/bin/env python
 print '泥壕'
 
 % python hello.py
     File "hello.py", line 2
 SyntaxError: Non-ASCII character '\xe6' in file hello.py on line 2, but no encoding declared; see http://python.org/dev/peps/pep-0263/ for details

sys.stdin.encoding和sys.stdout.encoding

sdtin和stdout输入输出使用的编码，包命令行参数和print输出，由locale环境变量决定。

在en_US.UTF-8的系统中，默认值是UTF-8。
sys.getdefaultencoding()

文件读写和字符串处理等操作使用的默认编码。

默认值是ascii。

字符串拼接

unicode和str类型通过+拼接时，输出结果是unicode类型，相当于先将str类型的字符串通过decode()方法解码成unicode，再拼接。此时如果解码时没有明确指明编码类型，可能会出现错误。

>>> a = '啊哈哈'
>>> b = u'哟呵呵'
>>>
>>> a + b
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
UnicodeDecodeError: 'ascii' codec can't decode byte 0xe5 in position 0: ordinal not in range(128)
>>>
>>> a.decode('utf-8') + b
u'\u554a\u54c8\u54c8\u54df\u5475\u5475'

错误提到'ascii' codec can't decode byte 0xe5，这是因为自动将str类型的变量按照默认的编码格式sys.getdefaultencoding()来解码，默认编码即ascii，而这个字符不在ascii的范围内，就出现了错误。

>>> import sys
>>> reload(sys)
<module 'sys' (built-in)>
>>> sys.setdefaultencoding('utf-8')
>>>
>>> a = '啊哈哈'
>>> b = u'哟呵呵'
>>> a + b
u'\u554a\u54c8\u54c8\u54df\u5475\u5475'

文件读取和json解析

读文件得到的结果是str类型，以\x开头的十六进制表示。

>>> f = open('t.txt')
>>> a = f.read()
>>> a
'{"hello":"\xe5\x92\xa9"}\n'

而经过json解析后会自动转为unicode。

>>> json.loads(a)
{u'hello': u'\u54a9'}

输出

输出到文件

str类型可以输出到文件，而unicode类型必须先编码成str。

>>> a = '啊哈哈'
>>> b = u'哟呵呵'
>>> a
'\xe5\x95\x8a\xe5\x93\x88\xe5\x93\x88'
>>> b
u'\u54df\u5475\u5475'
>>> 
>>> f = open('t.txt', 'w')
>>> f.write(a)
>>> f.write(b)
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-2: ordinal not in range(128)
>>> f.write(b.encode('utf-8'))

unicode输出到文件时的错误是由于默认编码为ascii，无法自动完成编码过程。如果将sys.getdefaultencoding()编码设置成了utf-8就可以自动完成转换过程了。

>>> import sys
>>> reload(sys)
<module 'sys' (built-in)>
>>> sys.setdefaultencoding('utf-8')
>>>
>>> f.write(b)

计算md5

同样，md5计算也要求输入的unicode先编码。

>>> a = '啊哈哈'
>>> b = u'哟呵呵'
>>> import hashlib
>>> hashlib.md5(a).hexdigest()
'f38b302e2993ec3fdad79c4d76074b21'
>>> hashlib.md5(b).hexdigest()
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-2: ordinal not in range(128)
>>> hashlib.md5(b.encode('utf-8')).hexdigest()
'c02dc06719bafeaf60505b11d3c0c90a'

输出到stdout

输出到stdout时，默认编码是sys.stdout.encoding，默认值取决于系统环境变量，所以print输出汉字时才可以不用指定utf-8。

>>> import sys
>>> sys.stdout.encoding
'UTF-8'
>>> print u'\u54a9'
咩

而在zh_CN.GB2312的环境中，默认值不是utf-8，就不能正常输出了。

>>> import sys
>>> sys.stdout.encoding
'ANSI_X3.4-1968'
>>> print u'\u54a9'
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
UnicodeEncodeError: 'ascii' codec can't encode character u'\u54a9' in position 0: ordinal not in range(128)

命令行参数读取

通过sys.argv或argparse得到的命令行参数都是编码后的str类型，以\x开头的十六进制表示。可以通过sys.stdin.encoding得到命令行传入的编码类型，解码成unicode。

#! /usr/bin/env python
# coding = utf-8
import sys

print repr(sys.argv[1])
print sys.stdin.encoding
print repr(sys.argv[1].decode(sys.stdin.encoding))

输出结果。

~/workspace % python hello.py "哇嘿嘿"  
'\xe5\x93\x87\xe5\x98\xbf\xe5\x98\xbf'
UTF-8
u'\u54c7\u563f\u563f'

如果命令行环境已经改成GB2312等其他编码，python找不到与之匹配的编码类型，就会将默认编码sys.stdin.encoding设置成ascii，无法通过这种方法正常解码成unicode。

带\u的字符串转unicode

可能会遇到汉字被转换成unicode编码的形式表示的情况，即一个汉字被表示成了\u????的形式。

>>> a = u'咩'
>>> a
u'\u54a9'
>>> b = '\u54a9'
>>> b
'\\u54a9'

上述b就是这样的情况。此时b是一个长度为6的字符串，而不是一个汉字。

要把b表示为汉字编码有两种方法。

unicode-escape编码。

 >>> unicode(b, 'unicode-escape')
 u'\u54a9'

或

 >>> b.decode('unicode-escape')
 u'\u54a9'

eval拼接。

 >>> eval('u"' + b.replace('"', r'\"')+'"')
 u'\u54a9'

forthxu 发布的文章

Mac OS普通用户启动80端口

邮箱小号Gmail sub-account

distinct 和 group by的使用

nginx gzip压缩和gulp js压缩的效果

CSS实现分隔线中间带文字的方法，取代fieldset-legend

DNS学习

mydns

DNS结构：

Header 部分：

Question 部分：

Answer、Authority、Additional：

可变长度数据格式说明：

现在来说说这个程序了

MySQL数据库名、表名、列名、别名、字段值大小写规则

关于TCP可靠性的一点思考，借此浅谈应用层协议设计

DNS预获取 dns-prefetch 提升页面载入速度

Python2字符编码问题小结

理论

编码中的Unicode和UTF-8

Python2中的str和unicode

默认编码

字符串拼接

文件读取和json解析

输出

输出到文件

计算md5

输出到stdout

命令行参数读取

带\u的字符串转unicode

京东外快

最新文章

最近回复

分类

归档

其它

友情链接

forthxu 发布的文章

mydns

DNS结构：

Header 部分：

Question 部分：

Answer、Authority、Additional：

可变长度数据格式 说明：

现在来说说这个程序了

理论

编码中的Unicode和UTF-8

Python2中的str和unicode

默认编码

字符串拼接

文件读取和json解析

输出

输出到文件

计算md5

输出到stdout

命令行参数读取

带\u的字符串转unicode

京东外快

最新文章

最近回复

分类

归档

其它

友情链接

可变长度数据格式说明：