在写爬虫的同时,我觉得读别人写的html文件是一个很好的学html的方法
因为我html只会最基础的语法,所以看到什么没见过的代码都会记下来
-  ;
这个东西其实就是html中的空格,因为在代码区多敲空格可能被省略,因此用 ;占位
同时, ;具体代表的空格长度是可调的
我爬的盗版小说网站就用了四个 ;但是在那个网页里一个 ;代表一个汉字的长度,就导致小说看起来特别诡异
实际上,如果在web.config中
<globalization
requestEncoding="gb2312"
responseEncoding="gb2312"
/>
就是半个汉字,而如果是
<globalization
requestEncoding="utf-8"
responseEncoding="utf-8"
/>
或是
<meta http-equiv="content-type" content="text/html; charset=UTF-8">
就相当于一个汉字
也就是, ;的长短受编码方式影响
于是,我们希望稳定的,长度不变的空格表示实体
这包括
&ensp;
它叫“半角空格”,全称是En Space,en是字体排印学的计量单位,为em宽度的一半。占据的宽度正好是1/2个中文宽度,而且基本上不受字体影响。
&emsp;
它叫“全角空格”,全称是Em Space。其占据的宽度正好是1个中文宽度,而且基本上不受字体影响。