《HTML5与HTML4 的差异(2014年12月9日工作组笔记)》仅供参考,如有任何问题,始终以英文文档为准
订正感谢 | 旧译版本 | 译者致谢
By 葵中剑 2015-01-05
提交订正请到此版本的译者日志留言

W3C

HTML5与HTML4 的差异

W3C 工作组笔记 2014年12月9日

当前版本:
http://www.w3.org/TR/2014/NOTE-html5-diff-20141209/
最新版本:
http://www.w3.org/TR/html5-diff/
参与:
归档bug (开放的bug)
版本历史:
https://github.com/whatwg/html-differences/commits
之前的版本:
http://www.w3.org/TR/2014/WD-html5-diff-20140918/
http://www.w3.org/TR/2013/WD-html5-diff-20130528/
http://www.w3.org/TR/2012/WD-html5-diff-20121025/
http://www.w3.org/TR/2012/WD-html5-diff-20120329/
http://www.w3.org/TR/2011/WD-html5-diff-20110525/
http://www.w3.org/TR/2011/WD-html5-diff-20110405/
http://www.w3.org/TR/2011/WD-html5-diff-20110113/
http://www.w3.org/TR/2010/WD-html5-diff-20101019/
http://www.w3.org/TR/2010/WD-html5-diff-20100624/
http://www.w3.org/TR/2010/WD-html5-diff-20100304/
http://www.w3.org/TR/2009/WD-html5-diff-20090825/
http://www.w3.org/TR/2009/WD-html5-diff-20090423/
http://www.w3.org/TR/2009/WD-html5-diff-20090212/
http://www.w3.org/TR/2008/WD-html5-diff-20080610/
http://www.w3.org/TR/2008/WD-html5-diff-20080122/
编者:
Simon Pieters (Opera Software ASA) <simonp@opera.com>
之前的编者:
Anne van Kesteren <annevk@annevk.nl>

摘要

"HTML5与HTML4 的差异" 描述了HTML5规范中那些与HTML4中的差异。

本文档的状态

本节描述了本文档在其出版时的状态。其他文档也可能取代本文档。当前W3C的发布列表,以及本技术报告的最新修订,可以在W3C技术报告索引中找到,网址是 http://www.w3.org/TR/.

这是一份由HTML工作组产生的2014年12月9日的W3C工作组笔记,其作为HTML活动的一部分,工作组打算将这份文档作为工作组笔记发布。征求意见的对应论坛是 W3C Bugzilla。 (public-html-comments@w3.org, 这个伴随着公共档案的邮件列表,不再作为追踪评论使用。)

作为一份工作组笔记公布并不意味着W3C成员的认可。这是一个草案文件,并随时可能会被其他文档更新、取代或者废弃。在进程中的工作外引用此文档是不恰当的。

本文档是由一个小组根据 2004年2月5日W3C专利政策 操作并生成。 W3C维护了一个专利披露的公开名单,用来将小组的交付相连。 该页还包括披露专利的说明。拥有专利实际知识的个人,如果个人相信此专利包含必要的申明,则必须按照W3C专利政策的第6条来披露信息。

本文档受制于2005年10月14日万维网联盟流程文档.

内容表

1 简介

1.1 本文档的范围

本文档涵盖W3C HTML5规范。但不涵盖W3C HTML5.1规范或WHATWG HTML标准。 [HTML5] [HTML5NIGHTLY] [HTML]

1.2 HTML的历史

HTML自从90年代初被引入到互联网以来一直在不断发展。某些特性被规范引入;其他则被软件的发布引入。在某些方面,实现以及web开发者的实践不仅相互融合,也与规范与标准融合,但在其他方面它们也有所偏离

HTML4在1997年成为W3C推荐标准。虽然它继续作为诸多HTML的核心功能的粗略的指南,但它并没有提供足够的用以构建相互操作的实现信息,更重要的是,也没有提供用以操作的Web内容的实现信息。定义了HTML4的XML序列化的XHTML1,以及为HTML和XHTML定义了JavaScript API的DOM Level 2 HTML也是同样的情况,HTML会取代这些文档。 [DOM2HTML] [HTML4] [XHTML1]

HTML规范反映了自2004年开始的研究当代HTML实现及Web内容的努力。规范:

  1. 定义了单一的语言叫做HTML,它可以用HTML或者XML的语法书写。

  2. 定义详细的处理模式,以促进互操作的实现。

  3. 为文档改进标记。

  4. 为新兴词语引入标记和API,如Web应用。

1.3 开放的问题

请查看HTML5规范中“本文档的状态”章节。

1.4 向后兼容

HTML被定义为与用户代理处理内容的方式向后兼容。为了对Web开发者保持语言的相对简单,一些旧的元素和属性不再被包含在内,它们会在文档的其他小节列出,比如表示样式的元素用CSS来处理会更好。

当然用户代理将会总是支持这些老的元素和属性。这就是为什么HTML规范清楚地分离对Web开发者(在规范中被称为作者)和用户代理的要求的原因。 例如,这意味着Web开发者不能再使用 isindex 或者 plaintext 元素,但是用户代理为了兼容Web内容,而被要求以兼容这些元素如何表现的方式支持它们。

因为HTML已经分离了对作者和用户代理的一致性要求,所以不再需要用“废弃(deprecated)”去标记一个已过时的功能。

2 语法

HTML定义了一种语法,被称为HTML语法,其几乎兼容在web上已发布的HTML4和XHTML1文档,但不兼容更为深奥的HTML4的SGML特性。 比如 处理指令速记标记,因为大多数用户代理都不支持这些。使用HTML语法的文件的媒体类型是 text/html

HTML也为这个很大程度上与HTML4时代的实现相兼容的语法定义了详细的解析规则(包括“错误处理”),用户代理必须对有 text/html 媒体类型的资源使用这些规则。这里是一个符合HTML语法的范例文件:

<!doctype html>
<html>
  <head>
    <meta charset="UTF-8">
    <title>Example document</title>
  </head>
  <body>
    <p>Example paragraph</p>
  </body>
</html>

另一种可以被用作HTML的语法是XML。此语法与XHTML1的文件和实现相兼容。使用这种语法的文件需使用XML媒体类型(比如 application/xhtml+xmlapplication/xml),并且元素需被放进 http://www.w3.org/1999/xhtml 命名空间并遵循XML规范中规定的规则 [XML] [XMLNS]

下面是一个符合HTML的XML语法的范例文件:

<?xml version="1.0" encoding="UTF-8"?>
<html xmlns="http://www.w3.org/1999/xhtml">
  <head>
    <title>Example document</title>
  </head>
  <body>
    <p>Example paragraph</p>
  </body>
</html>

2.1 字符编码

对于HTML语法,要求Web开发者声明字符编码。有三种设置的方法:

对于XML语法而言,Web开发者必须使用XML规范中规定的规则来设置字符编码。

2.2 Doctype

HTML语法要求定义一个doctype来确保浏览器使用标准模式渲染页面。doctype没有其他目的。 [DOCTYPE]

HTML语法的doctype声明是 <!DOCTYPE html>,且不区分大小写。之前版本的HTML的doctype要更长,那是因为HTML语言基于SGML,因此需要一个DTD的引用。现在已经不再是这种情况,并且需要doctype只是为使用HTML语法撰写的文档启用标准模式。浏览器已经为 <!DOCTYPE html> 做到了这一点。

为了支持不能产生首选简短doctype的遗留的标记生成器,doctype <!DOCTYPE html SYSTEM "about:legacy-compat"> 在HTML语法里是被允许的。

HTML 4.0,HTML 4.01,,XHTML 1.0以及XHTML 1.1的严格型(strict) doctypes在HTML语法里也是被允许的(但不鼓励这么做)。

在XML语法里,可以使用任何doctype声明,或者也可以一起忽略。以XML为媒体类型的文档总是在标准模式中处理。

2.3 MathML和SVG

HTML语法允许在文档中使用MathML和SVG元素。math 或者 svg 开始标签会使HTML解析器切换到一个特殊的插入模式,此模式將元素和属性放到合适的命名空间,修正有混合情况的元素和属性,并支持如XML中的空元素语法。语法仍然不区分大小写并且属性允许与HTML元素相同的语法。命名空间声明会被省过。CDATA部分则会在插入模式中被支持。

一些MathML和SVG元素会使解析器切换回“HTML模式”,例如,mtextforeignObject,这样你就可以使用HTML元素或新的 mathsvg 元素。

例如,一个非常简单的使用一些最少的语法特性的文档看起来像这样:

<!doctype html>
<title>SVG in text/html</title>
<p>
 A green circle:
 <svg> <circle r="50" cx="50" cy="50" fill="green"/> </svg>
</p>

2.4 杂项

还有一些其他HTML语法的变化值得一提:

3 语言

这部分被分割成几个小节来更清楚地阐述相对于HTML4的各种不同。

3.1 新元素

为了更好的结构化,引入下面这些元素:

还有其他一些新的元素:

The input element's type attribute now has the following new values:

新增这些类型的想法,是用户代理可以提供用户界面,比如一个日历日期选择器或用户的地址簿的整合,并提交一个确定的格式到服务器。这给了用户更好的体验,因为他的输入在发送到服务器前被检查,这意味着更少的等待反馈的时间。

3.2 新属性

几个新属性被引入到了已经是HTML4一部分的各种元素上:

一些HTML4的属性现在被应用到所有的元素。这些属性被称为全局属性(global attributes): accesskey, class, dir, id, lang, style, tabindextitle。此外,XHTML 1.0 只在一些元素上允许 xml:space,现在它被允许用在XHTML文档所有的元素上。

也有一些新的全局属性:

HTML也使得所有来自HTML4的事件处理属性(那些形如 onevent 的属性)变成全局属性,并为其定义的新的事件添加了几个新的时间处理属性。比如,媒体元素(videoaudio)API所使用的 play 事件的 onplay 事件处理器。规范有一份所有事件的索引

3.3 变更的元素

这些元素在HTML里被略微修改了含义,这是为了更好的反应它们如何被使用在Web上或者让它们变得更有用:

3.4 变更的属性

一些属性以各种方式发生了变化。

3.5 废弃的元素

Web开发者不该再使用这个小节里的元素。但用户代理将仍然支持它们,HTML的几个小节定义了如何支持它们。比如,废弃的 isindex 元素由解析器部分处理。

下面的元素不在HTML内,因为它们的作用纯粹是表象(样式)作用,CSS能更好的处理它们的功能。

下面的元素不在HTML内,因为使用它们会破坏可用性和可访问性。

不包含下面的元素是因为它们甚少被使用,造成混淆,或者它们的功能能被其他元素处理。

最后,noscript 元素只符合HTML语法。XML语法不允许使用。这是因为,为了不仅要视觉上隐藏还要阻止内容运行脚本,应用样式,控制可提交的表单,加载资源等等,HTML解析器将 noscript 元素的内容作为纯文本解析。同样的做法在XML解析器中是不可能的。

3.6 废弃的属性

一些来自HTML4的属性在HTML中不再被允许使用。规范定义了用户代理应该如何在遗留文档里处理它们,但是它们并不是有效的,Web开发者绝不能再使用它们。

HTML对你使用什么来代替它们有些建议

此外,HTML没有一个HTML4中的表象(样式)属性,因为CSS能更好的处理它们的功能。

下面这些属性允许使用,但是不鼓励Web开发者使用它们,而是强烈鼓励使用替代的解决方案:

4 内容模型

内容模型定义了元素如何被嵌套 — 允许什么作为容器元素的子元素(或后代元素)。

总的来说,HTML4有两种主要的元素类别,"行内(inline)"(比如 span, img, text)和"块级(block-level)"(比如 div, hr, table)。还有一些元素不属于这两者。

一些元素允许"行内"元素(例如 p),一些元素允许"块级"元素(例如 body),一些元素允许两者(例如 div), 而另一些元素两者都不允许但只允许特定的元素(比如 dl, table),或者完全不允许任何子元素(例如 link, img, hr)。

注意元素本身作为某个类别与元素有某个类别的内容模型之间的区别。比如,p 元素自身是"块级"元素,但是有"行内"的内容模型。

使其更加混乱的是,HTML4在其严格(Strict),过渡(Transitional)和框架集(Frameset)模式有不同的内容模型规则。比如,在严格模式里,body 元素只允许"块级"元素,但是在过渡模式里,其允许"行内"和"块级"。

还有让事情变的更混乱的是,CSS使用术语"块级元素(block-level element)"和"行级元素(inline-level element)"作为它的可视化格式模型,其与CSS的'display'属性相关且与HTML的内容模型规则无关。

为了减少与CSS的混淆,HTML不使用术语"块级"或者"行内"作为其内容模型规则的一部分。然而,HTML相比HTML4有更多的类别,并且,一个元素可以不是任何类别的一部分,也可以是其中一个类别的一部分,或者几个类别的一部分。

作为一个相比HTML5的广泛的变化,HTML不再有任何只接受在HTML4中被称为"块级"元素的元素;例如,body 元素现在允许流内容,所以,相比HTML4严格模式,这更接近HTML4过渡模式。

进一步的变化包括:

5 API

HTML引入了许多新的API,并扩展,变更或废弃了一些现存的API。

5.1 新API

HTML引入了若干API来帮助创建Web应用。这些API可以和为了应用而被引入的新元素一起使用:

5.2 变更的API

以下来自 DOM Level 2 HTML 的特性在各种方面有变化:

5.3 Document扩展

DOM Level 2 HTML 有一个 HTMLDocument 接口,其继承自 Document 并在文档上提供了HTML特定成员。 HTML 已经将这些成员移动到 Document 接口,并且在很多方面扩展了它。因为所有的文档都使用 Document 接口,HTML特定成员现在在所有文档上可用,所以它们在比如SVG文档中也一样可用。它也有几个新的成员:

现有的更改 HTMLDocument 的原型的脚本应该继续工作,因为 window.HTMLDocument 现在返回 Document 接口对象。

5.4 HTMLElement 扩展

HTMLElement 接口也获得了几个在HTML中的扩展:

一些成员之前被定义在 HTMLElement 上但在DOM标准 ([DOM]) 中已经被移到 Element 接口。

5.5 其他接口扩展

在DOM Level 2 HTML中的一些接口也作了扩展。

除了这些以外,在元素的接口上新内容属性大多也有对应的IDL属性,例如,HTMLLinkElement 上的 sizes IDL属性反映 sizes 内容属性。

5.6 废弃的API

一些API现在被全部移除了,或者被标记为废弃。

所有反映本身是废弃的内容属性的IDL属性,现在也废弃;例如,HTMLBodyElement 上的反映废弃的 bgColor 内容属性的 bgcolor IDL属性现在是废弃的。

因为元素被废弃以下接口被标记为废弃:HTMLAppletElement, HTMLFrameSetElement, HTMLFrameElement, HTMLDirectoryElementHTMLFontElement

HTMLIsIndexElement 接口被全部移除了,因为HTML解析器扩展了一个 isindex 标签到其他元素。HTMLBaseFontElement 接口也被移除了因为元素没有效果。

以下这些 HTMLDocument 接口(已经被移到 Document)的成员现在是废弃的:anchorsapplets

致谢

编者想要感谢: Ben Millard, Bruce Lawson, Cameron McCormack, Charles McCathieNevile, Dan Connolly, David H?s?ther, Dennis German, Frank Ellermann, Frank Palinkas, 羽田野太巳 (Futomi Hatano), Gordon P. Hemsley, Henri Sivonen, James Graham, Jens O. Meiert, Jeremy Keith, Jukka K. Korpela, Jürgen Jeka, Krijn Hoetmer, Leif Halvard Silli, Maciej Stachowiak, Mallory van Achterberg, Marcos Caceres, Mark Pilgrim, Martijn Wargers, Martin Leese, Martyn Haigh, Masataka Yakura, Michael Smith, Mike Taylor, Ms2ger, Olivier Gendrin, ?istein E. Andersen, Philip J?genstedt, Philip Taylor, Randy Peterman, Robin Berjon, Steve Faulkner, Toby Inkster, Xaxio Brandish, Yngve Spjeld Landro and Zhong Yu 感谢他们为这份文档的贡献。同时也感谢所有多年为HTML做贡献让Web变得更好的人们。

参考文献

[CSSOM]
CSS Object Model (CSSOM), Simon Pieters and Glenn Adams. W3C.
[DOCTYPE]
Activating Browser Modes with Doctype, Henri Sivonen.
[DOM]
DOM, Anne van Kesteren, Aryeh Gregor and Ms2ger. WHATWG.
[DOM2HTML]
Document Object Model (DOM) Level 2 HTML Specification, Johnny Stenback, Philippe Le Hégaret and Arnaud Le Hors. W3C.
[HTML]
HTML, Ian Hickson. WHATWG.
[HTML4]
HTML 4.01 Specification, Dave Raggett, Arnaud Le Hors and Ian Jacobs. W3C.
[HTML5]
HTML5, Ian Hickson, Robin Berjon, Steve Faulkner, Travis Leithead et al.. W3C.
[HTML5NIGHTLY]
HTML 5.1 Nightly, Robin Berjon, Steve Faulkner, Travis Leithead et al.. W3C.
[XHTML1]
XHTML? 1.1 - Module-based XHTML - Second Edition, Murray Altheim and Shane McCarron.
[XML]
Extensible Markup Language, Tim Bray, Jean Paoli, C. M. Sperberg-McQueen et al.. W3C.
[XMLNS]
Namespaces in XML, Tim Bray, Dave Hollander, Andrew Layman et al.. W3C.

订正感谢

  1. 感谢呂康豪提供专有名词“书名号”的校订。

  2. 感谢一丝指出翻译文案错位

旧译版本

译者致谢