JSoup Wiki:http://www.open-open.com/jsoup/parse-body-fragment.htm
解析和遍历一个HTML文档
如何解析一个HTML文档:
String html = "<html><head><title>First parse</title></head>"
+ "<body><p>Parsed HTML into a doc.</p></body></html>";
Document doc = Jsoup.parse(html);
(更详细内容可查看 解析一个HTML字符串.)
其解析器能够尽最大可能从你提供的HTML文档来创见一个干净的解析结果,无论HTML的格式是否完整。比如它可以处理:
- 没有关闭的标签 (比如:
<p>Lorem <p>Ipsum
parses to<p>Lorem</p> <p>Ipsum</p>
) - 隐式标签 (比如. 它可以自动将
<td>Table data</td>
包装成<table><tr><td>?
) - 创建可靠的文档结构(html标签包含head 和 body,在head只出现恰当的元素)
一个文档的对象模型
- 文档由多个Elements和TextNodes组成 (以及其它辅助nodes:详细可查看:nodes package tree).
- 其继承结构如下:
Document
继承Element
继承Node
.TextNode
继承Node
. - 一个Element包含一个子节点集合,并拥有一个父Element。他们还提供了一个唯一的子元素过滤列表。
=================================================================
解析一个HTML字符串
存在问题
来自用户输入,一个文件或一个网站的HTML字符串,你可能需要对它进行解析并取其内容,或校验其格式是否完整,或想修改它。怎么办?jsonu能够帮你轻松解决这些问题
解决方法
使用静态Jsoup.parse(String html)
方法或 Jsoup.parse(String html, String baseUri)
示例代码:
String html = "<html><head><title>First parse</title></head>"
+ "<body><p>Parsed HTML into a doc.</p></body></html>";
Document doc = Jsoup.parse(html);
描述
parse(String html, String baseUri)
这方法能够将输入的HTML解析为一个新的文档 (Document),参数 baseUri 是用来将相对 URL 转成绝对URL,并指定从哪个网站获取文档。如这个方法不适用,你可以使用 parse(String html)
方法来解析成HTML字符串如上面的示例。.
只要解析的不是空字符串,就能返回一个结构合理的文档,其中包含(至少) 一个head和一个body元素。
一旦拥有了一个Document,你就可以使用Document中适当的方法或它父类 Element
和Node
中的方法来取得相关数据。
=================================================================
解析一个body片断
问题
假如你有一个HTML片断 (比如. 一个 div
包含一对 p
标签; 一个不完整的HTML文档) 想对它进行解析。这个HTML片断可以是用户提交的一条评论或在一个CMS页面中编辑body部分。
办法
使用Jsoup.parseBodyFragment(String html)
方法.
String html = "<div><p>Lorem ipsum.</p>";
Document doc = Jsoup.parseBodyFragment(html);
Element body = doc.body();
说明
parseBodyFragment
方法创建一个空壳的文档,并插入解析过的HTML到body
元素中。假如你使用正常的 Jsoup.parse(String html)
方法,通常你也可以得到相同的结果,但是明确将用户输入作为 body片段处理,以确保用户所提供的任何糟糕的HTML都将被解析成body元素。
Document.body()
方法能够取得文档body元素的所有子元素,与 doc.getElementsByTag("body")
相同。
保证安全Stay safe
假如你可以让用户输入HTML内容,那么要小心避免跨站脚本攻击。利用基于 Whitelist
的清除器和 clean(String bodyHtml, Whitelist whitelist)
方法来清除用户输入的恶意内容。
相关推荐
使用Jsoup解析html网页,包含jsoup.jar \ api.chm \ 代码
Jsoup解析html+xml
用Jsoup解析html的所有jar包!
jsoup解析html网页的api
jsoup解析HTML,获取htmlUrl
java语言,jsoup解析html修改文件名的一个demo
使用httpClient采集数据,jsoup解析页面
一个简单地android解析html的例子
利用jsoup工具解析html的demo
这是使用Jsoup解析HTML得到数据的一个小例子,具体的使用方法请参见我的博客:http://blog.csdn.net/ProgramChangesWorld/article/details/47134255
使用Jsoup解析Html文档,无须正则表达式,使用元素定位到Html的标签元素
使用jsoup解析hmtl,获取对应数据
Jsoup库文件;Jsoup解析Java包
使用Jsoup库解析HTML、XML或URL链接中的DOM节点 Jsoup进行Html的Dom解析
jsoup 是一款 Java的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。jsoup 的主要功能如下: (1)从一个 URL,...
java解析xml,dom解析,jsoup解析,两种不同方式的解析,完整项目
使用JSoup实现解析URL或HTML的内容
支持Android4.0,真机与模拟器都测试通过,使用异步方式解析
jsoup 是一款 Java 的 HTML 解析器,可直接解析某个 URL 地址、HTML 文本内容。它提供了一套非常省力的 API,可通过 DOM,CSS 以及类似于 jQuery 的操作方法来取出和操作数据。
包含jsoup-1.7.3.jar,jsoup-1.7.3-javadoc.jar,jsoup-1.7.3-sources.jar