JSoup是一個用于處理HTML的Java庫,它提供了一個非常方便類似于使用DOM,CSS和jquery的方法的API來提取和操作數據。
jsoup實現WHATWG HTML5規范,并將HTML解析為與現代瀏覽器相同的DOM。
- 從URL,文件或字符串中提取并解析HTML。
- 查找和提取數據,使用DOM遍歷或CSS選擇器。
- 操縱HTML元素,屬性和文本。
- 根據安全的白名單清理用戶提交的內容,以防止XSS攻擊。
- 輸出整潔的HTML。
jsoup旨在處理發現所有格式有差異的HTML; 從原始和驗證,到無效的標簽; jsoup將創建一個明智的解析樹。
實例
獲取維基百科主頁,解析為DOM,并從新聞部分中選擇標題列入元素列表:
Document doc = Jsoup.connect("http://en.wikipedia.org/").get();
Elements newsHeadlines = doc.select("#mp-itn b a");
以下是一個完整的示例,在這個示例中,它提取易百教程網首頁的title
標簽中的字符串符。
import java.io.IOException;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
public class FirstJsoupExample{
public static void main( String[] args ) throws IOException{
Document doc = Jsoup.connect("http://www.23366qiu.com").get();
String title = doc.title();
System.out.println("title is: " + title);
}
}
開源
jsoup是一個根據自由MIT許可證分發的開源項目。 源代碼可在GitHub獲得:http://github.com/jhy/jsoup/ 。
發展和支持
如果您有任何關于如何使用jsoup的問題,或有未來發展的想法,請通過郵件列表聯系( http://jsoup.org/discussion )。
如果您發現任何問題,請在檢查重復之后提交錯誤。
本教程問題
在本Jsoup教程中,我們是通過一些簡單的開發和測試實例來一步步演示Jsoup的使用的,但是由于開發環境和工具的不同,我們不能保證所有實例均可在您的機器也能正常運行。 如果您在本教程中發現任何問題或錯誤,可以向我們報告。我們及時修改/修正錯誤以方便后來的學習者。
易百教程移動端:請掃描本頁面底部(右側)二維碼并關注微信公眾號,回復:"教程" 選擇相關教程閱讀或直接訪問:http://m.yiibai.com 。
開始學習 >> :JSoup安裝
加QQ群啦,易百教程官方技術學習群
注意:建議每個人選自己的技術方向加群,同一個QQ最多限加 3 個群。