Web Content Mining with Java: Techniques for Exploiting the World's Biggest Info

Tony Loton

  • 出版商: Wiley
  • 出版日期: 2002-04-29
  • 售價: $1,100
  • 貴賓價: 9.8$1,078
  • 語言: 英文
  • 頁數: 328
  • 裝訂: Paperback
  • ISBN: 047084311X
  • ISBN-13: 9780470843116
  • 相關分類: Java 程式語言
  • 下單後立即進貨 (約5~7天)

買這商品的人也買了...

相關主題

商品描述

What do you with information at the websites you visit? You read it, print it, and maybe do a screen grab. But you could do so much more with it if only you could get hold of the information in a more usable form: a form that you could manipulate, store and query automatically.

In this book you'll learn how to automate the:

  • discovery of websites containing interesting data
  • extraction of specific information from HTML and XML pages
  • presentation of aggregate information via your own portal
  • interpretation of data using text- and data-mining techniques
Java is the language of the web, so all practical examples are provided in the form of Java code that demonstrates HTTP communication, HTML and XML parsing, email retrieval and much more.

This is the book for you if you want some real, practical, help to get your Java-based information applications off the ground.

Table of Contents

Preface.

About the Author.

Acknowlegements.

Surveying the Scene

Language of the Web

HTML and XML Parsing

Data Filters and Structured Queries

Building a Portal with Java

Building a Search Engine with Java

Mail Mining with Java

Introduction to Text Mining

Introduction of Data Mining

Loose Ends and Looking Ahead

Appendix A: Software Installation and Configuration

Appendix B: Javadoc Extracts

Appendix C: Earlier Versions of JAXP

Appendix D: License and Copyright Statements

Appendix E: Census 1891Data XML

Appendix F: Share Price Cluster Data

Appendix G: Glossary of Acronyms

References

Further Reading

Index

商品描述(中文翻譯)

你在訪問網站時,會如何處理網站上的資訊呢?你會閱讀、列印,或者可能會截圖。但如果你能以更可操作的形式獲取這些資訊,你就可以做更多事情了:你可以自動化地檢索、儲存和查詢這些資訊。
在這本書中,你將學習如何自動化以下內容:
- 尋找包含有趣資料的網站
- 從 HTML 和 XML 頁面中提取特定資訊
- 通過自己的門戶網站呈現聚合資訊
- 使用文本和資料採礦技術解釋資料
Java 是網絡的語言,因此所有實際示例都以 Java 代碼的形式提供,演示了 HTTP 通信、HTML 和 XML 解析、電子郵件檢索等等。
如果你想要一些真實、實用的幫助來啟動基於 Java 的資訊應用程式,這本書就是為你而寫的。

目錄:
前言
作者簡介
致謝
調查現狀
網絡語言
HTML 和 XML 解析
資料過濾和結構化查詢
使用 Java 建立門戶網站
使用 Java 建立搜索引擎
使用 Java 進行郵件採礦
文本採礦入門
資料採礦入門
收尾和展望
附錄 A:軟體安裝和配置
附錄 B:Javadoc 提取
附錄 C:JAXP 的早期版本
附錄 D:許可和版權聲明
附錄 E:1891 年人口普查資料 XML
附錄 F:股價集群資料
附錄 G:首字母縮略詞詞彙表
參考資料
進一步閱讀
索引