Java 爬虫工具

以下文章来源于程序猿DD

正文

项目的名字很有意思，Spiderman，是指想和蜘蛛侠一样可以发射蛛网，将所有内容一网打尽吗？

Spiderman是一款基于Java开源Web数据抽取的工具。

工具的目标就是收集指定的Web页面并从这些页面中提取有用的数据给用户。

Spiderman主要运用了XPath、正则表达式等基础技术来实数据的抽取与分析。

工具的特点在于使用微内核与插件的不同组合架构，使得工具在扩展性上更强，使用及二次开发更灵活方面，同时对于一些初学者来说不需要额外的编写代码就可以直接使用，并且抽取页面数据的时候还可以以多线程来保证性能。

使用的时候其实只要三步：

那有的初来乍到的小伙伴可能要问了，获取该页面数据的XPath，怎么做？其实也不难。