如何用java爬取数据
1、首先确定我们的RSS源信息,可以搜索得到,每一个都可以直接在浏览器输入,并获得一个xml文件。

3、获取到的就是前面看到的一个个链接的文件xml报文,不过我们得到的是流,不是xml文件,但是javax包提供了许多方法来解析,包括inputStream。关键代码就是DocumentBuilder documentBuilder = builderFactory.newDocumentBuilder();stb = new StringBuilder();org.w3c.dom.Document doc = documentBuilder.parse(ins);其余部分就是根据你的xml报文结构,去循环遍历并获取你所需爬取的信息了。
