首先百度搜索的页面是<!doctype html>的,这意味着这是一个符合html5标准的页面,因为并不是xhtml所以我们不能直接把他当做xml来解析,只好使用dom解析,应该有三方库一类的东西,我就说下思路吧。下面是百度搜索中一条结果的源码
<div?class="c-span4?opr-recommends-merge-item?"?data-click="{'rsv_re_ename':'有道词典','rsv_re_uri':'50aa9196b5ec49b19cc994934ddf35d0'}"><div?class="opr-recommends-merge-p">
<a?target="_blank"?href="/s?wd=%E6%9C%89%E9%81%93%E8%AF%8D%E5%85%B8&tn=monline_4_dg&usm=2&ie=utf-8&rsv_cq=test&rsv_dl=0_right_recommends_merge_20826&euri=50aa9196b5ec49b19cc994934ddf35d0"><img?src="/6ONXsjip0QIZ8tyhnq/it/u=3198318283,3283537012&fm=58"?class="c-img?c-img4?opr-recommends-merge-img"/></a>
<a?class="opr-recommends-merge-mask"?target="_blank"?href="/s?wd=%E6%9C%89%E9%81%93%E8%AF%8D%E5%85%B8&tn=monline_4_dg&usm=2&ie=utf-8&rsv_cq=test&rsv_dl=0_right_recommends_merge_20826&euri=50aa9196b5ec49b19cc994934ddf35d0"></a></div>
<div?class="c-gap-top-small"><a?target="_blank"?title="有道词典"?href="/s?wd=%E6%9C%89%E9%81%93%E8%AF%8D%E5%85%B8&tn=monline_4_dg&usm=2&ie=utf-8&rsv_cq=test&rsv_dl=0_right_recommends_merge_20826&euri=50aa9196b5ec49b19cc994934ddf35d0">有道词典</a></div>
<div?class="opr-recommends-merge-d">
<p?class="opr-recommends-merge-width-text">网易出品的互联网词典</p>
</div>
</div>
这里我们只需要把a标签中的href解析出来之后访问他就可以跳转到目标地址了。