java爬虫抓取网页搜索数据

人工智能
2025-09-02 15:36:01

首先访问这个使用必应并搜索想要的内容 .bing /images/search?q=[把这里替换成想要的搜索内容] 按下f12来查看源码我们可以找到a.iusc这个元素可以获取图片的源地址注意，直接选中网页上的图片只能看到它的缩略图在哪。由此可以编写出来爬虫脚本来下载指定搜索内容前几张

public static void downloadImage(String imgUrl, String fileName) throws Exception { URL url = new URL(imgUrl); URLConnection con = url.openConnection(); con.setConnectTimeout(10 * 1000); InputStream is = con.getInputStream(); byte[] bs = new byte[1024]; int len; OutputStream os = new FileOutputStream(fileName); while ((len = is.read(bs)) != -1) { os.write(bs, 0, len); } os.close(); is.close(); } public static void getImage(String keyword) { String searchUrl = " .bing /images/search?q=" + keyword; try { Document doc = Jsoup.connect(searchUrl).get(); Elements imgElements = doc.select("a.iusc"); // 获取存有原图链接的 a 标签 int count = 0; for (Element imgElement : imgElements) { String mData = imgElement.attr("m"); // 获取 m 属性中的 JSON 数据 // 使用正则解析 murl（高清图片 URL） Pattern pattern = Pattern pile("\"murl\":\"(.*?)\""); Matcher matcher = pattern.matcher(mData); if (matcher.find()) { String imgUrl = matcher.group(1); System.out.println("高清图片URL：" + imgUrl); // 下载图片 downloadImage(imgUrl, "image" + count + ".jpg"); count++; if (count >= 5) break; // 只下载前 5 张 } } } catch (Exception e) { System.out.println("获取图片出错：" + e.getMessage()); } }

标签：

java爬虫抓取网页搜索数据由讯客互联人工智能栏目发布，感谢您对讯客互联的认可，以及对我们原创作品以及文章的青睐，非常欢迎各位朋友分享到个人网站或者朋友圈，但转载请说明文章出处“java爬虫抓取网页搜索数据”

上一篇
【算法与数据结构】字典树（Trie）详解

下一篇
LinuxSocket编程：TCP开发指南