编程基础网 / 编程教程 / 前端开发 / 正文

linux – 如何使用没有html的wget获取页面文本？

编程基础网前端开发

2023-10-25

如果我在网页上尝试wget,我将获取该页面为html.是否可以只检索没有关联html的文件的文本？ (这是我需要的,因为一些HTML页面包含c程序正在下载html标签.我必须在浏览器中打开它并手动复制文本以生成.c文件.)解决方法:...

如果我在网页上尝试wget,我将获取该页面为html.是否可以只检索没有关联html的文件的文本？ (这是我需要的,因为一些HTML页面包含c程序正在下载html标签.我必须在浏览器中打开它并手动复制文本以生成.c文件.)

解决方法:

wget只会检索文档.如果文档是HTML格式,那么您需要的是解析文档的结果.

例如,如果你有lynx,你可以使用lynx -dump -nolist.

lynx是一个轻量级,简单的Web浏览器,它具有-dump功能,用于输出解析过程的结果. -nolist避免最后的链接列表,如果页面有任何超链接,它将出现.

正如@Thor所提到的,elinks也可以用于此,因为它还有一个-dump选项(并且具有-no-引用以省略链接列表).如果您使用-sigh- frames(MTFBWY)走过某个站点,这可能特别有用.

另外,请记住,除非页面实际上只是带有HTML标记的C代码,否则您需要检查结果,以确保其中只有C代码.

编程基础网

本文标题为：linux – 如何使用没有html的wget获取页面文本？

上一篇： linux – wkhtmltopdf – QXcbConnection：无法连接到显示器

下一篇： docker+nginx部署静态网页(html)

基础教程推荐

学习Bootstrap5

猜你喜欢

vue使用moment如何将时间戳转为标准日期时间格式 2023-07-09
vue中的重点指令 2023-10-08
vue正则验证 2023-10-08
元素水平居中方案全集 2022-10-16
vue跨域吐槽proxytable 2023-10-08
如何使用AJAX实现按需加载【推荐】 2022-12-28
使用Referrer Policy解决第三方平台的照片在https站点无法打开的问题 2022-12-19
vue 阻止事件冒泡，捕获方法 2023-10-08
HTML5 video视频播放标签如何添加封面图片 2023-07-08
js判断两个字符串是否相等的两种方法 2023-07-10