如果我在网页上尝试wget,我将获取该页面为html.是否可以只检索没有关联html的文件的文本? (这是我需要的,因为一些HTML页面包含c程序正在下载html标签.我必须在浏览器中打开它并手动复制文本以生成.c文件.)解决方法:...
如果我在网页上尝试wget,我将获取该页面为html.是否可以只检索没有关联html的文件的文本? (这是我需要的,因为一些HTML页面包含c程序正在下载html标签.我必须在浏览器中打开它并手动复制文本以生成.c文件.)
解决方法:
wget只会检索文档.如果文档是HTML格式,那么您需要的是解析文档的结果.
例如,如果你有lynx,你可以使用lynx -dump -nolist.
lynx是一个轻量级,简单的Web浏览器,它具有-dump功能,用于输出解析过程的结果. -nolist避免最后的链接列表,如果页面有任何超链接,它将出现.
正如@Thor所提到的,elinks也可以用于此,因为它还有一个-dump选项(并且具有-no-引用以省略链接列表).如果您使用-sigh- frames(MTFBWY)走过某个站点,这可能特别有用.
另外,请记住,除非页面实际上只是带有HTML标记的C代码,否则您需要检查结果,以确保其中只有C代码.
本文标题为:linux – 如何使用没有html的wget获取页面文本?
基础教程推荐
- vue使用moment如何将时间戳转为标准日期时间格式 2023-07-09
- vue中的重点指令 2023-10-08
- vue正则验证 2023-10-08
- 元素水平居中方案全集 2022-10-16
- vue跨域吐槽proxytable 2023-10-08
- 如何使用AJAX实现按需加载【推荐】 2022-12-28
- 使用Referrer Policy解决第三方平台的照片在https站点无法打开的问题 2022-12-19
- vue 阻止事件冒泡,捕获方法 2023-10-08
- HTML5 video视频播放标签如何添加封面图片 2023-07-08
- js判断两个字符串是否相等的两种方法 2023-07-10
