javascript 读取网页 js读取doc

转载

编程梦想实现家 2023-06-06 16:06:36

文章标签 js 类方法内容页自动下载 文章分类 JavaScript 前端开发

仅供查看，不可乱来，有钱勿喷；
操作步骤：（如果觉得操作麻烦，请滑到下方自动下载）
1.打开搜索到的百度文库的你需要的word页面

2.打开浏览器控制台（按F12，如果无效，请手动打开）

javascript 读取网页 js读取doc_js

3.因为需要获取该部分内容的id，选中控制台左上角的箭头，移动到内容页，旁边的提示文字就是该部分的id。

javascript 读取网页 js读取doc_类方法_02

4.在console里输入（document.getElementById(id).textContent;）（这里id替换获取的id），回车即可；

javascript 读取网页 js读取doc_内容页_03

5.控制台内容可直接复制。

快捷下载方式

同样在控制台的console里键入以下代码，可下载你看到那页附近三页word，（不知道为什么不能超过，可能数据传输限制吧，以后想办法优化）

var i=1;var content="data:text/plain;charset=utf-8,";
		while(i<=document.getElementsByClassName("page-count")[0].textContent.substring(1)){
			content+=document.getElementById("pageNo-"+i).textContent;
			i++;	
		}
		var elementDown=document.createElement('a');
		elementDown.setAttribute('href',content);
		elementDown.setAttribute('download', "downloadWord.docx");
		elementDown.style.display='none';
		document.body.appendChild(elementDown);
		elementDown.click();
		document.body.removeChild(elementDown);

js代码解析：
document.getElementsByClassName(“page-count”)[0].textContent.substring(1)//获取页面总数
document.getElementById(“pageNo-”+i).textContent;//获取当前页面文本