您当前的位置:首页 > 计算机 > 编程开发 > Python

半天时间抓取清洗的某AI导航站的网址链接【可一键导入浏览器】

时间:08-07来源:作者:点击数:

缘起

之前了解AI应用一直是通过AI导航站,但发现很多导航站都套用了同一个模板,不仅多了一层中间跳转,而且有的网址导向了搜索引擎,于是想着能不能直接把这些网站的真实地址直接分门别类地导入浏览器,然后便花了半天对该导航站的链接进行了抓取——导入Excel(Python)——数据清洗(人工+Python)——导出为可导入书签的HTML文件(Python)

很多导航站都是用了下面这套模板:

image.png

点击先来一次跳转:

image.png

很多国外站点都指向了搜索引擎,又多一次跳转:

image.png

历程

一、数据抓取

数据抓取软件参见城东社区分享的一篇帖子:

https://bbs.cdsy.xyz/thread-13151-1-1.html

由于该导航站各个区块的代码相对独立,无法直接全部选中,尝试了很多方法后还是给每个区块配置了单独的流程才完美解决了问题:

image.png

二、数据清洗(人工+Python)

抓回来的数据默认是没有分类的,于是手动在Excel中添加了分类,并人工校准了网址(去除推广链接,查找缺失的链接

用Python脚本把Excel导出为HTML文件时由于首行字段缺失出现了问题,于是又让ChatGpt用Python写了一个给各个sheet批量添加首行的脚本

image.png

清洗后的结果:

清洗后.gif

三、导出为可导入书签的HTML文件(Python)

有了Excel首先想到的是能否直接从Excel导入到chrome中并按照Excel中各个sheet名称来建立对应的文件夹,代码ChatGpt写好了但启动chrome浏览器的时候总闪退,于是思路一转,干脆让他导出个HTML文件,这样就各个浏览器都可以直接导入了。【细心的朋友应该会发现,下面代码中包含了书签名称的命名,格式为“网站名称 | 网站特点 | 工具类型”,强迫症的福音

ChatGpt眨眼间写好了代码:

image.png

导入后的效果堪称完美

导入后.gif

解压即用:

https://wwfl.lanzoue.com/inPNQ13j6jti

方便获取更多学习、工作、生活信息请关注本站微信公众号城东书院 微信服务号城东书院 微信订阅号
推荐内容
相关内容
栏目更新
栏目热门