爱吱声
标题:
AI帮忙捞河泥
[打印本页]
作者:
唐家山
时间:
前天 17:55
标题:
AI帮忙捞河泥
本帖最后由 唐家山 于 2025-9-17 18:05 编辑
西西河不想去了,但是这么多年自己发的帖子还是想收藏一下,算是敝帚自珍吧。
在DeepSeek(元宝版)的帮助下,生成了一个抽取脚本,把自己的所有发贴都下载下来,转成了一个pdf文件。
先是做了一个可以无需登录的python脚本。方法很简单,告诉AI索引贴网页的url和DOM树结构,某个贴子的标题和内容的块结构,以及单贴所在页面的url和DOM树结构。AI很快就生成了一个能用的脚本,可以下载所有公开发表的帖子。
现在西西河有一部分内容需要登录后才能查看。为了这一部分的帖子下载下来,还是费了一番功夫。大模型提供了一种chrome远程调试模式,可以在chrome driver环境下,用户自己登录后,脚本采用远程调试的方法抽取帖子内容。开始是想把帖子全下载下来,但是脚本总是有各种小毛病。后来干脆生成只下载单个帖子的脚本,在踩了几个坑后,终于调好了。
然后让大模型把两个脚本的功能合在一起,就可以生成一个符合要求的新脚本。
附:这个版本的DeepSeek果然出现了各种“极”字的错误。
欢迎光临 爱吱声 (http://aswetalk.net/bbs/)
Powered by Discuz! X3.2