使用python3爬取bttwo全站bt文件,并利用mongodb来存储二进制文件和去重
使用之前请安装lxml,requests,BeautifulSoup以及mongodb
pip3 install lxml requests beautifulsoup4
修改bttwo.py文件里的下载路径,运行
python3 bttwo.py
- 使用代理并不能有效解决爬取速度过快而导致的爬取出错的问题
- 尝试不用
sleep函数解决爬取中断问题 - 尝试多线程
使用python3爬取bttwo全站bt文件,并利用mongodb来存储二进制文件和去重
使用之前请安装lxml,requests,BeautifulSoup以及mongodb
pip3 install lxml requests beautifulsoup4
修改bttwo.py文件里的下载路径,运行
python3 bttwo.py
sleep函数解决爬取中断问题