【爬虫】Python爬虫的基本思路

发布时间 2023-05-21 09:07:52作者: Charlie_ODD

基础

  • 一句话描述:利用http/https协议,通过python自带的requests相关包,模拟真实的Web浏览器请求,将原本在浏览器所见的内容以代码的形式结构化的保存下所需要的信息。
  • 等价工具:
    • curl
    • 浏览器抓包/F12
  • 抓取任意一个网站的内容:
    • 浏览器访问网站,打开开发者工具,找到所需要信息的URL、headers、及response的结构
    • 使用curl命令复现上一步
    • 编码爬虫脚本,等价编程复现前两步
    • 拿到结果后,通常会对字符编码格式统一处理,response结构解析(json/re正则表达式),最后将“我们感兴趣的信息”做结构化的展示和保存