Python爬虫环境搭建(Mac)

这是一篇对此教程视频的笔记。看视频太磨叽了,安装都是分成了win、linux、mac三种,再看视频的话怕是没那个耐心看。Homebrew与AnacondaHomebrew充当的角色是mac下的apt-get,是一种包管理工具。先把Homebrew安装到mac上。然后用它安装python3,最后验证p

这是一篇对此教程视频的笔记。看视频太磨叽了,安装都是分成了win、linux、mac三种,再看视频的话怕是没那个耐心看。

Homebrew与Anaconda

Homebrew充当的角色是mac下的apt-get,是一种包管理工具。先把Homebrew安装到mac上。然后用它安装python3,最后验证python3与pip3是否安装成功。

可以参考 Anaconda墙内教程

数据库

  1. 安装MongoDB
brew install mongodb

验证: 开启MongoDB数据库,mongod,然后使用mongo去链接数据库。

由于之前已经安装过MongoDB,很久没有用过了,启动时出现错误,错误如下:exception in initAndListen: 29 Data directory /data/db not found., terminating

这里写图片描述

解决办法有两种: 一种是在启动时指定一个其他的db文件所在的目录:

mongod --dbpath ~/Documents/mongo/db

另一种是,创建/data/db并授予相应的权限:

sudo  mkdir -p /data/db
sudo chmod ugo+rwx /data/db

成功执行后如下:

这里写图片描述

使用mongo连接:

这里写图片描述

测试几个命令:

> show dbs
admin  0.000GB
local  0.000GB
> use local
switched to db local
> db.test.insert({'a':1})
WriteResult({ "nInserted" : 1 })
  1. Redis 分布式爬虫中,维护爬虫队列。
brew install redis

安装完成后,输入redis-cli即可连接上redis,如果失败,可以尝试使用redis-server打开数据库服务。

这里写图片描述
这里写图片描述

redis的配置文件位置:/usr/local/etc/redis.conf 远程访问:注释掉bind 127.0.0.1设置密码:取消注释# requirepass foobared重启即可生效。

使用brew查看services

brew services list

使用brew启动/重启动service

brew services start/restart redis
  1. MySQL
brew install mysql

Python多版本共存配置

使用软链接对不同的版本,进行命名的简化。如生成python3.6的软链接为python,按照需求,把不同的版本链接到此文件名上。注意将软连接文件放在PATH中,或加入其中也可。

安装Python爬虫库

这里写图片描述
  • requests:Python发送请求所用到的库
  • selenium:模拟浏览器访问
  • beautifulsoup4:解析网页
  • pyquery:网页解析库。接收网页源代码,然后通过与jQuery类似的语法获取相应的数据。
  • pymysql/pymongo:使用Python访问MySQL/MongoDB数据库
  • django/flask:Python Web框架

其中有一个非常有意思的工具jupyter,它是一款网页端的笔记本,可以在其中运行代码等,它的启动方式是在终端输入:jupyter notebook

Read more

Volcano 与 Kubernetes GPU 调度学习笔记

本笔记系统整理 Volcano 调度器、Kubernetes 调度框架、GPU Device Plugin、HAMi 等云原生 AI 调度领域的核心知识,适合用于学习、复习和工程实践参考。 目录 * 第一部分:Volcano 入门 * 1. Volcano 是什么 * 2. 安装与快速使用 * 3. 核心特性一览 * 第二部分:Volcano 整体架构 * 4. Volcano 解决的核心问题 * 5. 整体架构与数据流 * 6. 三层抽象模型 * 第三部分:Volcano 核心实现原理 * 7. Session 机制 * 8. Gang Scheduling 实现 * 9. Queue 与 DRF 公平调度

容器镜像(4):镜像的常用工具箱

容器镜像(4):镜像的常用工具箱

前几篇在讲多架构镜像时已经用过 skopeo 和 crane 做镜像复制,这篇系统整理这两个工具的完整能力,同时介绍几个日常操作镜像时同样好用的工具。 一、skopeo:不依赖 Daemon 的镜像瑞士军刀 skopeo 的核心价值是绕过 Docker daemon,直接与 Registry API 交互。上一篇用它做镜像复制和离线传输,但它的能力远不止于此。 1.1 安装 # Ubuntu / Debian sudo apt install -y skopeo skopeo --version # skopeo version 1.15.1 1.2 inspect:免拉取检查镜像元数据 docker inspect 需要先把镜像拉到本地,skopeo inspect 直接向 Registry

容器镜像(3):多架构镜像构建

容器镜像(3):多架构镜像构建

一、什么是多架构镜像 1.1 OCI Image Index 上一篇介绍了单平台镜像的结构:一个 Manifest 指向 Config 和若干 Layer blob。多架构镜像在此之上多了一层——OCI Image Index(也叫 Manifest List),是一个轻量的索引文件,把多个单平台 Manifest 组织在一起: $ docker manifest inspect golang:1.22-alpine { "schemaVersion": 2, "mediaType": "application/vnd.oci.image.index.v1+json", "manifests&

容器镜像(2):containerd 视角下的镜像

容器镜像(2):containerd 视角下的镜像

一、为什么需要了解 containerd 如果你只用 docker run 跑容器,从来不关心底层,那可以不了解 containerd。但如果你在用 Kubernetes,或者想真正理解"容器运行时"是什么,containerd 是绕不开的。 事实上,当你执行 docker run 的时候,containerd 早就在后台悄悄工作了——Docker 从 1.11 版本开始,就把核心运行时剥离出来交给 containerd 负责。 1.1 Docker 的架构演变 早期的 Docker(1.10 及之前)是一个"大一统"的单体程序:一个 dockerd