准备工作
前言,这本书比较早,源码剖析是针对python2.5
1.python的总体架构
python架构主要分为三部分
- 从左到右分别为,python文件,python解释器,运行时环境
- python解释器:
- scanner 词法分析,将代码且分为一个个token
- parser语法分析建立AST
- compiler根据AST生成python 字节码
- code Evaluator(虚拟机)执行这些字节码
- 运行时环境:
- 内建对象:list,dict等
- 内存分配器:和malloc的一层接口
- 运行状态信息: 维护解释器在执行字节码时的不同状态(还不知道具体是怎样的)
2.python源码的组织
- include: python 提供的所有头文件,用于用户通过c或c++来编写自定义模块
- Lib: 包含所有python自带标准库,用python编写的
- Modules: c编写的模块
- parser: 解释器Scanner和Parser部分
- Objects: 内建对象,list, dict,整数等等
- Python: Compiler和执行引擎部分
一些tips: api中以NEW结尾当做c++ new, Malloc结尾的当做c mallor
一.python对象初探
python中类,对象,都是通过对象来实现的
1.python内的对象
- 人的视角: 对象是数据和基于这些数据操作的集合
- 计算机视角: 对象是一片被分配的内存空间(连续或离散),可以在更高层次上作为一个整体来考虑,这个整体就是对象
- python 所有内建类型对象是静态初始化的
- python 一个对象一旦被创建,它内存中的大小就是不可变的(通过指针来定向变长数据)
1.1 PyObject
// object.h
#define PyObject_HEAD \
_PyObject_HEAD_EXTRA \ // 一般情况下为空
int ob_refcnt; // 引用计数
struct _typeobject *ob_type; //指定一个对象类型的类型对象
typedef struct _object{
PyObject_HEAD
} PyObject;
复制代码
- 每一个python对象除了PyObject之外还需要额外的内存,PyObject定义了必须要的数据比如PyIntObject
// intobject.h
typedef struct _object{
PyObject_HEAD
long ob_ival;
} PyIntObject;
复制代码
- 对于变长对象python有新的抽象
// object.h
#define PyObject_VAR_HEAD \
PyObject_HEAD \
long ob_size; /一般指容器内元素数量
typedef struct _object{
PyObject_VAR_HEAD
} PyVarObject;
复制代码
1.2类型对象
PyObject占用内存大小是对象的元信息,元信息和对象所属类型密切相关(下一节介绍)
// object.h
typedef struct _typeobject{
PyObject_VAR_HEAD
char *tp_name; //print 信息"<module>.<name>"
int tp_basicsize, item_size; //为了分配内存大小
destructor tp_dealloc;
printfunc tp_print;
hashfunc tp_hash;
ternaryfunc tp_call;
...
} PyTypeObject;
复制代码
1 对象的创建
python对象的创建主要有两种方式
- C API(对于python的内建对象, 直接分配内存)
- 泛型API AOL
- 类型相关API COL
- 类型对象创建(用户自定义对象,因为不可能事先提供这类C方法),大致流程如下
- 会调用ob_type 所指定的PyTyoeObject类的 tp_new方法,如果tp_new是NULL会追溯tp_base所指向的ob_type的tp_new方法,最终定位的tp_new(因为所有类继承object会有保底的tp_new方法)负责内存的申请(类似c++的new)
- 之后通过tp_init初始化(类似c++的构造函数)
2 类型的类型
PyTypeObect 实际也是有ob_type属性的,其为PyType_Type(即type, 负责PyTypeObect的创建,即metaclass)
下图以int 为例说明了这些关系,也就是所知的python里面class,object,type的关系
其他略
二.python中的整数对象
主要是PyIntObject和PyInt_Type,其他和普遍的PyObject, PyTyoeObject没什么,值得关注的有
- python2中稍小一点的数直接用C语言中的long去存储,稍大一点的数(超过long的承受范围)会使用python的long对象去存储,而python3不会作区分,统一用longObect去存储,实现用到了柔性数组,感兴趣可以查一下
- 小整形数组的内存池和大整形对象的内存链的维护,避免频繁malloc,后面主要介绍下
2.1 小整形对象
使用了以前分配好的对象池
// [intobject.c]
#ifndef NSMALLPOSINTS
#define NSMALLPOSINTS 257
#endif
#ifndef NSMALLNEGINTS
#define NSMALLNEGINTS 5
#endif
#if NSMALLNEGINTS + NSMALLPOSINTS > 0
/* References to small integers are saved in this array so that they
can be shared.
The integers that are saved are those in the range
-NSMALLNEGINTS (inclusive) to NSMALLPOSINTS (not inclusive).
*/
static PyIntObject *small_ints[NSMALLNEGINTS + NSMALLPOSINTS];
#endif
复制代码
2.2 大整形对象
对于其他整数,Python运行环境将会提供一块内存空间,这块内存空间由这些对象轮流使用,避免了频繁malloc。 在Python通过PyIntBlock结构,实现这个机制。
// [intobject.c]
#define BLOCK_SIZE 1000 /* 1K less typical malloc overhead */
#define BHEAD_SIZE 8 /* Enough for a 64-bit pointer */
#define N_INTOBJECTS ((BLOCK_SIZE - BHEAD_SIZE) / sizeof(PyIntObject))
struct _intblock {
struct _intblock *next;
PyIntObject objects[N_INTOBJECTS];
};
typedef struct _intblock PyIntBlock;
static PyIntBlock *block_list = NULL;
static PyIntObject *free_list = NULL;
复制代码
可以创建int的代码理解这两块的使用
// [intobject.c]
PyObject *
PyInt_FromLong(long ival)
{
register PyIntObject *v;
#if NSMALLNEGINTS + NSMALLPOSINTS > 0 /* 尝试使用小整数对象池 */
if (-NSMALLNEGINTS <= ival && ival < NSMALLPOSINTS) {
v = small_ints[ival + NSMALLNEGINTS];
Py_INCREF(v);
return (PyObject *) v;
}
#endif
if (free_list == NULL) {
if ((free_list = fill_free_list()) == NULL)
return NULL;
}
/* Inline PyObject_New */
v = free_list;
free_list = (PyIntObject *)v->ob_type; /* 有一个看似不合适但是比较方便的地方,freelist会通过 ob_type存放可用空间的pyObject的地址(类似链表的next),而不是 PyTyoeObject */
(void)PyObject_INIT(v, &PyInt_Type);
v->ob_ival = ival;
return (PyObject *) v;
}
复制代码
下面是关于freelist的申请,和freelist和block_list的维护有关的代码
// [intobject.c]
static PyIntObject *
fill_free_list(void)
{
PyIntObject *p, *q;
/* 申请大小为sizeof(PyIntBlock)的内存空间,并链接到已有的block list中 */
p = (PyIntObject *) PyMem_MALLOC(sizeof(PyIntBlock));
((PyIntBlock *)p)->next = block_list;
block_list = (PyIntBlock *)p;
/* 将PyIntBlock中的PyIntObject数组——objects转变成单向链表*/
p = &((PyIntBlock *)p)->objects[0];
q = p + N_INTOBJECTS;
while (--q > p)
q->ob_type = (struct _typeobject *)(q-1); /* 上一段代码中所提到的不合适的地方
Py_TYPE(q) = NULL;
return p + N_INTOBJECTS - 1;
}
复制代码
这样,freelist会指向可以分配内存的地址,但是如果由之前分配的PyIntObject被释放了,freelist需要将被释放的地址重新使用才可以,这个是通过PyIntObect的析构函数来实现的
// [intobject.c]
static void
int_dealloc(PyIntObject *v)
{
if (PyInt_CheckExact(v)) { // 如果不是派生类这么执行,保证freelist的完整性
v->ob_type = (struct _typeobject *)free_list;
free_list = v;
}
else // 如果是派生类,则执行正常的析构流程
v->ob_type->tp_free((PyObject *)v);
}
复制代码
转载于:https://juejin.im/post/5cffb9b76fb9a07eb94f8303