【UE4基础】UE4 垃圾回收

UE4GC简介

UE4为我们搭建了一套UObject对象系统，并且加入了垃圾回收机制，使我们用C++进行游戏开发时更加方便，而且游戏本身也可以极大程度的避免了内存泄漏问题。

UE4采用了标记-清扫垃圾回收方式，是一种经典的垃圾回收方式。一次垃圾回收分为两个阶段。第一阶段从一个根集合出发，遍历所有可达对象，遍历完成后就能标记出可达对象和不可达对象了，这个阶段会在一帧内完成。第二阶段会渐进式的清理这些不可达对象，因为不可达的对象将永远不能被访问到，所以可以分帧清理它们，避免一下子清理很多UObject，比如map卸载时，发生明显的卡顿。

GC发生在游戏线程上，对UObject进行清理，支持多线程GC。

对GC可以设置若干参数，比如MaxObjectsInGame，规定了游戏中最大存在的UObject对象（对编辑器不生效），移动平台上默认设置了131072，当UObject数量超过这个阈值时，游戏会崩溃，其他详细参数可见UGarbageCollectionSettings，GarbageCollection.cpp，UnrealEngine.cpp中相关的属性。

下图为标记-清扫的工作原理：

GC何时进行：

UE4中GC可以分为主动引发和自动引发两种方式

主动引发

可以在执行一些操作时手动调用GC，比如卸载一个资源后，立即调用一次GC进行清理。

而且方式有多种，游戏中可以调用ForceGarbageCollection来让World下次tick时进行垃圾回收。也可以直接调用CollectGarbage进行垃圾回收，引擎中大部分情况都用这种方式主动引发。

自动引发

游戏中，大部分的垃圾回收操作都是由UE4自动引发的，普通情况下不需要手动调用GC，这也是理想的GC使用方式。

当World进行tick时，会调用UEngine::ConditionalCollectGarbage()函数，函数中进行了一些判断，当满足GC条件时，才会执行GC。下面分析一下ConditionalCollectGarbage的执行逻辑。

UE4GC流程

入口为UObjectGlobals.h中定义的CollectGarbage()函数，如下：

void CollectGarbage(EObjectFlags KeepFlags, bool bPerformFullPurge)
{
	// No other thread may be performing UObject operations while we're running
	AcquireGCLock();

	// Perform actual garbage collection
	CollectGarbageInternal(KeepFlags, bPerformFullPurge);

	// Other threads are free to use UObjects
	ReleaseGCLock();
}

过程包括3个部分，获取GC锁，执行CollectGarbageInternal，释放GC锁。

获取GC锁

因为GC是多线程的，因此要设置GC锁，防止其他线程做UObject相关操作，会与GC冲突，这主要用于保护异步加载过程。

一个作用为防止一个对象被加载后，存储的变量还没来得及添加引用，就被当作不可达垃圾回收掉了。如下代码就是一个例子，FGCScopeGuard起到了阻止任何GC操作的作用。

FGCSyncObject

GC锁是一个广义的概念，其实是FGCSyncObject这个单例类，其内部封装了多个用于锁和同步的变量，可以用于在GC运行时阻塞其他non-game线程，也可以在non-game线程执行关键操作时阻塞GC线程。当然，也并非所有情况都会阻塞，当不能立即获取到GC锁时各个线程也可以根据具体逻辑执行其他内容。

主要成员变量如下：

FThreadSafeCounter AsyncCounter：是一个线程安全计数器，当由线程执行关键Async操作时，会对这个值进行增减

FThreadSafeCounter GCCounter：用作GC锁，不为0表示线程已经获取了GC锁，正在执行GC

FThreadSafeCounter GCWantsToRunCounter：这个计数器表示线程意向进行GC，但尚未获取到GC锁，Async线程没有自动强制实现这个逻辑，需要我们手动实现对这个变量的支持

FCriticalSection Critical：线程执行GC相关操作的关键区的保护，防止其他人进入

FEvent* GCUnlockedEvent：通知non-game线程GC正在执行的event，可执行Wait()，Trigger()，类似给线程的signal

对GC锁有了基本认识后，接下介绍一下获取GC锁的过程：

执行CollectGarbageInternal

执行CollectGarbageInternal，进行垃圾回收，进行标记与清扫

该函数接受2个参数：KeepFlags，bPerformFullPurge。KeepFlags表示有这些标记的object无论是否被引用到，都会被保留。bPerformFullPurge表示是否在标记后进行全purge，而不是分帧递增清除。

执行流程如下：

其中可以看到几个注意点：

这个流程一定会执行扫描对象可达性操作，黄色方框为具体的流程，稍后会做分析。清理操作视情况而执行，如有需要才会进行对象清理，而且一定是完全清理，否则就在World tick里面做增量清理。
UE4会运行在多线程环境，GC又会对所有UObject进行操作，所以一定要注意锁的使用。
GC本身可以多线程进行，加快速度

标记流程

使用FRealtimeGC的PerformReachabilityAnalysis方法进行uobject可达性分析。FRealTimeGC继承自FGarbageCollectionTracer，可以多线程、实时的分析对象引用关系。

关键代码如下：

// Make sure GC referencer object is checked for references to other objects even if it resides in permanent object pool
if (FPlatformProperties::RequiresCookedData() && FGCObject::GGCObjectReferencer && GUObjectArray.IsDisregardForGC(FGCObject::GGCObjectReferencer))
{
    ObjectsToSerialize.Add(FGCObject::GGCObjectReferencer);
}

{
    const double StartTime = FPlatformTime::Seconds();
    MarkObjectsAsUnreachable(ObjectsToSerialize, KeepFlags, bForceSingleThreaded);
    UE_LOG(LogGarbage, Verbose, TEXT("%f ms for Mark Phase (%d Objects To Serialize"), (FPlatformTime::Seconds() - StartTime) * 1000, ObjectsToSerialize.Num());
}

{
    const double StartTime = FPlatformTime::Seconds();
    PerformReachabilityAnalysisOnObjects(ArrayStruct, bForceSingleThreaded);
    UE_LOG(LogGarbage, Verbose, TEXT("%f ms for Reachability Analysis"), (FPlatformTime::Seconds() - StartTime) * 1000);
}

这里用到了一个FGCArrayStruct类型数据结构ArrayStruct，用于存储用于序列化uobject的array和weak reference列表。

第一步，我们可以向ObjectsToSerialize添加FGCObject::GGCObjectReferencer

后者是一个静态的UGCObjectReferencer，添加后可用于在非UObject对象上调用AddReferencedObjects方法。

第二步，调用MarkObjectsAsUnreachable方法，把所有不带KeepFlags和EInternalObjectFlags::GarbageCollectionKeepFlags标记的对象标记为不可达

首先，这里涉及到GUObjectArray这个变量，这是一个全局的Uobject allocator，其中的ObjObjects数组保存了所有的UObject（通过FUObjectItem进行封装），UObjectBase::InternalIndex属性就是对象对应的FUObjectItem在数组中的下标，因此可以方便的根据下标找到UObject或者通过UObject找到对应下标。

GUObjectArray中前部存储了一些不纳入GC的object，因此扫描的object列表中会去掉前面这些object，只考虑后面的，得到MaxNumberOfObjects。具体哪些对象不被GC考虑，可以查看FUObjectArray的实现。

接下来就需要对这些uobject进行不可达标记，这里使用了多线程版本的For循环。多线程执行的原理并不复杂，首先可以获取当前可用的工作线程，然后把待标记的object平均分配给这些线程进行遍历，多线程底层使用了UE的GraphTask框架。在对一个uobject进行标记时，正常情况下都读对应的FUObjectItem中属性，特殊情况才读uobject，因为FUObjectItem是一个结构体，而且在GUObjectArray中紧密排列，所以在顺序遍历下是缓存友好的。

值得一提的是，UE使用了簇（Cluster）来提高效率，具体如何提高会在下面介绍。如果一个object属于RootSet，则直接加入到ObjectsToSerializeList中，如果是ClusterRoot或在Cluster中，也加入到KeepClusterRefsList列表中。如果object的ClusterRootIndex<=0（不在cluster中或者为ClusterRoot），则先根据是否有KeepFlags，判断是否要标记为不可达，如果不要标记，则把object加到ObjectsToSerializeList中，且如果为ClusterRoot就加入到KeepClusterRefsList中，如果要标记，则加入到ClustersToDissolveList中，且对ObjectItem设置Unreachable标记。会对Cluster做一些额外的处理，细节可看代码。

第三步，调用PerformReachabilityAnalysisOnObjects来判断uobject可达性

这里会用到FGCReferenceProcessor，TFastReferenceCollector，FGCCollector这几个类，都同时支持单线程和多线程。

先介绍一下ReferenceToken概念

在UObject体系中，每个类有一个UClass实例用于描述该类的反射信息，使用UProperty可描述每个类的成员变量，但在GC中如果直接遍历UProperty来扫描对象引用关系，效率会比较低（因为存在许多非Object引用型Property），所以UE创建了ReferenceToken，它是一组toke流，描述类中对象的引用情况。下图中列举了引用的类型：

/**
 * Enum of different supported reference type tokens.
 */
enum EGCReferenceType
{
	GCRT_None			= 0,
	GCRT_Object,
	GCRT_PersistentObject,
	GCRT_ArrayObject,
	GCRT_ArrayStruct,
	GCRT_FixedArray,
	GCRT_AddStructReferencedObjects,
	GCRT_AddReferencedObjects,
	GCRT_AddTMapReferencedObjects,
	GCRT_AddTSetReferencedObjects,
	GCRT_EndOfPointer,
	GCRT_EndOfStream,
};

FGCReferenceTokenStream

这个类用于创建tokenstream和从tokenstream中解析出object引用，可以算是GC的一个核心理念了。ReferenceToken在其中保存为TArray<uint32>的形式，为什么是这种形式呢，下面就分析一下ReferenceToken的工作原理：

FGCReferenceInfo这个类描述了一个引用所需的信息，有一个union成员变量：

/** Mapping to exactly one uint32 */
union
{
    /** Mapping to exactly one uint32 */
    struct
    {
        /** Return depth, e.g. 1 for last entry in an array, 2 for last entry in an array of structs of arrays, ... */
        uint32 ReturnCount	: 8;
        /** Type of reference */
        uint32 Type			: 4;
        /** Offset into struct/ object */
        uint32 Offset		: 20;
    };
    /** uint32 value of reference info, used for easy conversion to/ from uint32 for token array */
    uint32 Value;
};

Type：引用的类型，就是EGCRefenceType

Offset：这个引用对应的属性在类中的地址偏移

ReturnCount：返回的嵌套深度

UE巧妙的把这3个信息编码成了一个uint32，因此FGCReferenceTokenStream可以通过TArray<uint32>形式存储tokens。

当我们处理TokenStream时，可以先从中解析出一个个referencetoken，然后通过Offset直接获取属性，不仅处理起来更简单，更能有效利用缓存，加快速度。

TokenStream还有一种特殊的用法，就是用两个连续的token来存储一个指针（64位），比如运行时可以通过执行AddReferencedObjects来动态添加引用的对象，而这个函数的指针就储存在TokenStream中。

UClass::AssembleReferenceTokenStream(bool bForce)方法

可以实时创建tokenstream，只需执行一次，就能把结果保存下来，并在ClassFlags中通过CLASS_TokenStreamAssembled进行体现，避免重复计算。如果之前已经创建过TokenStream，就替换调旧的。

具体流程为：

遍历自身的UProperty（不包括父类的），依次调用UProperty的EmitReferenceInfo方法。这是一个虚函数，不同的UProperty会实现它，主要会把自己在Class中的内存偏移，ReferenceType信息发送给UClass，UClass再通过EmitObjectReference把这个引用信息编码成token，加入到ReferenceTokenStream中。不同的UProperty处理方式有很大区别，普通的UObjectProperty比较好处理，UArrayProperty和UMapProperty就比较复杂，因为它们内部的数据类型也需要生成TokenStream，如果碰到struct，还会涉及到递归。
如果这个类有父类，则递归调用父类的AssembleReferenceTokenStream方法，生成父类的ReferenceTokenStream，并把父类的stream添加到自己的stream之前。这个步骤会一直到UObjectBase这个类为止，UObjectBase的处理方式比较特殊，只会把ClassPrivate和OuterPrivate添加到stream中。
如果自身的AddReferencedObjects()函数不是指向Uobject::AddReferencedObjects，则向TokenStream中加入或更新这个函数指针对应的token，在执行可达性分析时即可调用到这个函数了。
TokenStream添加完毕，把"EndOfStream"token添加到TokenStream，并对tokens array进行shrink，去掉空闲的array slack，因为toneks数组长度在接下来应该是固定的。
ClassFlags中把CLASS_TokenStreamAssembled设为true。

TFastReferenceCollector

CollectReferences方法用于可达性分析，如果时单线程，就直接调用ProcessObjectArray方法，遍历uobject的token stream来寻找引用关系。如果是多线程，就会把uobject列表分割给多个线程处理，每个线程同样会调用到ProcessObjectArray。

ProcessObjectArray方法会遍历ObjectsToSerialize中的UObject，找到引用关系，判断可达性。注意，过程中ObjectsToSerialize会不断增长，直到全部遍历完。内部使用了递归的方法，但用栈来模拟。

如果是单线程且开启了自动生成tokenstream，则当object对应的UClass还没有tokenstream时，就实时调用UClass的AssembleReferneceTokenStreams创建tokenstream
获取当前uobject的TokenStream，解析出FGCReferenceInfo，来找到正被引用的UObject。

token的ReferenceInfo会是不同的类型，需要分多种情况处理。像GCRT_Object和GCRT_ArrayObject都比较好处理，只要把其中的uobject对象添加到ObjectsToSerialize中就行了。

GCRT_ArrayStruct就比较麻烦，需要递归处理。这里说的"struct"并不单指C++中的struct结构体，一些不属于UObject体系的class也算，比如UEdGraphPin。处理GCRT_ArrayStruct时，需要先把递归的栈递增，然后逐个处理Array中的"Struct"。

GCRT_AddStructReferencedObjects表示struct或不继承自FGCObject的class也可以对UOBject添加引用关系，UStructProperty::EmitReferenceInfo中代码也确实显示structproperty可以添加引用。但看代码和注释，觉得UE4应该以后会把这些特殊的struct和class都继承FGCObject，使用AddReferencedObjects函数来添加引用。

GCRT_AddReferencedObjects就表示需要调用这个对象的AddReferencedObjects函数来添加引用。让我们回想一下FGCObject，这个类不继承UObject，但也能通过AddReferencedObjects函数来对UObject添加引用，同时这个函数又只能由UClass来添加到TokenStream中，那FGCObject是怎么工作的？其实UE中有一个专门的UObject实例来管理FGCObject，就是UGCObjectReferencer，看一下这个类的AddReferencedObjects函数：

void UGCObjectReferencer::AddReferencedObjects(UObject* InThis, FReferenceCollector& Collector)
{	
	UGCObjectReferencer* This = CastChecked<UGCObjectReferencer>(InThis);
	// Note we're not locking ReferencedObjectsCritical here because we guard
	// against adding new references during GC in AddObject and RemoveObject.
	// Let each registered object handle its AddReferencedObjects call
	for (FGCObject* Object : This->ReferencedObjects)
	{
		check(Object);
		Object->AddReferencedObjects(Collector);
	}
	Super::AddReferencedObjects( This, Collector );
}

引用标记阶段搜集到这个类的实例时，它会逐个调用FGCObject上的AddReferencedObjects方法，搜集UObject引用，从而把FGCObject纳入到GC体系中。

3. 得到被引用的UObject后，一般会对其添加引用，并加入到ObjectsToSerialize数组中。

如果一个UObject已经被标记为isPendingKill了，那么即使它被引用到，也会忽略。

由于标记可以多线程进行，因此有可能两个线程同时对一个对象标记为可达，并加入到ObjectsToSerialize数组，继续进行引用检查，这显然是浪费的。因此对一个对象进行标记时，不仅要检查这个对象当前是否为Unreachable，清理它的Unreachable标记也要有一个原子的“比较再替换”操作，防止两个线程碰巧同时设置。

如果这个UObject在Cluster中，则把它标记为ReachableInCluster，同时如果需要也把它的ClusterOwner标记为可达，并加入到ObjectsToSerialize中做后续处理。

4. 对ObjectsToSerialize数组的扫描会一轮一轮进行，一轮扫描过程中扫描到的新的UObject会暂时存放在NewObjectsToSerialize数组中，当对ObjectsToSerialize一轮扫描完时，如果NewObjectsToSerialize中元素数量超过MinDesiredObjectsPerSubTask这一阈值，则新开多个线程处理，如果不到阈值，则在当前线程中继续新的一轮处理。

得到待清理Uobject列表

首先介绍一下Cluster概念：

对于复合性的逻辑物体，其内部的Object随父物体的状态进行管理，可以用Cluster来进行GC管理。Cluster是一组UObject，在GC流程中被视为一个单一的单位，能加速GC。粒子系统中，一组粒子对象就被标记为一个Cluster。Actor也可以通过设置“can be in Cluster”熟悉把自己加到一个Cluster中。

在程序中的表示为FUObjectCluster这个类。其中Objects属性为Cluster中的所有Objects，ReferencedClusters为这个cluster引用的其他Cluster。

当一个Cluster引用的其他Cluster根对象被标记为PendingKill时，就要把这个Cluster中的所有Object都加入到ObjectsToSerialize数组中，来处理其他的pendingkill引用。同时，这个Cluster将会被标记为需要分解，因为cluster间的引用关系已经得不到保证了。

在分析完可达对象后，需要对标记为分解的Cluster进行分解操作。

之后，需要再扫描一遍所有的UObject，搜集所有不可达对象。这个操作也可以多线程并行处理。对于不可达对象，如果不在Cluster中，就把它直接加入到GUnreachableObjects数组中。如果是ClusterRoot，则需要对它所包含的所有Objects进行分析，如果Object没有来自Cluster外部的引用，则也为不可达，需要加入到GUnreachableObjects数组中。至此，GUnreachableObjects数组中的UObject就是这次扫描得到的待清理对象了。

释放GC锁

去掉GC锁，允许其他线程使用UObject，释放的流程比获取的流程简单很多

调用GCUnlockedEvent->Trigger()，唤醒正在等待这个event的线程
GCCounter递减，表示退出GC状态

清理流程

清理和引用标记可以分开进行，通常清理是分帧递增执行的。

调用IncrementalPurgeGarbage( bool bUseTimeLimit, float TimeLimit )可进行垃圾清理，接受两个参数。

bUseTimeLimit：清理是否有时间限制

TimeLimit：方法一次执行的时间限制

通过这两个参数可以选择性的进行递增清理或者全量清理。

首先，会调用UnhashUnreachableObjects方法，对所有的不可达且未设置RF_BeginDestroyed的UObject调用BeginDestroy方法，通知这个UObject它将要被销毁，可以让UObject进行一些异步的清理操作，我们可以覆写BeginDestroy方法，执行自定义的操作。

之后，我们就可以获取GC锁了。

遍历要清理的对象，调用这些对象的FinishDestroy方法。但是这是对象有可能还没执行完BeginDestroy，因为有一些异步操作，比如一些图形资源在等待渲染线程使用完毕，所以对这些对象不能立即调用FinishDestroy，而要把它们先储存到GGCObjectsPendingDestruction数组中，之后再处理。遍历过程中会检查已过的时间，如果时间限制到了，就会中途停止，并记下当前的进度，之后会退出清理流程。

如果我们把所有要清理的对象都遍历完了，即对它们都尝试调用了FinishDestroy方法，那么会再遍历一遍GGCObjectsPendingDestruction数组，再尝试执行一下FinishDestroy。当对GGCObjectsPendingDestruction的这一次遍历完成后，就要分是否使用TimeLimit分情况看了。如果使用了TimeLimit，就直接执行下面逻辑，下次再处理GGCObjectsPendingDestruction中的对象。如果不使用，就会阻塞在这个地方，强行等待哪些UObject执行完BeginDestroy，主要还是等待渲染线程。当GGCObjectsPendingDestruction中的所有对象都执行了FinishDestroy后，才会进行下一步的清理操作。

接下来会执行真正的清理过程。主要会遍历待清理对象，执行UObject的析构函数，并释放内存空间。这个步骤也会检查释放超过了TimeLimit，超过的化会在下一帧继续清理。

指向UObject的指针如何更新为NULL

这是一个引申出来的问题。我们可以显示调用Uobject的Destroy()函数，这样下次垃圾回收时这个UObject就会被回收掉，但是当前还指向这个UObject的UProperty指针，或者容器中的指针，怎么办呢，会不会造成“悬空指针”问题呢？答案是不会的，使用过UE4就知道，判定一个UProperty指针是否有效，只要判定一下是否为空即可，为我们进行C++开发提供了很多便利。UE4在一个对象销毁时，会自动把指向这个对象的UProperty指针更新为Null，不是UProperty的指针不会被更新，依然会有悬空指针问题。UE4的官方文档中有比较详细的描述，https://docs.unrealengine.com/en-US/Programming/UnrealArchitecture/Objects/Optimizations/index.html (Automatic Updating of References)。

指针自动更新实现原理

在可达性分析阶段，我们会解析每个对象的tokenstream，找到当前对象引用的其他对象，如果其他对象已经被标记为PendingKill了，就会把指向它的指针置为NULL。所以指针更新流程是先把所有指向将要销毁对象的指针置为NULL，再销毁这个对象，这样就肯定不会出现悬空指针问题了。