生存数据的左右截尾是什么？请举例说明。

和删失不太能精准区别。

Theo Zhao · 2018-11-10 05:39:04

首先是英文翻译：人大教科书《生存分析》生存分析_百度百科，翻译是：删失（censored），截尾（truncated）。

删失（censored）数据比较好理解，有些样本在观测结束时还没有死亡，寿命就记为34+，这就是右删失数据，因为寿命t＞34，寿命的右边被删去了；有些样本知道出生日期，但是在观测开始时已经去世了，寿命t60，要是某个样本展现的特性，则此样本在60的右边被删掉了，是右删失数据；要是由于系统原因排除掉了t≤60导致总体具有t＞60的特性，所有样本从60才开始计算，就是左截尾数据。因此构造似然函数时截尾数据要引入条件分布，而删失数据要考虑积累概率分布。

知乎用户 · 2018-11-10 05:39:05

不好意思，收到邀请很长时间，现在才回答问题。按你提问的内容，我理解你这里说的截尾应该就是censoring，左右截尾就是left/right censoring。删失就是truncation。（如果有错误，请指出）。这两个概念有相似的意义，但是，本质上面是完全不同的。

1. 截尾
i. 截尾的定义
截尾在wiki中给出的定义是“censoring occurs when the values of a measurement or observation is only partially known”. 但是，这个partially known就成为了混淆截尾和删失的根本原因。因为截尾和删失都有partially known的性质，但是造成的原因确实是不同的。截尾更准确的定义，应该是在研究学习过程中，在某个点上，某个或某些研究对象的信息有缺失。这种确实的原因主要有两点，第一点是因为没有继续的跟踪调查；另一点是在实验结束前，这个实验对象就由于某个和实验无关的原因消逝了。比如，深海的温度是0摄氏度。但是我们的温度计的范围是10-100摄氏度。这个时候，我们所测量到的深海温度就是10摄氏度。这时，我们只能说，深海的温度最多是10摄氏度，但是具体是什么，我们不知道。这个“10摄氏度”就是一个截尾。造成这个截尾的原因就是我们没有继续跟踪调查，也就是，我们没有继续探索。再比如一个例子，某个实验要研究某肺癌药品的疗效。志愿者A在参与这项实验之前就因为肺癌去世了，那么这个A就没有截尾点；志愿者B在参加这个实验一段时间后，比如时间B，就离开了。时间B就是截点。我们仅知道在时间B 和之前B没有因为肺癌死去，我们只能确定他死亡的时间是时间B之后，但是具体是什么，不清楚；再比如志愿者C，他在参与这项实验到时间C的时候，由于意外车祸去世了。这个时候，时间C也是截尾点，这个截尾点生成的原因就是“另一点是在实验结束前，这个实验对象就由于某个和实验无关的原因消逝了”。

ii. 截尾的两种形式

截尾的两种形式是点截尾point censoring和段截尾interval censoring

i). 点截尾
截尾以某个具体的时间点出现，主要有以下两种情况：

右截尾：在时间具体发生前，就离开了。比如上述例子中的志愿者B和C，他们都是在肺癌死亡前结束了这个实验；
左截尾：此形式出现的可能性相当低。是在被观察对象参与前，所研究的事件就具体发生了。比如，某实验要研究HIV在多久后会转化成为AIDS。某志愿者参与到实验的时候才发现他的HIV已经转为AIDS了。虽然不确定是什么时间，但是可以确定的是在实验开始前。

ii). 段截尾
截尾出现的形式是一段时间。比如假设实验中，很确定HIV向AIDS的转变是在某特定时间轴内，那么这个就是段截尾。

2.删失

i.删失定义
和截尾都有“不完整”这一性质，但是删失是的不完整性是由于实验设计造成的。比如，在某实验中，我们要彻底忽略大于和小于某一范畴的实验对象。

ii. 删失的两种形式

左删失：大于或等于某设定点的所有实验对象。这个设定点可以对所有观察对象都相同，或者可以是对每个对象随机取样出来的。比如，某保险公司汇报了虽有大于或者等于某花销的支出。那么，当我们继续进行截尾时，我们只对这部分“大于”的支出进行截尾；
右删失：小于或等于某设定点的所有实验对象。比如，实验要研究大学前，年龄和抽烟量的关系。你要实现问每个人的年龄，这样就能保留所有小于大学入学年龄的样本。

3. 总结

所以，右截尾和左删失是最常见的。

索引请参考我的blog

aquamarine · 2018-11-10 05:39:06

很早之前就看到了这个问题，自己也不太理解，一直划水。。。
直到最近开始看这本资料：
John P. Klein, Melvin L. Moeschberger Survival analysis Techniques for censored and truncated data
参照文章里面的定义和例子，大概写出自己的想法，有错误还希望指正 = =
（回答以生存分析为例）

先是主要结论：删失和截尾最主要的区别，粗糙一点来说
观测者对于删失数据的发生是知情的，只是仍然不知道对应这些删失数据,其失效事件发生的精确时间。
观测值对于截尾数据的发生是不知情或不关心的。

下面是具体的理解
首先是翻译问题
按照其他回答中提到的，总结起来，censoring翻译为删失，truncation翻译为截尾或截断。
按照这个翻译来看， @JANE.MIAO 的说法应该有误，将两者搞反了。

censoring：删失
按照参考资料中的解释：Censored data arises when an individual’s life length is known to occur only in a certain period of time.（正文Page1）
也就是说，要想知道对象存活到的准确的时间点（lifetime），事件的失效时间点（failure time）必须要在删失时间的区间以内，也就是要在观察区间以内。如果失效事件发生的时间不是在观察的时间区间以内，该对象的数据就会以删失数据（censored data）的形式出现。我们只知道事件在观测区间以外发生了这个事情，但并不知道具体事件发生的失效时间点的精确值。和截尾不同的是，数据存在的事实我们是知道的（后面会说截尾的特点，主要是对于观测外的事件的发生并不知情/不考虑）。
左删失（left censoring）
当事件发生时，观测还没有开始，事件发生时间位于观测区间的左侧，那么相应的数据就是左删失的数据。我们只知道事件在观测开始之前就发生，但还是不知道精确的发生时间。
右删失（right censoring）
在观测区间中，对象并没有发生失效事件，失效事件的发生时间是在我们观测区间的右侧，但我们也不能得到精确的失效时间。
比如在对一群癌症病人死亡时间的统计中，由于时间和成本的限制，我们只能观测记录接下来5年内病人死亡情况。但当时间超过5年时，也许还是有一部分病人没有死亡，但我们实验的观测和记录已经终止了，那么这些还未死亡的病人的数据就是右删失的数据。
interval censoring（区间删失/间隔删失？翻译不太好...）
在某一个时间区间内，我们无法知道事件的精确失效时间，只知道失效事件是在这个区间内发生的。

truncation 截尾/截断
原文：Truncation of survival data occurs when only those individuals whose event time lies within a certain observational window (YL,YR) are observed. An individual whose event time is not in this interval is not observed and no information on this subject is available to the investigator.（正文Page72）
也就是说，我们只能从一个固定的时间窗内观测，记录事件在这个时间段内发生的精确时间点。但是对于时间窗以外的时间发生的失效事件，我们是不知情的。只有当事件的失效时间（也就是事件的发生时间，文中的event time）出现在观测区间内，我们才能知道这个事件及其观测数据的存在。
左截尾（left truncation）：只能观测到一个时间点之后发生的失效事件。左截尾时间点之前发生的失效事件不知情/不关心。
右截尾（right truncation）：只能观测到一个时间点之前发生的失效事件。右截尾时间点之后发生的失效事件不知情/不关心。
interval truncation（大家自己翻译吧...）：在这个固定区间内发生的失效事件不知情，也就是在这个区间内发生的失效事件不能被观测到，或者说不关心或不知情。

我认为删失和截尾最主要的区别是：
观测者对于删失的数据是知情的，只是仍然不知道对应这些删失数据,其失效事件发生的精确时间。
观测值对于截尾的数据的发生是不知情或不关心的。

Cascade · 2018-11-10 05:39:07

我也不是很理解只是查阅资料希望能尽微薄之力
reference ： survival analysis techniques for censored and truncated data

匿名用户 · 2018-11-10 05:39:08

提示: 作者被禁止或删除内容自动屏蔽

比如先生 · 2018-11-10 05:39:09

从数据分析的角度，左右的区别比是删失还是截尾要大。

右截断可以model成survival，但是左截断就基本只能靠strong assumption + data augmentation了。

但是，如果observation存在异质性，右端截断（不管是censor还是truncate）都会带来selection bias（选择性偏误）；而censor比truncate会更严重。。以labor training 为例。如果我们一直提供training到找到工作，那么留下来的人群可能是低素质的，而离开的人可能是高素质的。高素质的unlucky observation和低素质的normal observation是observationally equivalent的。

生存数据的左右截尾是什么？请举例说明。

6 个回复

浏览过的版块