非线性。比如线性回归的谬误。
大数定律:大数据量下趋于均值。数据样本太小时,随机波动干扰太大,不具备可比性。
百分比谬误:总数关系存在负数时,百分比不具备意义。
小概率事件普遍存在:统计偏差预防措施,多重比较修正。小概率事件的可靠信息:必须规避回旋余地
统计学显著性:零假设前提下,观察结果的发生概率p足够小(0.05)
显著性的相对性:极小数的倍数仍是极小数。显著性表示“值得注意”,但并不一定“重要”。
显著性方法的逻辑缺陷:“可能性极小”并非“不可能”。
随机分布的组群现象。过分均匀表明有刻意保持距离的倾向。
p值操控:对数据进行严酷拷打,直到他们招供才罢手。
正确方法:
1,考虑失败的(看不见的)数据。没有返航的飞机,锁在文件柜中(未发表)的结果。
2,间接方法:观察p值曲线。
3,置信区间:一系列通过不可能法检测的假设与实际观察结果间一致程度的合理范围。
4,多次检验有效,而非偶然一次的侥幸成功。
先验概率:不考虑证据条件考虑的事件概率;
后验概率:事件发生后的修正概率(排除掉先验概率中未发生的事实)。人类的想法,同时受先验概率(预先的想法)和发生事实的影响。一些明显的偏差,通常是因为人们给予的先验概率不同。
彩票的价值预期:如高于彩票价格,大量购买彩票将获得相应的平均利润。(大数定理:大数据量下趋于平均值)
如果政府没有浪费行为,那只能说明他们在反浪费方面花了太多的时间。
无法直接比较经济价值,可以用 效用度。效用曲线非线性,因人而异。
方差:分布范围和极值的可能性。信息论纠错编码定义了不同编码的距离,可用于控制彩票中奖的方差分布(尽管所有彩票的期望相同)
均值回归:指标表现同时受稳定因素和随机性的影响,随机性因素在长时间内趋于均值。
父子身高相关性:散点图等值曲线均为椭圆(二元正态分布的投影),离心率即相关系数,代表两个因素的相关性。
相关性:高维向量夹角的余弦函数。夹角越小相关性越强,正交为不相关。相关性不具有传递性。
相关性不同于因果关系,可能存在其他未知的共因。
柏克森悖论:选择的样本潜在影响了其相关性。(相貌英俊的男人更不友善)
民意:多种选项时,不存在绝对的“大多数意见”。无关选项的独立性,信息的不完全性(只投票最喜欢的人,而未收集选举人的全部意愿)导致选举结果出现偏差。
其他选举法:实时复选法,偏好投票法;两两对决法。孔多塞悖论:循环的两两对决。
非对称性支配效应:无关选项干扰了原本平衡的候选项。
形式主义(希尔伯特公理):完全依据定义和推理,不考虑逻辑含义。与之相反的,柏拉图主义。哥德尔:无法证明形式主义中不存在矛盾。
爆炸原则(形式逻辑的脆弱性):形式逻辑的任意位置加入矛盾成份,都会让整个系统崩溃。人类:对矛盾有一定的容忍度。
局部细节的不一致性在整个模型中随处可见,不同参数的不一致性又相互影响,随着预测时间的推移,数据噪声已经大到足以淹没有效信号,模型最终可能得出完全相反的结果,并且没有办法确定哪种结果是正确的。
posted by Mozilla/5.0 (Linux; Android 8.0.0; WAS-AL00) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.105 Mobile Safari/537.36
分类(READING) 浏览(4720)