科学家使用的量表,可靠吗


科学家使用的量表,可靠吗


文章图片


科学家使用的量表,可靠吗


文章图片


科学家使用的量表,可靠吗


文章图片


可靠性是结构的测量是一致或可靠的程度 。 换句话说 , 如果我们用这个量表多次测量同一个结构 , 假设潜在现象没有改变 , 我们每次得到几乎相同的结果吗?不可靠测量的一个例子是人们猜测你的体重 。 很可能 , 人们会猜测不同 , 不同的度量会不一致 , 因此 , “猜测”的测量技术是不可靠的 。 更可靠的测量方法可能是使用体重秤 , 每次踏上体重秤时你都可能得到相同的值 , 除非你的体重在两次测量之间实际上发生了变化 。 请注意 , 可靠性意味着一致性而不是准确性 。 在前面的体重秤示例中 , 如果体重秤校准不正确 , 它不会测量你的真实体重 , 因此不是有效的措施 。 尽管如此 , 校准错误的体重秤每次仍然会给你相同的重量 , 因此秤是可靠的 。



社会科学测量中不可靠观察的来源是什么?主要来源之一是观察者的主观性 。 如果公司的员工士气是通过观察员工是否互相微笑、他们是否开玩笑等来衡量的 , 那么不同的观察者如果在非常忙碌的一天或轻松的一天 。 两位观察者也可能在同一天推断出不同的士气水平 , 这取决于他们认为什么是笑话 , 什么不是 。 “观察”是一种定性测量技术 。 有时 , 可以通过使用定量测量来提高可靠性 , 例如 , 通过计算一个月内提出的申诉数量来衡量士气 。 当然 , 不满可能是也可能不是衡量士气的有效方法 , 但它较少受人的主观性影响 , 因此更可靠 。 不可靠观察的第二个来源是提出不精确或模棱两可的问题 。 例如 , 如果你问人们他们的薪水是多少 , 不同的受访者可能会将这个问题解释为月薪、年薪或每小时工资 , 因此 , 由此产生的观察结果可能会高度不同且不可靠 。 不可靠的第三个来源是询问受访者不太熟悉或不关心的问题 , 例如询问美国大学毕业生是否对加拿大与斯洛文尼亚的关系感到满意 。



那么如何创建可靠的度量呢?如果你的测量涉及向他人征求信息 , 就像许多社会科学研究的情况一样 , 那么你可以首先将更多依赖于研究人员主观性的数据收集技术替换为不太依赖于主观性 , 仅询问受访者可能知道答案的问题或他们关心的问题 , 避免测量中的模棱两可的项目 , 以及简化措辞在你的指标中 , 以免他们被一些受访者误解 。 这些策略可以提高我们措施的可靠性 , 即使它们不一定会使测量结果完全可靠 。 测量仪器仍必须进行可靠性测试 。 估计可靠性的方法有很多种 , 下面将讨论这些方法 。



评分者间信度 。 评价者间信度 , 也称为观察者间信度 , 是衡量同一结构的两个或多个独立评价者之间的一致性 。 通常 , 这是在试点研究中评估的 , 并且可以通过两种方式完成 , 具体取决于构造的测量水平 。 如果测量是分类的 , 则定义一组所有类别 , 评估者检查每个观察属于哪个类别 , 并且评估者之间的一致性百分比是评估者间可靠性的估计 。 例如 , 如果有两个评估者将 100 个观察值分为三个可能的类别之一 , 并且他们的评分与 75% 的观察值匹配 , 则评估者间信度为 0.75 。 如果度量是按间隔或比率缩放的 。



重测信度 。 重测信度是在两个不同时间点对同一样本进行的同一构造的两次测量之间一致性的度量 。 如果两次测试之间的观察结果没有发生实质性变化 , 则该测量是可靠的 。 两个测试之间观察值的相关性是对重测信度的估计 。 请注意 , 两次测试之间的时间间隔很关键 。 通常 , 时间间隔越长 , 在此期间两次观测值发生变化的可能性就越大 , 重测信度就越低 。



对半可靠性 。 分半信度是衡量结构度量的两半之间的一致性的度量 。 例如 , 如果你有一个给定结构的十项测量 , 将这十项随机分成两组 , 每组五个 , 并将整个仪器管理为受访者 。 然后 , 计算每个受访者每半场的总分 , 每半场总分之间的相关性是分半信度的衡量标准 。 仪器越长 , 测量的两半就越有可能相似 , 因此 , 这种技术往往会系统地高估较长仪器的可靠性 。 内部一致性信度 。 内部一致性信度是衡量同一结构的不同项目之间的一致性 。 如果对受访者实施多项目结构测量 , 则受访者以类似方式对这些项目进行评分的程度反映了内部一致性 。 这种可靠性可以根据平均项目间相关性、平均项目与总相关性或更常见的方式来估计 ,

推荐阅读