ການຄິດໄລ່ outliers

ກະວີ: Charles Brown
ວັນທີຂອງການສ້າງ: 8 ກຸມພາ 2021
ວັນທີປັບປຸງ: 1 ເດືອນກໍລະກົດ 2024
Anonim
ການຄິດໄລ່ outliers - ຄໍາແນະນໍາ
ການຄິດໄລ່ outliers - ຄໍາແນະນໍາ

ເນື້ອຫາ

ນອກ ຫຼື ນອກ ໃນສະຖິຕິແມ່ນຈຸດຂໍ້ມູນທີ່ມີຄວາມແຕກຕ່າງກັນຢ່າງຫຼວງຫຼາຍຈາກຈຸດຂໍ້ມູນອື່ນໆໃນຕົວຢ່າງ. ປົກກະຕິແລ້ວ, outliers ຊີ້ໃຫ້ເຫັນເຖິງຄວາມແຕກຕ່າງຫຼືຂໍ້ຜິດພາດໃນການວັດແທກຕໍ່ນັກສະຖິຕິ, ຫລັງຈາກນັ້ນພວກເຂົາສາມາດເອົາຕົວອອກນອກຊຸດອອກຈາກຊຸດຂໍ້ມູນ. ຖ້າຫາກວ່າພວກເຂົາເຈົ້າເລືອກທີ່ຈະເອົາເຄື່ອງອອກຈາກຂໍ້ມູນອອກມາ, ມັນອາດຈະມີການປ່ຽນແປງທີ່ ສຳ ຄັນໃນບົດສະຫຼຸບທີ່ຖືກດຶງອອກຈາກການສຶກສາ. ນີ້ແມ່ນເຫດຜົນທີ່ວ່າມັນເປັນສິ່ງ ສຳ ຄັນທີ່ຈະຄິດໄລ່ແລະ ກຳ ນົດຄົນນອກຖ້າທ່ານຕ້ອງການຕີຄວາມ ໝາຍ ຂໍ້ມູນສະຖິຕິຢ່າງຖືກຕ້ອງ.

ເພື່ອກ້າວ

  1. ຮຽນຮູ້ວິທີການສັງເກດເຫັນ outliers ທີ່ເປັນໄປໄດ້. ກ່ອນທີ່ພວກເຮົາຈະສາມາດຕັດສິນໃຈວ່າຈະເອົາບັນດາຄຸນຄ່າທີ່ຜິດປົກກະຕິອອກຈາກຊຸດຂໍ້ມູນໃດ ໜຶ່ງ, ແນ່ນອນພວກເຮົາຕ້ອງໄດ້ ກຳ ນົດຕົວເລກຕົວເລກນອກ ເໜືອ ຈາກທີ່ເປັນໄປໄດ້ໃນຊຸດຂໍ້ມູນ. ໂດຍທົ່ວໄປ, outliers ແມ່ນຈຸດຂໍ້ມູນທີ່ມີການປ່ຽນແປງຢ່າງຫຼວງຫຼາຍຈາກແນວໂນ້ມທີ່ປະກອບເປັນຄ່າອື່ນໆໃນຊຸດ - ເວົ້າອີກຢ່າງ ໜຶ່ງ, ຍິງອອກ ຂອງຄຸນຄ່າອື່ນໆ. ມັນງ່າຍທີ່ຈະຮັບຮູ້ເລື່ອງນີ້ໃນຕາຕະລາງແລະ (ໂດຍສະເພາະ) ໃນກາຟ. ຖ້າຊຸດຂໍ້ມູນຖືກດຶງດູດສາຍຕາ, ຄົນທີ່ຢູ່ນອກຈະຢູ່ໄກຈາກຄ່າອື່ນໆ. ຍົກຕົວຢ່າງ, ຖ້າຈຸດຫຼາຍທີ່ສຸດໃນຊຸດຂໍ້ມູນປະກອບເປັນເສັ້ນຊື່, ຄົນນອກຈະບໍ່ສອດຄ່ອງກັບເສັ້ນນີ້.
    • ຂໍໃຫ້ພິຈາລະນາຊຸດຂໍ້ມູນທີ່ສະແດງອຸນຫະພູມຂອງ 12 ວັດຖຸທີ່ແຕກຕ່າງກັນໃນຫ້ອງ. ຖ້າອຸນຫະພູມຂອງ 11 ຂອງວັດຖຸມີການ ເໜັງ ຕີງໂດຍສອງສາມອົງສາທີ່ສຸດປະມານ 21 ° C, ໃນຂະນະທີ່ວັດຖຸ ໜຶ່ງ, ເຕົາອົບ, ມີອຸນຫະພູມ 150 ອົງສາ, ທ່ານສາມາດເບິ່ງໄດ້ທັນທີວ່າເຕົາອົບອາດຈະສູງກວ່າ.
  2. ຈັດຮຽງຈຸດຂໍ້ມູນທັງ ໝົດ ຕັ້ງແຕ່ຕ່ ຳ ເຖິງສູງສຸດ. ຂັ້ນຕອນ ທຳ ອິດໃນການຄິດໄລ່ outliers ແມ່ນການຊອກຫາຄ່າປານກາງ (ຫຼືມູນຄ່າກາງ) ຂອງຊຸດຂໍ້ມູນ. ວຽກງານນີ້ຈະງ່າຍຂື້ນຖ້າວ່າຄ່າຂອງທີ່ ກຳ ນົດໄວ້ແມ່ນຕັ້ງແຕ່ຕ່ ຳ ເຖິງສູງສຸດ. ສະນັ້ນກ່ອນທີ່ຈະສືບຕໍ່, ຈັດຮຽງຄ່າຕ່າງໆໃນຊຸດຂໍ້ມູນຂອງທ່ານແບບນີ້.
    • ຂໍໃຫ້ສືບຕໍ່ໄປດ້ວຍຕົວຢ່າງຂ້າງເທິງ. ນີ້ແມ່ນຂໍ້ມູນທີ່ ກຳ ນົດໄວ້ຂອງພວກເຮົາສະແດງໃຫ້ເຫັນອຸນຫະພູມໃນອົງສາ Fahrenheit ຂອງວັດຖຸຕ່າງໆໃນຫ້ອງ: {71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}. ຖ້າພວກເຮົາຈັດຮຽງຄ່າຕ່າງໆໃນຊຸດຈາກຕ່ ຳ ສຸດຫາສູງສຸດ, ນີ້ຈະກາຍເປັນຊຸດ ໃໝ່ ຂອງພວກເຮົາ: {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}.
  3. ຄິດໄລ່ປານກາງຂອງຊຸດຂໍ້ມູນ. ຂໍ້ມູນກາງຂອງຊຸດຂໍ້ມູນແມ່ນຈຸດຂໍ້ມູນທີ່ເຄິ່ງ ໜຶ່ງ ຂອງຂໍ້ມູນຢູ່ ເໜືອ ມັນ, ແລະເຄິ່ງ ໜຶ່ງ ຂອງຂໍ້ມູນແມ່ນຢູ່ຂ້າງລຸ່ມຂອງມັນ - ມັນແມ່ນຄວາມຈິງແລ້ວ, "ສູນກາງ" ຂອງຊຸດຂໍ້ມູນ. ຖ້າຊຸດຂໍ້ມູນມີ ຈຳ ນວນຄີກ, ລະດັບປານກາງແມ່ນງ່າຍຕໍ່ການຊອກຫາ - ປານກາງແມ່ນຈຸດທີ່ມີຫຼາຍຈຸດຂ້າງເທິງດັ່ງລຸ່ມນີ້. ຖ້າມີ ຈຳ ນວນຄະແນນ, ເພາະວ່າມັນບໍ່ມີສູນ ໜຶ່ງ, ທ່ານຕ້ອງໄດ້ໃຊ້ເວລາສະເລ່ຍຂອງສອງຈຸດໃນສູນເພື່ອຊອກຫາລະດັບປານກາງ. ໃນເວລາທີ່ການຄິດໄລ່ outliers, ຕົວກາງແມ່ນປົກກະຕິແລ້ວໂດຍ Q2 ຕົວແປ - ເພາະວ່າມັນຕັ້ງຢູ່ລະຫວ່າງ Q1 ແລະ Q3, quartiles ທີ 1 ແລະທີສາມ. ພວກເຮົາຈະ ກຳ ນົດຕົວແປເຫລົ່ານີ້ຕໍ່ມາ.
    • ຢ່າສັບສົນກັບຊຸດຂໍ້ມູນທີ່ມີ ຈຳ ນວນຄະແນນເຖິງແມ່ນວ່າສະເລ່ຍຂອງສອງຈຸດກາງມັກຈະເປັນຕົວເລກທີ່ບໍ່ຢູ່ໃນຊຸດຂໍ້ມູນ - ມັນບໍ່ເປັນຫຍັງ. ເຖິງຢ່າງໃດກໍ່ຕາມ, ຖ້າສອງຈຸດກາງແມ່ນຄືກັນ, ສະເລ່ຍແນ່ນອນຈະເປັນຕົວເລກນີ້ - ເຊັ່ນດຽວກັນ ໂອເຄ.
    • ໃນຕົວຢ່າງຂອງພວກເຮົາພວກເຮົາມີ 12 ຄະແນນ. ສອງເງື່ອນໄຂກາງແມ່ນຈຸດ 6 ແລະ 7 - 70 ແລະ 71, ຕາມ ລຳ ດັບສະນັ້ນລະດັບປານກາງຂອງຊຸດຂໍ້ມູນຂອງພວກເຮົາແມ່ນຈຸດ ສຳ ຄັນຂອງສອງຈຸດນີ້: ((70 + 71) / 2) =70,5.
  4. ຄິດໄລ່ໄຕມາດ ທຳ ອິດ. ຈຸດນີ້, ເຊິ່ງພວກເຮົາ ໝາຍ ເຖິງຕົວປ່ຽນແປງ Q1, ແມ່ນຈຸດຂໍ້ມູນທີ່ຢູ່ລຸ່ມ 25 ເປີເຊັນ (ຫຼືໄຕມາດ) ຂອງການສັງເກດ. ເວົ້າອີກຢ່າງ ໜຶ່ງ, ນີ້ແມ່ນຈຸດໃຈກາງຂອງທຸກຈຸດໃນຊຸດຂໍ້ມູນຂອງທ່ານ ດ້ານລຸ່ມ ປານກາງ. ຖ້າມີ ຈຳ ນວນຄ່າທີ່ຕໍ່າກວ່າລະດັບປານກາງ, ທ່ານກໍ່ຕ້ອງໄດ້ເອົາຄ່າສະເລ່ຍຂອງສອງຄ່າກາງເພື່ອຄົ້ນຫາ Q1, ດັ່ງທີ່ທ່ານອາດຈະເຮັດໃນການ ກຳ ນົດລະດັບປານກາງຂອງຕົວທ່ານເອງ.
    • ໃນຕົວຢ່າງຂອງພວກເຮົາ, ຫົກຈຸດແມ່ນຢູ່ ເໜືອ ລະດັບປານກາງແລະ 6 ຄະແນນຢູ່ລຸ່ມມັນ. ສະນັ້ນເພື່ອຫາສີ່ຫລ່ຽມ ທຳ ອິດພວກເຮົາຕ້ອງໃຊ້ເວລາສະເລ່ຍສອງຈຸດໃນກາງ 6 ຈຸດລຸ່ມ. ຈຸດ 3 ແລະ 4 ຂອງຫົກດ້ານລຸ່ມແມ່ນທັງ 70, ສະນັ້ນຄວາມ ໝາຍ ຂອງພວກມັນແມ່ນ ((70 + 70) / 2) =70. ສະນັ້ນມູນຄ່າຂອງພວກເຮົາ ສຳ ລັບ Q1 ແມ່ນ 70.
  5. ຄິດໄລ່ໄຕມາດທີສາມ. ຈຸດນີ້, ເຊິ່ງພວກເຮົາ ໝາຍ ເຖິງຕົວປ່ຽນແປງ Q3, ແມ່ນຈຸດຂໍ້ມູນຂ້າງເທິງເຊິ່ງ 25 ເປີເຊັນຂອງຂໍ້ມູນແມ່ນຢູ່. ຊອກຫາ Q3 ແມ່ນປະຕິບັດຄືກັນກັບການຄົ້ນຫາ Q1, ຍົກເວັ້ນພວກເຮົາ ກຳ ລັງເບິ່ງຈຸດຕ່າງໆໃນກໍລະນີນີ້ ຂ້າງເທິງ ປານກາງ.
    • ສືບຕໍ່ກັບຕົວຢ່າງຂ້າງເທິງ, ພວກເຮົາເຫັນວ່າສອງຈຸດກາງຂອງ 6 ຈຸດສູງກວ່າລະດັບປານກາງແມ່ນ 71 ແລະ 72. ຄວາມ ໝາຍ ຂອງສອງຈຸດນີ້ແມ່ນ ((71 + 72) / 2) =71,5. ສະນັ້ນມູນຄ່າຂອງພວກເຮົາ ສຳ ລັບ Q3 ແມ່ນ 71.5.
  6. ຊອກຫາຊ່ວງລະດັບ interquartile. ຕອນນີ້ພວກເຮົາໄດ້ ກຳ ນົດ Q1 ແລະ Q3 ພວກເຮົາຕ້ອງຄິດໄລ່ໄລຍະຫ່າງລະຫວ່າງຕົວແປສອງຕົວນີ້. ທ່ານສາມາດຊອກຫາໄລຍະຫ່າງລະຫວ່າງ Q1 ແລະ Q3 ໂດຍການຫັກ Q1 ຈາກ Q3. ຄຸນຄ່າທີ່ທ່ານໄດ້ຮັບ ສຳ ລັບຊ່ວງໄລຍະ interquartile ແມ່ນ ສຳ ຄັນ ສຳ ລັບການ ກຳ ນົດເຂດແດນ ສຳ ລັບຈຸດທີ່ບໍ່ແມ່ນຈຸດສຸມໃນຊຸດຂໍ້ມູນຂອງທ່ານ.
    • ໃນຕົວຢ່າງຂອງພວກເຮົາ, ຄ່າ ສຳ ລັບ Q1 ແລະ Q3 ແມ່ນ 70 ແລະ 71,5, ຕາມ ລຳ ດັບ. ເພື່ອຊອກຫາຊ່ວງທີ່ມີ interquartile, ພວກເຮົາຄິດໄລ່ Q3 - Q1: 71.5 - 70 =1,5.
    • ນີ້ເຮັດວຽກເຖິງແມ່ນວ່າ Q1, Q3, ຫຼືທັງສອງຕົວເລກແມ່ນລົບ. ຍົກຕົວຢ່າງ, ຖ້າມູນຄ່າຂອງພວກເຮົາ ສຳ ລັບ Q1 ແມ່ນ -70, ຊ່ວງໄລຍະ interquartile ຈະເປັນ 71.5 - (-70) = 141,5, ເຊິ່ງຖືກຕ້ອງ.
  7. ຊອກຫາ "ຂີດ ຈຳ ກັດພາຍໃນ" ຂອງຊຸດຂໍ້ມູນ. ທ່ານສາມາດຮັບຮູ້ຕົວນອກໂດຍການ ກຳ ນົດວ່າພວກມັນຕົກຢູ່ໃນຂອບເຂດ ຈຳ ນວນຕົວເລກ; ອັນທີ່ເອີ້ນວ່າ "ຂອບເຂດພາຍໃນ" ແລະ "ຂອບເຂດນອກ". ຈຸດ ໜຶ່ງ ທີ່ຢູ່ນອກຂອບເຂດ ຈຳ ກັດຂອງຊຸດຂໍ້ມູນຖືກຈັດເປັນ ໜຶ່ງ outlier ອ່ອນໆ, ແລະຈຸດໃດ ໜຶ່ງ ທີ່ຢູ່ນອກຂີດ ຈຳ ກັດດ້ານນອກແມ່ນຈັດເປັນ ໜຶ່ງ ດຽວ outlier ທີ່ສຸດ. ເພື່ອຊອກຫາຂອບເຂດພາຍໃນຂອງຂໍ້ມູນທີ່ທ່ານຕັ້ງໄວ້, ທຳ ອິດໃຫ້ຄູນຂອບເຂດຂອງ interquartile ໂດຍ 1.5. ເພີ່ມຜົນລັບເຂົ້າໃນ Q3 ແລະຫັກອອກຈາກ Q1. ສອງຜົນໄດ້ຮັບແມ່ນຂໍ້ ຈຳ ກັດດ້ານໃນຂອງຂໍ້ມູນຂອງທ່ານ.
    • ໃນຕົວຢ່າງຂອງພວກເຮົາ, ລະດັບ interquartile ແມ່ນ (71.5 - 70), ຫຼື 1.5. ຄູນນີ້ໂດຍ 1.5 ເພື່ອໃຫ້ໄດ້ຮັບ 2.25. ພວກເຮົາເພີ່ມ ຈຳ ນວນນີ້ໃສ່ Q3 ແລະຫັກອອກຈາກ Q1 ເພື່ອຊອກຫາຂອບເຂດທາງໃນດັ່ງຕໍ່ໄປນີ້:
      • 71,5 + 2,25=73,75
      • 70 - 2,25=67,75
      • ດັ່ງນັ້ນຊາຍແດນພາຍໃນແມ່ນ 67.75 ແລະ 73.75.
    • ໃນຊຸດຂໍ້ມູນຂອງພວກເຮົາ, ພຽງແຕ່ອຸນຫະພູມເຕົາອົບ - 300 ອົງສາຟາເຣນຮາຍ - ຢູ່ນອກລະດັບນີ້. ສະນັ້ນນີ້ອາດຈະເປັນສິ່ງທີ່ອ່ອນໂຍນກວ່າ. ເຖິງຢ່າງໃດກໍ່ຕາມ, ພວກເຮົາຍັງບໍ່ທັນໄດ້ ກຳ ນົດວ່າອຸນຫະພູມນີ້ແມ່ນອຸນຫະພູມສູງເກີນໄປຫລືບໍ່, ສະນັ້ນໃຫ້ພວກເຮົາບໍ່ກ້າວໄປສູ່ການສະຫລຸບເທື່ອ.
  8. ຊອກຫາ "ຂອບເຂດນອກ" ຂອງຊຸດຂໍ້ມູນ. ທ່ານເຮັດແບບນີ້ຄືກັບຂອບເຂດພາຍໃນ, ມີຄວາມແຕກຕ່າງພຽງຢ່າງດຽວທີ່ທ່ານຄູນໄລຍະຫ່າງທີ່ຕິດຕໍ່ກັນໂດຍ 3 ແທນ 1.5. ຈາກນັ້ນທ່ານຈະເພີ່ມຜົນເຂົ້າໄປໃນ Q3 ແລະຫັກອອກຈາກ Q1 ເພື່ອຊອກຫາຄ່າຂອງຂີດ ຈຳ ກັດດ້ານນອກ.
    • ໃນຕົວຢ່າງຂອງພວກເຮົາ, ພວກເຮົາຄູນໄລຍະຫ່າງ interquartile ໂດຍ 3 ເພື່ອໃຫ້ໄດ້ຮັບ (1.5 * 3) ຫຼື 4.5. ດຽວນີ້ພວກເຮົາສາມາດຊອກຫາຂອບເຂດທາງນອກໃນແບບດຽວກັບຂໍ້ ຈຳ ກັດພາຍໃນ:
      • 71,5 + 4,5=76
      • 70 - 4,5=65,5
      • ດັ່ງນັ້ນຂໍ້ ຈຳ ກັດດ້ານນອກແມ່ນ 65,5 ແລະ 76.
    • ຈຸດຂໍ້ມູນທີ່ນອນຢູ່ນອກເຂດແດນພາຍນອກແມ່ນຖືວ່າເປັນເຂດທີ່ສູງເກີນຂອບເຂດ. ໃນຕົວຢ່າງຂອງພວກເຮົາ, ອຸນຫະພູມເຕົາອົບ, 300 ອົງສາຟາເຣນຮາຍ, ແມ່ນເກີນຂອບເຂດທີ່ຢູ່ນອກຂອບເຂດ. ດັ່ງນັ້ນອຸນຫະພູມເຕົາອົບແມ່ນ ແນ່ນອນ outlier ທີ່ຮ້າຍໄປ.
  9. ໃຊ້ການປະເມີນຜົນທາງດ້ານຄຸນນະພາບເພື່ອ ກຳ ນົດວ່າທ່ານຄວນ "ຖີ້ມ" ຕົວຄົນນອກ. ດ້ວຍວິທີການຂ້າງເທິງນີ້ທ່ານສາມາດ ກຳ ນົດວ່າຈຸດທີ່ແນ່ນອນແມ່ນຈຸດເດັ່ນເລັກນ້ອຍ, ນອກ ເໜືອ ຈາກຈຸດຮຸນແຮງຫຼືບໍ່ມີຈຸດເດັ່ນໃດໆເລີຍ. ແຕ່ຢ່າເຮັດຜິດພາດ - ການຮັບຮູ້ຈຸດໃດ ໜຶ່ງ ທີ່ເປັນຈຸດເດັ່ນຍິ່ງເຮັດໃຫ້ມັນເປັນ ໜຶ່ງ ດຽວ ຜູ້ສະ ໝັກ ທີ່ຈະເອົາອອກຈາກຊຸດຂໍ້ມູນ, ແລະບໍ່ແມ່ນຈຸດທີ່ຖືກລຶບອອກທັນທີ ຕ້ອງ ເຮັດໃຫ້ເຂົ້າໄປໃນ. ທ ເຫດ​ຜົນ ເປັນຫຍັງຄົນນອກບ້ານຈຶ່ງແຕກຕ່າງຈາກສ່ວນທີ່ເຫຼືອຂອງຈຸດທີ່ ກຳ ນົດໄວ້ແມ່ນມີຄວາມ ສຳ ຄັນຫຼາຍໃນການ ກຳ ນົດວ່າຜູ້ອອກນອກຄວນຈະຖືກ ກຳ ຈັດຫຼືບໍ່. ໂດຍທົ່ວໄປ, outliers ທີ່ເກີດຈາກຄວາມຜິດພາດບາງຢ່າງ - ຄວາມຜິດພາດຂອງການວັດແທກ, ໃນບັນທຶກຫຼືໃນການອອກແບບທົດລອງ, ຍົກຕົວຢ່າງ, ຖືກຍ້າຍອອກ. ໃນທາງກົງກັນຂ້າມ, outliers ທີ່ບໍ່ໄດ້ເກີດມາຈາກຄວາມຜິດພາດແລະທີ່ເປີດເຜີຍຂໍ້ມູນຂ່າວສານຫຼືແນວໂນ້ມ ໃໝ່ໆ ທີ່ບໍ່ໄດ້ຄາດຄະເນມັກຈະກາຍເປັນ ບໍ່ ລຶບແລ້ວ.
    • ມາດຖານອີກອັນ ໜຶ່ງ ທີ່ຄວນພິຈາລະນາແມ່ນວ່າຜູ້ອອກນອກສະຖານທີ່ສົ່ງຜົນກະທົບຕໍ່ສະເລ່ຍຂອງຂໍ້ມູນທີ່ ກຳ ນົດໄວ້ໃນທາງທີ່ມີຄວາມສົງໄສຫລືເຮັດໃຫ້ເຂົ້າໃຈຜິດ. ນີ້ແມ່ນສິ່ງທີ່ ສຳ ຄັນໂດຍສະເພາະຖ້າທ່ານວາງແຜນທີ່ຈະແຕ້ມບົດສະຫຼຸບຈາກສະເລ່ຍຂອງຊຸດຂໍ້ມູນຂອງທ່ານ.
    • ຂໍໃຫ້ພິພາກສາຕົວຢ່າງຂອງພວກເຮົາ. ຕັ້ງແຕ່ ສູງສຸດ ເປັນໄປບໍ່ໄດ້ວ່າເຕົາໄຟໄດ້ບັນລຸອຸນຫະພູມສູງເຖິງ 300 ° F ເນື່ອງຈາກບາງຜົນບັງຄັບໃຊ້ຂອງ ທຳ ມະຊາດທີ່ບໍ່ຄາດຄິດ, ໃນຕົວຢ່າງຂອງພວກເຮົາພວກເຮົາສາມາດສະຫຼຸບດ້ວຍຄວາມແນ່ນອນເກືອບ 100% ວ່າເຕົາໄຟໄດ້ຖືກປ່ຽນໂດຍບັງເອີນ, ເຮັດໃຫ້ມີການອ່ານອຸນຫະພູມສູງຜິດປົກກະຕິ. ນອກຈາກນັ້ນ, ຖ້າພວກເຮົາບໍ່ເອົາອອກນອກຊັ້ນ, ຄວາມ ໝາຍ ຂອງຊຸດຂໍ້ມູນຂອງພວກເຮົາຈະອອກມາ (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73 + 300) / 12 = 89.67 ° F, ໃນຂະນະທີ່ສະເລ່ຍ ໂດຍບໍ່ມີການ outlier ອອກມາຫາ (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73) / 11 = 70.55 ° F.
      • ເນື່ອງຈາກວ່າຊັ້ນນອກແມ່ນເກີດມາຈາກຄວາມຜິດພາດຂອງມະນຸດ, ແລະຍ້ອນວ່າມັນບໍ່ຖືກຕ້ອງທີ່ຈະເວົ້າວ່າອຸນຫະພູມຫ້ອງໂດຍສະເລ່ຍຢູ່ໃກ້ 32 ° C, ພວກເຮົາຕ້ອງເລືອກທີ່ຈະໃຊ້ສະຖານທີ່ນອກຂອງພວກເຮົາ. ເອົາອອກ.
  10. ເຂົ້າໃຈຄວາມ ສຳ ຄັນຂອງ (ບາງຄັ້ງ) ເກັບຮັກສາໄວ້ນອກ. ໃນຂະນະທີ່ບາງ outliers ຄວນຖືກໂຍກຍ້າຍອອກຈາກຊຸດຂໍ້ມູນເພາະວ່າມັນແມ່ນຜົນຂອງຄວາມຜິດພາດຫຼືຍ້ອນວ່າພວກເຂົາສະຫລາດຜົນໄດ້ຮັບໃນທາງທີ່ບໍ່ຖືກຕ້ອງ, outliers ອື່ນໆຄວນຖືກຮັກສາໄວ້. ຕົວຢ່າງ: ຖ້າຜູ້ທີ່ໄດ້ຮັບທີ່ໄດ້ຮັບທີ່ຖືກຕ້ອງຖືກຕ້ອງ (ແລະດັ່ງນັ້ນບໍ່ແມ່ນຜົນມາຈາກຄວາມຜິດພາດ) ແລະ / ຫຼືຖ້າຜູ້ທີ່ອອກນອກສະ ເໜີ ຄວາມເຂົ້າໃຈ ໃໝ່ ກ່ຽວກັບປະກົດການທີ່ຈະວັດແທກ, ມັນບໍ່ຄວນຈະຖືກຍ້າຍອອກທັນທີ. ການທົດລອງທາງດ້ານວິທະຍາສາດແມ່ນສະຖານະການທີ່ມີຄວາມອ່ອນໄຫວໂດຍສະເພາະໃນເວລາທີ່ພົວພັນກັບຄົນນອກ - ການເອົາແບບທີ່ບໍ່ຖືກຕ້ອງອອກໄປນັ້ນ ໝາຍ ຄວາມວ່າຈະຖິ້ມຂໍ້ມູນທີ່ ສຳ ຄັນກ່ຽວກັບແນວໂນ້ມ ໃໝ່ ຫຼືການຄົ້ນພົບ ໃໝ່.
    • ຍົກຕົວຢ່າງ, ຈິນຕະນາການວ່າພວກເຮົາ ກຳ ລັງອອກແບບຢາ ໃໝ່ ເພື່ອເຮັດໃຫ້ປາໃນຟາມປາໃຫຍ່ຂື້ນ. ຂໍ ນຳ ໃຊ້ຊຸດຂໍ້ມູນເກົ່າຂອງພວກເຮົາ ({71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}), ດ້ວຍຄວາມແຕກຕ່າງທີ່ແຕ່ລະຈຸດໃນປັດຈຸບັນເປັນຕົວແທນຂອງມະຫາຊົນຂອງປາ (ໃນກຼາມ ) ຫຼັງຈາກການປິ່ນປົວດ້ວຍຢາທົດລອງອີກອັນ ໜຶ່ງ ຕັ້ງແຕ່ເກີດ. ເວົ້າອີກຢ່າງ ໜຶ່ງ, ຢາຊະນິດ ທຳ ອິດເຮັດໃຫ້ປາໂຕ ໜຶ່ງ ມີນ້ ຳ ໜັກ 71 ກຣາມ, ອັນທີສອງໃຫ້ປາອີກ 1 ໂຕ ໜັກ 70 ກຼາມ, ແລະອື່ນໆ. ໃນສະຖານະການນີ້, 300 ຍັງ ເປັນ outlier huge, ແຕ່ວ່າພວກເຮົາບໍ່ຄວນເອົາມັນໃນປັດຈຸບັນ. ເພາະວ່າ, ຖ້າພວກເຮົາສົມມຸດວ່າຄົນຊັ້ນນອກບໍ່ແມ່ນຜົນຂອງຄວາມຜິດ, ມັນສະແດງເຖິງຜົນ ສຳ ເລັດອັນໃຫຍ່ຫຼວງໃນການທົດລອງຂອງພວກເຮົາ. ຢາທີ່ຜະລິດປາ 300 ກຣາມເຮັດວຽກໄດ້ດີກ່ວາຢາຊະນິດອື່ນໆ, ສະນັ້ນຢານີ້ແມ່ນມັນ ຫຼາຍທີ່ສຸດ ຈຸດຂໍ້ມູນທີ່ ສຳ ຄັນໃນຊຸດຂອງພວກເຮົາ, ແທນທີ່ຈະ ຢ່າງຫນ້ອຍ ຈຸດຂໍ້ມູນທີ່ ສຳ ຄັນ.

ຄຳ ແນະ ນຳ

  • ຖ້າທ່ານພົບຜູ້ຊ່ຽວຊານດ້ານວິຊາການ, ພະຍາຍາມອະທິບາຍໃຫ້ເຂົາເຈົ້າກ່ອນທີ່ຈະເອົາພວກເຂົາອອກຈາກຊຸດຂໍ້ມູນ; ພວກເຂົາສາມາດຊີ້ບອກຄວາມຜິດພາດຂອງການວັດແທກຫຼືຄວາມບ່ຽງເບນໃນການແຈກຢາຍ.

ຄວາມ ຈຳ ເປັນ

  • ເຄື່ອງຄິດໄລ່