Artikel

2.8: Persampelan dan Data (Latihan) - Matematik


Ini adalah latihan kerja rumah untuk menyertai Peta Teks yang dibuat untuk "Statistik Pengenalan" oleh OpenStax.

1.2: Definisi Statistik, Kebarangkalian, dan Istilah Utama

Untuk setiap lapan latihan berikut, kenal pasti: a. penduduk, b. sampel, c. parameternya, d. statistiknya, e. pemboleh ubah, dan f. data itu. Berikan contoh di mana sesuai.

Q 1.2.1

Pusat kecergasan berminat dengan jumlah masa yang dilalui oleh klien di pusat tersebut setiap minggu.

Resort ski berminat pada usia rata-rata bahawa kanak-kanak mengambil pelajaran ski dan papan salji pertama mereka. Mereka memerlukan maklumat ini untuk merancang kelas ski mereka dengan optimum.

S 1.2.2

  1. semua kanak-kanak yang mengikuti pelajaran ski atau papan luncur salji
  2. sekumpulan kanak-kanak ini
  3. populasi bermaksud umur kanak-kanak yang mengikuti pelajaran papan salji pertama mereka
  4. sampel bermaksud umur kanak-kanak yang mengikuti pelajaran papan salji pertama mereka
  5. (X = ) umur satu anak yang mengikuti pelajaran ski atau papan luncur pertamanya
  6. nilai untuk (X ), seperti 3, 7, dan seterusnya

Q 1.2.3

Seorang pakar kardiologi berminat dengan tempoh pemulihan rata-rata pesakitnya yang pernah mengalami serangan jantung.

Q 1.2.4

Syarikat insurans berminat dengan kos kesihatan rata-rata setiap tahun pelanggan mereka, sehingga mereka dapat menentukan kos insurans kesihatan.

S 1.2.5

  1. pelanggan syarikat insurans
  2. sekumpulan pelanggan
  3. kos kesihatan pelanggan
  4. kos kesihatan purata sampel
  5. (X = ) kos kesihatan seorang pelanggan
  6. nilai untuk (X ), seperti 34, 9, 82, dan sebagainya

Q 1.2.6

Seorang ahli politik berminat dengan jumlah pengundi di daerahnya yang berpendapat bahawa dia melakukan pekerjaan dengan baik.

Q 1.2.7

Seorang kaunselor perkahwinan berminat dengan bahagian pelanggan yang dia nasihatkan sehingga mereka tetap berkahwin.

S 1.2.7

  1. semua klien kaunselor ini
  2. sekumpulan klien kaunselor perkahwinan ini
  3. bahagian semua pelanggannya yang tetap berkahwin
  4. bahagian sampel klien kaunselor yang kekal berkahwin
  5. (X = ) bilangan pasangan yang kekal berkahwin
  6. Ya tidak

Q 1.2.8

Pengundi politik mungkin berminat dengan bahagian orang yang akan memilih sebab tertentu.

Q 1.2.9

Sebuah syarikat pemasaran berminat dengan bahagian orang yang akan membeli produk tertentu.

S 1.2.9

  1. semua orang (mungkin di kawasan geografi tertentu, seperti Amerika Syarikat)
  2. sekumpulan orang
  3. bahagian semua orang yang akan membeli produk tersebut
  4. bahagian sampel yang akan membeli produk tersebut
  5. (X = ) bilangan orang yang akan membelinya
  6. beli, bukan beli

Gunakan maklumat berikut untuk menjawab tiga latihan seterusnya: Seorang pengajar Kolej Komuniti Lake Tahoe berminat dengan jumlah hari pelajar matematik Lake Tahoe Community College tidak hadir ke kelas selama satu suku tahun.

Q 1.2.10

Berapa populasi yang dia minati?

  1. semua pelajar Kolej Komuniti Lake Tahoe
  2. semua pelajar Inggeris Kolej Komuniti Lake Tahoe
  3. semua pelajar Kolej Komuniti Lake Tahoe di kelasnya
  4. semua pelajar matematik Kolej Komuniti Lake Tahoe

Q 1.2.11

Pertimbangkan perkara berikut:

(X = ) bilangan hari pelajar matematik Kolej Komuniti Lake Tahoe tidak hadir

Dalam kes ini, (X ) adalah contoh:

  1. pemboleh ubah.
  2. penduduk.
  3. statistik.
  4. data.

Q 1.2.12

Sampel pengajar menghasilkan jumlah purata hari yang tidak ada selama 3,5 hari. Nilai ini adalah contoh:

  1. parameter.
  2. data.
  3. statistik.
  4. pemboleh ubah.

1.3: Data, Persampelan, dan Variasi dalam Data dan Persampelan

Berlatih

Latihan 1.3.11

"Berapa kali dalam seminggu" adalah jenis data apa?

  1. kualitatif
  2. diskrit kuantitatif
  3. kuantitatif berterusan

Gunakan maklumat berikut untuk menjawab empat latihan seterusnya: Satu kajian dilakukan untuk menentukan usia, jumlah kali seminggu, dan jangka masa (jumlah waktu) penduduk yang menggunakan taman tempatan di San Antonio, Texas. Rumah pertama di kawasan sekitar taman dipilih secara rawak, dan kemudian penduduk setiap rumah kelapan di kawasan sekitar taman itu ditemu ramah.

Latihan 1.3.12

Kaedah persampelan adalah

  1. rawak mudah
  2. sistematik
  3. berstrata
  4. gugusan

Jawapan

b

Latihan 1.3.13

"Tempoh (jumlah masa)" adalah jenis data apa?

  1. kualitatif
  2. diskrit kuantitatif
  3. kuantitatif berterusan

Latihan 1.3.14

Warna rumah di sekitar taman adalah jenis data apa?

  1. kualitatif
  2. diskrit kuantitatif
  3. kuantitatif berterusan

Jawapan

a

Latihan 1.3.15

Penduduknya ______________________

Latihan 1.3.16

Jadual mengandungi jumlah kematian di seluruh dunia akibat gempa bumi dari tahun 2000 hingga 2012.

TahunJumlah Kematian
2000231
200121,357
200211,685
200333,819
2004228,802
200588,003
20066,605
2007712
200888,011
20091,790
2010320,120
201121,953
2012768
Jumlah823,856

Gunakan Jadual untuk menjawab soalan berikut.

  1. Berapakah bahagian kematian antara tahun 2007 dan 2012?
  2. Berapakah peratus kematian yang berlaku sebelum tahun 2001?
  3. Berapakah peratus kematian yang berlaku pada tahun 2003 atau selepas tahun 2010?
  4. Berapakah pecahan kematian yang berlaku sebelum 2012?
  5. Apakah jenis data jumlah kematian?
  6. Gempa diukur mengikut jumlah tenaga yang mereka hasilkan (contohnya ialah 2.1, 5.0, 6.7). Apakah jenis data itu?
  7. Apa yang menyumbang kepada jumlah kematian yang besar pada tahun 2010? Pada tahun 2004? Terangkan.

Jawapan

  1. 0.5242
  2. 0.03%
  3. 6.86%
  4. ( frac {823,088} {823,856} )
  5. diskrit kuantitatif
  6. kuantitatif berterusan
  7. Dalam kedua tahun tersebut, gempa bumi bawah laut menghasilkan tsunami besar.

Untuk empat latihan berikut, tentukan jenis persampelan yang digunakan (rawak mudah, berstrata, sistematik, kluster, atau kemudahan).

Latihan 1.3.17

Sekumpulan subjek ujian dibahagikan kepada dua belas kumpulan; maka empat kumpulan dipilih secara rawak.

Latihan 1.3.18

Seorang penyelidik pasaran meninjau setiap orang kesepuluh yang masuk ke sebuah kedai.

Jawapan

sistematik

Latihan 1.3.19

50 orang pertama yang memasuki acara sukan ditinjau pilihan televisyen mereka.

Latihan 1.3.20

Komputer menghasilkan 100 nombor rawak, dan 100 orang yang namanya sesuai dengan nombor dalam senarai dipilih.

Jawapan

rawak mudah

Gunakan maklumat berikut untuk menjawab tujuh latihan seterusnya: Kajian sering dilakukan oleh syarikat farmaseutikal untuk menentukan keberkesanan program rawatan. Anggaplah bahawa ubat antibodi AIDS baru sedang dalam kajian. Ia diberikan kepada pesakit setelah gejala AIDS muncul. Yang menarik adalah jangka waktu rata-rata (rata-rata) dalam bulan pesakit hidup setelah memulakan rawatan. Dua penyelidik masing-masing mengikuti kumpulan 40 pesakit AIDS yang berbeza dari awal rawatan hingga kematian mereka. Data berikut (dalam bulan) dikumpulkan.

3; 4; 11; 15; 16; 17; 22; 44; 37; 16; 14; 24; 25; 15; 26; 27; 33; 29; 35; 44; 13; 21; 22; 10; 12; 8; 40; 32; 26; 27; 31; 34; 29; 17; 8; 24; 18; 47; 33; 34

3; 14; 11; 5; 16; 17; 28; 41; 31; 18; 14; 14; 26; 25; 21; 22; 31; 2; 35; 44; 23; 21; 21; 16; 12; 18; 41; 22; 16; 25; 33; 34; 29; 13; 18; 24; 23; 42; 33; 29

Latihan 1.3.21

Lengkapkan jadual menggunakan data yang disediakan:

Penyelidik A

Panjang Hidup (dalam bulan)KekerapanFrekuensi relatifKekerapan relatif kumulatif
0.5–6.5
6.5–12.5
12.5–18.5
18.5–24.5
24.5–30.5
30.5–36.5
36.5–42.5
42.5–48.5

Penyelidik B

Panjang Hidup (dalam bulan)KekerapanFrekuensi relatifKekerapan relatif kumulatif
0.5–6.5
6.5–12.5
12.5–18.5
18.5–24.5
24.5–30.5
30.5–36.5
36.5-45.5

Latihan 1.3.22

Tentukan apa yang disebut oleh istilah istilah utama dalam contoh di atas untuk Penyelidik A.

Jawapan

nilai untuk (X ), seperti 3, 4, 11, dan sebagainya

Latihan 1.3.23

Senaraikan dua sebab mengapa data mungkin berbeza.

Latihan 1.3.24

Bolehkah anda mengetahui sama ada seorang penyelidik betul dan yang lain tidak betul? Kenapa?

Jawapan

Tidak, kami tidak mempunyai cukup maklumat untuk membuat tuntutan tersebut.

Latihan 1.3.25

Adakah anda mengharapkan data serupa? Mengapa atau mengapa tidak?

Latihan 1.3.26

Bagaimana mungkin penyelidik mengumpulkan data rawak?

Jawapan

Ambil sampel rawak mudah dari setiap kumpulan. Salah satu caranya adalah dengan memberikan nombor kepada setiap pesakit dan menggunakan penjana nombor secara rawak untuk memilih pesakit secara rawak.

Latihan 1.3.27

Anggaplah penyelidik pertama melakukan tinjauannya dengan memilih satu negeri di negara ini secara rawak dan kemudian memilih 40 pesakit dari negeri itu secara rawak. Apakah kaedah persampelan yang akan digunakan oleh penyelidik?

Latihan 1.3.28

Anggaplah penyelidik kedua melakukan tinjauannya dengan memilih 40 pesakit yang dikenalinya. Apakah kaedah persampelan yang akan digunakan oleh penyelidik? Apa masalah anda terhadap set data ini, berdasarkan kaedah pengumpulan data?

Jawapan

Ini akan menjadi contoh kemudahan dan tidak rawak.

Gunakan data berikut untuk menjawab lima latihan seterusnya: Dua penyelidik mengumpulkan data permainan video berjam-jam yang dimainkan oleh kanak-kanak dan remaja usia sekolah. Mereka masing-masing mengambil sampel secara berlainan kumpulan 150 pelajar dari sekolah yang sama. Mereka mengumpulkan data berikut.

Penyelidik A
Jam Dimainkan SemingguKekerapanFrekuensi relatifKekerapan relatif kumulatif
0–2260.170.17
2–4300.200.37
4–6490.330.70
6–8250.170.87
8–10120.080.95
10–1280.051
Penyelidik B
Jam Dimainkan SemingguKekerapanFrekuensi relatifKekerapan relatif kumulatif
0–2480.320.32
2–4510.340.66
4–6240.160.82
6–8120.080.90
8–10110.070.97
10–1240.031

Latihan 1.3.29

Berikan sebab mengapa data mungkin berbeza.

Latihan 1.3.30

Adakah ukuran sampel cukup besar sekiranya populasi adalah pelajar di sekolah?

Jawapan

Ya, ukuran sampel 150 akan cukup besar untuk menggambarkan populasi satu sekolah.

Latihan 1.3.31

Adakah ukuran sampel cukup besar jika populasi adalah kanak-kanak berumur sekolah dan orang dewasa muda di Amerika Syarikat?

Latihan 1.3.32

Penyelidik A membuat kesimpulan bahawa kebanyakan pelajar bermain permainan video antara empat hingga enam jam setiap minggu. Penyelidik B menyimpulkan bahawa kebanyakan pelajar bermain permainan video antara dua hingga empat jam setiap minggu. Siapa yang betul?

Jawapan

Walaupun data khusus menyokong kesimpulan setiap penyelidik, hasil yang berbeza menunjukkan bahawa lebih banyak data perlu dikumpulkan sebelum penyelidik dapat mencapai kesimpulan.

Latihan 1.3.33

Sebagai sebahagian daripada cara memberi ganjaran kepada pelajar kerana mengambil bahagian dalam kaji selidik ini, para penyelidik memberikan kad hadiah kepada setiap pelajar ke kedai permainan video. Adakah ini akan mempengaruhi data sekiranya pelajar mengetahui tentang penghargaan sebelum kajian?

Gunakan data berikut untuk menjawab lima latihan seterusnya: Sepasang kajian dilakukan untuk mengukur keberkesanan program perisian baru yang dirancang untuk membantu pesakit strok mendapatkan kembali kemahiran menyelesaikan masalah mereka. Pesakit diminta untuk menggunakan program perisian dua kali sehari, sekali pada waktu pagi dan sekali pada waktu malam. Kajian mendapati 200 pesakit strok pulih dalam beberapa minggu. Kajian pertama mengumpulkan data dalam Jadual. Kajian kedua mengumpulkan data dalam Jadual.

KumpulanMenunjukkan peningkatanTidak ada peningkatanKemerosotan
Program terpakai1424315
Tidak menggunakan program7211018
KumpulanMenunjukkan peningkatanTidak ada peningkatanKemerosotan
Program terpakai1057419
Tidak menggunakan program899912

Latihan 1.3.34

Mengingat apa yang anda tahu, kajian mana yang betul?

Jawapan

Tidak ada cukup maklumat yang diberikan untuk menilai jika salah satu betul atau tidak.

Latihan 1.3.35

Kajian pertama dilakukan oleh syarikat yang merancang program perisian. Kajian kedua dilakukan oleh Persatuan Perubatan Amerika. Kajian mana yang lebih dipercayai?

Latihan 1.3.36

Kedua-dua kumpulan yang melakukan kajian menyimpulkan bahawa perisian berfungsi. Adakah ini tepat?

Jawapan

Program perisian nampaknya berfungsi kerana kajian kedua menunjukkan bahawa lebih banyak pesakit bertambah baik semasa menggunakan perisian daripada tidak. Walaupun perbezaannya tidak sebesar kajian pertama, hasil kajian kedua kemungkinan lebih dipercayai dan masih menunjukkan peningkatan.

Latihan 1.3.37

Syarikat itu mengambil dua kajian sebagai bukti bahawa perisian mereka menyebabkan peningkatan mental pada pesakit strok. Adakah ini pernyataan yang adil?

Latihan 1.3.38

Pesakit yang menggunakan perisian juga merupakan bagian dari program latihan sedangkan pesakit yang tidak menggunakan perisian tersebut tidak. Adakah ini mengubah kesahan kesimpulan dari Latihan?

Jawapan

Ya, kerana kami tidak dapat mengetahui apakah peningkatan itu disebabkan oleh perisian atau latihan; data tersebut dikelirukan, dan kesimpulan yang boleh dipercayai tidak dapat diambil. Kajian baru harus dilakukan.

Latihan 1.3.39

Adakah ukuran sampel 1,000 ukuran yang boleh dipercayai untuk populasi 5,000 orang?

Latihan 1.3.40

Adakah sampel 500 sukarelawan merupakan ukuran yang boleh dipercayai untuk populasi 2,500 orang?

Jawapan

Tidak, walaupun sampelnya cukup besar, fakta bahawa sampel terdiri daripada sukarelawan menjadikannya sampel yang dipilih sendiri, yang tidak boleh dipercayai.

Latihan 1.3.41

Satu soalan dalam tinjauan berbunyi: "Adakah anda lebih suka rasa Jenama X yang enak atau rasa Jenama Y?" Adakah ini soalan yang wajar?

Latihan 1.3.42

Adakah ukuran sampel dua wakil populasi lima orang?

Jawapan

Tidak, walaupun sampelnya adalah sebahagian besar populasi, dua tanggapan tidak cukup untuk membenarkan kesimpulan apa pun. Oleh kerana populasinya sangat kecil, lebih baik memasukkan semua orang dalam populasi untuk mendapatkan data yang paling tepat.

Latihan 1.3.43

Adakah mungkin dua eksperimen dijalankan dengan baik dengan ukuran sampel yang serupa untuk mendapatkan data yang berbeza?

Bawa Bersama

Latihan 1.3.44

Tujuh ratus tujuh puluh satu pelajar pembelajaran jarak jauh di Long Beach City College memberi respons kepada tinjauan pada tahun akademik 2010-11. Sorotan laporan ringkasan disenaraikan di bawah.

Hasil Kajian Pembelajaran Jarak Jauh LBCC
Mempunyai komputer di rumah96%
Tidak dapat datang ke kampus untuk kelas65%
Umur 41 tahun ke atas24%
Ingin LBCC menawarkan lebih banyak kursus DL95%
Mengambil kelas DL kerana kecacatan17%
Tinggal sekurang-kurangnya 26 batu dari kampus13%
Mengikuti kursus DL untuk memenuhi syarat pemindahan71%
  1. Berapa peratus pelajar yang ditinjau tidak mempunyai komputer di rumah?
  2. Berapa banyak pelajar dalam kaji selidik yang tinggal sekurang-kurangnya 16 batu dari kampus?
  3. Sekiranya tinjauan yang sama dilakukan di Great Basin College di Elko, Nevada, adakah anda fikir peratusannya akan sama? Kenapa?

Latihan 1.3.45

Beberapa peruncit buku teks dalam talian mengiklankan bahawa mereka mempunyai harga yang lebih rendah daripada kedai buku di kampus. Walau bagaimanapun, faktor penting ialah sama ada peruncit Internet mempunyai buku teks yang diperlukan oleh pelajar. Pelajar perlu mendapatkan buku teks dengan segera pada awal penggal kuliah. Sekiranya buku itu tidak tersedia, pelajar tidak akan dapat memperoleh buku teks sama sekali, atau mungkin akan mendapat penghantaran yang tertunda sekiranya buku itu dipesan semula.

Seorang wartawan akhbar kolej sedang menyiasat ketersediaan buku teks di peruncit dalam talian. Dia memutuskan untuk menyelidiki satu buku teks untuk setiap tujuh subjek berikut: kalkulus, biologi, kimia, fizik, statistik, geologi, dan kejuruteraan am. Dia berunding dengan data penjualan industri buku teks dan memilih buku teks yang paling popular digunakan dalam setiap subjek ini. Dia mengunjungi laman web untuk sampel rawak utama penjual buku teks dalam talian dan mencari setiap tujuh buku teks ini untuk melihat apakah buku tersebut tersedia dalam stok untuk penghantaran cepat melalui peruncit ini. Berdasarkan penyelidikannya, dia menulis sebuah artikel di mana dia membuat kesimpulan mengenai keseluruhan ketersediaan semua buku teks perguruan melalui peruncit buku teks dalam talian.

Tuliskan analisis kajiannya yang menangani isu-isu berikut: Adakah sampelnya mewakili populasi semua buku teks perguruan? Terangkan mengapa atau mengapa tidak. Huraikan beberapa kemungkinan sumber bias dalam kajian ini, dan bagaimana ia boleh mempengaruhi hasil kajian. Berikan beberapa cadangan mengenai apa yang boleh dilakukan untuk meningkatkan kajian.

Jawapan

Jawapan akan berbeza-beza. Jawapan sampel: Sampel tidak mewakili populasi semua buku teks kolej. Dua sebab mengapa tidak representatif adalah kerana dia hanya mengambil tujuh subjek dan dia hanya menyelidiki satu buku teks dalam setiap subjek. Terdapat beberapa kemungkinan sumber bias dalam kajian ini. Tujuh subjek yang disiasatnya semuanya dalam matematik dan sains; terdapat banyak subjek dalam bidang kemanusiaan, sains sosial, dan bidang subjek lain, (misalnya: sastera, seni, sejarah, psikologi, sosiologi, perniagaan) yang sama sekali tidak dia selidiki Mungkin bidang yang berbeza menunjukkan corak ketersediaan buku teks yang berbeza, tetapi sampelnya tidak dapat mengesan hasil tersebut.

Dia juga hanya melihat buku teks yang paling popular dalam setiap subjek yang dia selidiki. Ketersediaan buku teks yang paling popular mungkin berbeza dengan ketersediaan buku teks lain dengan salah satu daripada dua cara:

  • buku teks yang paling popular mungkin lebih mudah didapati dalam talian, kerana lebih banyak salinan baru dicetak, dan lebih banyak pelajar di seluruh negara menjual kembali salinan terpakai ATAU
  • buku teks yang paling popular mungkin sukar didapati dalam talian, kerana lebih banyak permintaan pelajar menghabiskan bekalan dengan lebih cepat.

Pada hakikatnya, banyak pelajar kolej tidak menggunakan buku teks yang paling popular dalam subjek mereka, dan kajian ini tidak memberikan maklumat berguna mengenai keadaan bagi buku teks yang kurang popular itu.

Dia dapat meningkatkan kajian ini dengan:

  • memperluas pemilihan mata pelajaran yang disiasatnya agar lebih mewakili semua mata pelajaran yang dipelajari oleh pelajar kolej, dan
  • memperluas pemilihan buku teks yang dia selidiki dalam setiap subjek untuk memasukkan perwakilan campuran kedua-dua buku teks yang paling popular dan kurang popular.

Untuk latihan berikut, kenal pasti jenis data yang akan digunakan untuk menggambarkan respons (kuantitatif diskrit, kuantitatif berterusan, atau kualitatif), dan berikan contoh data.

Q 1.3.1

bilangan tiket yang dijual ke konsert

S 1.3.1

diskrit kuantitatif, 150

Q 1.3.2

peratus lemak badan

Q 1.3.3

pasukan besbol kegemaran

S 1.3.3

kualitatif, Oakland A's

Q 1.3.4

masa sesuai untuk membeli barang runcit

Q 1.3.5

bilangan pelajar yang mendaftar di Evergreen Valley College

S 1.3.5

diskrit kuantitatif, 11,234 pelajar

Q 1.3.6

rancangan televisyen yang paling banyak ditonton

Q 1.3.7

jenama ubat gigi

S 1.3.7

kualitatif, Crest

Q 1.3.8

jarak ke pawagam terdekat

Q 1.3.9

umur eksekutif di syarikat Fortune 500

S 1.3.9

berterusan kuantitatif, 47.3 tahun

Q 1.3.10

sebilangan pakej perisian hamparan komputer yang bersaing

Gunakan maklumat berikut untuk menjawab dua latihan seterusnya: Satu kajian dilakukan untuk menentukan usia, berapa kali seminggu, dan jangka waktu (jumlah waktu) penggunaan penduduk dari taman tempatan di San Jose. Rumah pertama di kawasan sekitar taman dipilih secara rawak dan kemudian setiap rumah ke-8 di kawasan sekitar taman ditemu ramah.

Q 1.3.11

"Berapa kali dalam seminggu" adalah jenis data apa?

  1. kualitatif
  2. diskrit kuantitatif
  3. kuantitatif berterusan

Q 1.3.12

"Tempoh (jumlah masa)" adalah jenis data apa?

  1. kualitatif
  2. diskrit kuantitatif
  3. kuantitatif berterusan

Q 1.3.13

Syarikat penerbangan berminat dengan konsistensi jumlah bayi dalam setiap penerbangan, sehingga mereka memiliki peralatan keselamatan yang mencukupi. Katakan syarikat penerbangan menjalankan tinjauan. Pada hujung minggu Thanksgiving, ia meninjau enam penerbangan dari Boston ke Salt Lake City untuk menentukan jumlah bayi dalam penerbangan tersebut. Ini menentukan jumlah peralatan keselamatan yang diperlukan oleh hasil kajian itu.

  1. Dengan menggunakan ayat yang lengkap, senaraikan tiga perkara yang salah dengan cara tinjauan dijalankan.
  2. Dengan menggunakan ayat yang lengkap, senaraikan tiga cara untuk memperbaiki tinjauan sekiranya diulang.

S 1.3.13

  1. Tinjauan dilakukan dengan menggunakan enam penerbangan serupa.
    Tinjauan ini tidak akan menjadi gambaran sebenar seluruh populasi pelancong udara.
    Melakukan tinjauan pada hujung minggu percutian tidak akan menghasilkan hasil yang representatif.
  2. Lakukan tinjauan pada masa yang berlainan dalam setahun.
    Lakukan tinjauan menggunakan penerbangan ke dan dari pelbagai lokasi.
    Lakukan tinjauan pada hari yang berlainan dalam seminggu.

Q 1.3.14

Andaikan anda ingin menentukan jumlah min pelajar setiap kelas statistik di negeri anda. Huraikan kemungkinan kaedah persampelan dalam tiga hingga lima ayat yang lengkap. Buat penerangan terperinci.

Q 1.3.15

Katakan anda ingin menentukan jumlah purata tin soda yang diminum setiap bulan oleh pelajar berusia dua puluhan di sekolah anda. Buat penerangan terperinci.

S 1.3.15

Jawapan akan berbeza-beza. Jawapan Contoh: Anda boleh menggunakan kaedah persampelan sistematik. Hentikan orang kesepuluh ketika mereka meninggalkan salah satu bangunan di kampus pada jam 9:50 pagi. Kemudian hentikan orang kesepuluh ketika mereka meninggalkan bangunan yang berbeza di kampus pada pukul 1:50 pada waktu petang.

Q 1.3.16

Senaraikan beberapa kesukaran praktikal untuk mendapatkan hasil yang tepat dari tinjauan telefon.

Q 1.3.17

Senaraikan beberapa kesukaran praktikal yang terlibat dalam mendapatkan hasil yang tepat dari tinjauan melalui pos.

S 1.3.17

Jawapan akan berbeza-beza. Contoh Jawapan: Ramai orang tidak akan menjawab tinjauan surat. Sekiranya mereka menjawab tinjauan, anda tidak pasti siapa yang memberi respons. Di samping itu, senarai mel tidak lengkap.

Q 1.3.18

Bersama rakan sekelas anda, sumbang saran beberapa cara untuk mengatasi masalah ini sekiranya anda perlu melakukan tinjauan melalui telefon atau surat.

Q 1.3.19

Pengajar mengambil sampelnya dengan mengumpulkan data mengenai lima pelajar terpilih secara rawak dari setiap kelas matematik Kolej Komuniti Lake Tahoe. Jenis persampelan yang digunakannya adalah

  1. persampelan kluster
  2. persampelan berstrata
  3. persampelan rawak mudah
  4. pensampelan kemudahan

Q 1.3.20

Satu kajian dilakukan untuk menentukan usia, jumlah kali seminggu, dan jangka masa (jumlah waktu) penduduk yang menggunakan taman tempatan di San Jose. Rumah pertama di kawasan sekitar taman dipilih secara rawak dan kemudian setiap rumah kelapan di kawasan sekitar taman ditemu ramah. Kaedah persampelan adalah:

  1. rawak mudah
  2. sistematik
  3. berstrata
  4. gugusan

Q 1.3.21

Namakan kaedah persampelan yang digunakan dalam setiap situasi berikut:

  1. Seorang wanita di lapangan terbang menyerahkan borang soal selidik kepada pelancong yang meminta mereka menilai perkhidmatan lapangan terbang. Dia tidak meminta pelancong yang bergegas melalui lapangan terbang dengan tangan penuh barang, tetapi meminta semua pelancong yang duduk di dekat pintu pagar dan tidak tidur siang ketika mereka menunggu.
  2. Seorang guru ingin mengetahui sama ada pelajarnya membuat kerja rumah, jadi dia memilih baris dua dan lima secara rawak dan kemudian memanggil semua pelajar di baris dua dan semua pelajar di baris lima untuk menyampaikan penyelesaian untuk masalah kerja rumah ke kelas.
  3. Pengurus pemasaran untuk kedai rantai elektronik mahukan maklumat mengenai usia pelanggannya. Selama dua minggu ke depan, di setiap lokasi kedai, 100 pelanggan yang dipilih secara rawak diberi borang soal selidik untuk mengisi meminta maklumat mengenai usia, dan juga mengenai pemboleh ubah minat yang lain.
  4. Pustakawan di perpustakaan awam ingin menentukan berapa bahagian pengguna perpustakaan adalah kanak-kanak. Pustakawan mempunyai lembaran penghitungan di mana dia menandakan sama ada buku diperiksa oleh orang dewasa atau kanak-kanak. Dia mencatat data ini untuk setiap pelindung keempat yang memeriksa buku.
  5. Sebuah parti politik ingin mengetahui reaksi pengundi terhadap perbahasan antara calon. Sehari selepas perdebatan, kakitangan pengundian parti memanggil 1,200 nombor telefon yang dipilih secara rawak. Sekiranya pemilih berdaftar menjawab telefon atau ada yang boleh dihubungi, pemilih berdaftar itu akan ditanya siapa yang ingin dia pilih dan apakah perdebatan itu mengubah pendapatnya tentang calon.

S 1.3.21

  1. kemudahan
  2. gugusan
  3. berstrata
  4. sistematik
  5. rawak mudah

Q 1.3.22

"Tinjauan rawak" dilakukan terhadap 3,274 orang dari "generasi mikropemproses" (orang yang dilahirkan sejak 1971, tahun mikropemproses diciptakan). Dilaporkan bahawa 48% individu yang disurvei menyatakan bahawa jika mereka mempunyai $ 2,000 untuk dibelanjakan, mereka akan menggunakannya untuk peralatan komputer. Juga, 66% daripada mereka yang disurvei menganggap diri mereka pengguna komputer yang agak bijak.

  1. Adakah anda menganggap ukuran sampel cukup besar untuk kajian jenis ini? Mengapa atau mengapa tidak?
  2. Berdasarkan "perasaan usus" anda, adakah anda percaya bahawa peratusannya menggambarkan populasi A.S. dengan tepat bagi individu yang dilahirkan sejak tahun 1971? Sekiranya tidak, adakah anda berpendapat bahawa peratus penduduk sebenarnya lebih tinggi atau lebih rendah daripada statistik sampel? Kenapa?
    Maklumat tambahan: Tinjauan itu, yang dilaporkan oleh Intel Corporation, diisi oleh individu yang mengunjungi Pusat Konvensyen Los Angeles untuk melihat pameran jalan raya Smithsonian Institute yang disebut "America's Smithsonian."
  3. Dengan maklumat tambahan ini, adakah anda merasakan bahawa semua kumpulan demografi dan etnik sama-sama diwakili dalam acara tersebut? Mengapa atau mengapa tidak?
  4. Dengan maklumat tambahan, komen seberapa tepat anda berpendapat statistik sampel menggambarkan parameter populasi.

Q 1.3.23

Indeks Kesejahteraan Gallup-Healthways adalah tinjauan yang mengikuti trend penduduk A.S. secara berkala. Terdapat enam bidang kesihatan dan kesejahteraan yang diliputi dalam tinjauan: Penilaian Kehidupan, Kesihatan Emosi, Kesihatan Fizikal, Tingkah laku Sihat, Persekitaran Kerja, dan Akses Asas. Beberapa soalan yang digunakan untuk mengukur Indeks disenaraikan di bawah.

Kenal pasti jenis data yang diperoleh dari setiap soalan yang digunakan dalam tinjauan ini: kualitatif, diskrit kuantitatif, atau berterusan kuantitatif.

  1. Adakah anda mempunyai masalah kesihatan yang menghalang anda daripada melakukan perkara-perkara yang biasanya dilakukan oleh orang-orang anda pada usia ini?
  2. Selama 30 hari yang lalu, selama berapa hari kesihatan yang buruk membuat anda tidak dapat melakukan aktiviti biasa?
  3. Dalam tujuh hari terakhir, berapa hari anda bersenam selama 30 minit atau lebih?
  4. Adakah anda mempunyai perlindungan insurans kesihatan?

S 1.3.23

  1. kualitatif
  2. diskrit kuantitatif
  3. diskrit kuantitatif
  4. kualitatif

Q 1.3.24

Menjelang Pemilihan Presiden 1936, sebuah majalah yang bertajuk Literary Digest mengeluarkan hasil tinjauan pendapat yang meramalkan bahawa calon republik Alf Landon akan menang dengan margin yang besar. Majalah itu menghantar kad pos kepada kira-kira 10,000,000 calon pengundi. Calon pemilih ini dipilih dari daftar langganan majalah, dari daftar pendaftaran kenderaan, dari senarai telefon, dan dari daftar keahlian kelab. Lebih kurang 2,300,000 orang mengembalikan poskad.

  1. Fikirkan tentang keadaan Amerika Syarikat pada tahun 1936. Jelaskan mengapa sampel yang dipilih dari senarai langganan majalah, senarai pendaftaran kenderaan, buku telefon, dan senarai keahlian kelab tidak mewakili penduduk Amerika Syarikat pada masa itu.
  2. Apakah kesan kadar tindak balas rendah terhadap kebolehpercayaan sampel?
  3. Adakah masalah ini merupakan contoh ralat persampelan atau ralat bukan sampel?
  4. Pada tahun yang sama, George Gallup melakukan tinjauan sendiri terhadap 30,000 calon pengundi. Penyelidiknya menggunakan kaedah yang mereka sebut "quota sampling" untuk mendapatkan jawapan tinjauan dari subset populasi tertentu. Persampelan kuota adalah contoh kaedah persampelan yang dijelaskan dalam modul ini?

Q 1.3.25

Statistik berkaitan dengan jenayah dan demografi untuk 47 negeri AS pada tahun 1960 dikumpulkan dari agensi kerajaan, termasuk FBI Laporan Jenayah Beruniform. Satu analisis data ini mendapati hubungan yang kuat antara pendidikan dan jenayah menunjukkan bahawa tahap pendidikan yang lebih tinggi dalam komuniti sesuai dengan kadar jenayah yang lebih tinggi.

Manakah masalah berpotensi dengan sampel yang dibincangkan dalam [link] yang dapat menjelaskan hubungan ini?

S 1.3.26

Kausaliti: Fakta bahawa dua pemboleh ubah saling berkaitan tidak menjamin bahawa satu pemboleh ubah mempengaruhi yang lain. Kita tidak boleh menganggap bahawa kadar jenayah mempengaruhi tahap pendidikan atau tahap pendidikan mempengaruhi kadar jenayah.

Kekeliruan: Terdapat banyak faktor yang menentukan masyarakat selain tahap pendidikan dan kadar jenayah. Komuniti dengan kadar jenayah tinggi dan tahap pendidikan tinggi mungkin mempunyai pemboleh ubah bersembunyi lain yang membezakannya dengan masyarakat dengan kadar jenayah yang lebih rendah dan tahap pendidikan yang lebih rendah. Kerana kita tidak dapat mengasingkan pemboleh ubah minat ini, kita tidak dapat membuat kesimpulan yang sahih mengenai hubungan antara pendidikan dan jenayah. Kemungkinan pemboleh ubah mengintai termasuk perbelanjaan polis, tahap pengangguran, wilayah, usia rata-rata, dan ukuran.

Q 1.3.27

YouPolls adalah laman web yang membolehkan sesiapa sahaja membuat dan bertindak balas terhadap tinjauan pendapat. Satu soalan yang disiarkan pada 15 April bertanya:

"Adakah anda merasa senang membayar cukai anda ketika anggota pemerintahan Obama diizinkan untuk mengabaikan tanggungjawab cukai mereka?"1

Sehingga 25 April, 11 orang telah menjawab soalan ini. Setiap peserta menjawab "TIDAK!"

Manakah masalah yang berpotensi dengan sampel yang dibincangkan dalam modul ini dapat menjelaskan hubungan ini?

Q 1.3.28

Artikel ilmiah mengenai kadar respons bermula dengan petikan berikut:

"Penurunan kadar hubungan dan kerjasama dalam dail digit rawak (RDD) tinjauan telefon nasional menimbulkan kebimbangan serius mengenai kesahan anggaran yang diambil dari penyelidikan tersebut."2

Pusat Penyelidikan Pew untuk Orang dan Akhbar mengakui:

"Peratusan orang yang kita wawancara - dari semua yang kita wawancara - telah menurun selama satu dekad yang lalu atau lebih."3

  1. Apakah beberapa sebab penurunan kadar tindak balas dalam dekad yang lalu?
  2. Terangkan mengapa penyelidik prihatin dengan kesan penurunan kadar tindak balas terhadap tinjauan pendapat orang ramai.

S 1.3.28

  1. Sebab yang mungkin: peningkatan penggunaan id pemanggil, penurunan penggunaan talian tetap, peningkatan penggunaan nombor peribadi, mel suara, pengurus privasi, sifat jadual peribadi yang sibuk, penurunan kesediaan untuk ditemu ramah
  2. Apabila sebilangan besar orang enggan mengambil bahagian, maka sampel tersebut mungkin tidak mempunyai ciri populasi yang sama. Mungkin majoriti orang yang sudi mengambil bahagian melakukannya kerana mereka sangat berminat dengan subjek tinjauan.

1.4: Frekuensi, Jadual Frekuensi, dan Tahap Pengukuran

Q 1.4.1

Lima puluh pelajar separuh masa ditanya berapa banyak kursus yang mereka ambil dalam penggal ini. Hasil (tidak lengkap) ditunjukkan di bawah:

Beban Kursus Pelajar Separuh Masa
# KursusKekerapanFrekuensi relatifKekerapan relatif kumulatif
1300.6
215
3
  1. Isi tempat kosong dalam Jadual.
  2. Berapakah peratus pelajar yang mengikuti dua kursus?
  3. Berapakah peratus pelajar yang mengikuti satu atau dua kursus?

Q 1.4.2

Enam puluh orang dewasa dengan penyakit gusi ditanya berapa kali setiap minggu mereka menggunakan benang sebelum diagnosis mereka. Hasil (tidak lengkap) ditunjukkan dalam Jadual.

Kekerapan Flossing untuk Orang Dewasa dengan Penyakit Gusi
# Flossing SemingguKekerapanFrekuensi relatifFrekuensi Relatif Kumulatif.
0270.4500
118
30.9333
630.0500
710.0167
  1. Isi tempat kosong dalam Jadual.
  2. Berapa peratus orang dewasa yang melakukan flos enam kali seminggu?
  3. Berapa peratus floss paling banyak tiga kali seminggu?

S 1.4.2

  1. # Flossing SemingguKekerapanFrekuensi relatifKekerapan relatif kumulatif
    0270.45000.4500
    1180.30000.7500
    3110.18330.9333
    630.05000.9833
    710.01671
  2. 5.00%
  3. 93.33%

Q 1.4.3

Sembilan belas pendatang ke AS ditanya berapa tahun, hingga tahun terdekat, mereka tinggal di A.S. Data tersebut adalah seperti berikut: 2; 5; 7; 2; 2; 10; 20; 15; 0; 7; 0; 20; 5; 12; 15; 12; 45; 10.

Jadual dihasilkan.

Kekerapan Tinjauan Kajian Imigran
DataKekerapanFrekuensi relatifKekerapan relatif kumulatif
022192190.1053
233193190.2632
411191190.3158
533193190.4737
722192190.5789
1022192190.6842
1222192190.7895
1511191190.8421
2011191191.0000
  1. Perbaiki kesilapan dalam Jadual. Juga, terangkan bagaimana seseorang boleh sampai pada nombor yang salah.
  2. Terangkan apa yang salah dengan pernyataan ini: "47 peratus orang yang ditinjau telah tinggal di A.S. selama 5 tahun."
  3. Betulkan penyataan di b untuk menjadikannya betul.
  4. Berapakah bahagian orang yang ditinjau telah tinggal di A.S. lima atau tujuh tahun?
  5. Berapa bahagian orang yang ditinjau telah tinggal di A.S. paling lama 12 tahun?
  6. Berapakah bahagian orang yang ditinjau telah tinggal di A.S. kurang dari 12 tahun?
  7. Berapa bahagian orang yang ditinjau telah tinggal di A.S. dari lima hingga 20 tahun, termasuk?

Q 1.4.4

Berapa lama masa perjalanan untuk bekerja? Jadual menunjukkan purata waktu perjalanan mengikut negeri bagi pekerja yang berumur sekurang-kurangnya 16 tahun yang tidak bekerja di rumah. Cari purata masa perjalanan, dan lengkapkan jawapan dengan betul.

24.024.325.918.927.517.921.820.916.727.3
18.224.720.022.623.918.031.422.324.025.5
24.724.628.124.922.623.623.425.724.825.5
21.225.723.123.023.926.016.323.121.421.5
27.027.018.631.723.330.122.923.321.718.6

S 1.4.4

Jumlah masa perjalanan adalah 1,173.1. Bahagikan jumlah dengan 50 untuk mengira nilai min: 23.462. Oleh kerana masa perjalanan setiap negeri diukur hingga kesepuluh terdekat, bulatkan pengiraan ini ke perseratus terdekat: 23.46.

Q 1.4.5

Forbes majalah menerbitkan data mengenai syarikat kecil terbaik pada tahun 2012. Ini adalah syarikat yang diperdagangkan secara terbuka sekurang-kurangnya setahun, mempunyai harga saham sekurang-kurangnya $ 5 per saham, dan telah melaporkan pendapatan tahunan antara $ 5 juta hingga $ 1 bilion. Jadual menunjukkan usia ketua pegawai eksekutif untuk 60 syarikat peringkat pertama.

UmurKekerapanFrekuensi relatifKekerapan relatif kumulatif
40–443
45–4911
50–5413
55–5916
60–6410
65–696
70–741
  1. Berapakah kekerapan untuk CEO berusia antara 54 dan 65 tahun?
  2. Berapakah peratusan CEO yang berumur 65 tahun ke atas?
  3. Berapakah kekerapan relatif umur di bawah 50 tahun?
  4. Berapakah kekerapan relatif terkumpul untuk CEO yang berumur kurang dari 55 tahun?
  5. Graf yang manakah menunjukkan frekuensi relatif dan yang manakah menunjukkan frekuensi relatif kumulatif?

Rajah 1.4.1. (a)Rajah 1.4.1. (b)

Gunakan maklumat berikut untuk menjawab dua latihan seterusnya: Jadual mengandungi data mengenai taufan yang telah membuat serangan langsung di A.S. Antara tahun 1851 dan 2004. Taufan diberi penarafan kategori kekuatan berdasarkan kelajuan angin minimum yang dihasilkan oleh ribut.

Kekerapan Hurricane Direct Hits
KategoriBilangan Hit LangsungFrekuensi relatifKekerapan Kumulatif
Jumlah = 273
11090.39930.3993
2720.26370.6630
3710.2601
4180.9890
530.01101.0000

Q 1.4.6

Berapakah kekerapan relatif serangan langsung yang merupakan taufan kategori 4?

  1. 0.0768
  2. 0.0659
  3. 0.2601
  4. Tidak cukup maklumat untuk dikira

Q 1.4.7

Berapakah kekerapan relatif hits langsung yang paling kerap berlaku dalam kategori 3?

  1. 0.3480
  2. 0.9231
  3. 0.2601
  4. 0.3370

1.5: Reka Bentuk dan Etika Eksperimen

Q 1.5.1

Bagaimana kurang tidur mempengaruhi kemampuan anda untuk memandu? Satu kajian baru-baru ini mengukur kesan terhadap 19 pemandu profesional. Setiap pemandu mengambil bahagian dalam dua sesi eksperimen: satu selepas tidur normal dan satu selepas 27 jam kurang tidur. Rawatan tersebut diberikan mengikut urutan rawak. Dalam setiap sesi, prestasi diukur pada berbagai tugas termasuk simulasi memandu.

Gunakan istilah utama dari modul ini untuk menerangkan reka bentuk eksperimen ini.

S 1.5.1

Pembolehubah penjelasan: jumlah tidur

Pemboleh ubah respons: prestasi diukur dalam tugas yang diberikan

Rawatan: tidur normal dan kurang 27 jam kurang tidur

Unit Eksperimen: 19 pemandu profesional

Pemboleh ubah mengintai: tidak ada - semua pemandu mengambil bahagian dalam kedua-dua rawatan

Tugasan secara rawak: rawatan diberikan mengikut urutan rawak; ini menghilangkan kesan "pembelajaran" yang mungkin berlaku semasa sesi eksperimen pertama

Control / Placebo: menyelesaikan sesi eksperimen dalam keadaan tidur normal

Membutakan: penyelidik yang menilai prestasi subjek mesti tidak tahu rawatan yang sedang dilakukan pada masa itu

Q 1.5.2

Iklan untuk Acme Investments memaparkan dua grafik dalam Gambar untuk menunjukkan nilai produk Acme berbanding dengan produk Other Guy. Terangkan kesan visual yang mungkin mengelirukan pada grafik perbandingan ini. Bagaimana ini boleh diperbetulkan?

Rajah 1.5.1. (a)Rajah 1.5.1. (a)

Seperti yang ditunjukkan oleh grafik, Acme secara konsisten mengatasi Lelaki Lain!

Q 1.5.3

Grafik dalam Gambar menunjukkan jumlah aduan untuk enam syarikat penerbangan yang berlainan seperti yang dilaporkan kepada Jabatan Perhubungan AS pada bulan Februari 2013. Alaska, Pinnacle, dan Airtran Airlines mempunyai aduan yang jauh lebih sedikit daripada Amerika, Delta, dan United. Bolehkah kita membuat kesimpulan bahawa Amerika, Delta, dan United adalah syarikat penerbangan paling teruk kerana mereka mempunyai banyak aduan?

Rajah 1.5.2.

S 1.5.3

Anda tidak boleh menganggap bahawa jumlah aduan menunjukkan kualiti syarikat penerbangan. Syarikat penerbangan yang ditunjukkan dengan jumlah aduan paling banyak adalah yang mempunyai jumlah penumpang paling banyak. Anda mesti mempertimbangkan kesesuaian kaedah untuk menyampaikan data; dalam kes ini menunjukkan jumlah adalah mengelirukan.

1.6: Eksperimen Pengumpulan Data


Intervensi Matematik Berasaskan Sistematik untuk Pelajar Berisiko

Vmath & reg Edisi Ketiga adalah program intervensi matematik yang disasarkan untuk pelajar yang berjuang di gred 2 & ndash8 yang memberi peluang tambahan untuk menguasai konsep dan kemahiran matematik kritikal. Vmath menyampaikan isi penting menggunakan strategi yang terbukti dapat mempercepat dan memotivasi pelajar yang berisiko.

Vmath Sedia Jauh dengan:

Sumber Guru Dalam Talian ● Pusat Pelajar VmathLive: komponen pembelajaran berpusatkan pelajar berasaskan web yang interaktif ● Gizmos: simulasi matematik dalam talian interaktif modular ● e-buku ● Pelajaran Kilat Matematik ● Pelajaran Penemuan Berpandu ● Pelajaran Pengembaraan Digital ● Pelajaran Reteach Dalam Talian ● Halaman Amalan Tambahan ● Dalam talian Penilaian ● Idea Penglibatan Pelajar Jauh


2.8: Persampelan dan Data (Latihan) - Matematik

Apakah maksud garis besar $ mu _ <> garis besar $ dan $ sigma _ <> $ mewakili?

Huraikan bentuk, pusat, dan penyebaran taburan sarana sampel untuk beberapa ukuran sampel yang diberi $ n $.

Sekiranya kita meningkatkan saiz sampel, apa kesannya terhadap pengagihan sampel?

  1. Taburan sarana sampel mengikuti taburan normal, dengan rata-rata sama dengan taburan asal, dan dengan sisihan piawai sama dengan sisihan piawai taburan asal dibahagi dengan $ sqrt$.
  2. Sisihan piawai pengagihan sampel bermaksud menurun (iaitu, pengedaran menjadi lebih sempit.)

Bandingkan taburan kebarangkalian untuk melancarkan die 6-sisi tunggal dengan taburan kebarangkalian untuk min dua dadu 6-sisi (lukis histogram).

Tinjauan mendapati bahawa keluarga Amerika menghasilkan purata 17.2 paun sampah kaca setiap tahun. Anggap sisihan piawai taburan ialah 2.5 paun.

Cari kebarangkalian bahawa purata sampel 55 keluarga adalah antara 17 dan 18 paun.

Mengapa teorema had pusat dapat diterapkan?

Untuk pengagihan sampel bermaksud, $ mu = 17.2 $, sementara $ sigma = 2.5 / sqrt <55> = 0.3371 $. Kami mahukan $ P (17 lt x lt 18) $, jadi kami dapati $ z_ <17> = (17-17.2) /0.3371 = -0.5933 $ dan $ z_ <18> = (18-17.2) /0.3371 = 0.2373 $ dan kebarangkalian yang berkaitan $ P (-0.5933 lt z 0.2373) = 0.3173 $ adalah jawapan kami.

Kami sedang mempertimbangkan pengedaran kaedah sampel, jadi Teorema Batas Pusat berlaku. (Juga, sebanyak $ 55 gt 30 $, kita dapat mengira pengagihan sampel ini sebagai taburan biasa.)

Purata gaji guru di New Jersey ialah $ $ 52,174 $. Anggaplah taburannya normal dengan sisihan piawai $ $ 7500 $.

Berapakah kebarangkalian bahawa guru yang dipilih secara rawak menghasilkan kurang dari $ $ 50,000 $ setahun?

Sekiranya kita mengambil sampel gaji 100 guru, berapakah kemungkinan nilai sampel kurang dari $ $ 50,000 $ setahun?

Mengapa kebarangkalian di bahagian (a) lebih tinggi daripada kebarangkalian di bahagian (b)?

$ mu = 52174 $ dan $ sigma = 7500 $. Mencari $ z_ <50,000> = (50000 - 52174) / 7500 = -0,2899 $, kami mencari $ P (x lt 50000) = P (z lt -0,2899) = 0,3860 $

Dalam pengedaran kaedah sampel berukuran $ 100 $, kita mempunyai $ mu = 52174 $, sementara $ sigma = 7500 / sqrt <100> = 750 $. Oleh itu, kita dapati $ z_ <50,000> = (50000 - 52174) / 750 = -2.8987 $, dan hitung $ P ( overline lt 50000) $ sebagai $ P (z lt -2.8987) = 0,0019 $.

Teorema Batas Pusat menunjukkan bahawa penyebaran sarana sampel lebih sempit daripada taburan untuk populasi - meninggalkan kawasan yang lebih sedikit (dan karenanya kebarangkalian) di ekor.

Andaikan skor SAT biasanya diedarkan dengan min 1518 dan sisihan piawai 325.

Sekiranya satu skor SAT dipilih secara rawak, cari kebarangkalian ia antara 1440 dan 1480.

Sekiranya 16 skor SAT dipilih secara rawak, cari kebarangkalian bahawa mereka mempunyai min antara 1440 dan 1480.

Mengapa teorema had pusat boleh digunakan di bahagian (b) walaupun ukuran sampel tidak melebihi 30?

$ mu = 1518 $ dan $ sigma = 325 $. Mencari $ z_ <1440> = (1440-1518) / 325 = -0.2400 $ dan $ z_ <1480> = (1480-1518) / 325 = -0.1169 $, kami mengira $ P (1440 lt x lt 1480) $ sebagai $ P (-0.2400 lt z lt -0.1169) = 0.0483 $.

Dalam pengedaran kaedah sampel berukuran $ 16 $, kita mempunyai $ mu = 1518 $, sementara $ sigma = 325 / sqrt <16> = 81.25 $. Mencari $ z_ <1440> = (1440-1518) /81.25 = -0.96 $ dan $ z_ <1480> = (1480 - 1518) /81.25 = -0.4677 $, kami mengira $ P (1440 lt overline lt 1480) $ sebagai $ P (-0.96 lt z lt -0.4677) = 0.1515 $.

Teorema Batas Pusat memberitahu kita bahawa pengagihan sampel bermaksud cenderung ke arah taburan normal ketika ukuran sampel meningkat. Dalam kes ini, taburan penduduk asal sudah diedarkan secara normal, jadi semua taburan sarana sampel mestilah normal.

Panjang kehamilan biasanya diedarkan dengan purata 268 hari dan sisihan piawai 15 hari.

Sekiranya seorang wanita hamil dipilih secara rawak, cari kebarangkalian panjang kehamilannya kurang dari 260 hari.

Sekiranya 25 wanita hamil menjalani diet khas sebelum mereka hamil, cari kebarangkalian bahawa panjang kehamilan mereka mempunyai maksud kurang dari 260 hari (dengan anggapan bahawa diet itu tidak memberi kesan).

Sekiranya 25 wanita tersebut memiliki arti kurang dari 260 hari, adakah makanan itu berpengaruh pada panjang kehamilan, dan haruskah pengawas perubatan prihatin?

$ mu = 268 $ dan $ sigma = 15 $. Dengan mencari $ z_ <260> = (260-268) / 15 = -0.5333 $, kami mengira $ P (x lt 260) $ sebagai $ P (z lt -0.5333) = 0.2969 $.

Dalam pengedaran kaedah sampel berukuran $ 25 $, kita mempunyai $ mu = 260 $, sementara $ sigma = 15 / sqrt <25> = 3 $. Dengan mencari $ z_ <260> = (260 - 268) / 3 = -2,6666 $, kami mengira $ P (x lt 260) $ sebagai $ P (z lt -2,6666) = 0,0038 $.

Melihat contoh seperti ini (iaitu, dengan min kurang dari 260 doys) jelas merupakan peristiwa yang jarang berlaku ($ 0,0038 kurang dari satu peratus). Oleh itu, jika satu-satunya sampel yang kami dapati mempunyai jangka masa kehamilan yang minima, ini akan menimbulkan keraguan sama ada atau tidak untuk wanita ini masih $ 268 $ hari (seperti melihat peristiwa 99 yang sangat jarang berlaku daripada 100 kepingan duit syiling yang dihasilkan di kepala menimbulkan keraguan terhadap kepercayaan anda bahawa duit syiling yang dibalik itu adil). Satu-satunya perkara yang memisahkan wanita ini dari populasi umum adalah diet khas mereka - jadi ya, nampaknya diet itu memberi kesan pada tempoh kehamilan mereka. Penyelia perubatan harus prihatin.

Andaikan bahawa ujian mempunyai skor min 75 dan sisihan piawai 10. Andaikan taburan skor kira-kira normal.

Apakah kebarangkalian seseorang yang dipilih secara rawak akan membuat 100 atau lebih tinggi dalam ujian ini?

Skor apa yang harus digunakan untuk mengenal pasti 2.5% teratas?

Dalam kumpulan 100 orang, berapa yang anda jangkakan untuk mendapat markah di bawah 60?

Apakah kebarangkalian bahawa min bagi kumpulan 100 akan mendapat skor di bawah 70?

$ mu = 75 $ dan $ sigma = 10 $. Dengan mencari $ z_ <100> = (100-75) / 10 = 2.5 $, kami mengira $ P (x gt 100) $ sebagai $ P (z gt 2.5) = 0.0062 $.

Perhatikan bahawa $ 2,5 \% $ teratas sesuai dengan kawasan 0,025 $ di sebelah kanan sekitar $ z $ -score. Tetapi kawasan yang tersisa dari $ z $ -score ini adalah $ 1-0.025 = 0.975 $. Dengan menggunakan jadual atau teknologi, kami dapati ini sesuai dengan $ z = 1.960 $. Mengingat bahawa skor $ z $ adalah sebilangan sisihan piawai dari nilai min (dengan skor $ z $ positif yang berkaitan dengan berada di sebelah kanan min dan yang negatif berada di sebelah kiri min), potongan skor ujian yang kami cari ialah $ mu + z sigma = 75 + (1.960) (10) = 94.6 $

Perhatikan, masalah ini TIDAK bertanya mengenai skor purata 100 orang - jadi kami TIDAK melihat pengedaran kaedah sampel. Sebaliknya, kita hanya menjumpai kebarangkalian skor di bawah $ 60 $ dan kemudian kalikan dengan $ 100 $. Perhatikan $ mu = 75 $ dan $ sigma = 10 $, jadi cari $ z_ <60> = (60-75) / 10 = -1.5 $, kami mengira $ P (x lt 60) $ sebagai $ P ( z lt -1.5) = 0.0668 $. Akhirnya, mengalikan dengan $ 100 $ kita mendapat jumlah yang diharapkan dalam kumpulan $ 100 $ orang untuk melakukan ini dengan buruk - iaitu, kira-kira 7 orang.

Masalah ini ADALAH bertanya tentang min kumpulan $ 100 $, jadi kita Bincangkan pembahagian kaedah sampel. Oleh itu, untuk pengagihan sampel bermaksud, $ mu = 75 $, sementara $ sigma = 10 / sqrt <100> = 1 $. Mencari $ z_ <70> = (70 - 75) / 1 = -5 $, kami mengira $ P (x lt 70) $ sebagai $ P (z lt -5) lebih kurang 2.8 kali 10 ^ <- 7 > $ yang sangat kecil!

Apakah kebarangkalian bahawa kereta yang dipilih secara rawak dari armada mempunyai pelepasan CO melebihi 3.1 gm / mi?

Berapa kebarangkalian pelepasan CO rata-rata untuk semua 80 kereta melebihi 3.1?

Hanya ada kemungkinan 1% bahawa tahap CO rata-rata armada lebih besar daripada nilai apa?

  1. Sekiranya pelepasan diedarkan secara normal, maka $ 3085 - tetapi kita tidak tahu bagaimana populasi ini diedarkan, jadi kita tidak dapat mengatakannya dengan pasti.
  2. .0000038$
  3. $3.0040$

Sekiranya kita memilih Ayrshire secara rawak, apakah kebarangkalian dia mendapat susu lebih dari 50 poiunds susu sehari?

Seorang petani mempunyai 20 jersi. Apakah kebarangkalian pengeluaran purata untuk kawanan kecil ini melebihi 45 paun susu sehari?

Seorang petani mempunyai 20 Ayrshires. Terdapat peluang $ 99 \% $ setiap hari bahawa kawanan kecil ini menghasilkan sekurang-kurangnya berapa paun susu?


1.2.2. Cuba Sendiri Buat SRTM DEM tiff Files¶

Untuk Modul 6 (Membuat Data Vektor) dan Modul 8 (Raster), anda juga memerlukan gambar raster (SRTM DEM) yang merangkumi wilayah yang telah anda pilih untuk kursus anda.

SRTM DEM boleh dimuat turun dari CGIAR-CGI: http://srtm.csi.cgiar.org/

Anda memerlukan gambar yang merangkumi seluruh wilayah yang telah anda pilih untuk digunakan.

Setelah anda memuat turun fail yang diperlukan, fail tersebut akan disimpan di direktori & # 8220exercise_data & # 8221 di bawah & # 8220raster / SRTM / & # 8221.


Contoh Taburan Persampelan

Lukiskan semua kemungkinan sampel berukuran 2 tanpa penggantian dari populasi yang terdiri daripada 3, 6, 9, 12, 15. Bentuk penyebaran sampel kaedah sampel dan sahkan hasilnya.

Penyelesaian:

Kami mempunyai nilai populasi 3, 6, 9, 12, 15, ukuran populasi $ N = 5 $ dan ukuran sampel $ n = 2. $ Oleh itu, jumlah kemungkinan sampel yang boleh diambil tanpa penggantian adalah

Taburan sampel sampel bermaksud $ bar X $ dan min dan sisihan piawai adalah:

Purata dan perbezaan penduduk adalah:

Contohnya:

Sekiranya sampel rawak bersaiz tiga dilukis tanpa penggantian dari populasi yang terdiri daripada empat nombor 4, 5, 5, 7. Cari min sampel $ bar X $ untuk setiap sampel dan buat taburan persampelan $ bar X $. Hitung min dan sisihan piawai taburan persampelan ini. Bandingkan pengiraan anda dengan parameter populasi.

Penyelesaian:

Kami mempunyai nilai populasi 4, 5, 5, 7, ukuran populasi $ N = 4 $ dan ukuran sampel $ n = 3 $. Oleh itu, jumlah kemungkinan sampel yang boleh diambil tanpa penggantian adalah $ kiri (< mula<*<20>> N n akhir> kanan) = kiri (< bermula<*<20>> 4 3 akhir> kanan) = 4 $

Taburan sampel sampel bermaksud $ bar X $ dan min dan sisihan piawai adalah:

Purata dan sisihan piawai penduduk adalah:

5 Komen

Mutiara Lamptey
18 September @ 6:05 petang

Tolong saya mahu sampel bersaiz 3 N = 4 dengan penggantian.

Khizra
17 Ogos @ 10:27 malam

Ambil semua kemungkinan sampel berukuran 3 dengan penggantian dari populasi yang terdiri daripada 10 12 14 16 18 buat taburan persampelan dan sahkan

Aimen Naveed
10 September @ 12:23 tengah hari

Lukiskan semua kemungkinan sampel dengan ukuran n = 3 dengan penggantian dari populasi 3,6,9 dan 12. Bentuk sebaran sampel kaedah sampel. Oleh itu nyatakan dan sahkan hubungan antara (a). Purata taburan persampelan min dan populasi min (b). Varians taburan persampelan min dan varians populasi. Tolong sampaikan soalan ini secepat mungkin

Aimen Naveed
10 September @ 12:25 tengah hari

Lukiskan semua kemungkinan sampel dengan ukuran n = 3 dengan penggantian dari populasi 3,6,9 dan 12. Bentuk sebaran sampel kaedah sampel. Oleh itu nyatakan dan sahkan hubungan antara (a). Purata taburan persampelan min dan populasi min (b). Varians taburan persampelan min dan varians populasi. Tolong sampaikan soalan ini secepat mungkin
(a). Bincangkan perkaitan konsep dua jenis kesalahan dalam kes berikut. "Katakanlah bahawa anda ingin meningkatkan penukaran pada sepanduk yang dipaparkan di laman web anda. Untuk itu, anda telah merancang untuk menambahkan gambar untuk melihat apakah ia meningkatkan penukaran atau tidak. Anda memulakan ujian A / B anda menjalankan versi kawalan (A) terhadap variasi anda (B) yang mengandungi gambar. Selepas 5 hari, variasi (B) mengatasi versi kawalan dengan peningkatan penukaran 25% yang mengejutkan dengan tahap keyakinan 85%. Anda menghentikan ujian dan melaksanakan gambar di sepanduk anda. Namun, setelah sebulan, anda menyedari bahawa penukaran bulan ke bulan anda telah menurun. (b) apakah sampel yang berat sebelah? Bagaimana berat sebelah dapat dihilangkan? ceritakan soalan ini

RIAD UDDIN
19 Februari @ 11:19 malam

Populasi terdiri daripada 100 unit. Tuliskan langkah-langkah melukis sampel rawak mudah 10 unit dengan dan tanpa penggantian menggunakan nombor rawak.


Matematik 365, Perangkaan Dasar

Pengenalan

Dalam pelajaran ini kita membincangkan dua jenis pemalar yang kita hitung dari data:

Ukuran kecenderungan pusat mewakili "nilai purata." Maksud, median, mod (jika anda sudah mengetahui ini) adalah ukuran kecenderungan pusat. Ukuran penyebaran adalah ukuran seberapa luas data tersebar di sekitar.

2.1 Ukuran Kecenderungan Pusat: Maksud

Ukuran kecenderungan pusat yang paling biasa adalah min atau aritmetik min.

Definisi. Purata atau aritmetik bagi sekumpulan data diberikan oleh

bermaksud = jumlah semua nilai data ukuran data
.

Sekiranya kita menunjukkan nilai data (iaitu, pemboleh ubah) dengan x dan jika n adalah ukuran data, maka formula di atas ditulis sebagai

min = x = & # 8721 x / n di mana & # 8721 menunjukkan penjumlahan.

Sekiranya data adalah sampel, maka min disebut sebagai sampel sampel. Sekali lagi, jika x menunjukkan pemboleh ubah, data kadangkala dilambangkan dengan x1, x2,. , xn dan kemudian

Sekiranya anda belum pernah melihat notasi & # 8721 sebelumnya, itu hanya bermaksud penjumlahan. Sebagai contoh,

Kadang-kadang, nilai yang berbeza dalam data mempunyai berat yang berbeza. Mari kita pertimbangkan data berikut dan taburan frekuensi yang sesuai yang kita hitung lebih awal:

Contoh 2.1.1 Untuk menganggarkan masa min yang diperlukan untuk menyelesaikan perjalanan sejauh tiga batu dengan kereta lumba, kereta lumba melakukan beberapa ujian masa. Berikut adalah contoh masa yang diambil (dalam beberapa saat) untuk menyelesaikan pusingan:

50 48 49 46 54 53 52 51 47 56 52 51
51 53 50 49 48 54 53 51 52 54 54 53
55 48 51 50 52 49 51 53 55 54 50

Berikut adalah taburan kekerapan data ini:

Masa (dalam beberapa saat) 46 47 48 49 50 51 52 53 54 55 56
Kekerapan 1 1 3 3 4 6 4 5 5 2 1

Sekarang kita mahu mengira masa yang min. Oleh itu, kami menambah semua nilai data dan membahagi dengan ukuran data 35. Kami telah menghitung taburan frekuensi yang memberitahu kami bahawa, dalam data tersebut, 46 hadir 1 kali, 47 hadir 1 kali, 48 hadir 3, kali dan sebagainya. Oleh itu, dengan menggunakan taburan frekuensi, kami mengira min sebagai berikut:

bermaksud = x = (46x1 + 47x1 + 48x3 + 49x3 + 50x4 + 51x6 + 52x4 + 53x5 + 54x5 + 55x2 + 56x1)
(1+1+3+3+4+6+4+5+5+2+1)
=1799/35=51.4

Purata data asal adalah min wajaran nilai data 46, 47, 48, 49, 50, 51, 52, 53, 54, 55 dan 56 dengan frekuensi yang sepadan dengan berat. Jadi, formula baru untuk maksudnya adalah

di mana fi ialah kekerapan xi. Purata berwajaran ditakrifkan dalam konteks yang lebih umum seperti berikut:

Definisi. Sekiranya x1, x2,. , xn dalam set data mempunyai berat yang berbeza dan nilai xi mempunyai berat badan wi, maka min berwajaran ditakrifkan sebagai

    Menggabungkan dua cara. Katakan kita mempunyai dua set data. Purata set pertama adalah x, dan ukuran set pertama adalah m rata-rata set kedua adalah y, dan ukuran set kedua adalah n. Purata data gabungan adalah

Purata gabungan = (m x + ny) / (m + n)

Ini adalah purata wajaran x, y dengan berat m, n masing-masing.

Sifat Maksud

Catatan (kesan terjemahan): Guru anda memberitahu anda bahawa skor min untuk semester pada kelas anda adalah 73. Setelah anda mengadu dan meminta perubahan, dia bersetuju bahawa semua dapat menambah 7 mata pada skor mereka. Skor min baru adalah (min lama + 7) = 73 + 7 = 80. Inilah yang kami maksudkan dengan "kesan terjemahan."

Contoh (kesan pendaraban dengan c): Andaikan anda mempunyai beberapa data x1, x2,. xn gaji di sebuah industri di Amerika Syarikat dan minnya ialah $ 37000. Pada hari tertentu, 1 dolar A.S. = 1.4729 dolar Kanada (katakanlah c = 1.4729). Jadi, dalam dolar Kanada maksudnya ialah 37000 * c = 37000 x 1.4729. Begitu juga, perubahan unit (inci ke kaki atau cm) adalah "pendaraban dengan pemalar c."

Contoh 2.1.2. Seorang pelajar mengambil PHSX 115 (Kolej Fizik), PSYC 120 (Keperibadian), FREN 110 (Elementary French), BUS 241 (Perakaunan Pengurus), dan MATH 365 (Elementary Statistics). Bilangan jam kredit dan gred pelajar diberikan dalam jadual berikut:

Kursus PHSX 115
PSYC 120 PERANCIS 110 BUS 241 MATEMATIK 365
Gred (Mata) B (3 mata) A (4 mata) B (3 mata) C (2 mata) B (3 mata)
Jam kredit 4 3 5 3 3

Penyelesaian. IPK adalah purata wajaran mata (sepadan dengan gred), dan beratnya adalah waktu kredit-kredit. Jadi, IPK = (3x4 + 4x3 + 3x5 + 2x3 + 3x3) / (4 + 3 + 5 + 3 + 3) = 54/18 = 3.

2.2 Ukuran Kecenderungan Pusat: Median, dan Mode

Median mewakili nilai tengah data. Separuh data akan kurang daripada atau sama dengan median, dan separuh data akan lebih besar daripada atau sama dengan median. Anda berada di atas pendapatan Amerika yang rata-rata jika separuh penduduk Amerika memperoleh lebih sedikit daripada yang anda hasilkan.

Definisi. Anggaplah data disusun dalam urutan yang semakin meningkat (iaitu, dalam array). Sekiranya ukuran data ODD maka median adalah nilai tengah. Sekiranya ia berlaku, maka median adalah min bagi dua nilai tengah.

Definisi. Untuk nombor p antara 0 hingga 100, p persentil xhlm data adalah nombor sehingga sekurang-kurangnya p peratus daripada anggota data berada di bawah xhlm dan sekurang-kurangnya (100 - p) peratus anggota data berada di atas xhlm.

  1. Persentil ke-25 disebut Q kuartil pertama1 .
  2. Mediannya adalah persentil ke-50, juga disebut Q kuartil kedua2 .
  3. Persentil ke-75 disebut Q kuartil ketiga3 .

Terdapat satu lagi ukuran kecenderungan pusat yang harus disebutkan.

Definisi. MODE data adalah nilai atau nilai yang mempunyai frekuensi tertinggi. Contohnya, mod set <1, 3, 5, 5, 7> adalah <5> kerana mempunyai frekuensi tertinggi. Mod <1, 1, 3, 5, 5, 7> adalah <1, 5> kerana 1 dan 5 kedua-duanya mempunyai frekuensi tertinggi. Set sedemikian dikatakan bimodal.

  1. Tekan butang stat.
  2. Pilih "Edit" di menu Edit dan masukkan.
  3. Anda akan menemui enam senarai bernama L1, L2, L3, L4, L5, L6.
  4. Katakan anda mahu memasukkan data anda di L1.
  5. Sekiranya L1 mempunyai beberapa data, hapus dengan menekan butang stat dan pilih ClrList di menu Edit.
  6. Setelah L1 dibersihkan, pilih Edit di menu Edit dan masukkan.
  7. Sekarang taipkan data anda dan masukkan satu persatu.
  1. Masukkan data anda dalam senarai, katakan L1.
  2. Pilih SortA di menu Edit dan masukkan.
  3. Kalkulator akan meminta senarai. Taipkan senarai (L1), tutup tanda kurung, dan masukkan.
  4. Kalkulator akan mengatakan Selesai.
  5. Tekan stat, pilih edit di menu Edit, dan masukkan.
  6. Anda akan melihat bahawa data anda di L1 telah disusun mengikut urutan yang semakin meningkat.
  7. Sekiranya ukuran data ganjil, median adalah nilai tengah.
    Sekiranya ukuran data genap, median adalah purata dua nilai pertengahan.
  1. Masukkan data anda dalam senarai, katakan L1.
  2. Pilih "Statistik 1-Var" di menu CALC dan masukkan.
  3. Kalkulator akan meminta senarai. Taipkan senarai L1 dan masukkan.
  4. Kalkulator akan memberikan senarai nombor x-bar adalah min x.
  1. Masukkan jadual frekuensi dalam kalkulator, katakanlah, nilai-x di L1 dan frekuensi di L2.
  2. Pilih "Statistik 1-Var" di menu CALC dan masukkan.
  3. Kalkulator akan meminta senarai. Taipkan senarai L1, L2 dan masukkan.
  4. Kalkulator akan memberikan senarai nombor x-bar adalah min x.

Masalah pada 2.2: Purata dan Median

Latihan 2.2.1. Berikut ini adalah harga (dalam dolar) saham (katakanlah, CISCO SYSTEMS) yang diperiksa oleh peniaga beberapa kali pada hari tertentu.

138 142 127 137 148 130 142 133

Cari harga median dan harga min yang diperhatikan oleh peniaga.
Penyelesaian


Latihan 2.2.2. Angka berikut merujuk kepada IPK enam pelajar.

Cari IPK median dan min.

Latihan 2.2.3. Data berikut memberikan jangka hayat (dalam beberapa hari) mentol lampu.

138 952 980 967 992 197 215 157

Cari purata dan jangka hayat mentol ini.
Penyelesaian

Latihan 2.2.4. Seorang atlet menjalankan acara 32 kali. Jadual frekuensi berikut memberikan masa yang diambil (dalam beberapa saat) oleh atlet untuk menyelesaikan acara.

Masa (dalam beberapa saat) Kekerapan
26 3
27 6
28 5
29 6
30 9
31 3
Jumlah 32

Hitung min dan masa median yang diambil oleh atlet.
Penyelesaian

Latihan 2.2.5. Berikut ini adalah data mengenai berat (dalam ons), semasa kelahiran, 96 bayi yang dilahirkan di Hospital Peringatan Lawrence pada bulan Mei 2000.

94 105 124 110 119 137 96 110 120 115 119
104 135 123 129 72 121 117 96 107 80 80
96 123 124 124 134 78 138 106 130 97 134
111 133 128 96 126 124 125 127 62 127 96
116 118 126 94 127 121 117 124 93 135 112
120 125 120 147 138 72 119 89 81 113 100
109 127 138 122 110 113 100 115 110 135 120
97 127 120 110 107 111 126 132 120 108 148
133 103 92 124 150 86 121 98

Hitung purata dan berat badan rata-rata, semasa kelahiran, bayi.
Penyelesaian

Latihan 2.2.6. Berikut ini adalah data mengenai gaji setiap jam (dibayar hanya dalam jumlah keseluruhan dolar) 99 pekerja di sebuah industri.

7 11 7 11 10 9 10 10 12 13
7 8 11 11 14 9 7 9 11 7
9 13 12 14 7 8 7 14 15 9
9 7 11 9 12 9 12 11 14 9
12 13 7 9 10 14 11 12 13 7
15 15 16 16 15 16 11 7 18 19
15 16 15 15 16 16 17 16 16 13
15 15 16 15 16 15 15 17 16 12
16 15 15 16 15 15 19 8 16 17
16 16 15 16 16 16 13 12 8

Hitung gaji min dan median setiap jam.
Penyelesaian

Latihan 2.2.7. Berikut ini adalah jadual kekerapan jumlah kesalahan ketik dalam sampel 30 buku yang diterbitkan oleh penerbit.

Bilangan Tipu 156 158 159 160 162
Kekerapan 6 4 5 6 9

Cari min dan median ketik dalam buku.
Penyelesaian

Latihan 2.2.8. Berikut ini adalah data mengenai panjang (dalam inci), semasa kelahiran, 96 bayi yang dilahirkan di Hospital Peringatan Lawrence pada bulan Mei 2000.

18 18.5 19 18.5 19 21 18 19 20 20.5
19 19 21.5 19.5 20 17 20 20 19 20.5
18 18.5 20 19.5 20.75 20 21 18 20.5 20
21 19 20.5 19 20 19.5 17.75 20 19.5 20
20.5 17 21 18.5 20 20 20 18.5 19.5 19
18 20.5 18 20 19 19 19.5 20 20.75 21
17.75 19 18 19 20 18.5 20 19 21 19
19.5 20 20 19 19.5 20 19.5 18.5 20.5 19.5
20.25 20 19.5 19.5 20 20 20 21 20 19
18.5 20.5 21.5 18 19.5 18

Hitung min dan panjang rata-rata, semasa kelahiran, bayi-bayi ini.
Penyelesaian

2.3 Langkah Penyebaran

Julat
Jelas, langkah-langkah kecenderungan pusat & # 8212 bermaksud, median, mod & # 8212 tidak dapat memberitahu kita "keseluruhan cerita" mengenai data.

Contoh 2.3.1. Katakan dua bahagian kelas statistik mempunyai taburan skor peratusan berikut pada akhir semester:

Bahagian A 81 84 83 80 82
Bahagian B 72 93 92 82 71

Kedua-dua bahagian ini mempunyai maksud yang sama & # 821282. Tetapi di Bahagian A, semua orang akan mendapat gred B. Di bahagian B, kita akan mempunyai dua C, satu B dan dua A.

Ukuran penyebaran adalah ukuran seberapa luas data tersebar di sekitar. Pada bahagian A, data mempunyai penyebaran atau kebolehubahan yang sangat kecil, sedangkan bahagian B mempunyai penyebaran yang besar.

Ukuran penyebaran yang sangat sederhana adalah julat data seperti yang telah kita tentukan sebelumnya:

julat = nilai terbesar - nilai terkecil.


Purata Sisihan, Varians Sampel, dan Sisihan Piawai

Kami akan membincangkan tiga lagi kaedah penyebaran.

Katakan kita mempunyai set data x1, x2,. , xn dari saiz n. Kami akan menunjukkan min data dengan x. Tiga definisi berikut:

Definisi. Sisihan min data ditakrifkan seperti berikut.

sisihan min = (| x1- x | +. + | xn- x |) / n

Jadi, sisihan min adalah min dari penyimpangan mutlak | xi - x | dari min.


Definisi. Varian sampel s 2 data ditakrifkan sebagai berikut:

  1. Perhatikan bahawa kita menunjukkan varians sampel sebagai kuasa dua nombor s.
  2. Perhatikan juga bahawa kita membahagi dengan n-1, bukan dengan n. Untuk beberapa sebab, membahagi dengan n-1 berfungsi lebih baik.
  3. Kami ingin ukuran penyebaran kami mempunyai unit yang sama dengan data kami, tetapi formula kami melibatkan kuasa dua (xi- x) 2, yang bermaksud unit penyebaran, s 2, adalah unit data kuadrat. Sekiranya data berada dalam kaki, varians adalah dalam kaki persegi. Untuk menyelesaikan masalah ini, kita menentukan satu lagi ukuran penyebaran, sisihan piawai yang dilambangkan s.


Definisi. Sisihan piawai sampel ditakrifkan sebagai punca kuasa dua varians sampel s 2. Oleh itu, untuk mengira sisihan piawai sampel, kita harus mengira varians sampel terlebih dahulu.


Sekiranya kita mempermudah definisi varians sampel, kita mendapat formula berikut:

s 2 = ((x1 2 + x2 2 +. + xn 2) - n x 2) / (n - 1)

Mari kita cepat melakukan beberapa pengiraan dengan contoh di atas 2.3.1.

Sisihan min bagi bahagian A = (1 + 2 + 1 + 2 + 0) / 5 = 6/5 dan sisihan min bagi bahagian B = (10 + 11 + 10 + 0 + 11) / 5 = 42/5. Oleh kerana kebolehubahan bahagian B jauh lebih tinggi, sisihan minnya sangat tinggi.

Mari kita hitung variasi sampel:

Untuk bahagian A varians sampel adalah

( (81-82) 2 +(84-82) 2 +(83-82) 2 +(80-82) 2 +(82-82) 2 )/(5-1) =
(1+4+1+4+0) /4= 10/4 = 2.5 .

Untuk bahagian B varians sampel adalah

( (72-82) 2 +(93-82) 2 +(92-82) 2 +(82-82) 2 +(71-82) 2 )/(5-1) =
(100+121+100+0+121) /4= 442/4.

Penerapan sisihan piawai

Purata dan sisihan piawai memberitahu kami banyak tentang bagaimana data diedarkan.


Peraturan Chebyshev. Peraturan ini berlaku untuk semua jenis data. Katakan x adalah min dan s adalah sisihan piawai data. Kemudian kami mempunyai perkara berikut:

  1. Sekurang-kurangnya 0 peratus pemerhatian akan berada dalam 1 sisihan piawai dari min, iaitu, dalam (x -s, x + s). Ini jelas jelas.
  2. Sekurang-kurangnya 75 peratus pemerhatian akan berada dalam 2 sisihan piawai dari min, iaitu, dalam (x -2s, x + 2s).
  3. Sekurang-kurangnya 89 peratus pemerhatian akan berada dalam 3 sisihan piawai dari min, iaitu, dalam (x -3s, x + 3s).

Peraturan Chebyshev tidak membuat andaian mengenai data atau pembolehubahnya. Sekiranya kita membuat beberapa andaian mengenai data, maka kita dapat memperbaiki peraturan di atas seperti berikut.


Peraturan Empirikal: Andaikan histogram data simetri di sekitar garis tegak x = x seperti berikut:


Dengan kata lain, histogram harus sesuai dengan lengkung berbentuk loceng.


Klik untuk melihat animasi Flash.
Kemudian kami mempunyai perkara berikut:

  1. Kira-kira 68.3 peratus pemerhatian akan jatuh dalam selang waktu (x -s, x + s).
  2. Kira-kira 95.4 peratus pemerhatian akan jatuh dalam selang masa (x -2s, x + 2s).
  3. Kira-kira 99.7 peratus pemerhatian akan berada dalam selang waktu (x -3s, x + 3s).

Soalan: Apa maksudnya apabila varians atau sisihan rata-rata beberapa data adalah sifar? Jawapannya adalah bahawa semua ahli data EQUAL!

Masalah Amalan. Pertimbangkan latihan 2.2.1 hingga 2.2.8. Untuk setiap masalah, hitung min dan sisihan piawai data dan cari berapa peratusan data dalam satu, dua, atau tiga sisihan piawai dari min.

Penggunaan Jadual Kekerapan

Apabila jadual frekuensi diberikan, kita dapat menggunakan formula baru untuk menghitung min dan varians data.


Rumusan. Anggaplah data yang terdiri dari n pemerhatian diberikan dalam jadual frekuensi (tidak dikelompokkan). Biarkan xi menunjukkan nilai dan fi menjadi kekerapan xi. Kemudian

Contoh 2.3.2. Jadual berikut memperluas jadual kekerapan masa yang diperlukan untuk menyelesaikan pusingan dengan kereta lumba (contoh 2.1.1) untuk mengira min dan varians menggunakan formula di atas.

Masa
x
Kekerapan
f
fx fx 2
46 1 46 2116
47 1 47 2209
48 3 144 6912
49 3 147 7203
50 4 200 10000
51 6 306 15606
52 4 208 10816
53 5 265 14045
54 5 270 14580
55 2 110 6050
56 1 56 3136
Jumlah 35 1799 92673


Jadi, min x = 1799/35 = 51.4 dan varians
s 2 = (92673 - 35x 51.4 2) / (35-1) = 6.0118.

Contoh 2.3.3. Berikut ini adalah taburan frekuensi kelas mengenai berat lahir beberapa bayi (latihan 1.2, Pelajaran 1):

Kelas Kekerapan
f
Tanda Kelas
x
fx fx 2
60.5-80.5 9 70.5 634.5 44732.25
80.5-100.5 20 90.5 1810 163805
100.5-120.5 25 110.5 2762.5 305256.25
120.5-140.5 37 130.5 4828.5 630119.25
140.5-160.5 8 150.5 1204 181202
Jumlah 99 11239.5 1325114.75

Kita boleh menggunakan formula di atas untuk menghitung variasi (anggaran) dan sisihan piawai berat lahir.

Jadi, min x = 11239.5 / 99 = 113.53 dan varians

s 2 = (1325114.75 - 99 x 113.53 2) / (99-1) = 500.997.

  1. Perhatikan bahawa kita hanya dapat memperoleh anggaran dan ragam jika kita menggunakan tanda kelas dan dengan formula di atas. Sekiranya anda juga menggunakan data asal anda mungkin akan melihat perbezaannya.
  2. Oleh kerana ketersediaan komputer, pentingnya pendekatan tersebut semakin menurun.

Ulasan: Kami telah mengadakan perbincangan terperinci mengenai pelbagai formula untuk menentukan min, varians, dan pemalar lain. Penting untuk memahami konsep dan formula ini.

Sama pentingnya untuk menghargai nilai dan keperluan menggunakan kalkulator atau perisian lain yang tersedia (seperti Excel). Hampir mustahil (dan tidak perlu) untuk mengira pemalar-pemalar ini secara manual dan betul, kecuali jika seseorang itu diberi pengiraan berangka.

  1. Ikuti langkah yang sama yang digunakan untuk mengira min (menggunakan data mentah atau jadual kekerapan).
  2. Kalkulator akan memberikan senarai nombor SX adalah sisihan piawai.
  3. Varians adalah kuadrat bagi sisihan piawai.

Masalah pada 2.3: Varians, Sisihan Piawai, dan Penggunaan Jadual Frekuensi

Latihan 2.3.1. Berikut adalah harga (dalam dolar) saham (katakanlah, CISCO SYSTEMS) yang diperiksa oleh peniaga beberapa kali pada hari tertentu.

138 142 127 137 148 130 142 133

Cari varians dan sisihan piawai harga.
Penyelesaian

Latihan 2.3.2. Angka berikut merujuk kepada IPK enam pelajar.

Cari varians dan sisihan piawai IPK.

Latihan 2.3.3. Data berikut memberikan jangka hayat (dalam beberapa hari) mentol lampu tertentu.

138 952 980 967 992 197 215 157

Cari varians dan sisihan piawai sepanjang hayat mentol ini.
Penyelesaian

Latihan 2.3.4. Seorang atlet menjalankan acara 32 kali. Jadual frekuensi berikut memberikan masa yang diambil (dalam beberapa saat) oleh atlet untuk menyelesaikan acara.

Masa (dalam beberapa saat) Kekerapan
15.6 3
15.7 6
15.8 5
15.9 6
16.0 9
16.1 3
Jumlah 32

Hitung varians dan sisihan piawai masa yang diambil oleh atlet.
Penyelesaian

Latihan 2.3.5. Berikut ini adalah data mengenai berat (dalam ons), semasa kelahiran, 96 bayi yang dilahirkan di Hospital Peringatan Lawrence pada bulan Mei 2000.

94 105 124 110 119 137 96 110 120 115 119
104 135 123 129 72 121 117 96 107 80 80
96 123 124 124 134 78 138 106 130 97 134
111 133 128 96 126 124 125 127 62 127 96
116 118 126 94 127 121 117 124 93 135 112
120 125 120 147 138 72 119 89 81 113 100
109 127 138 122 110 113 100 115 110 135 120
97 127 120 110 107 111 126 132 120 108 148
133 103 92 124 150 86 121 98

Hitung varians dan sisihan piawai berat, semasa kelahiran, bayi ini.
Penyelesaian

Latihan 2.3.6. Berikut ini adalah data mengenai gaji setiap jam (dibayar hanya dalam jumlah keseluruhan dolar) 99 pekerja di sebuah industri.

7 11 7 11 10 9 10 10 12 13
7 8 11 11 14 9 7 9 11 7
9 13 12 14 7 8 7 14 15 9
9 7 11 9 12 9 12 11 14 9
12 13 7 9 10 14 11 12 13 7
15 15 16 16 15 16 11 7 18 19
15 16 15 15 16 16 17 16 16 13
15 15 16 15 16 15 15 17 16 12
16 15 15 16 15 15 19 8 16 17
16 16 15 16 16 16 13 12 8

Hitung varians dan sisihan piawai upah setiap jam.
Penyelesaian

Latihan 2.3.7. Berikut ini adalah jadual kekerapan jumlah kesalahan ketik dalam sampel 30 buku yang diterbitkan oleh penerbit.

Bilangan Tipu 156 158 159 160 162
Kekerapan 6 4 5 6 9

Cari bilangan min, varians, dan sisihan piawai dalam salah satu buku.
Penyelesaian

Latihan 2.3.8. Berikut ini adalah data mengenai panjang (dalam inci), semasa kelahiran, 96 bayi yang dilahirkan di Hospital Peringatan Lawrence pada bulan Mei 2000.

18 18.5 19 18.5 19 21 18 19 20 20.5
19 19 21.5 19.5 20 17 20 20 19 20.5
18 18.5 20 19.5 20.75 20 21 18 20.5 20
21 19 20.5 19 20 19.5 17.75 20 19.5 20
20.5 17 21 18.5 20 20 20 18.5 19.5 19
18 20.5 18 20 19 19 19.5 20 20.75 21
17.75 19 18 19 20 18.5 20 19 21 19
19.5 20 20 19 19.5 20 19.5 18.5 20.5 19.5
20.25 20 19.5 19.5 20 20 20 21 20 19
18.5 20.5 21.5 18 19.5 18

Hitung varians dan sisihan piawai sepanjang kelahiran bayi ini.
Penyelesaian

Latihan 2.3.9. Berikut adalah jadual kekerapan seberat beberapa salmon di sungai. Cari varians dan sisihan piawai.

Berat x 31 32 33 34 35 36 37
Kekerapan f 3 2 4 5 6 5 9

Cari varians dan sisihan piawai.
Penyelesaian

Latihan 2.3.10. Data berikut menunjukkan masa (dalam beberapa minit) yang diambil oleh pelajar untuk memandu ke kampus.

23 17 19 24 42 33 20 22 15 9
26 37 29 19 35 18 30 21 11 23
13 27 32 32 23 35 25 33 24 23

Cari min, varians, dan sisihan piawai data.
Penyelesaian


Persampelan dan Data: Frekuensi Relatif Frekuensi dan Frekuensi Kumulatif

Dua puluh pelajar ditanya berapa jam mereka bekerja setiap hari. Tanggapan mereka, dalam beberapa jam, disenaraikan di bawah:

5 6 3 3 2 4 7 5 2 3 5 6 5 4 4 3 5 2 5 3

Berikut adalah jadual frekuensi yang menyenaraikan nilai data yang berbeza mengikut urutan menaik dan frekuensi mereka.

A kekerapan adalah berapa kali datum tertentu berlaku dalam kumpulan data. Menurut jadual di atas, terdapat tiga pelajar yang bekerja 2 jam, lima pelajar yang bekerja 3 jam, dan lain-lain. Jumlah lajur frekuensi, 20, mewakili jumlah pelajar yang termasuk dalam sampel.

A rfrekuensi elatif ialah pecahan atau perkiraan masa jawapan berlaku. Untuk mencari frekuensi relatif, bahagikan setiap frekuensi dengan jumlah pelajar dalam sampel - dalam kes ini, 20. Frekuensi relatif boleh ditulis sebagai pecahan, persen, atau perpuluhan.

Jumlah lajur frekuensi relatif ialah atau 1.

Kekerapan relatif kumulatif adalah pengumpulan frekuensi relatif sebelumnya. Untuk mencari frekuensi relatif kumulatif, tambahkan semua frekuensi relatif sebelumnya ke frekuensi relatif untuk baris semasa.

Entri terakhir kolum frekuensi relatif kumulatif adalah satu, menunjukkan bahawa seratus peratus data telah terkumpul.

Jadual berikut menunjukkan ketinggian, dalam inci, sampel 100 pemain bola sepak separuh profesional lelaki.

TINGGI (INCHES)

Data dalam jadual ini telah berkumpulan ke dalam selang waktu berikut:

  • 59.95 - 61.95 inci
  • 61.95 - 63.95 inci
  • 63.95 - 65.95 inci
  • 65.95 - 67.95 inci
  • 67.95 - 69.95 inci
  • 69.95 - 71.95 inci
  • 71.95 - 73.95 inci
  • 73.95 - 75.95 inci

Dalam sampel ini, terdapat 5 pemain yang ketinggiannya antara 59.95 - 61.95 inci, 3 pemain yang ketinggiannya berada dalam selang 61.95 - 63.95 inci, 15 pemain yang ketinggiannya berada dalam selang 63.95 - 65.95 inci, 40 pemain yang ketinggiannya jatuh dalam selang 65.95 - 67.95 inci, 17 pemain yang ketinggiannya berada dalam selang 67.95 - 69.95 inci, 12 pemain yang ketinggiannya jatuh dalam selang 69.95 - 71.95, 7 pemain yang ketinggiannya jatuh dalam selang 71.95 - 73.95, dan 1 pemain yang ketinggiannya jatuh dalam selang 73.95 - 75.95. Semua ketinggian jatuh di antara titik akhir selang dan bukan di titik akhir.

Dari jadual, cari peratusan ketinggian yang kurang daripada 65.95 inci.

Penyelesaian
Sekiranya anda melihat baris pertama, kedua, dan ketiga, ketinggiannya semua kurang dari 65.95 inci. Terdapat 5 + 3 + 15 = 23 lelaki yang tingginya kurang dari 65.95 inci. Peratusan ketinggian kurang dari 65.95 inci adalah atau 23%. Peratusan ini adalah kemasukan frekuensi relatif kumulatif pada baris ketiga.

Dari jadual, cari peratusan ketinggian yang turun antara 61.95 dan 65.95 inci.

Penyelesaian
Tambahkan frekuensi relatif pada baris kedua dan ketiga: 0,03 + 0,15 = 0,18 atau 18%.

Gunakan jadual ketinggian 100 pemain bola sepak separuh profesional lelaki. Isi tempat kosong dan periksa jawapan anda.

  1. Peratusan ketinggian dari 67,95 hingga 71,95 inci adalah:
  2. Peratusan ketinggian dari 67,95 hingga 73,95 inci adalah:
  3. Peratusan ketinggian yang melebihi 65.95 inci adalah:
  4. Bilangan pemain dalam sampel yang tinggi antara 61,95 dan 71,95 inci adalah:
  5. Apakah jenis data yang tinggi?
  6. Terangkan bagaimana anda dapat mengumpulkan data ini (ketinggian) sehingga data tersebut merupakan ciri semua pemain bola sepak semifrofional lelaki.

Ingat anda mengira frekuensi. Untuk mencari frekuensi relatif, bahagikan frekuensi dengan jumlah nilai data. Untuk mencari frekuensi relatif kumulatif, tambahkan semua frekuensi relatif sebelumnya ke frekuensi relatif untuk baris semasa.


Proses Persampelan dalam Pengumpulan Data Utama

Proses pensampelan dalam pengumpulan data primer melibatkan peringkat berikut:

1. Menentukan populasi sasaran. Populasi sasaran mewakili segmen tertentu dalam populasi yang lebih luas yang berada pada kedudukan terbaik untuk dijadikan sumber data utama penyelidikan. Contohnya, untuk disertasi bertajuk ‘Kesan laman rangkaian sosial terhadap amalan pengurusan masa di kalangan pelajar universiti di UK"Populasi sasaran terdiri daripada individu yang tinggal di UK.

2. Memilih kerangka persampelan. Kerangka persampelan dapat dijelaskan sebagai senarai orang dalam populasi sasaran yang dapat menyumbang kepada penyelidikan. Untuk disertasi sampel yang disebutkan di atas, kerangka sampel akan menjadi senarai luas pelajar universiti UK.

3. Menentukan ukuran persampelan. Ini adalah bilangan individu dari kerangka persampelan yang akan mengambil bahagian dalam proses pengumpulan data utama. Pemerhatian berikut perlu diambil kira semasa menentukan ukuran sampel:

a) Besarnya ralat persampelan dapat dikurangkan dengan meningkatkan ukuran sampel.

b) Terdapat keperluan ukuran sampel yang lebih besar dalam kajian berdasarkan tinjauan daripada kajian eksperimen.

c) Ukuran sampel awal yang besar harus disediakan untuk kuesioner yang dikirimkan, kerana peratusan respons dapat serendah 20 hingga 30 persen.

d) Faktor yang paling penting dalam menentukan ukuran sampel termasuk ketersediaan subjek dan faktor kos

Sebagai contoh, untuk penyelidikan yang sama mengenai ‘Kesan laman rangkaian sosial terhadap amalan pengurusan masa di kalangan pelajar universiti di UKUkuran sampel dapat ditentukan untuk merangkumi 200 responden.

4. Memilih kaedah persampelan. Ini berkaitan dengan kaedah tertentu yang mana 200 pelajar universiti di UK akan dipilih untuk mengambil bahagian dalam penyelidikan yang disebutkan di atas.

5. Mengaplikasikan kaedah persampelan yang dipilih dalam praktik.


2.8: Persampelan dan Data (Latihan) - Matematik

namun sebaran Kumaraswamy digambarkan di Wikipedia sebagai "sangat berkaitan" dengan betadist (), yang sangat anda gemari dalam artikel anda untuk 12 edaran lain, namun anda memilih RNDU01ZeroExc () untuk menentukannya sebagai gantinya. Kenapa?

Taburan kebarangkalian hanya menentukan julat nilai output dari nilai input yang diberikan, jadi jika nilai input dihasilkan secara tidak rawak, nilai output juga akan menjadi tidak rawak. Oleh kerana taburan kebarangkalian tidak dapat mempengaruhi keacakan suatu urutan, apa gunanya mereka berkenaan dengan topik nombor rawak GENERASI? Sebenarnya sebilangan pengagihan kebarangkalian dapat menjadikan urutan output menjadi kurang rawak kerana nilainya dibatasi untuk hanya menempati julat yang terhad (dan oleh itu lebih dapat diramalkan).

Semua taburan kebarangkalian (satu atau lain cara) berdasarkan penggunaan fungsi rndint () atau RNG () yang tidak ditentukan dan sangat umum, namun semua pelaksanaan rndint () atau RNG () yang saya lihat didokumentasikan dalam kesusasteraan mempunyai output yang diketahui mempunyai kekurangan serius dalam rawak, pembahagian, dan jangka masa dalam urutan yang dihasilkan. Adakah anda tahu ada yang tidak? Sekiranya demikian, mengapa anda tidak memberitahu kami tentang mereka ketika itu?

Saya rasa artikel ini berguna berkaitan dengan nombor rawak GENERASI (dan bukan TRANSFORMASI taburan kebarangkalian) anda harus meluangkan lebih banyak masa untuk membincangkan bagaimana sebenarnya menjana (semu) penjana nombor rawak yang diketahui berfungsi dengan baik dan bukannya membincangkan banyak cara bagaimana untuk mengubah output mereka.

Artikel ini memang memfokuskan pada "transformasi taburan kebarangkalian", dan bukan pada "penjanaan nombor rawak" (sebahagian besarnya dalam pengertian pakaian seragam penjanaan nombor rawak). Itulah sebabnya saya menukar tajuk artikel ini menjadi "Rawak dan Kaedah Persampelan ", untuk mengelakkan kekeliruan. Topik" transformasi taburan kebarangkalian "juga diketahui dalam makalah dan buku L. Devroye sebagai" rawak berbeza-beza generasi ", menunjukkan bahawa variasi adalah contoh a pembolehubah rawak, atau taburan kebarangkalian.

Algoritma untuk penjana nombor pseudorandom tertentu (seperti Mersenne Twister, PCG, xorshift, penjana kongruen linear, atau penjana berdasarkan fungsi hash) berada di luar ruang lingkup dokumen ini.

Apa yang anda petik dari Wikipedia adalah fungsi ketumpatan, bukan fungsi kuantil (terbalik CDF) (yang merupakan transformasi yang diperlukan untuk berubah menjadi Kumaraswamy rawak bervariasi).Saya baru saja mengira CDF terbalik dari sebaran Kumaraswamy (berdasarkan CDF yang diberikan dalam rujukan Bahasa Wolfram) dengan SymPy dan telah menemui formula pada artikel ini untuk memberikan variasi rawak yang diedarkan dengan betul.

Bagaimanapun saya tidak menyedari apa yang dikatakan oleh Wikipedia mengenai pengedaran Kumaraswamy, dan saya juga tidak sedar ketika saya menambahkan kaedah bahawa kaedah itu dapat dinyatakan dengan pengedaran beta (lihat semakan sebelumnya dari September 2017).

Setelah diedarkan secara merata, gunakan sebaran yang anda inginkan. (Atau ini terlalu lama?)
Inilah PRNG pilihan saya dan jika anda berjaya, Wichmann & Hill menyediakan karya rangka kukuh untuk membangunkan Penjana Nombor Congruential Gabungan Linear anda sendiri.

adalah komen
Penjana Nombor Rawak Excel
Penjana Nombor Kongruen Linear (LCNG)
'Julat =: [0.0. 1.0) atau [0.0. 0.999999940395355224609375]

'X1 = (X0 * a + c) mod m
'Rnd () = X1 / m (nilai dikembalikan)

m = modulus = 2 ^ 24
X1 = nilai baru
X0 = nilai sebelumnya, nilai awal = 327,680
a = 1,140,671,485
c = 12,830,163
Panjang ulangan m = 2 ^ 24 = 16,777,216

Terima kasih di atas komen anda.

Namun, perhatikan bahawa pengujian RNG atau PRNG berada di luar ruang lingkup dokumen ini. Ia juga tidak menyatakan algoritma untuk penjana pseudorandom tertentu, seperti Mersenne Twister, Wichmann-Hill, penjana kongruen linier, dan lain-lain. Sebaliknya, kaedah rawak dalam dokumen ini bermaksud berkuasa oleh RNG lain, seperti PRNG atau penjana nombor rawak "benar".

Saya memilih untuk membincangkan bilangan bulat rawak daripada nombor titik terapung rawak kerana komputer menghasilkan nombor titik terapung rawak dari bilangan bulat rawak, bukan sebaliknya. Oleh itu, bahagian sebenar pertama dokumen ini berkaitan dengan rawak seragam bilangan bulat.

Mungkin telah dibahas dalam komen lain. Saya tidak tahu kerana saya tidak membaca semua komen. Sebagai peraturan, saya tidak membaca setiap komen dan membalas dalam setiap artikel. Oleh itu, ini adalah contoh rawak siapa yang membaca komen apa. Sekiranya terdapat bahagian untuk Maklumat Berkaitan yang mempunyai pautan untuk apa itu Entropy dan bagaimana mendapatkan entropi yang baik serta nilai dan pengujian benih, maka anda akan membahas topik ini dengan lebih lengkap. Buat masa ini kami diminta untuk menyatakan bahawa anda menghasilkan nombor rawak yang tidak sepenuhnya benar kerana lebih tepat untuk menyebutnya apa sebenarnya, penjanaan nombor pseudo-rawak. Perbezaan penting itu penting untuk mengajar orang dan ujian yang baik adalah satu-satunya cara untuk mengesahkannya.

"Sekiranya penjana menghasilkan nombor dengan kebarangkalian yang tidak sama, tetapi sebaliknya adalah RNG seperti yang didefinisikan di sini, maka pengekstrakan secara rawak (yang berada di luar ruang lingkup dokumen ini) dapat membuatnya menghasilkan nombor dengan kebarangkalian yang hampir sama"

Pembetulan: Fungsi pengekstrak rawak dapat digabungkan dengan output PRNG yang dilaksanakan dengan lemah untuk menjadikannya lebih rawak. Lebih tepat lagi, ia dapat mengambil sumber entropi rawak yang lemah dan membuatnya kelihatan lebih kuat. Satu-satunya penggunaan yang saya ketahui mengenai pengekstrak rawak adalah dalam penjana kunci pseudorandom untuk kriptografi (terutamanya untuk penyamaran dan bukannya rawak seperti yang mereka duga digunakan).

"Untuk definisi RNG, ia tidak relevan."

Untuk definisi termudah penjana nombor rawak, penjana nombor rawak benar-benar adalah penjana nombor yang untuk input tepat yang sama ke penjana, ia akan selalu menghasilkan nilai output yang sama sekali berbeza. Sebagai contoh, untuk penjana nombor yang memerlukan nilai benih, jika memberikan nilai benih tepat yang sama (atau nilai permulaan yang lain) selalu menghasilkan nombor keluaran tepat yang sama, ia tidak pernah boleh dianggap sebagai penjana nombor yang benar-benar rawak, paling banyak ia dapat hanya menjadi penjana nombor pseudorandom (seperti semua algoritma penjana nombor yang telah anda terangkan di sini setakat ini). Itulah sebabnya,

"betapa sukarnya untuk meramalkan angka yang dihasilkan item,
seberapa baik item itu lulus ujian rawak statistik,
sama ada item itu dimulakan secara automatik atau tidak,
sama ada item itu hanya menggunakan input dan keadaannya untuk menghasilkan nombor, atau
adakah item itu mengeluarkan bit rawak dari satu atau lebih sumber bunyi "

Terima kasih atas komen anda. Pernyataan yang dimulakan dengan "Jika penjana menghasilkan nombor dengan kebarangkalian yang tidak sama." Muncul dalam dokumen ini kerana istilah RNG mungkin dilihat merangkumi item yang menghasilkan nombor (atau isyarat) yang mengikuti pengedaran tidak seragam (bukan hanya sebaran seragam) tetapi sebaliknya secara rawak. Contohnya, item yang menghasilkan bunyi Gaussian atau yang serupa. Ini adalah contoh "sumber entropi rawak lemah" yang mungkin anda ingat. (Lihat juga, misalnya, penggunaan istilah "pemboleh ubah rawak" dalam Statistik dan Kebarangkalian.)

Sebaliknya, definisi RNG bertujuan untuk merangkumi keseluruhan rangkaian peranti dan program yang menghasilkan nombor rawak seragam (atau nombor yang berkelakuan seperti nombor rawak seragam), seperti RNG "benar", kombo fungsi pengekstrak / ketahanan, penjana nombor pseudorandom, API yang memberikan nombor seragam rawak atau pseudorandom kepada aplikasi, dan sebagainya. Namun, perhatikan bahawa artikel ini mengatakan: "dokumen ini tidak merangkumi: Cara memilih RNG yang mendasari untuk aplikasi tertentu, termasuk dari segi keselamatan, prestasi, dan kualiti." Mungkin lebih baik bagi saya untuk mengatakan bahawa semua kaedah penjanaan rawak di halaman ini menganggap bahawa sumber nombor rawak "benar" ada, walaupun kebanyakan RNG dan PRNG dalam praktiknya sering kali jauh dari ideal ini.

Kaedah rawak dalam dokumen ini, seperti ZeroOrOne, WeightedChoice, dan lain-lain, bukan RNG sendiri seperti yang mereka dapat berkuasa oleh RNG tersebut. Sebagai contoh, penjana nombor rawak "benar" (atau pengekstraksi dua sumber dan fungsi tahan) dapat memberi kuasa sama seperti penjana nombor pseudorandom. Sekiranya penjana nombor pseudorandom (yang deterministik) memberi kuasa kepada mana-mana kaedah pengacakan dalam halaman ini, kaedah ini juga akan menjadi deterministik. Sekiranya penjana nombor rawak "benar", sebaliknya, menggerakkan mana-mana kaedah tersebut, kaedah ini, sekurang-kurangnya kepada pemerhati luar, tidak semestinya bersifat deterministik (mencerminkan sifat asas RNG "benar").

"Jika tidak rawak" menyiratkan sesuatu yang rawak dicampurkan dengan sesuatu yang tidak rawak, dan yang sesuai dengan definisi untuk huru-hara dan bukan hanya secara rawak. Berapa banyak penjana nombor kacau yang anda tahu?

Tidak ada yang disebut "nombor rawak seragam" kerana nombor individu tidak boleh menjadi rawak atau tidak rawak, hanya nilai urutan nombor yang boleh menjadi rawak atau tidak rawak.

Sekiranya anda benar-benar ingin melakukan perkhidmatan untuk komuniti, dapatkan istilah anda dengan betul. Tidak memahami rawak telah menyebabkan banyak masalah, misalnya, sesuatu yang semudah nilai pembundaran dalam transaksi kewangan (lihat Pembundaran - Wikipedia [^]). Hanya kerana urutan nilai kelihatan rawak atau sesuai dengan pembahagian taburan kebarangkalian, tidak membuktikan ia sebenarnya rawak.

Sementara itu, dokumen tersebut tidak lagi banyak menyebut "penjana nombor rawak" (atau "RNG"), melainkan membuat andaian bahawa sumber yang tidak berkesudahan bebas dan tersebar sama dari pengedaran seragam yang ada. Semua kaedah pengacakan kemudian menggunakan sumber yang berbeza-beza. Lihat bahagian "Sumber Nombor Rawak" di lampiran.

(Juga, saya menulis bahawa "penjana nombor rawak 'benar' (atau pengekstraksi dua sumber dan fungsi tahan) dapat memberi kuasa kepada kaedah pengacakan dalam dokumen ini, seperti ZeroOrOne, WeightedChoice, dll.", Bukan penjana "boleh power" "'RNG's yang lain".)


Isi kandungan

Paparan Notebook: Pengertian Eksperimen Berulang

Pendekatan Yang Lebih Intuitif

Contoh: Model Penunggang Bas (samb)

Ringkasan Model Rangkaian ALOHA

Pengiraan Rangkaian ALOHA

ALOHA dalam Konteks Notebook

Contoh: Permainan Papan Ringkas

Contoh: Pengelasan Dokumen

Contoh: Model Lekapan Pilihan

Pengiraan Kebarangkalian Berdasarkan Kombinasi

Mana Yang Lebih Mungkin Dalam Lima Kad, Satu Raja atau Dua Hati?

Contoh: Kumpulan Pelajar Rawak

Contoh: Peraturan Persatuan "

Contoh: Jurang antara Nombor

Contoh: Kebarangkalian Mendapat Empat Aces di Tangan Jambatan

Penggunaan runif () untuk Simulasi Peristiwa

Contoh: Rangkaian ALOHA (samb)

Contoh: Penunggang Bas (samb)

Berapa Lama Kita Perlu Menjalankan Simulasi?

Lebih banyak mengenai fungsi ulangan ()

Pemboleh ubah Rawak diskrit

Pemboleh ubah Rawak Bebas

Contoh: Masalah Monty Hall

Generality | Bukan Hanya untuk Pemboleh ubah Rawak Discrete

Paparan Takrif dan Notebook

Sifat Nilai yang Diharapkan

Sifat Lanjut Nilai yang Dijangkakan

Mencari Nilai yang Diharapkan Melalui Simulasi

Kasino, Syarikat Insurans dan Jumlah Pengguna, "Berbanding dengan Yang Lain

Kepentingan Pusat Konsep Varians

Intuisi Mengenai Ukuran Var (X)

Pekali Variasi

Petunjuk Pemboleh ubah Rawak, dan Cara dan Variansnya

Contoh: Masa Kembali untuk Buku Perpustakaan, Versi I

Contoh: Masa Kembali untuk Buku Perpustakaan, Versi II

Contoh: Pemboleh ubah Petunjuk dalam Masalah Jawatankuasa

Bukti Ketaksamaan Chebychev

Contoh: Toss Coin Hingga Kepala Pertama

Contoh: Model Graf Rawak Watts-Strogatz

Parametrik Keluarga Taburan

Kes Kepentingan kepada Kami: Keluarga Parameter pmfs

Pembahagian Berdasarkan Percubaan Bernoulli

Keluarga Pengagihan Geometrik

Contoh: Masalah Tempat Letak Kereta

Keluarga Pengagihan Binomial

Contoh: Model Tempat Letak Kereta

Keluarga Pengagihan Binomial Negatif

Dua Model Utama Bukan Bernoulli

Keluarga Pengagihan Poisson

Memadankan Model Undang-Undang Poisson dan Kuasa ke Data

Contoh: Masalah Penunggang Bas

Contoh: Membalikkan Syiling dengan Bonus

Contoh: Analisis Rangkaian Sosial

Grafik dan Visualisasi dalam R

Kebarangkalian Keadaan Jangka Panjang

Pengiraan Simulasi _

Contoh: Masalah Penunggang Bas

Nilai Individu Kini Mempunyai Kebarangkalian Sifar

Tetapi Sekarang Kami Mempunyai Masalah

Jalan keluar dari masalah: Fungsi Taburan Kumulatif

Pembahagian Tidak Tersekat, Tidak Berterusan

Maksud Intensif Ketumpatan

Keluarga Parametrik Teragih Taburan Berterusan

Pembahagian Pakaian Seragam

Contoh: Pemodelan Prestasi Cakera

Contoh: Pemodelan Serangan Penolakan Perkhidmatan

Keluarga Pengagihan Berterusan (Gaussian)

Keluarga Pengagihan Eksponensial

Contoh: Bayaran Tempat Letak Kereta Garaj

Harta Tanpa Memori Pengagihan Eksponensial

Keluarga Pengagihan Gamma

Keluarga Pengagihan Beta

Dualitas Keluarga Eksponensial dengan Keluarga Poisson

Kaedah Berbalik untuk Persampelan dari Ketumpatan

Persampelan dari Taburan Poisson

Kepentingan Bab Ini

Contoh Contoh | Pemboleh ubah Rawak

Nilai dan Variasi X yang diharapkan

Contoh Populasi Mainan Lagi

Kes Contoh Rawak Mudah

Varians Contoh | Pemboleh ubah Rawak Lain

Anggaran Intuitif _

Kes Khas: X Merupakan Pembolehubah Penunjuk

Konsep Kesalahan Standard "

Contoh: Kajian Diabetes Pima

Jangan Lupa: Contoh = Penduduk!

Hujah untuk dan menentang

Fungsi split () dan ketuk () R

Menganggar Ketumpatan dari Sampel Data

Bias-Variance Tradeo_ dalam Kes Histogram

Isu Umum: Memilih Ijazah

Kaedah Kemungkinan Maksimum

Kaedah Lanjutan untuk Anggaran Ketumpatan

Penilaian Kebaikan Fit

Perincian Penganggar Kepadatan Kernel

Penutupan Di Bawah Transformasi Affine

Penutupan Di bawah Penjumlahan Bebas

Taburan Normal Piawai

Contoh: Pencerobohan Rangkaian

Contoh: Saiz Pendaftaran Kelas

Teorem Had Tengah

Contoh: Ralat Roundo_ Kumulatif

Contoh: Demonstrasi Muzium

Sedikit Pengertian Misteri

X Kira-kira Biasa | Tiada Perkara Apa Itu Taburan Penduduk

Taburan anggaran (Berpusat dan Skala) X

Peningkatan Penilaian Ketepatan X

Keluarga Pengagihan Chi-Squared

Contoh: Ralat dalam Penempatan Pin

Penumpuan dalam Pengedaran, dan CLT yang Tepat Dinyatakan

Contoh: Menjana Nombor Rawak Biasa

Peranan Taburan Biasa

Selang Keyakinan untuk Bermakna

Contoh: Kajian Diabetes Pima

Makna Selang Keyakinan

Selang Keyakinan untuk Perkadaran

Contoh: Pengelasan Mesin Penutup Hutan

Pembahagian Pelajar-t

Pengenalan kepada Ujian Kepentingan

Ujian Umum Berdasarkan Penganggar Teragih Biasa

Apa yang Rawak dan Yang Tidak

Contoh: Data Penutup Hutan

Masalah dengan Ujian Signifikansi

Sejarah Pengujian Kepentingan, dan Tempat Kita Sekarang

Kaedah Pelbagai Inferens

Lebih lanjut mengenai Tafsiran CI

Pandangan Bayesian Selang Keyakinan

Taburan Multivariate: Kes Discrete

Taburan Multivariate: Kes Berterusan

Motivasi dan Definisi

Penggunaan Kepadatan Multivariate dalam Mencari Kebarangkalian dan Nilai yang Diharapkan

Contoh: Taburan Segitiga

Taburan Multivariate: Kes Bercampur-Berpadu Bercampur

Mengukur Ko-variasi Pemboleh ubah Rawak

Contoh: Contoh Jawatankuasa Lagi

Contoh: Korelasi dalam Taburan Segitiga

Set Pemboleh ubah Rawak Bebas

Contoh yang Melibatkan Set Pemboleh ubah Rawak Bebas

Sifat Vektor Min

Matriks Kovarians Gabungan Linear Rawak

Lebih banyak mengenai Set Pemboleh ubah Rawak Bebas

Kebarangkalian Fungsi Jisim dan Faktor Ketumpatan dalam Kes Bebas

Keluarga Pengagihan Normal Multivariate

Kes Khas: Pembolehubah Baru Merupakan Gabungan Linear Tunggal bagi Vektor Rawak

Sifat Taburan Biasa Multivariate

Teorem Had Pusat Multivariate

Contoh: Membalikkan Syiling dengan Bonus

Harapan Bersyarat sebagai Pemboleh ubah Rawak

Derivasi Makna dan Varians

Jumlah Pemboleh ubah Rawak Poisson Bebas Yang Diagihkan Poisson

Pandangan Geometri Harapan Bersyarat

Bukti Alternatif E (UV) = EU EU untuk Independent U, V

Menjana Vektor Rawak Normal Multivariate

Analisis Komponen Utama

Contoh: Penilaian Pengajaran Turki

Contoh: Hadiah Kesihatan Warisan

Matlamat: Ramalan dan Penerangan

Apa Ertinya Hubungan ?

Model Parametrik untuk Fungsi Regresi m ()

Anggaran dalam Model Regresi Parametrik Linear

Regresi Berganda: Lebih Dari Satu Pembolehubah Prediktor

Contoh: Data besbol (samb)

Anggaran Parametrik Fungsi Regresi Linear

Regresi Rawak-X dan Tetap-X

Anggaran Titik dan Rumusan Matriks

Selang Keyakinan Hampir

Contoh: Data besbol (samb)

Model Logistik: Motivasi

Anggaran dan Kesimpulan untuk Pekali Logit

Contoh: Data Penutup Hutan

Kaedah Pembelajaran Mesin: Rangkaian Neural

Contoh: Meramalkan Kelainan Vertebral

Tetapi Apa Yang Sebenarnya Berlaku?

Derivatif Matriks dan Meminimumkan Jumlah Kuadrat

Beberapa Butiran Pengiraan di Bahagian

Contoh: Regresi Polinomial

Bolehkah Ada Yang Dilakukan?

Sesi Pengaturcaraan Contoh Pertama

Sesi Pengaturcaraan Contoh Kedua

Sesi Pengaturcaraan Contoh Ketiga

Nilai Hujah Lalai

Beberapa Fungsi Workhorse

B Terminologi dan Notasi

B Matriks Penambahan dan Pendaraban

B Nilai Eigen dan Eigenvektor


Langkah 1: Buat 16 subkunci, masing-masing panjang 48 bit.

Kekunci 64-bit disisipkan mengikut jadual berikut, PC-1. Oleh kerana entri pertama dalam jadual adalah "57", ini bermakna bahawa bit ke-57 dari kunci asal K menjadi bit pertama dari kunci yang ditukarkan K+. Bit ke-49 dari kekunci asal menjadi bit kedua dari kekunci yang dilucutkan. Bit keempat dari kekunci asal adalah bit terakhir dari kekunci yang dilucutkan. Perhatikan hanya 56 bit kunci asal yang muncul dalam kekunci yang disatukan.

Contoh: Dari kekunci 64-bit yang asal

K = 00010011 00110100 01010111 01111001 10011011 10111100 11011111 11110001

kita mendapat permutasi 56-bit

K+ = 1111000 0110011 0010101 0101111 0101010 1011001 1001111 0001111

Seterusnya, bahagikan kunci ini kepada bahagian kiri dan kanan, C0 dan D0, di mana setiap separuh mempunyai 28 bit.

Contoh: Dari kekunci yang dilucutkan K+, kita dapat

C0 = 1111000 0110011 0010101 0101111
D0 = 0101010 1011001 1001111 0001111

Dengan C0 dan D0 ditakrifkan, kita sekarang membuat enam belas blok Cn dan Dn, 1 Kn + E(Rn-1).

Contoh: Untuk K1 , E(R0), kita ada

K1 = 000110 110000 001011 101111 111111 000111 000001 110010
E(R0) = 011110 100001 010101 010101 011110 100001 010101 010101
K1+E(R0) = 011000 010001 011110 111010 100001 100110 010100 100111.

Kami belum selesai mengira fungsi f . Hingga kini, kami telah berkembang Rn-1 dari 32 bit hingga 48 bit, menggunakan jadual pilihan, dan XORed hasilnya dengan kunci Kn . Kita sekarang mempunyai 48 bit, atau lapan kumpulan enam bit. Kami sekarang melakukan sesuatu yang pelik dengan setiap kumpulan yang terdiri daripada enam bit: kami menggunakannya sebagai alamat dalam jadual yang disebut "Kotak SSetiap kumpulan yang terdiri daripada enam bit akan memberi kita alamat yang berbeza S kotak. Terletak di alamat itu akan menjadi nombor 4 bit. Nombor 4 bit ini akan menggantikan 6 bit yang asal. Hasil bersih adalah bahawa lapan kumpulan 6 bit diubah menjadi lapan kumpulan 4 bit (output 4-bit dari S kotak) untuk 32 bit keseluruhan.

Tuliskan hasil sebelumnya, iaitu 48 bit, dalam bentuk:

di mana masing-masing Bi adalah sekumpulan enam bit. Kami kini mengira

di mana Si(Bi) merujuk kepada output dari i-th S kotak.

Untuk mengulang, setiap fungsi S1, S2. S8, mengambil blok 6-bit sebagai input dan menghasilkan blok 4-bit sebagai output. Jadual untuk menentukan S1 ditunjukkan dan dijelaskan di bawah:

Sekiranya S1 adalah fungsi yang ditentukan dalam jadual ini dan B adalah blok 6 bit, maka S1(B) ditentukan seperti berikut: Bit pertama dan terakhir dari B mewakili dalam asas 2 nombor dalam lingkungan perpuluhan 0 hingga 3 (atau binari 00 hingga 11). Biarkan nombor itu i. Tengah 4 bit B mewakili dalam asas 2 nombor dalam lingkungan perpuluhan 0 hingga 15 (binari 0000 hingga 1111). Biarkan nombor itu j. Cari di jadual nombor di i-baris dan j-lajur ke-. Ini adalah nombor dalam lingkungan 0 hingga 15 dan diwakili secara unik oleh blok 4 bit. Blok itu adalah keluarannya S1(B) daripada S1 untuk input B. Contohnya, untuk blok input B = 011011 bit pertama adalah "0" dan bit terakhir "1" memberikan 01 sebagai baris. Ini adalah baris 1. Empat bit tengah adalah "1101". Ini adalah setara binari dengan perpuluhan 13, jadi lajur adalah lajur nombor 13. Di baris 1, lajur 13 muncul 5.Ini menentukan output 5 adalah binari 0101, sehingga output 0101. Oleh itu S1(011011) = 0101.

Jadual yang menentukan fungsi S1. S8 adalah berikut:

Contoh: Untuk pusingan pertama, kami memperoleh hasil dari lapan S kotak:

K1 + E(R0) = 011000 010001 011110 111010 100001 100110 010100 100111.

Tahap terakhir dalam pengiraan f adalah melakukan permutasi P daripada S-keluaran kotak untuk mendapatkan nilai akhir f:

Permutasi P ditakrifkan dalam jadual berikut. P menghasilkan output 32-bit dari input 32-bit dengan meresap bit blok input.

Contoh: Dari keluaran lapan S kotak:

f = 0010 0011 0100 1010 1010 1001 1011 1011

R1 = L0 + f(R0 , K1 )

Pada pusingan seterusnya, kita akan mempunyai L2 = R1, yang merupakan blok yang baru kita hitung, dan kemudian kita mesti mengira R2 =L1 + f (R1, K2), dan seterusnya selama 16 pusingan. Pada akhir pusingan keenam belas kita mempunyai blok L16 dan R16. Kami kemudian terbalik susunan dua blok ke dalam blok 64-bit

dan gunakan permutasi akhir IP -1 seperti yang ditentukan oleh jadual berikut:

Maksudnya, output algoritma mempunyai bit 40 dari blok preoutput sebagai bit pertama, bit 8 sebagai bit kedua, dan seterusnya, sehingga bit 25 blok preoutput adalah bit output terakhir.

Contoh: Sekiranya kita memproses semua 16 blok menggunakan kaedah yang ditentukan sebelumnya, kita akan mendapat, pada pusingan ke-16,

L16 = 0100 0011 0100 0010 0011 0010 0011 0100
R16 = 0000 1010 0100 1100 1101 1001 1001 0101

Kami membalikkan susunan kedua blok ini dan menerapkan permutasi terakhir ke

R16L16 = 00001010 01001100 11011001 10010101 01000011 01000010 00110010 00110100

IP -1 = 10000101 11101000 00010011 01010100 00001111 00001010 10110100 00000101

yang dalam format heksadesimal adalah

Ini adalah bentuk yang dienkripsi M = 0123456789ABCDEF: iaitu, C = 85E813540F0AB405.

Penyahsulitan hanyalah kebalikan dari enkripsi, mengikuti langkah yang sama seperti di atas, tetapi membalikkan susunan subkunci yang digunakan.

Kaedah Operasi DES

Algoritma DES bertukar blok mesej 64-bit M ke dalam blok cipher 64-bit C. Sekiranya setiap blok 64-bit disulitkan secara individu, maka mod penyulitan dipanggil Buku Kod Elektronik Mod (ECB). Terdapat dua mod penyulitan DES yang lain, iaitu Pengekodan Rantai Blok (PJK) dan Maklum Balas Cipher (CFB), yang menjadikan setiap blok cipher bergantung pada semua blok pesan sebelumnya melalui operasi XOR awal.

Keretakan DES

Sebelum DES diadopsi sebagai standard nasional, selama periode NBS meminta komentar pada algoritma yang dicadangkan, pencipta kriptografi kunci awam, Martin Hellman dan Whitfield Diffie, mendaftarkan beberapa keberatan terhadap penggunaan DES sebagai algoritma penyulitan. Hellman menulis: "Whit Diffie dan saya menjadi bimbang bahawa cadangan enkripsi data yang dicadangkan, walaupun mungkin selamat dari serangan komersial, mungkin sangat rentan untuk diserang oleh organisasi perisikan" (surat kepada NBS, 22 Oktober 1975).

Diffie dan Hellman kemudian menggariskan serangan "brute force" ke atas DES. (Dengan "brute force" bermaksud anda mencuba sebanyak mungkin 2 ^ 56 kekunci yang anda perlukan sebelum mendekripsi ciphertext ke dalam pesan teks biasa yang masuk akal.) Mereka mencadangkan tujuan khas "komputer selari menggunakan satu juta cip untuk mencuba satu juta kunci setiap satu "sesaat, dan menganggarkan kos mesin sedemikian pada $ 20 juta.

Maju cepat ke tahun 1998. Di bawah arahan John Gilmore dari EFF, sebuah pasukan menghabiskan $ 220,000 dan membina mesin yang dapat melalui keseluruhan ruang kunci 56-bit DES dalam purata 4,5 hari. Pada 17 Julai 1998, mereka mengumumkan bahawa mereka telah memecahkan kunci 56-bit dalam 56 jam. Komputer, yang disebut Deep Crack, masing-masing menggunakan 27 papan berisi 64 cip, dan mampu menguji 90 bilion kunci sesaat.

Walaupun demikian, baru-baru ini pada 8 Jun 1998, Robert Litt, timbalan jaksa agung utama di Jabatan Kehakiman, menafikan kemungkinan FBI memecahkan DES: "Biarkan saya meletakkan masalah teknikal dalam konteks: Perlu 14,000 Pentium komputer yang berfungsi selama empat bulan untuk menyahsulit satu mesej ... Kami bukan hanya bercakap FBI dan NSA [memerlukan kuasa pengkomputeran besar-besaran], kami juga membincangkan setiap jabatan polis. "

Pakar kriptografi yang menjawab, Bruce Schneier: "... FBI tidak cekap atau berbohong, atau kedua-duanya." Schneier melanjutkan dengan mengatakan: "Satu-satunya penyelesaian di sini adalah memilih algoritma dengan kunci yang lebih panjang. Tidak ada cukup silikon di galaksi atau cukup waktu sebelum matahari terbakar untuk memaksa brute-force triple-DES" (Crypto-Gram, Counterpane Systems, 15 Ogos 1998).

Triple-DES

Triple-DES hanyalah DES dengan dua kunci 56-bit digunakan. Diberikan pesan teks biasa, kunci pertama digunakan untuk mendeskripsi mesej. Kekunci kedua digunakan untuk mendekripsi mesej yang disulitkan. (Oleh kerana kunci kedua bukan kunci yang betul, penyahsulitan ini hanya menggegarkan data lebih jauh.) Mesej dua kali kemudian dienkripsi lagi dengan kunci pertama untuk menghasilkan ciphertext akhir. Prosedur tiga langkah ini dipanggil triple-DES.

Triple-DES hanya DES dilakukan tiga kali dengan dua kekunci yang digunakan dalam urutan tertentu. (Triple-DES juga dapat dilakukan dengan tiga kekunci terpisah dan bukan hanya dua. Dalam kedua-dua keadaan, ruang kekunci yang dihasilkan adalah sekitar 2 ^ 112.)

"Algoritma Kriptografi untuk Perlindungan Data Komputer Semasa Penghantaran dan Penyimpanan Dorman," Daftar Persekutuan 38, No. 93 (15 Mei 1973).

Standard Penyulitan Data, Penerbitan Standard Pemprosesan Maklumat Persekutuan (FIPS) 46, Biro Piawaian Nasional, Jabatan Perdagangan A.S., Washington D.C. (Januari 1977).

Carl H. Meyer dan Stephen M. Matyas, Kriptografi: Dimensi Baru dalam Keselamatan Data Komputer, John Wiley & Sons, New York, 1982.

Dorthy Elizabeth Robling Denning, Kriptografi dan Keselamatan Data, Syarikat Penerbitan Addison-Wesley, Reading, Massachusetts, 1982.

D.W. Davies dan W.L. Harga, Keselamatan untuk Rangkaian Komputer: Pengenalan kepada Keselamatan Data dalam Pemindahan Dana Teleprocessing dan Elektronik, Edisi Kedua, John Wiley & Sons, New York, 1984, 1989.

Miles E. Smid dan Dennis K. Branstad, "The Data Encryption Standard: Past and Future," dalam Gustavus J. Simmons, ed., Kriptografi Kontemporari: Sains Integriti Maklumat, IEEE Press, 1992.

Douglas R. Stinson, Kriptografi: Teori dan Amalan, CRC Press, Boca Raton, 1995.

Bruce Schneier, Kriptografi Gunaan, Edisi Kedua, John Wiley & Sons, New York, 1996.

Alfred J. Menezes, Paul C. van Oorschot, dan Scott A. Vanstone, Buku Panduan Kriptografi Gunaan, CRC Press, Boca Raton, 1997.


Tonton videonya: 4 Stratified Sampling and Multi-stage Cluster Sampling (Oktober 2021).