Statistik Inferensial

Statistik Inferensial

Statistik inferensial berusaha membuat berbagai inferensi terhadap sekumpulan data yang berasal dari suatu sample. Tindakan inferensi tersebut seperti melakukan perkiraan, peramalan, pengambilan keputusan dari dua variable atau lebih.

Statistik inferensial dapat dikelompokan mejadi 2 yaitu:

  1. Statistik Parametrik.
  2. Statistik Non Parametrik.

Statistik Parametrik

Statistik parametrik digunakan dengan syarat data sebagai sample harus terdistribusi normal ( diuji dengan uji normalitas terlebih dahulu ), jadi sebelum menentukan pengujian yang akan dipakai maka dilakukan pengujian normalitas terlebih dahulu. Pengujian yang dipakai dalam statistik parametrik adalah:

a. Uji Perbedaan

pengujian memfokuskan kepada perbedaan nyata dengan sebuah sample dan sample lain. uji yang digunakan adalah independent sample t test, paired sample t test, one sample t test.

b. Uji Asosiasi

penggujian ini menggunakan dua variable yang ada mempunyai hubungan, pengaruh. Uji yang digunakan korelasi, Chi Square, Regresi.

c. Analisis Multivariate

Di sini jumlah variable banyaj dan tujuan pengujian adalah mencoba mengetahui struktur data yang ada pada variable – variable tersebut. Uji yang digunakan adalah analisis diskriminan, Analisis faktor.

Statistik Non Parametrik

Statistik non parametrik ini digunakan pada kondisi-kondisi penelitian tertentu. Kondisi yang sering dijumpai antara lain data pada sample tidak terdistribusi normal, jumlah sample yang kecil (kurang dari 30) cenderung lebih sederhana sehingga kesimpulannya kadang diragukan. Yang termasuk uji non parametrik adalah Uji Sign, Uji Mann Whitney, Uji Friedman, Uji Kruskal Walis H akan dibahas lebih lanjut dipostingan selanjutnya.

 

Source: SPSS untuk Penelitian – V. Wiratna Sujarweni

Andreas Chandra is now working

Hi there, Andreas Chandra is currently working as Software Engineer at Wonderlabs. Andreas handles building a website using node.js, express.js, docker, postgresql and mongoDB. It will not intterupt his research. Andreas Chandra also takes involve at turn back hoax as data scientist. Andreas Chandra lives in Samirono CT/VI 033, Catur Tunggal, Depok, Sleman, DI Yogyakarta

Basic R cheatsheet

Basic R Cheatsheet

 

Hallo reader, bagi yang sedang mencari R Cheatsheet untuk yang sering lupa fungsi fungsi di R dan bagi yang sedang mempelajari R juga sangat berguna cheatsheet ini sebagai refernsi.

 

jika yang merasa resolusi gambarnya terlalu rendah, silahkan kirimkan alamat emailnya ke andreaschaandra@yahoo.com dengan Subject Basic R Cheatsheet untuk mendapatkan versi pdfnya.

Dataset yang tersedia di R

jika kalian mencari dataset untuk mencoba algoritma data mining, kalian tidak perlu repot repot mencarinya diluar, di dalam R sendiri terdapat dataset sample. cukup ketikan data() maka akan keluar list dataset yang ada di R.

untuk lebih jelasnya list dataset yang ada di R ada di bawah ini.

Data sets in package ‘datasets’:

AirPassengers Monthly Airline Passenger Numbers 1949-1960
BJsales Sales Data with Leading Indicator
BJsales.lead (BJsales) Sales Data with Leading Indicator
BOD Biochemical Oxygen Demand
CO2 Carbon Dioxide Uptake in Grass Plants
ChickWeight Weight versus age of chicks on different diets
DNase Elisa assay of DNase
EuStockMarkets Daily Closing Prices of Major European Stock
Indices, 1991-1998
Formaldehyde Determination of Formaldehyde
HairEyeColor Hair and Eye Color of Statistics Students
Harman23.cor Harman Example 2.3
Harman74.cor Harman Example 7.4
Indometh Pharmacokinetics of Indomethacin
InsectSprays Effectiveness of Insect Sprays
JohnsonJohnson Quarterly Earnings per Johnson & Johnson Share
LakeHuron Level of Lake Huron 1875-1972
LifeCycleSavings Intercountry Life-Cycle Savings Data
Loblolly Growth of Loblolly pine trees
Nile Flow of the River Nile
Orange Growth of Orange Trees
OrchardSprays Potency of Orchard Sprays
PlantGrowth Results from an Experiment on Plant Growth
Puromycin Reaction Velocity of an Enzymatic Reaction
Seatbelts Road Casualties in Great Britain 1969-84
Theoph Pharmacokinetics of Theophylline
Titanic Survival of passengers on the Titanic
ToothGrowth The Effect of Vitamin C on Tooth Growth in Guinea Pigs
UCBAdmissions Student Admissions at UC Berkeley
UKDriverDeaths Road Casualties in Great Britain 1969-84
UKgas UK Quarterly Gas Consumption
USAccDeaths Accidental Deaths in the US 1973-1978
USArrests Violent Crime Rates by US State
USJudgeRatings Lawyers’ Ratings of State Judges in the US Superior Court
USPersonalExpenditure Personal Expenditure Data
UScitiesD Distances Between European Cities and Between US Cities
VADeaths Death Rates in Virginia (1940)
WWWusage Internet Usage per Minute
WorldPhones The World’s Telephones
ability.cov Ability and Intelligence Tests
airmiles Passenger Miles on Commercial US Airlines, 1937-1960
airquality New York Air Quality Measurements
anscombe Anscombe’s Quartet of ‘Identical’ Simple Linear Regressions
attenu The Joyner-Boore Attenuation Data
attitude The Chatterjee-Price Attitude Data
austres Quarterly Time Series of the Number of Australian Residents
beaver1 (beavers) Body Temperature Series of Two Beavers
beaver2 (beavers) Body Temperature Series of Two Beavers
cars Speed and Stopping Distances of Cars
chickwts Chicken Weights by Feed Type
co2 Mauna Loa Atmospheric CO2 Concentration
crimtab Student’s 3000 Criminals Data
discoveries Yearly Numbers of Important Discoveries
esoph Smoking, Alcohol and (O)esophageal Cancer
euro Conversion Rates of Euro Currencies
euro.cross (euro) Conversion Rates of Euro Currencies
eurodist Distances Between European Cities and Between US Cities
faithful Old Faithful Geyser Data
fdeaths (UKLungDeaths) Monthly Deaths from Lung Diseases in the UK
freeny Freeny’s Revenue Data
freeny.x (freeny) Freeny’s Revenue Data
freeny.y (freeny) Freeny’s Revenue Data
infert Infertility after Spontaneous and Induced Abortion
iris Edgar Anderson’s Iris Data
iris3 Edgar Anderson’s Iris Data
islands Areas of the World’s Major Landmasses
ldeaths (UKLungDeaths) Monthly Deaths from Lung Diseases in the UK
lh Luteinizing Hormone in Blood Samples
longley Longley’s Economic Regression Data
lynx Annual Canadian Lynx trappings 1821-1934
mdeaths (UKLungDeaths) Monthly Deaths from Lung Diseases in the UK
morley Michelson Speed of Light Data
mtcars Motor Trend Car Road Tests
nhtemp Average Yearly Temperatures in New Haven
nottem Average Monthly Temperatures at Nottingham, 1920-1939
npk Classical N, P, K Factorial Experiment
occupationalStatus Occupational Status of Fathers and their Sons
precip Annual Precipitation in US Cities
presidents Quarterly Approval Ratings of US Presidents
pressure Vapor Pressure of Mercury as a Function of Temperature
quakes Locations of Earthquakes off Fiji
randu Random Numbers from Congruential Generator RANDU
rivers Lengths of Major North American Rivers
rock Measurements on Petroleum Rock Samples
sleep Student’s Sleep Data
stack.loss (stackloss) Brownlee’s Stack Loss Plant Data
stack.x (stackloss) Brownlee’s Stack Loss Plant Data
stackloss Brownlee’s Stack Loss Plant Data
state.abb (state) US State Facts and Figures
state.area (state) US State Facts and Figures
state.center (state) US State Facts and Figures
state.division (state) US State Facts and Figures
state.name (state) US State Facts and Figures
state.region (state) US State Facts and Figures
state.x77 (state) US State Facts and Figures
sunspot.month Monthly Sunspot Data, from 1749 to “Present”
sunspot.year Yearly Sunspot Data, 1700-1988
sunspots Monthly Sunspot Numbers, 1749-1983
swiss Swiss Fertility and Socioeconomic Indicators (1888) Data
treering Yearly Treering Data, -6000-1979
trees Girth, Height and Volume for Black Cherry Trees
uspop Populations Recorded by the US Census
volcano Topographic Information on Auckland’s Maunga Whau Volcano
warpbreaks The Number of Breaks in Yarn during Weaving
women Average Heights and Weights for American Women

 

Pengertian Big Data

Big data bukanlah sebuah teknologi tunggal namun kombinasi dari teknologi lama dan baru yang dapat membantu perusahaan mendapatkan pengetahuan lebih. oleh karena itu big data adalah kapabilitas untuk mengatur ukuran data  besar yang berbeda-beda, pada kecepatan pemrosesan yang tepat dan dalam rangkaian waktu yang tepat pula untuk menyediakan analisis real-time dan reaksi. sebagai gambarannya big data memiliki 3 karakteristik:

  1. Volume adalah seberapa banyak data.
  2. Velocity adalah seberapa cepat data di proses.
  3. Variety adalah seberapa variasinya dari data tersebut.

Meskipun mudah untuk mendefinisikan big data kedalam 3 Vs, tetapi itu dapat mensalah artikan dan terlalu sederhana. big data tidak hanya dikatakan ketika anda memiliki jumlah data yang sangat besar dengan data terstruktur atau tidak terstruktur, jumlah data yang kecil namun bervariasi atau data yang sangat kompleks, selain itu ada hal yang lebih penting yaitu V ke-empat: Veracity, begaimana keakuratan data bahwa data digunakan untuk memprediksi dalam hal bisnis? apakah hasil dari analisis data tersebut masuk akal?