RIMA หมายถึงแบบจำลองการเคลื่อนที่แบบบูรณาการแบบอัตโนมัติ (single vector) ARIMA เป็นเทคนิคการพยากรณ์ที่คาดการณ์มูลค่าในอนาคตของชุดข้อมูลโดยอิงตามความเฉื่อยของตัวเอง การประยุกต์ใช้หลักของมันอยู่ในพื้นที่ของการคาดการณ์ในระยะสั้นที่ต้องใช้จุดข้อมูลทางประวัติศาสตร์อย่างน้อย 40 จุด ใช้งานได้ดีที่สุดเมื่อข้อมูลของคุณมีรูปแบบที่มั่นคงหรือสอดคล้องกันตลอดเวลาโดยมีจำนวนข้อผิดพลาดน้อยที่สุด บางครั้งเรียกว่า Box-Jenkins (หลังจากที่ผู้เขียนต้นฉบับ) ARIMA มักจะดีกว่าเทคนิคการทำให้เกิดการชี้แจงเมื่อข้อมูลมีความยาวและความสัมพันธ์ระหว่างการสังเกตในอดีตมีเสถียรภาพ หากข้อมูลสั้นหรือมีความผันผวนสูงวิธีการปรับความเรียบบางวิธีอาจทำงานได้ดีขึ้น หากคุณไม่มีจุดข้อมูลอย่างน้อย 38 จุดคุณควรพิจารณาวิธีการอื่นนอกเหนือจาก ARIMA ขั้นตอนแรกในการใช้วิธีการ ARIMA คือการตรวจสอบ stationarity Stationarity แสดงให้เห็นว่าซีรีย์ยังคงอยู่ในระดับที่คงที่ตลอดเวลา หากมีแนวโน้มเช่นเดียวกับในแอปพลิเคชันทางเศรษฐกิจหรือธุรกิจส่วนใหญ่ข้อมูลของคุณจะยังคงอยู่ไม่หยุดนิ่ง ข้อมูลควรแสดงความแปรปรวนของความผันผวนตลอดเวลา นี่ดูได้อย่างง่ายดายด้วยชุดที่มีฤดูกาลมากและเติบโตขึ้นในอัตราที่รวดเร็วขึ้น ในกรณีเช่นนี้การขึ้นและการดาวน์ในฤดูกาลจะทวีความรุนแรงมากขึ้นเมื่อเวลาผ่านไป หากไม่พบเงื่อนไขการหยุดนิ่งเหล่านี้จะไม่สามารถคำนวณการคำนวณจำนวนมากที่เกี่ยวข้องกับกระบวนการนี้ได้ หากพล็อตข้อมูลแบบกราฟิกแสดงถึงความไม่เสถียรภาพคุณควรแตกต่างจากชุดข้อมูล Differencing เป็นวิธีที่ยอดเยี่ยมในการเปลี่ยนชุดแบบไม่ต่อเนื่องให้เป็นแบบคงที่ โดยการลบคำสังเกตในช่วงเวลาปัจจุบันออกจากข้อสังเกตก่อนหน้านี้ หากการแปลงนี้ทำเพียงครั้งเดียวกับชุดคุณจะกล่าวว่าข้อมูลนี้มีความแตกต่างกันเป็นครั้งแรก ขั้นตอนนี้เป็นหลักช่วยลดแนวโน้มหากชุดของคุณมีอัตราการเติบโตที่ค่อนข้างคงที่ หากอัตราการเติบโตเพิ่มขึ้นคุณสามารถใช้ขั้นตอนเดียวกันและทำให้ข้อมูลแตกต่างกันได้อีก จากนั้นข้อมูลของคุณจะแตกต่างกันไป Autocorrelations เป็นค่าตัวเลขที่ระบุว่าชุดข้อมูลเกี่ยวข้องกับตัวเองอย่างไรเมื่อเวลาผ่านไป อย่างแม่นยำมากขึ้นจะวัดว่าค่าข้อมูลอย่างมากที่ช่วงระยะเวลาที่ระบุเป็นจำนวนเท่าใดมีความสัมพันธ์กันเมื่อเวลาผ่านไป จำนวนรอบระยะเวลาโดยปกติจะเรียกว่าความล่าช้า ตัวอย่างเช่นค่าความสัมพันธ์ระหว่างความคลาดเคลื่อน 1 วัดค่าที่แตกต่างกันของช่วงเวลา 1 ช่วงเวลาที่มีความสัมพันธ์กันในชุดข้อมูล ความสัมพันธ์กันที่ความล่าช้า 2 วัดว่าข้อมูลสองช่วงเวลามีความสัมพันธ์กันอย่างไรในซีรี่ส์ Autocorrelations อาจอยู่ในช่วงตั้งแต่ 1 ถึง -1 ค่าใกล้เคียงกับ 1 แสดงถึงความสัมพันธ์ทางบวกที่สูงในขณะที่ค่าใกล้เคียงกับ -1 แสดงถึงความสัมพันธ์เชิงลบสูง มาตรการเหล่านี้มักได้รับการประเมินผ่านทางกราฟฟิกที่เรียกว่า correlagrams correlagram แปลงค่าความสัมพันธ์แบบอัตโนมัติสำหรับชุดข้อมูลหนึ่ง ๆ ที่มีความล่าช้าแตกต่างกัน นี่เรียกว่าฟังก์ชัน autocorrelation และมีความสำคัญมากในวิธีการ ARIMA วิธีการ ARIMA พยายามที่จะอธิบายการเคลื่อนไหวในชุดเวลาแบบคงที่ในฐานะที่เป็นหน้าที่ของสิ่งที่เรียกว่าพารามิเตอร์อัตถิภาวนิยมและค่าเฉลี่ยเคลื่อนที่ พารามิเตอร์เหล่านี้เรียกว่าพารามิเตอร์ AR (autoregessive) และพารามิเตอร์ MA (ค่าเฉลี่ยเคลื่อนที่) อาจมีการเขียนแบบ AR ที่มีเพียง 1 พารามิเตอร์เท่านั้น X (t) A (1) X (t-1) E (t) โดยที่ X (t) เวลาชุดภายใต้การตรวจสอบ A (1) พารามิเตอร์ autoregressive ของลำดับ 1 X (t-1) ชุดเวลาล้าหลัง 1 ระยะเวลา E (t) ความผิดพลาดของรูปแบบนี้ก็หมายความว่าค่าใดก็ตาม X (t) สามารถอธิบายได้จากฟังก์ชันของค่าก่อนหน้าที่ X (t-1) รวมทั้งข้อผิดพลาดแบบสุ่มบางส่วนที่ไม่สามารถอธิบายได้ E (t) ถ้าค่าประมาณของ A (1) เท่ากับ. 30 มูลค่าปัจจุบันของชุดจะสัมพันธ์กับ 30 ค่าก่อนหน้า 1 แน่นอนว่าซีรีย์นี้อาจเกี่ยวข้องกับมากกว่าหนึ่งค่าที่ผ่านมา ตัวอย่างเช่น X (t) A (1) X (t-1) A (2) X (t-2) E (t) นี่แสดงว่าค่าปัจจุบันของชุดคือการรวมกันของสองค่าก่อนหน้านี้ทันที, X (t-1) และ X (t-2) รวมทั้งข้อผิดพลาดแบบสุ่ม E (t) แบบจำลองของเราตอนนี้เป็นโมเดลอัตรกรรรณ์ของคำสั่ง 2 การเคลื่อนที่แบบเฉลี่ย: แบบที่สองของแบบจำลอง Box-Jenkins เรียกว่าโมเดลเฉลี่ยเคลื่อนที่ แม้ว่ารูปแบบเหล่านี้มีลักษณะคล้ายกับรุ่น AR แต่แนวคิดที่อยู่เบื้องหลังพวกเขามีความแตกต่างกันออกไป การย้ายค่าเฉลี่ยจะสัมพันธ์กับสิ่งที่เกิดขึ้นในช่วง t เฉพาะกับข้อผิดพลาดแบบสุ่มที่เกิดขึ้นในช่วงเวลาที่ผ่านมาเช่น E (t-1), E (t-2) เป็นต้นแทนที่จะเป็น X (t-1), X ( t-2), (Xt-3) ตามแนวทาง autoregressive แบบเฉลี่ยถ่วงน้ำหนักโดยเฉลี่ยที่มีระยะ MA สามารถเขียนได้ดังนี้ X (t) - B (1) E (t-1) E (t) คําวา B (1) เรียกวา MA ของคําสั่ง 1. เครื่องหมายลบที่ดานหนาของพารามิเตอรใชสําหรับการประชุมเทานั้น ออกโดยอัตโนมัติโดยโปรแกรมคอมพิวเตอร์ส่วนใหญ่ แบบจำลองข้างต้นกล่าวง่ายๆว่าค่าที่กำหนดของ X (t) มีความสัมพันธ์โดยตรงกับความผิดพลาดแบบสุ่มในช่วงก่อนหน้า, E (t-1) และความผิดพลาดปัจจุบัน E (t) เช่นเดียวกับในกรณีของโมเดลอัตถิภาวนิยมโมเดลเฉลี่ยเคลื่อนที่สามารถขยายไปยังโครงสร้างการสั่งซื้อที่สูงขึ้นซึ่งครอบคลุมชุดค่าผสมต่างๆและความยาวเฉลี่ยที่เคลื่อนที่ได้ วิธีการ ARIMA ยังช่วยให้สามารถสร้างโมเดลที่มีทั้งค่าเฉลี่ยอัตรวจและเคลื่อนไหวโดยรวมเข้าด้วยกัน โมเดลเหล่านี้มักถูกเรียกว่าแบบผสม แม้ว่าสิ่งนี้จะทำให้เครื่องมือคาดการณ์ที่ซับซ้อนมากขึ้น แต่โครงสร้างอาจจำลองชุดข้อมูลได้ดีขึ้นและสร้างการคาดการณ์ที่แม่นยำขึ้น โมเดล Pure หมายความว่าโครงสร้างประกอบด้วยเฉพาะ AR หรือพารามิเตอร์ MA - ไม่ใช่ทั้งสองอย่าง โมเดลที่พัฒนาโดยวิธีนี้มักเรียกว่า ARIMA เนื่องจากใช้การผสมผสานของอัตมโนทัศน์ (AR), การผสมผสาน (I) - หมายถึงกระบวนการย้อนกลับของ differencing เพื่อสร้างการคาดการณ์และการดำเนินงานโดยเฉลี่ย (MA) แบบ ARIMA มักถูกระบุว่าเป็น ARIMA (p, d, q) นี่แสดงลำดับของคอมโพเนนต์ autoregressive (p) จำนวน operator ที่ต่างกัน (d) และคำสั่งที่สูงที่สุดของค่าเฉลี่ยเคลื่อนที่ ยกตัวอย่างเช่น ARIMA (2,1,1) หมายความว่าคุณมีแบบจำลองอัตถดถอยอันดับที่สองที่มีส่วนประกอบของค่าเฉลี่ยเคลื่อนที่อันดับแรกที่มีการจัดลำดับชุดหนึ่งครั้งเพื่อกระตุ้นให้เกิดการหยุดนิ่ง การเลือกข้อมูลจำเพาะที่เหมาะสม: ปัญหาหลักในคลาสสิก Box-Jenkins พยายามที่จะตัดสินใจว่าจะใช้ ARIA ข้อกำหนดใดบ้างเพื่อใช้ - i. e. จำนวนอาร์เรย์และพารามิเตอร์ MA ที่รวมไว้ นี่คือสิ่งที่มากของ Box-Jenkings 1976 ได้ทุ่มเทให้กับกระบวนการระบุตัวตน ขึ้นอยู่กับการประเมินผลแบบกราฟิกและตัวเลขของการเชื่อมโยงความสัมพันธ์ระหว่างตัวอย่างและฟังก์ชันการเชื่อมโยงบางส่วน (autocorrelation) ดีสำหรับรุ่นพื้นฐานของคุณงานไม่ยากเกินไป แต่ละฟังก์ชันมีความสัมพันธ์กันโดยอัตโนมัติซึ่งมีลักษณะบางอย่าง อย่างไรก็ตามเมื่อคุณขึ้นไปอย่างซับซ้อนรูปแบบจะไม่สามารถตรวจพบได้ง่าย เพื่อให้เรื่องยากขึ้นข้อมูลของคุณเป็นเพียงตัวอย่างของกระบวนการอ้างอิงเท่านั้น ซึ่งหมายความว่าข้อผิดพลาดในการสุ่มตัวอย่าง (ข้อผิดพลาดค่าผิดพลาดในการวัด ฯลฯ ) อาจบิดเบือนกระบวนการระบุตัวตนทางทฤษฎี นั่นคือเหตุผลที่การสร้างแบบจำลอง ARIMA แบบดั้งเดิมเป็นศิลปะมากกว่าวิทยาศาสตร์วารสารคณิตศาสตร์และสถิติฉบับที่ 7 ฉบับที่ 1 คำแถลงปัญหา: โมเดลเฉลี่ยของ SARIMA ที่ใช้ในการคาดการณ์ชุดเวลาตามฤดูกาลเป็นแบบจำลอง SARIMA แบบทวีคูณ โมเดลเหล่านี้สมมติว่ามีพารามิเตอร์ที่สำคัญอันเป็นผลมาจากการคูณระหว่างพารามิเตอร์ nonseasonal และตามฤดูกาลโดยไม่มีการทดสอบโดยการทดสอบทางสถิติบางอย่าง นอกจากนี้ซอฟต์แวร์ทางสถิติที่ได้รับความนิยมมากที่สุดเช่น MINITAB และ SPSS มีเพียงสิ่งอำนวยความสะดวกเพื่อให้พอดีกับรูปแบบการคูณ จุดมุ่งหมายของการวิจัยนี้คือเพื่อเสนอขั้นตอนใหม่สำหรับการระบุลำดับที่เหมาะสมที่สุดของแบบจำลอง SARIMA ว่าเกี่ยวข้องกับชุดย่อยคำสั่งคูณหรือ additive โดยเฉพาะอย่างยิ่งการศึกษาตรวจสอบว่ามีตัวแปรคูณอยู่ในรูปแบบ SARIMA หรือไม่ วิธีการ: ทฤษฎีเกี่ยวกับ Autocorrelation (ACF) และ Autocorrelation บางส่วน (PACF) จากเซตย่อย multiplicative และ additive SARIMA รุ่นแรกถูกกล่าวถึงและใช้โปรแกรม R เพื่อสร้างกราฟิกของทฤษฎี ACF และ PACF นี้ จากนั้นข้อมูลชุดข้อมูล 2 ชุดต่อเดือนถูกใช้เป็นกรณีศึกษา ได้แก่ ข้อมูลผู้โดยสารสายการบินระหว่างประเทศและชุดข้อมูลเกี่ยวกับจำนวนนักท่องเที่ยวที่มาถึงบาหลีอินโดนีเซีย ขั้นตอนการระบุตัวแบบเพื่อกำหนดลำดับของแบบจำลอง ARIMA ได้กระทำโดยใช้โปรแกรม MINITAB และขั้นตอนการประมาณแบบจำลองที่ใช้โปรแกรม SAS เพื่อทดสอบว่ารูปแบบประกอบด้วยชุดย่อยคำสั่งคูณหรือ additive ผลลัพธ์: ทฤษฎี ACF และ PACF แสดงให้เห็นว่าเซตย่อยเซต SARIMA แบบทวีคูณและแบบเติมแต่งมีรูปแบบที่แตกต่างกันโดยเฉพาะที่ความล่าช้าอันเป็นผลมาจากการคูณระหว่างความล่าช้าที่ไม่ใช่ฤดูกาลและตามฤดูกาล การสร้างแบบจำลองของข้อมูลสายการบินทำให้รูปแบบ SARIMA เซตย่อยเป็นรูปแบบที่ดีที่สุดในขณะที่แบบจำลอง SARIMA แบบเสริมคือรูปแบบที่ดีที่สุดสำหรับการคาดการณ์จำนวนนักท่องเที่ยวที่เดินทางมาถึงบาหลี สรุป: กรณีศึกษาทั้งสองกรณีแสดงให้เห็นว่าแบบจำลอง SARIMA แบบทวีคูณไม่ใช่แบบจำลองที่ดีที่สุดสำหรับการคาดการณ์ข้อมูลเหล่านี้ การเปรียบเทียบการประเมินพบว่าเซตย่อยและแบบจำลอง SARIMA เสริมให้ค่าคาดการณ์ที่แม่นยำมากขึ้นในชุดข้อมูลตัวอย่างนอกมากกว่ารูปแบบ SARIMA แบบทวีคูณสำหรับชุดข้อมูลสายการบินและสถานที่ท่องเที่ยวตามลำดับ การศึกษาครั้งนี้เป็นส่วนสำคัญในกระบวนการ Box-Jenkins โดยเฉพาะในขั้นตอนการระบุตัวตนและขั้นตอนการประมาณค่าในแบบจำลอง SARIMA การทำงานเพิ่มเติมเกี่ยวกับรูปแบบ ARIMA ตามฤดูกาลหลายแบบเช่นการคาดการณ์ข้อมูลโหลดในระยะสั้นในบางประเทศอาจให้ข้อมูลเชิงลึกเพิ่มเติมเกี่ยวกับชุดย่อยคำสั่งคูณหรือคำสั่ง additive คัดลอก 2011 Suhartono นี่คือบทความเกี่ยวกับการเข้าถึงที่เปิดกว้างซึ่งแจกจ่ายภายใต้เงื่อนไขของใบอนุญาตครีเอทีฟคอมมอนส์ ซึ่งอนุญาตให้มีการใช้การแจกจ่ายและการทำซ้ำในสื่อใด ๆ ที่ไม่ จำกัด โดยให้ผู้เขียนต้นฉบับและแหล่งที่มาได้รับการเครดิตภาพรวมตามฤดูกาลแบบอัตถดถอยเชิงพาณิชย์แบบรวมเฉลี่ยสำหรับการนับข้อมูลด้วยแอพพลิเคชันไปยังมาลาเรียไทม์ซีรีส์ที่มีจำนวนผู้ป่วยรายย่อยสาขาสถาบันการจัดการน้ำนานาชาติ Colombo, ศรีลังกาภาควิชาระบาดวิทยาและสาธารณสุขสถาบันวิถีและสถาบันสาธารณสุขเขตร้อนสวิสบาเซิลสวิตเซอร์แลนด์มหาวิทยาลัย Basel ประเทศบาเซิลประเทศสวิสเซอร์แลนด์สถาบันสาขาการจัดการน้ำระหว่างประเทศสำนักงานภูมิภาคย่อยแห่งเอเชียใต้ Patancheru รัฐอานธรประเทศประเทศอินเดียแผนกวิชาระบาดวิทยา และสาธารณสุขสวิตเซอร์แลนด์และสถาบันสาธารณสุขสวิสบาเซิลสวิตเซอร์แลนด์มหาวิทยาลัย Basel ประเทศบาเซิลประเทศสวิสเซอร์แลนด์โมเดลเฉลี่ยแบบถดถอยเชิงพลวัตตามฤดูกาลแบบทั่วไปสำหรับฤดูกาลสำหรับการนับข้อมูลด้วยแอพพลิเคชั่นมาลาเรียแบบเวลากับเบอร์ที่ต่ำลง Olivier JT Brit, Priyanie H. Amerasinghe , Penelope Vounatsou เข้า การผลิตด้วยการต่ออายุการขับไล่โรคมาลาเรียมีความต้องการเครื่องมือเฝ้าระวังที่ดีขึ้น ในขณะที่การวิเคราะห์อนุกรมเวลาเป็นเครื่องมือที่สำคัญสำหรับการเฝ้าระวังการคาดการณ์และการวัดผลกระทบจากการแทรกแซงการประมาณโดยใช้วิธีแบบ Gaussian ทั่วไปมักจะมีความไม่ถูกต้องเมื่อจำนวนของกรณีต่ำ ดังนั้นวิธีการทางสถิติที่เหมาะสมสำหรับการนับข้อมูลจะต้องโดยเฉพาะอย่างยิ่งในระหว่างการรวมและขั้นตอนก่อนการกำจัด โมเดลเฉลี่ย GARMA (GARMA) แบบทั่วไปได้รับการขยายไปสู่โมเดลเฉลี่ยเคลื่อนที่โดยรวมตามฤดูกาลแบบรวมอัตโนมัติ (GSARIMA) สำหรับแบบจำลองการสังเกตการณ์ที่ขับเคลื่อนด้วยการสังเกตการณ์แบบไม่ใช้ Gaussian ชุดข้อมูลนับไม่ถ้วนและตามฤดูกาล แบบจำลองนี้ถูกนำมาใช้กับซีรีส์กรณีเวลาไข้มาลาเรียรายเดือนในเขตพื้นที่ในศรีลังกาที่มีอาการไข้มาลาเรียลดลงอย่างมากในช่วงไม่กี่ปีที่ผ่านมา ชุดรามาลาเรียแสดงการเปลี่ยนแปลงในระยะยาวค่าเฉลี่ยความแปรปรวนที่ไม่เสถียรและฤดูกาล หลังจากเหมาะสมกับโมเดล Bayesian ที่เป็นลบแล้วทั้ง GSARIMA และโมเดลตามฤดูกาลของ GARIMA ได้รับการคัดเลือกตามเกณฑ์ที่ต่างกัน การกระจายแบบพยากรณ์ล่วงหน้าชี้ให้เห็นว่าโมเดลในรูปแบบลบสองแบบมีการคาดการณ์ที่ดีกว่าแบบจำลอง Gaussian โดยเฉพาะอย่างยิ่งเมื่อจำนวนการนับต่ำ โมเดล ARIMA G (S) สามารถจับภาพความสัมพันธ์ระหว่างกันได้ในชุดข้อมูล สรุป G (S) รุ่น ARIMA อาจมีประโยชน์อย่างยิ่งในการขับรถไปสู่การกำจัดเชื้อมาลาเรียเนื่องจากชุดนับตอนเป็นแบบตามฤดูกาลและไม่หยุดนิ่งโดยเฉพาะอย่างยิ่งเมื่อการควบคุมเพิ่มขึ้น แม้ว่าการสร้างและการปรับรุ่น GSARIMA เป็นเรื่องลำบาก แต่อาจมีการแจกแจงการคาดเดาที่สมจริงมากกว่าวิธีการแบบ Gaussian และอาจเหมาะสมกว่าเมื่อมีค่าต่ำ การอ้างอิง: Brit OJT, Amerasinghe PH, Vounatsou P (2013) โมเดลเฉลี่ยแบบถดถอยเชิงบวกตามฤดูกาลแบบทั่วไปสำหรับการนับข้อมูลด้วยแอพพลิเคชันไปยังมาลาเรียแบบเวลากับตัวเลขต่ำ PLoS ONE 8 (6): e65761 Doi: 10.1371journal. pone.0065761 ผู้แต่ง: Clive Shiff, Johns Hopkins University ประเทศสหรัฐอเมริกาได้รับ: 25 มกราคม 2013 ยอมรับ: 29 เมษายน 2013 เผยแพร่: 13 มิถุนายน 2013 ลิขสิทธิ์: 2013 Brit et al. นี่คือบทความแบบเปิดที่แจกจ่ายภายใต้เงื่อนไขของใบอนุญาตครีเอทีฟคอมมอนส์ซึ่งอนุญาตให้ใช้การแจกจ่ายและการทำซ้ำได้โดยไม่ จำกัด ในสื่อใด ๆ โดยให้ผู้เขียนและแหล่งต้นฉบับได้รับเครดิต การระดมทุน: การศึกษาครั้งนี้ได้รับทุนผ่าน National Oceanic and Atmospheric Administration (NOAA), National Science Foundation (NSF), Environmental Protection Agency (EPA) และโครงการร่วมกับสถาบันวิจัยพลังงานไฟฟ้า (EPRI) เกี่ยวกับความแปรปรวนของสภาพอากาศและสุขภาพของมนุษย์ ผู้ให้ทุนไม่มีบทบาทในการออกแบบการเรียนการเก็บรวบรวมข้อมูลและการวิเคราะห์การตัดสินใจเผยแพร่หรือจัดทำต้นฉบับ ความสนใจที่แข่งขัน: ผู้เขียนได้ประกาศว่าไม่มีผลประโยชน์ที่แข่งขันกันอยู่ บทนำมีความสนใจเพิ่มขึ้นในการใช้รูปแบบการพยากรณ์โรคมาลาเรียเพื่อช่วยให้บริการทางคลินิกและสาธารณสุขมีกลยุทธ์ในการใช้มาตรการป้องกันและควบคุม 1 5. คณะกรรมการรณรงค์ป้องกันโรคมาลาเรียของกระทรวงสาธารณสุขในประเทศศรีลังกาได้ทำการทดสอบระบบการพยากรณ์โรคมาลาเรียที่ใช้อัตมัยตามฤดูกาลคูณด้วย (SARIMA) ซึ่งสมมติว่าข้อมูลการนับจำนวนรายละเอียดของมาลาเรียกรณีมีการกระจายลอการิทึมเป็นแบบกระจายแบบ Gaussian วิธีดังกล่าวถูกนำมาใช้กันอย่างแพร่หลายในการทำนายรูปแบบของโรคติดเชื้อ 4. 6. 7. มาลาเรียในประเทศศรีลังกามีฤดูกาลและไม่เสถียรและมีความผันผวนทั้งในด้านความรุนแรงทั้งในเชิงพื้นที่และทางเวลา 8. มาลาเรียเป็นปัญหาสาธารณสุขที่สำคัญในประเทศ 9 จนอุบัติการณ์ เริ่มลดลงในปี พ. ศ. 2543 10. ศรีลังกาเข้าสู่ขั้นตอนการกำจัดก่อนในปีพ. ศ. 2550 และได้ดำเนินการไปสู่ขั้นตอนการกำจัดในปี 2554 11 การเปลี่ยนแปลงของชั้นโรคมาลาเรีย (เช่นการแปลงลอการิทึม) อาจส่งผลให้ข้อมูลกระจายแบบ Gaussian เกือบจะใกล้เคียงกับการสังเกตด้วยค่าเฉลี่ยที่คาดว่าจะต่ำ 12 นอกจากนี้ข้อมูลการนับต่ำอาจรวมศูนย์ซึ่งแสดงผล Box - การแปลง Cox ไม่สามารถใช้งานได้ ในการเอาชนะปัญหานี้คุณสามารถเพิ่มค่าคงที่ขนาดเล็กลงในข้อมูลได้ การสร้างแบบจำลองแบบเกาส์กับข้อมูลที่แปลงแล้วอาจทำให้เกิดการแจกแจงการคาดการณ์ที่ไม่ถูกต้อง ปัญหานี้อาจเป็นปัญหาได้โดยเฉพาะอย่างยิ่งเมื่อตัวเลขรายได้รายเดือนล่าสุดอยู่ในระดับต่ำซึ่งมีแนวโน้มที่จะเป็นไปได้ในประเทศที่อยู่ในขั้นตอนขั้นสุดท้ายของการกำจัด 3. โมเดลที่สมมติว่ามีการแจกจ่ายข้อมูลไบนารีเชิงลบสำหรับข้อมูลการนับโรคมาลาเรียอาจมีความเหมาะสมมากกว่านี้ ไม่สามารถใช้โมเดลสองอันที่เป็นค่าลบซึ่งรวมโครงสร้าง SARIMA ได้ เบนจามินและเพื่อนร่วมงาน 16 เป็นกรอบการทำงานของแบบจำลองเฉลี่ยเคลื่อนที่เชิงเส้น (GARMA) แบบทั่วไปและหารือเกี่ยวกับแบบจำลองสำหรับ Poisson และข้อมูลการแจกแจงแบบสองทางเชิงลบ โมเดล GARMA เป็นรูปแบบการสังเกตที่ขับเคลื่อนด้วยซึ่งจะช่วยให้การสังเกตการณ์ล่าช้าขึ้น 20. โมเดล GARMA สามารถคาดเดาได้ง่ายขึ้นและการทำนายก็ตรงไปตรงมาในขณะที่แบบจำลองที่ขับเคลื่อนด้วยตัวแปรสามารถตีความได้ง่ายกว่า 21. 22. Jung และเพื่อนร่วมงานพบว่าทั้งสองแบบ รุ่นทำในทำนองเดียวกัน โมเดล GARMA เกี่ยวข้องกับตัวทำนายและส่วนประกอบ ARMA เพื่อแปลงค่าพารามิเตอร์เฉลี่ยของการแจกจ่ายข้อมูล () ผ่านฟังก์ชันการเชื่อมโยง ฟังก์ชั่นลิงค์ล็อกช่วยให้แน่ใจได้ว่าจะมีข้อ จำกัด ในโดเมนของจำนวนจริงที่เป็นบวก การสังเกตที่ล่าช้าซึ่งใช้เป็นตัวแปรร่วมจึงควรได้รับการแปลงลอการิทึมซึ่งเป็นไปไม่ได้สำหรับการสังเกตที่มีค่าเป็นศูนย์ เพื่อหลีกเลี่ยงปัญหานี้ Zeger และ Qaqish 24 จะหารือเกี่ยวกับการเพิ่มค่าคงที่ขนาดเล็กลงในข้อมูลไม่ว่าจะเป็นข้อมูลทั้งหมดหรือเฉพาะศูนย์เท่านั้น Grunwald และเพื่อนร่วมงาน 25 พิจารณาแบบจำลองเชิงเส้นตรง (autoregressive หรือ CLAR) ที่มีฟังก์ชันการเชื่อมต่อข้อมูลประจำตัว เพื่อให้มั่นใจได้ในเชิงบวก ข้อ จำกัด สามารถใส่พารามิเตอร์ Davis i wsp. [22] đượcmôtảbằngbiếnthểcủamôhình GARMA, môhình trung bình di động trung bìnhtuyếntính (GLARMA) Heinen 26 เสนอระดับของโมเดล Poisson (ACP) แบบมีเงื่อนไขแบบอัตโนมัติที่มีวิธีการที่ช่วยให้สามารถกระจายข้อมูลได้มากกว่าและต่ำกว่า คลาสอื่นของโมเดล Poisson ที่มีโครงสร้างความผิดพลาดแบบ auto correlated ใช้การทยอยลดทวินามและเรียกว่าโมเดล autoregressive (INAR) ที่มีจำนวนเต็มจำนวนเต็ม 27 รูปแบบ INAR อาจขยายไปเป็นค่าเฉลี่ยเคลื่อนที่ (INMA) และ INARMA 28. 29. แต่ไม่เป็นแบบนี้ ใช้งานง่าย 30. วิธีการแบบจำลองทางเลือกที่ใช้แบบจำลองทางเลือกถือว่าเป็นกระบวนการอัตโนมัติในลักษณะสุ่มเวลาที่เฉพาะเจาะจงที่นำมาใช้ในโครงสร้างค่าเฉลี่ยโดยใช้ฟังก์ชันการเชื่อมโยงลอการิทึม 31 รูปแบบดังกล่าวมักเรียกว่าแบบสุ่ม (autochemous mean) (SAM) รุ่นที่ 23 และมักถูกนำมาประยุกต์ใช้ แบบจำลองชั่วคราวและแบบชั่วคราวของ Bayesian 15. 21. 32 36. จากแบบจำลองที่กล่าวข้างต้นกรอบ GARMA ดูเหมือนจะยืดหยุ่นมากที่สุดสำหรับการสร้างแบบจำลองข้อมูลการนับด้วยโครงสร้างค่าเฉลี่ยเคลื่อนที่แบบอัตโน้มและค่าคงที่ Benjamin และเพื่อนร่วมงาน 16 ใช้โมเดล GARMA แบบคงที่กับชุดคดีโปลิโอแบบเวลาที่มีแนวโน้มตามฤดูกาลโดยใช้ฟังก์ชัน sinecosine ซึ่งมีส่วนผสมของวัฏจักรประจำปีและครึ่งปี อย่างไรก็ตามหากองค์ประกอบตามฤดูกาลถือว่าเป็นแบบสุ่มรูปแบบ GARMA ที่นำเสนอโดยเบนจามินและเพื่อนร่วมงาน 16 ไม่เหมาะสม นอกจากนี้ชุดข้อมูลนับหลาย ๆ ครั้งรวมถึงกรณีที่เป็นโรคมาลาเรียไม่ใช่แบบหยุดนิ่ง ที่นี่ GARMA ได้รับการขยายไปสู่ชั้นเรียนของโมเดลเชิงเส้นแบบมีการเคลื่อนไหวกึ่งตัวกลางแบบอัตถดถอยแบบรวมตามฤดูกาล (GSARIMA) โดยทั่วไปคล้ายกับแบบจำลอง SARIMA สำหรับข้อมูลแบบกระจายแบบ Gaussian ชั้นเรียนของโมเดล GSARIMA รวมถึงโมเดลเฉลี่ยเคลื่อนที่แบบรวมอัตโนมัติ (GARIMA) แบบรวมอัตโนมัติ แบบพอดีถูกหามออกโดยใช้การอนุมานแบบเบส์เต็มรูปแบบ ผลของสมมติฐานการแจกจ่ายที่ไม่ถูกต้องเกี่ยวกับการแจกแจงก่อนทำนายถูกนำมาใช้โดยใช้ข้อมูลการนับจำนวนผู้ป่วยไข้มาลาเรียที่จำลองและจริงจากศรีลังกา รหัสซอฟต์แวร์เป็นข้อมูลสนับสนุน การกำหนดรูปแบบอนุญาตให้เป็นชุดข้อมูลนับเวลา n ที่เกิดขึ้นจากการแจกแจงค่าสองทางเชิงลบด้วยและ รูปแบบการ จำกัด การแจกแจงแบบสองทางซึ่งเป็นลบ คือการกระจาย Poisson สามารถเขียนแบบจำลองได้: ฟังก์ชันการเชื่อมโยงอยู่ที่ไหน และ เป็นผู้ดำเนินการ backshift กับ (โปรดทราบว่า) เป็นเวกเตอร์ของค่าสัมประสิทธิ์ซึ่งประกอบด้วยตัวคูณการสกัดกั้น (โดยปกติเป็น) และตัวแปรร่วมที่ขึ้นกับเวลา ในกรอบ GARMA ข้อมูลนับสามารถจำลองโดยใช้ฟังก์ชันลอการิทึมหรือฟังก์ชันการเชื่อมโยงข้อมูลที่เหมาะสมที่สุดสำหรับชุดข้อมูล เพื่อหลีกเลี่ยงปัญหาในการรับลอการิทึมของการสังเกตที่มีค่าศูนย์อยู่ภายใต้การเชื่อมโยงลอการิทึม Zeger และ Qaqish 24 เสนอการเปลี่ยนแปลงเช่น ต่อจากนี้เรียกว่า ZQ1 Zeger และ Qaqish 24 ยังแนะนำวิธีอื่น ๆ ซึ่งต่อไปเรียกว่า ZQ2 ซึ่งแปลเป็นตัวแปรรูปแบบ: ภายใต้การเชื่อมโยงข้อมูลประจำตัวข้อ จำกัด อาจเป็นสิ่งที่จำเป็นเพื่อให้แน่ใจในแง่บวก ขึ้นอยู่กับข้อมูลและพารามิเตอร์ของโมเดล รูปแบบข้างต้นสามารถขยายไปสู่อนาล็อกได้โดยการรวมองค์ประกอบตามฤดูกาล (Seasonal) (S) และ Differencing (I) ดังต่อไปนี้: ความยาวของรอบระยะเวลา (สำหรับข้อมูลรายเดือนที่มีรอบปี) อยู่ที่ไหน . . . และมีดังข้างต้น ตัวอย่างของรูปแบบค่าลบและแบบจำลองที่มีฟังก์ชันการเชื่อมโยงเข้าสู่ระบบและการแปลง ZQ1 มีอยู่ในภาคผนวก S1 อิทธิพลของการเลือกฟังก์ชั่นการเชื่อมโยงและตัวเลือกการแปลงข้อมูลในการกระจายข้อมูลจะได้รับการประเมินในภาคผนวก 1 ด้วย เบนจามินและเพื่อนร่วมงาน 16 ใช้การประมาณค่าความเป็นไปได้สูงสุดโดยการหาสมการถดถอยอย่างน้อยที่สุดและการอนุมานฐานในสมการที่มีต่อสมการ ในบทความนี้รูปแบบถูกกำหนดไว้ในกรอบของ Bayesian ในการอนุมานแบบเบส์ (Bayesian inference) การแจกแจงก่อนหน้าจะต้องได้รับการกำหนดค่าพารามิเตอร์ทั้งหมด โมเดลสมรรถนะต่ำและค่าความแปรปรวนของค่าเฉลี่ยเคลื่อนที่ถูก จำกัด โดยใช้อัลกอริธึมที่โจนส์ 37 กำหนดไว้สำหรับจุดประสงค์นี้ค่าพารามิเตอร์อัตรวรรถีการเคลื่อนที่และค่าเฉลี่ยเคลื่อนที่จะเป็นไปตามที่กำหนดไว้และถูกนำมาใช้ใหม่ parameterization ตัวอย่างเช่นพารามิเตอร์ที่ตรวจพบอัตโนมัติแบบไม่ใช้ฤดูกาลมีการทำ reparameterized ในแง่ของ . ที่ไหนและ การแจกแจงก่อนหน้านี้ถูกสมมติว่า:. ซึ่งหมายถึงส่วนจำนวนเต็มของ. priors เพิ่มเติมได้รับการเลือกและ สำหรับข้อสังเกตแรกส่วนที่เหลือในระดับการทำนาย (เช่นในกรณีที่มีฟังก์ชันการเชื่อมโยงลอการิทึม) ถูกตั้งค่าเป็นศูนย์ ข้อ จำกัด สามารถนำมาใช้กับตัวเองได้นั่นคือเมื่อใช้การเชื่อมโยงเอกลักษณ์ โมเดล GSARIMA ได้รับการประเมินโดยใช้โปรแกรมซอฟต์แวร์ Bayesian ฟรี JAGS 38 ซึ่งใช้วิธีการจำลองแบบ Markov chain Monte Carlo (MCMC) ตัวอย่างรหัสที่เขียนขึ้นเพื่อใช้ JAGS ในซอฟต์แวร์ R สำหรับโมเดล GSARIMA ในเชิงลบที่มีฟังก์ชันการเชื่อมโยงลอการิทึมและการแปลง ZQ1 มีไว้เพื่อเป็นข้อมูลสนับสนุนดูไฟล์เพิ่มเติม S1 ความสามารถของโมเดลเหล่านี้ในการประมาณชุดข้อมูลจำลองด้วยโครงสร้าง GSARIMA จะได้รับการสำรวจในช่วงเวลาสั้น ๆ ในภาคผนวก S1 ผลของ (mis) ระบุฟังก์ชัน link และการแปลงข้อมูลเมื่อประเมินค่าพารามิเตอร์ของ GARMA ได้รับการประเมินและอธิบายไว้ในภาคผนวก S1 การประยุกต์ใช้ในการวิเคราะห์แบบเวลาของมาลาเรียส่วนนี้เป็นตัวอย่างของรูปแบบ GSARIMA ที่ใช้กับการนับรายเดือนของโรคมาลาเรียในช่วงเวลา 19722005 ในย่าน Gampaha ในศรีลังกา (รูปที่ 1A) โดยมีฝนตกเป็นตัวแปรร่วม (รูปที่ 1B) รหัสของการวิเคราะห์เป็นข้อมูลสนับสนุนในไฟล์เพิ่มเติม S2 บันทึกประจำวันของโรงพยาบาลสาธารณสุขของรัฐบาลเป็นประจำทุกเดือนโดยมีรายงานการระบาดของไข้มาลาเรียในเลือดเป็นประจำทุกเดือนรวมทั้งรณรงค์ต่อต้านโรคมาลาเรียของศรีลังกาด้วย ปริมาณน้ำฝนเป็นระดับความสูงเฉลี่ยของเดือนของคอลัมน์การตกตะกอนซึ่งได้มาจากพื้นผิวที่มีฝนตกทั่วเกาะรายเดือน พื้นผิวฝนเหล่านี้ถูกสร้างขึ้นโดยการแก้ไขเชิงพื้นที่ของข้อมูลการตกตะกอนที่รวบรวมโดยสถานี 342 แห่งทั่วเกาะ ข้อมูลได้ถูกอธิบายไว้ก่อนหน้านี้ในงานก่อนหน้านี้ 8. ชุดข้อมูลเวลา 408 เดือนมีระยะเวลา 3 เดือนกับกรณีไข้มาลาเรียที่เป็นศูนย์: เดือนตุลาคม 2525 และมีนาคมและสิงหาคม พ. ศ. 2548 ปริมาณฝนที่เพิ่มขึ้นเล็กน้อยในการพยากรณ์ไข้มาลาเรียโดยแบบจำลอง Gaussa SARIMA พอดีกับข้อมูลกรณีมาลาเรียที่เปลี่ยนลอการิทึม ถึงสี่เดือนข้างหน้า 2. รูปที่ 1 จำนวนผู้ป่วยโรคมาลาเรียรายเดือนและปริมาณน้ำฝนในเขต Gampaha ในช่วงเวลา แผง A แสดงจำนวนรายเดือนของโรคมาลาเรียและแผง B แสดงปริมาณน้ำฝนรายเดือน การสร้างแบบจำลอง Gaussian SARIMA เบื้องต้นเนื่องจากแบบจำลอง Bayesian เหมาะสมกับการใช้อัลกอริธึม MCMC เป็นราคาแพงในการคำนวณการระบุรูปแบบเบื้องต้นเพื่อเลือกพารามิเตอร์ SARIMA, d. q. P. D และ Q ได้รับการพัฒนาโดยใช้เครื่องมือมาตรฐาน (frequentist) ที่พัฒนาขึ้นสำหรับชุดข้อมูลเวลาที่มีข้อผิดพลาดขอบ Gaussian แทนที่จะใช้แบบจำลอง MCMC ที่เป็นไปได้หลายแบบ การวิเคราะห์ภาพของชุดมาลาเรีย (รูปที่ 1) พบว่าการเปลี่ยนแปลงในระยะยาว (ระหว่างปี) ในระดับเฉลี่ยความแปรปรวนที่ไม่เสถียร (ซึ่งดูเหมือนจะเพิ่มขึ้นตามค่าเฉลี่ย) และการคูณตามฤดูกาล (ขนาดของ ผลตามฤดูกาลเป็นสัดส่วนกับค่าเฉลี่ย) ดังนั้นในการวิเคราะห์ข้อมูลแบบ Gaussian เบื้องต้นข้อมูลจึงได้รับการแปลงโดยใช้การปรับเปลี่ยน Box-Cox 39 เพื่อให้เสถียรภาพของความแปรปรวนเพื่อให้ได้ผลตามฤดูกาลและทำให้ข้อมูลมีการกระจายตามปกติ 40 แนวโน้มในกล่อง - Cox แปลงชุดได้รับการปฏิบัติเป็นแนวโน้มแบบสุ่มซึ่งเป็นความแตกต่าง (ลำดับแรก) นิ่ง การทดสอบ Dickey Fuller ที่เพิ่มขึ้น 41 ในลำดับความล่าช้าของ 15 ถูกใช้ในการตรวจสอบการปรากฏตัวของรากยูนิทเพื่อประเมินว่าชุดข้อมูลเหล่านี้จำเป็นต้องรวมเข้าด้วยกันหรือไม่ โมเดล Gaussian SARIMA และ ARIMA ที่มีองค์ประกอบตามฤดูกาลแบบฮาร์มอนิกลำดับที่สองทั้งที่มี d 1 เนื่องจากมีหน่วยรากถูกติดตั้งสถิติแพคเกจซอฟต์แวร์ (frequentist) R และโมเดลได้รับการประเมินตามเกณฑ์ข้อมูล Akaikes (AIC) ) เมทริกซ์ร่วมสำหรับผลตามฤดูกาลโดยใช้ลำดับเสียงลำดับที่สอง (เช่นใช้คู่ไซน์และโคไซน์คู่) จะได้รับโดย การสกัดกั้น A (ไทม์อิสระ) ไม่ได้ถูกรวมไว้เนื่องจากการสกัดกั้นจะหยดออกจากสมการหลังการเรียงลำดับคำสั่งแรก การเลือกรูปแบบ GSARIMA Bayesian รุ่นสอง SARIMA เชิงลบและรูปแบบ ARIMA สองแบบที่มีลำดับเสียงที่สองที่ระบุในการวิเคราะห์เบื้องต้นได้รับการติดตั้งใน JAGS สำหรับข้อมูลที่ไม่ได้รับการจัดรูปแบบโดยใช้ฟังก์ชันการเชื่อมโยงลอการิทึมและการแปลง ZQ1 เนื่องจากมีเพียงสามข้อสังเกตที่มีการนับศูนย์ผลจะไม่ไวต่อการเลือกคงที่การเปลี่ยนแปลงสำหรับ ZQ1 และตั้งค่าไว้ที่ c 1 นอกจากนี้ยังมีเวอร์ชันที่มีการเชื่อมโยงข้อมูลระบุไว้ด้วย โมเดลได้รับการประเมินตามเกณฑ์สองข้อ อันดับแรกคือเกณฑ์ข้อมูลเบี่ยงเบน (DIC) ซึ่งคำนวณเป็นค่าเฉลี่ยของการแจกแจงหลังของความเบี่ยงเบนเงื่อนไขในการสังเกตการณ์ครั้งแรก (เท่ากับค่าสูงสุดของโมเดลที่เปรียบเทียบ) เพิ่มขึ้นด้วยจำนวนพารามิเตอร์ที่มีประสิทธิภาพ เป็นโทษเพื่อป้องกันไม่ให้เหมาะสม โมเดลที่มี DIC ต่ำกว่าจะได้รับการพิจารณาให้มีขนาดที่พอดี เกณฑ์ที่สองถูกกำหนดให้เป็นค่าความผิดพลาดความคลาดเคลื่อนสัมบูรณ์เฉลี่ยของค่าที่ติดตั้ง (MARE): MARE จำนวนกรณีของโรคมาลาเรียที่ติดตั้งอยู่ในช่วงเวลาที่ไม่ต่อเนื่อง t. และ f และ l เป็นช่วงเวลาไม่ต่อเนื่องเป็นครั้งแรกและครั้งสุดท้ายตามลำดับของช่วงเวลาที่พิจารณา MARE ถูกคำนวณสำหรับทั้งชุด (ยกเว้นข้อสังเกตแรก) เมื่อโมเดลพอดีกับชุดข้อมูลทั้งหมด (f 1, ln 408) และในช่วงครึ่งหลังของชุดข้อมูล (f 205, l 408) เมื่อโมเดลพอดีกับครึ่งแรกของชุดข้อมูลเท่านั้น เนื่องจากการแจกแจงการคาดเดา (ด้านหลัง) ที่ประมาณจุดข้อมูลที่ติดตั้งไว้แต่ละข้อจึงถูกเบี่ยงเบนไปค่ามัธยฐานของการแจกจ่ายหลังถูกนำมาใช้ MARE มีความคล้ายคลึงกับค่าความผิดพลาดเปอร์เซ็นต์สัมบูรณ์ (MAPE) ซึ่งสามารถใช้ได้กับชุดซึ่งความแปรปรวนจะขึ้นอยู่กับค่าเฉลี่ย 40 อย่างไรก็ตามเนื่องจากตัวหารมีค่าเท่ากับหรือมากกว่าหนึ่งค่านี้จะป้องกันไม่ให้เกิดปัญหากับค่าที่มีนัยสำคัญ โดยการหารด้วยตัวเลขขนาดเล็กและการวิพากษ์วิจารณ์ที่สำคัญของ MAPE 5. สถิติ MARE ไม่มีการลงโทษในตัวเพื่อป้องกันไม่ให้เหมาะสม แต่ในรุ่นที่มีค่าใกล้เคียงกันของ MARE ควรใช้โมเดลที่มีจำนวนพารามิเตอร์น้อยที่สุด . ประมาณการ MARE สามารถเทียบเคียงได้กับแบบจำลองที่มีข้อสมมติฐานการแจกจ่ายที่แตกต่างกันในทางตรงกันข้ามกับ DIC โมเดลถูกเรียกใช้โดยมีกลุ่ม Markov จำนวน 3 กลุ่มซึ่งมีการทำซ้ำถึง 11,000 ครั้งซึ่งรวมถึงการเผาไหม้ 1,000 ครั้ง Convergence ได้รับการประเมินโดยการศึกษาแผนภาพการรวมกันของ Gelman-Rubin (โดยประมาณ) ซึ่งได้รับการแก้ไขโดย Brooks and Gelman 42 การวิเคราะห์ที่เหลือรู้หรือไม่ว่ารูปแบบที่เลือกและการแจกแจงพื้นฐานที่สอดคล้องกับรูปแบบของข้อมูลที่น่าสนใจอย่างเพียงพอ ถ้าแบบจำลองเหล่านี้ใช้ในการคาดการณ์กรณีของโรคมาลาเรียในช่วงเวลาที่ไม่ต่อเนื่อง (ในกรณีนี้คือหนึ่งเดือน) การประเมินการแจกแจงก่อนหลังหลังความสนใจจะไม่เพียง แต่เป็นการกระจายทั้ง อนุญาตเป็นฟังก์ชันสะสมการแจกแจงหลังการสะสมของ. ความน่าจะเป็นส่วนที่เหลือของหางล่าง นั่นคือค่าของการแจกแจงพยากรณ์ล่วงหน้าหลังสะสมที่คำนวณได้จากข้อมูลที่สังเกตได้ ที่เรียกว่าการแปลงความน่าจะเป็นหนึ่งซึ่งสามารถคำนวณได้ในแต่ละเดือน ฟังก์ชั่นการแจกแจงสะสมสำหรับเดือนที่น่าสนใจทั้งหมดจะช่วยในการวิเคราะห์ความเหมาะสมของรูปแบบรวมถึงการแจกแจงต้นแบบ ถ้ารูปแบบเหมาะสมกับข้อมูลที่เหมาะสมฟังก์ชันการแจกแจงสะสมของค่าความน่าจะเป็นที่เหลือ (พล็อต C-R) จะเป็นไปตามเส้นทแยงมุมประมาณตรงระหว่างต้นกำเนิดกับจุด (1,1) ซึ่งคล้ายคลึงกับพล็อต Probability-Probability ตัวอย่างเช่นเมื่อแบบจำลองเหมาะสมอย่างเหมาะสมการสังเกต 50 ครั้งมีค่าความน่าจะเป็น 0.5 รายละเอียดเพิ่มเติมเกี่ยวกับพล็อต C-R จะได้รับเป็นข้อมูลสนับสนุนดูไฟล์เพิ่มเติม S3 ตัวอย่างจะได้รับในข้อมูลสนับสนุนที่ใช้แปลง C-R เพื่อประเมินความเหมาะสมของแบบจำลองที่ติดตั้งชุดข้อมูลเวลาด้วยโครงสร้าง Poisson GARIMA (1,1,0) ดูไฟล์เพิ่มเติม S4 ดังนั้นหลังจากเหมาะสมแบบจำลองและได้รับการกระจายหลังการคำนวณสำหรับการสังเกตแต่ละ เนื่องจากความจริงที่ว่าฟังก์ชันการแจกแจงสะสมสำหรับรูปแบบไบนารีเชิงลบเป็นแบบไม่ต่อเนื่องค่าความน่าจะตกค้างถูกสุ่มโดยการวาดค่าสุ่มจากการกระจายสม่ำเสมอในช่วงเวลา ตามขั้นตอนโดย Dunn และ Smyth 43 ซึ่งประมาณ 30,000 ตัวอย่างจากการกระจายนี้ ขั้นตอนนี้ได้รับการสนับสนุนจากเบนจามินและเพื่อนร่วมงาน 16 สำหรับรูปแบบ GARMA แบบไม่ต่อเนื่อง ความเหมาะสมของแบบจำลองที่เลือกถูกเปรียบเทียบโดยใช้แผนการแจกแจงการกระจายตัวของค่าความน่าจะเป็นที่ตกค้างแบบสุ่ม (randomized) ทั้งในชุดเวลาของกรณีที่เป็นมาลาเรียทั้งหมดและในช่วงที่ประกอบด้วยการสังเกต 50 ครั้งล่าสุดซึ่งมีจำนวนกรณีที่ค่อนข้างต่ำ เป็นวิธีปฏิบัติมาตรฐานในการทดสอบแบบจําลองแบบจําลองอนุกรมเวลาสําหรับความสัมพันธ์กันที่เหลือ อย่างไรก็ตามเครื่องมือมาตรฐานถือว่าข้อมูลการกระจายแบบ Gaussian ประมาณ ดังนั้นค่าความน่าจะเป็นของเหลือที่สุ่มถูกแปลงเป็นค่าคงที่ทางเรขาคณิตแบบ normalised randomalized, (ฟังก์ชันการแจกแจงผกผันผกผัน) ของการแจกแจงแบบปกติโดยมีค่าเฉลี่ยศูนย์และความแปรปรวนสามัคคี ก่อนที่จะมีการแปลงค่าความน่าจะเป็นที่เหลือของการเป็นศูนย์ (เมื่อทั้งหมด 30,000 ตัวอย่างจากฟังก์ชันการแจกแจงหลังการทำนายสูงกว่าค่าที่สังเกตได้) ถูกตั้งค่าเป็น 0.00001 และค่าความน่าจะเป็นส่วนที่เหลือของการสุ่มตัวอย่างแบบหนึ่ง (เมื่อทั้งหมด 30,000 ตัวอย่างจากฟังก์ชันแจกแจงหลังการทำนายคือ ต่ำกว่าค่าที่สังเกตได้) ถูกตั้งไว้ที่ 0.99999 The normalized randomized quantile residuals were analysed for remaining autocorrelation with the Ljung-Box test 44 and visual analysis of autocorrelation and partial autocorrelation functions. Results and Discussion For the purpose of Gaussian SARIMA model identification, a Box-Cox transformation was identified by fitting to the malaria case count time series. The fitted Box-Cox parameters were a power of 0.249 and, given that the series contained observations with zero counts, a constant of 0.0251 was added to each observation prior to transformation. As observed for the original series, the presence of long-term change in the mean level was apparent in the transformed time series (Figure S1 ). Although the changes in the mean level could potentially be related to malaria control efforts, development of parasite and vector resistance, etc. such covariate data were not considered here. The augmented Dickey Fuller test supported the presence of a unit-root (p 0.14) in the Box-Cox transformed series and the series was differenced. Plots of the auto correlation function (ACF) (Figure S2 ) and the partial auto correlation function (PACF) (Figure S3 ) of the differenced series showed significant (partial) auto correlation at lags of three and twelve months. Based on the preliminary analysis of the Box-Cox transformed series, four Gaussian SARIMA models and two Gaussian ARIMA models with second order harmonics (SOH) were initially selected, based on AIC (Table 1 ). ARIMA-SOH models had the lower (better) AIC compared to SARIMA models. ARIMA-SOH models including rainfall as a covariate had a slightly lower AIC than ARIMA-SOH models without rainfall. However, for the SARIMA models, the inverse was true. Table 3. Parameter estimates (mean and 95 credible interval) of selected negative binomial models. Despite the model having a higher (worse) DIC than the model, the out of sample MARE of the model was 5.7 per cent better than the out of sample MARE of the model, and required less than half the number of fitted parameters. This indicates that the model was probably over-fitting the data, describing the random error rather than the underlying process. The model was selected for further analysis. Figure 2 illustrates posterior predictive distributions for the last 12 months of the series by the model and those by a (Bayesian) Gaussian model on Box-Cox transformed data, when fitted to the entire data set. Differences in the posterior predictive distributions between the two models are apparent with the Gaussian model predictive distributions having longer right tails. Figure 2. Posterior predictive distributions for the last 12 months of the Gampaha malaria case count series. In each panel, representing each a month in the last year of the series, the black and the red lines are the outline histogram of the density of the posterior predictive distribution of the negative binomial model and a (Bayesian) Gaussian model on Box-Cox transformed data, respectively. Models were fitted to the entire data set. In each panel, the observed case count is represented by a blue dot. The C-R plot of the negative binomial model fit was compared to that of a (Bayesian) Gaussian on Box-Cox transformed data in Figure 3. The C-R plot on the entire series (Figure 3A ) is not entirely satisfactory for either model. For the Gaussian . the posterior predictive distribution appears to be platykurtic (for values of the residual probability below 0.5, there are too few observations, and for values above 0.5, there are too many). For the negative binomial model, for randomized residual probability values below about 0.5, cumulatively fewer observations had these values than the posterior density distributions had indicated. Therefore, on average, the part of the posterior density distributions below the median was spread out too much to the left. The lower boundaries of credibility intervals of the distributions were thus on average too low. For the values above 0.5, the cumulative distribution function followed the diagonal. Figure 3B compares both models for the last 50 months of the series only, where numbers of monthly cases were smaller than 35. For these low numbers, the negative binomial model was much more appropriate. Figure 3. Cumulative distribution function of randomized cumulative probabilities. The black line represents the cumulative distribution function of randomized cumulative probabilities of the model on monthly numbers of malaria cases in Gampaha, Sri Lanka. The red line represents the cumulative distribution function of randomized residual probabilities of the Gaussian model on Box-Cox transformed data. The light grey diagonal line (cumulative distribution equals randomized probability) represents on average appropriate predictive distributions. Dotted lines represent 95 confidence boundaries for proportions equalling probability. A . for the last 392 months in the series. B . for the last fifty months in the series. Figure 4 shows the normal Q-Q plot for the normalized randomized quantile residuals of the model, for which the distribution is slightly leptokurtic. A plot of these normalized randomized quantile residuals against time (Figure S4 ) appears a random scatter at first sight, but upon closer inspection, extreme residuals occur more often during periods with stronger relative changes. This is because the residuals, . are positively correlated with a relative change in malaria cases, with linear regression line . (Figure 5 ). Figure 4. Normal Q-Q plot of normalized randomized quantile residuals of the selected model. Figure 5. Plot of normalized randomized quantile residuals of the model against the logarithm of relative change. Monthly malaria case counts were logarithmically transformed after adding one. Then for each month, the difference between this value and the value for the previous month was taken. The diagonal is the fitted regression line. The fact that this line does not go through the origin but has a (small but significant plt0.05) positive intercept is another indication that the posterior distributions have, on average, too much mass to the left, and therefore, on average, overestimate the residuals. Figure 6 shows a plot of the autocorrelation function of the normalized randomized quantile residuals of the model. There is no indication of significant autocorrelation in the residuals, which was confirmed by the Ljung-Box test 44. The Ljung-Box statistic was 19.8 based on 24 lags, which was not significant (p 0.65) because the quantile corresponding to the 95 th percentile of a chi-squared distribution with 23 degrees freedom (24 degrees minus one fitted ARMA parameter) is 35.17. The Ljung-Box test is valid under these mild conditions of non-normality, although for stronger non-normality, the Ljung-Box test is not robust and tends to reject the null hypothesis of no autocorrelation too quickly 45 . Figure 6. Plot of the autocorrelation function of normalized randomized quantile residuals of the selected model. Conclusions To model a series of monthly counts of new malaria episodes in a district in Sri Lanka, GSARIMA models and GARIMA models with a deterministic seasonality component were developed. GSARIMA and GARIMA models are an extension of the class of GARMA models 16. and are suitable for parsimonious modelling of non-stationary seasonal time series of (over dispersed) count data with negative binomial conditional distribution. Models were presented with a choice of identity link function or logarithmic link function, and for the latter models, with a choice between two transformation methods to deal with zero value observations and using a threshold parameter. When a count time series has many observations of zero, both transformation methods and several threshold parameters should be explored in order to find the best fitting model. Bayesian GSARIMA and GARIMA models were applied to malaria case count time series data from Gampaha District in Sri Lanka. Both a GSARIMA and a GARIMA model with a deterministic seasonality component were selected, based on different criteria. The GARIMA model with deterministic seasonality showed a lower DIC, but the GSARIMA model had a lower mean absolute relative error on out of sample data, and needed fewer parameters. Bayesian modelling allowed for analysis of the posterior predictive distributions. The performance of the selected negative binomial model was compared with that of a Gaussian version of the model on Box-Cox transformed data. These distributions did not perfectly mirror the distribution of the residuals for either model. This is possibly an indication that the assumptions about the underlying distributions were not entirely appropriate for either case. However, analysis of the residuals showed that the posterior predictive distributions were much better for the negative binomial GSARIMA model than for its Gaussian version on transformed data when counts were low. Both models could account for autocorrelation in the data, but the negative binomial model had an 8 better MARE than the Gaussian version on transformed data (0.388 vs 0.423). The fact that the cumulative distribution functions do not perfectly match the diagonal in Figure 3A indicates that there is room for improvement, through modelling a more complex autocorrelation structure ( e. g. through time varying SARIMA parameters) and through the inclusion of covariates. It is also possible that assuming an underlying negative binomial distribution is not entirely appropriate. In the latter case, the DIC, which was based on this assumption, has less value than the MARE for comparison between models. Apart from the fact that the MARE does not depend on the assumption of a true underlying distribution, it is easier to for malaria control staff to interpret. G(S)ARIMA models may be particularly useful in the drive towards malaria elimination, but could also be applied to other fields. Although building and fitting Bayesian GSARIMA models is laborious, they may provide more realistic prediction distributions for time series of counts than do Gaussian methods on transformed data, especially when counts are low. Supporting Information8.5 Non-seasonal ARIMA models If we combine differencing with autoregression and a moving average model, we obtain a non-seasonal ARIMA model. ARIMA is an acronym for AutoRegressive Integrated Moving Average model (integration in this context is the reverse of differencing). The full model can be written as where y is the differenced series (it may have been differenced more than once). The predictors on the right hand side include both lagged values of yt and lagged errors. We call this an ARIMA(p, d, q) model . where p order of the autoregressive part d degree of first differencing involved q order of the moving average part. The same stationarity and invertibility conditions that are used for autoregressive and moving average models apply to this ARIMA model. Once we start combining components in this way to form more complicated models, it is much easier to work with the backshift notation. Then equation (ref ) can be written as begin (1-phi1B - cdots - phip Bp) amp (1-B)d y amp ampc (1 theta1 B cdots thetaq Bq)et uparrow amp uparrow amp ampuparrow text amp text amp amptext end Selecting appropriate values for p, d and q can be difficult. The auto. arima() function in R will do it for you automatically. Later in this chapter, we will learn how the function works, and some methods for choosing these values yourself. Many of the models we have already discussed are special cases of the ARIMA model as shown in the following table. plot 40 forecast 40 fit, h 10 41,include 80 41 Understanding ARIMA models The auto. arima() function is very useful, but anything automated can be a little dangerous, and it is worth understanding something of the behaviour of the models even when you rely on an automatic procedure to choose the model for you. The constant c has an important effect on the long-term forecasts obtained from these models. If c0 and d0, the long-term forecasts will go to zero. If c0 and d1, the long-term forecasts will go to a non-zero constant. If c0 and d2, the long-term forecasts will follow a straight line. If cne0 and d0, the long-term forecasts will go to the mean of the data. If cne0 and d1, the long-term forecasts will follow a straight line. If cne0 and d2, the long-term forecasts will follow a quadratic trend. The value of d also has an effect on the prediction intervals the higher the value of d, the more rapidly the prediction intervals increase in size. For d0, the long-term forecast standard deviation will go to the standard deviation of the historical data, so the prediction intervals will all be essentially the same. This behaviour is seen in Figure 8.8 where d0 and cne 0. In this figure, the prediction intervals are the same for the last few forecast horizons, and the point forecasts are equal to the mean of the data. The value of p is important if the data show cycles. To obtain cyclic forecasts, it is necessary to have pge2 along with some additional conditions on the parameters. For an AR(2) model, cyclic behaviour occurs if phi124phi2lt0. In that case, the average period of the cycles is 1 frac (-phi1(1-phi2)(4phi2)). ACF and PACF plots It is usually not possible to tell, simply from a time plot, what values of p and q are appropriate for the data. However, it is sometimes possible to use the ACF plot, and the closely related PACF plot, to determine appropriate values for p and q. Recall that an ACF plot shows the autocorrelations which measure the relationship between yt and y for different values of k. Now if yt and y are correlated, then y and y must also be correlated. But then yt and y might be correlated, simply because they are both connected to y , rather than because of any new information contained in y that could be used in forecasting yt. To overcome this problem, we can use partial autocorrelations . These measure the between y and y after removing the effects of other time lags -- 1, 2, 3, dots, k - 1. So the first partial autocorrelation is identical to the first autocorrelation, because there is nothing between them to remove. The partial autocorrelations for lags 2, 3 and greater are calculated as follows: Varying the number of terms on the right hand side of this autoregression model gives alphak for different values of k. (In practice, there are more efficient algorithms for computing alphak than fitting all these autoregressions, but they give the same results.) Figure 8.9 shows the ACF and PACF plots for the US consumption data shown in Figure 8.7. The partial autocorrelations have the same critical values of pm 1.96sqrt as for ordinary autocorrelations, and these are typically shown on the plot as in Figure 8.9. Figure 8.9: ACF and PACF of quarterly percentage change in US consumption. A convenient way to produce a time plot, ACF plot and PACF plot in one command is to use the tsdisplay function in R. par 40 mfrow c 40 1. 2 41 41 Acf 40 usconsumption 91. 1 93,main quotquot 41 Pacf 40 usconsumption 91. 1 93,main quotquot 41 If the data are from an ARIMA(p, d,0) or ARIMA(0,d, q) model, then the ACF and PACF plots can be helpful in determining the value of p or q. If both p and q are positive, then the plots do not help in finding suitable values of p and q. The data may follow an ARIMA(p, d,0) model if the ACF and PACF plots of the differenced data show the following patterns: the ACF is exponentially decaying or sinusoidal there is a significant spike at lag p in PACF, but none beyond lag p. The data may follow an ARIMA(0,d, q) model if the ACF and PACF plots of the differenced data show the following patterns: the PACF is exponentially decaying or sinusoidal there is a significant spike at lag q in ACF, but none beyond lag q. In Figure 8.9, we see that there are three spikes in the ACF and then no significant spikes thereafter (apart from one just outside the bounds at lag 14). In the PACF, there are three spikes decreasing with the lag, and then no significant spikes thereafter (apart from one just outside the bounds at lag 8). We can ignore one significant spike in each plot if it is just outside the limits, and not in the first few lags. After all, the probability of a spike being significant by chance is about one in twenty, and we are plotting 21 spikes in each plot. The pattern in the first three spikes is what we would expect from an ARIMA(0,0,3) as the PACF tends to decay exponentially. So in this case, the ACF and PACF lead us to the same model as was obtained using the automatic procedure. arc cos is the inverse cosine function. You should be able to find it on your calculator. It may be labelled acos or cos .1608617
Comments
Post a Comment