AttentionMNIST: Kumpulan Data Pelacakan Perhatian Klik Mouse Untuk Pengenalan Angka dan Alfabet Tulisan Tangan

Feb 22, 2024

Berbagai model berbasis perhatian yang mengenali objek melalui serangkaian pandangan sekilas telah melaporkan hasil pengenalan angka tulisan tangan. Namun, tidak tersedia data pelacakan perhatian untuk pengenalan angka atau alfabet tulisan tangan. Ketersediaan data tersebut akan memungkinkan model berbasis perhatian dievaluasi dibandingkan dengan kinerja manusia. Kami mengumpulkan data pelacakan perhatian klik mouse dari 382 peserta yang mencoba mengenali angka dan abjad tulisan tangan (huruf besar dan kecil) dari gambar melalui pengambilan sampel berurutan. Gambar dari kumpulan data benchmark disajikan sebagai rangsangan. Kumpulan data yang dikumpulkan, disebut AttentionMNIST, terdiri dari urutan lokasi sampel (klik mouse), prlabel kelas yang ditentukan pada setiap pengambilan sampel, dan durasi setiap pengambilan sampel. Rata-rata, peserta kami hanya mengamati 12,8% gambar untuk dikenali. Kami mengusulkan model dasar untuk memprediksi lokasi dan kelas yang akan dipilih peserta pada pengambilan sampel berikutnya. Ketika dihadapkan pada rangsangan dan kondisi eksperimental yang sama dengan peserta kami, model penguatan berbasis perhatian yang banyak dikutip tidak mencapai efisiensi manusia.

Chinese herb cistanche

cistanche Cinaherba- Mencegah produk Penyakit Alzheimer

Model pembelajaran mesin (ML) yang mengenali objek melalui serangkaian pandangan sekilas telah menarik perhatian dalam beberapa tahun terakhir karena skalabilitas dan efisiensinya. Banyak dari model ini, seperti 1–7, telah melaporkan hasil eksperimen pada kumpulan data benchmark MNIST untuk pengenalan angka tulisan tangan. Sayangnya, tidak ada data pelacakan perhatian untuk MNIST yang tersedia. Hal ini mencegah evaluasi model berbasis perhatian dibandingkan dengan kinerja manusia. Kami mengatasi kesenjangan tersebut dengan mengumpulkan kumpulan data dari peserta dewasa yang mencoba mengenali angka dan abjad tulisan tangan dari gambar melalui pengambilan sampel berurutan. Berbeda dengan pelacakan perhatian gerakan mata (emAT), peserta mengklik lokasi pada gambar yang ingin dilihatnya (suatu bentuk pelacakan perhatian klik mouse (mcAT)). Segera setelah itu, dia memilih kelas yang dia prediksi mungkin termasuk dalam objek tersebut berdasarkan pengamatannya sejauh ini. Jadi, pada setiap episode pengambilan sampel, data kami terdiri dari lokasi gambar yang dipilih, prediksi label kelas, dan waktu yang dibutuhkan sejak episode terakhir oleh peserta. Setelah setiap gambar, peserta menerima hadiah berdasarkan kinerjanya (akurasi dan efisiensi).

Anti Alzheimer's disease

Manfaat cistanche tubulosa-Anti penyakit Alzheimer

Keuntungan mcAT dibandingkan eAT untuk pengenalan angka/abjad tulisan tangan.

(1) daging mengandung variabilitas intra dan antar pribadi yang signifikan dalam lokasi fiksasi, terutama untuk rangsangan statis (gambar)8,9. Jadi diperlukan sejumlah besar data fiksasi mata untuk mencapai kesimpulan yang signifikan secara statistik. mcAT tidak rentan terhadap beberapa sumber gangguan teknis yang umum terjadi pada data pelacakan mata10. (2) Gerakan mata dapat terjadi akibat mekanisme yang disengaja dan tidak disengaja11. Untuk memfasilitasi pengambilan keputusan yang bergantung pada tugas, kami memberikan waktu, konteks, dan sinyal penguatan yang memadai kepada peserta, yang juga dapat disajikan ke model ML. (3) Presisi dan keakuratan data eAT bergantung pada pelacak mata, sedangkan mcAT tidak bergantung pada perangkat apa pun. (4) Merupakan tantangan untuk menyinkronkan gerakan mata seseorang dengan pilihan kelasnya. Untuk mengatasi hal ini, dalam kasus kami, lokasi pengambilan sampel dan kelas dipilih dalam episode yang sama. (5) Terakhir, metode kami memungkinkan pengumpulan data menggunakan Amazon Mechanical Turk (MTurk), seperti pada 12,13, yang hemat biaya dan waktu, serta mudah direproduksi.

Kontribusi.

Kami mengumpulkan kumpulan data mcAT, yang disebut AttentionMNIST, menggunakan MTurk dari 382 peserta, yang diberi penghargaan karena secara akurat dan efisien mengenali angka dan alfabet tulisan tangan (huruf besar dan kecil) dari gambar melalui pengambilan sampel berurutan. Gambar dari kumpulan data benchmark (MNIST, EMNIST) disajikan sebagai rangsangan. Rata-rata, tercatat 169,1 tanggapan per kelas angka/abjad. Dengan menggunakan kumpulan data ini, kami menunjukkan hal berikut: • Rata-rata, peserta memerlukan 4,2, 4,7, dan 4,9 sampel untuk mengenali alfabet angka, huruf besar, dan huruf kecil, yang masing-masing hanya mewakili 11,3%, 13,4%, dan 13,7% area gambar . Akurasi klasifikasi meningkat dengan beberapa sampel. • Sebuah model, yang disajikan sebagai data dasar, dapat memprediksi kelas dan lokasi yang akan dipilih peserta pada episode pengambilan sampel berikutnya dengan akurasi masing-masing sebesar 74,4% dan 67,7%, keduanya dirata-ratakan untuk seluruh pengambilan sampel dan kumpulan data. Akurasi prediksi kelas meningkat dan akurasi prediksi lokasi menurun seiring bertambahnya sampel. • Ketika dihadapkan pada rangsangan dan kondisi yang sama dengan peserta kami, model perhatian berulang (RAM)3 berbasis penguatan yang banyak dikutip memerlukan 3,7, 8,5, dan 7,6 sampel untuk mengenali alfabet angka, huruf besar, dan huruf kecil, yang setara dengan 8,9% , 21.0%, masing-masing 18,7% dari area gambar. Model penguatan berbasis perhatian lainnya (misalnya,1,2,4,5,7,14) dapat dievaluasi dengan cara yang sama dibandingkan dengan kinerja manusia.

Cistanche supplement near me-Improve memory2

Suplemen Cistanche di dekat saya-Meningkatkan Memori

Klik di sini untuk melihat produk Cistanche Meningkatkan Daya Ingat dan Mencegah Penyakit Alzheimer

【Minta lebih lanjut】 Email:cindy.xue@wecistanche.com / Aplikasi WhatsApp: 0086 18599088692 / Wechat: 18599088692

Pekerjaan yang berhubungan

Urutan temporal klik mouse di mcAT analog dengan jalur pemindaian gerakan mata10. mcAT dapat secara efektif menggantikan eAT karena keduanya berkorelasi secara signifikan10,12,13,15–17. Berbagai jenis rangsangan telah digunakan dalam studi mcAT, seperti gambar benda hidup dan mati10, gambar pemandangan alam12,13, halaman web statis13, tata letak halaman pencarian16, dan dua daftar string alfanumerik untuk perbandingan visual17. Namun, mcAT belum digunakan untuk tugas klasifikasi angka/abjad tulisan tangan atau evaluasi model klasifikasi berbasis perhatian. Studi mcAT telah menggunakan fitur-fitur seperti waktu untuk menghubungi, frekuensi fiksasi relatif dalam bidang minat (AOI), proporsi relatif subjek yang mengklik setidaknya sekali dalam AOI10, jumlah fiksasi per percobaan, refiksasi dalam percobaan, waktu tunggu, dan jalur pemindaian17 , peta fiksasi12,13, AOI dan pola aliran informasi16. Urutan lokasi klik yang diberi cap waktu dan prediksi label kelas merupakan data mentah yang diperlukan untuk mengevaluasi efisiensi dan akurasi model berbasis perhatian atau manusia dalam tugas klasifikasi. Berbagai fitur dapat diperoleh dari data ini. Kumpulan data mcAT kami, dengan banyak keunggulan dibandingkan data pelacakan mata, mengisi kesenjangan penting dalam penelitian model berbasis perhatian di AI, ML, dan bidang lainnya. Kumpulan data kami akan memungkinkan model berbasis perhatian dievaluasi dibandingkan dengan kinerja manusia. Hal ini antara lain akan memfasilitasi pengembangan sistem pengenalan karakter optik yang efisien dan real-time yang dapat digunakan secara luas dalam praktik (lihat contoh 18-20). Prinsip yang memandu fiksasi visual dapat dihipotesiskan dan diuji menggunakan kumpulan data kami. Prinsip-prinsip sukses ini dapat diterapkan untuk mengembangkan sistem untuk tugas-tugas pengenalan visual di dunia nyata yang mengutamakan efisiensi, seperti dalam mengemudi otonom.

Data

Data kami terdiri dari rangkaian T episode untuk setiap peserta. Data setiap episode terdiri dari (1) lokasi gambar yang diklik peserta (satu klik gambar per episode), (2) kelas yang dipilih peserta, dan (3) waktu yang dibutuhkan oleh peserta. peserta untuk mendaftarkan sampel saat ini (yaitu waktu yang berlalu antara klik terakhir dan saat ini pada gambar). Bagian ini akan menjelaskan proses pengumpulan data kami termasuk pemilihan rangsangan, peserta, tugas visual, penilaian kinerja, dan penyaringan data.

Seleksi rangsangan. Stimuli dipilih dari gambar dalam dua kumpulan data benchmark: (1)

Dataset MNIST21 terdiri dari 70,000 gambar berlabel (28×28 piksel) dari 10 angka tulisan tangan {0, 1, ..., 9}. (2)

Dataset EMNIST22 terdiri dari 145.600 gambar (28×28 piksel) huruf Inggris tulisan tangan dalam huruf besar dan kecil, membentuk kelas yang seimbang. Semua gambar diberi label dengan salah satu dari 26 kelas {a, b, ..., z}. Namun, label huruf besar atau kecil tidak dikaitkan dengan gambar apa pun. Dari setiap kategori, kami memilih 15 angka dengan bentuk yang baik dari MNIST dan 15 huruf dengan bentuk yang baik masing-masing dari kumpulan data huruf besar EMNIST dan huruf kecil EMNIST. Angka atau abjad yang terbentuk dengan baik mirip dengan norma kelasnya. Oleh karena itu, kami menyajikan rangsangan dari sekumpulan 15(10 + 26 + 26)=930 gambar unik, dengan 15 gambar milik masing-masing dari 62 kelas. 930 gambar yang terbentuk dengan baik dipilih sebagai berikut:

Langkah 1: Normalisasikan setiap gambar menggunakan min-max untuk menskalakan intensitas antara 0 dan 1.

Langkah 2: Labeli gambar EMNIST yang terbentuk dengan baik dalam huruf besar atau kecil. Untuk setiap kelas alfabet, alfabet yang terbentuk dengan baik dari gambar huruf besar dan kecil dipilih dan diberi label secara manual. Kemiripan kosinus semua gambar yang termasuk dalam kelas tersebut dengan dua gambar berlabel dihitung. Gambar yang berada di atas ambang kesamaan kosinus (secara empiris dipilih sebagai 0.8) diberi label huruf besar atau kecil.

Langkah 3: Hitung mean gambar milik masing-masing kelas. Citra rata-rata suatu kelas merupakan normanya. Suatu citra memenuhi syarat untuk dijadikan stimulus jika cosine-similarity-nya dengan mean citra kelasnya lebih besar dari ambang batas yang ditentukan secara empiris (0.7 untuk MNIST, 0.75 untuk EMNIST).

Langkah 4: Di antara gambar-gambar yang memenuhi syarat, 15 gambar dari masing-masing kelas dipilih secara manual berdasarkan seberapa baik bentuk gambar tersebut. Setiap gambar, yang awalnya berukuran 28x28 piksel, dikurangi menjadi 27x25 dengan menghilangkan piksel di dekat batas karena tidak memiliki variasi intensitas. Rata-rata dari 15 gambar ini dihitung untuk masing-masing 62 kelas. Kami menyatakan gambar rata-rata ini sebagai I1, I2, ..., In untuk n kelas di setiap dataset.

Peserta.

Sebanyak 382 orang dewasa yang berbeda berpartisipasi dalam penelitian kami. Tidak ada kriteria seleksi yang digunakan. Seorang peserta dapat merespons banyak gambar. Untuk masing-masing dari 62 kelas, tercatat rata-rata 169,1 tanggapan.

man-5989553_960_720

Manfaat cistanche tubulosa-Penyakit anti Alzheimer

tugas visual.

Antarmuka MTurk untuk tugas visual kita ditunjukkan pada Gambar. 1. Kanvas berukuran 270x250 menampilkan gambar latar belakang berintensitas rendah setiap saat. Gambar latar belakang dan stimulus ditingkatkan sampelnya sepuluh kali menjadi 270x250. Bagian tengah kanvas sejajar dengan bagian tengah gambar. Latar Belakang Awalnya, latar belakang adalah rata-rata semua gambar dalam kumpulan data yang menjadi sumber pengambilan stimulus. Setelah episode pertama, latar belakang adalah rata-rata semua gambar dari kumpulan kelas yang dipilih oleh peserta di episode terakhir. Di dunia nyata, konteks letak, ukuran, dan orientasi suatu angka atau alfabet diperoleh dari tulisan di sekitarnya, yang tidak ada di sini. Saat eksperimen kami dilakukan dengan latar belakang kosong, para partisipan sering kali mengambil sampel lokasi gambar yang tidak memuat bagian mana pun dari objek tersebut. Perilaku ini diatasi dengan menampilkan gambar rata-rata dari kelas yang dipilih dalam latar belakang intensitas rendah dan mengurangi ukuran semua gambar MNIST dan EMNIST dari 28×28 piksel menjadi 27×25. Setiap kali peserta memilih lokasi di kanvas dengan mengkliknya, patch 50x50 piksel yang berpusat di lokasi tersebut dari gambar stimulus akan terungkap. Tambalan yang pernah terungkap terus ditampilkan hingga episode terakhir. Tugas seorang peserta terdiri dari tiga langkah pada setiap episode t (t=1, ..., T):

Langkah 1: Klik di mana saja di kanvas 270x250 untuk menampilkan patch yang ingin dia sampel. Hanya klik pertama yang diterima.

Langkah 2: Kenali angka/abjad dari semua sampel yang diamati selama ini. Peserta dapat memilih beberapa kelas dan harus memilih setidaknya satu kelas dari daftar kelas yang ditampilkan di bawah kanvas.

Langkah 3: Klik "Berikutnya" di bagian bawah layar untuk melanjutkan. Untuk menyimpulkan kelas secara akurat dan cepat, peserta harus memilih lokasi dengan bijaksana berdasarkan pengamatannya hingga episode saat ini. Tidak ada batasan waktu untuk satu episode. Namun, kami membatasi total waktu untuk episode T suatu gambar menjadi enam menit. Kami memilih T=12 karena karya yang banyak dikutip mengenai pengenalan atau pembuatan tulisan tangan berbasis perhatian telah menggunakan kurang dari 12 tampilan sekilas (misalnya, RAM3 dapat mengenali angka MNIST dalam 7 tampilan sekilas, DRAW23 dapat menghasilkan angka MNIST dalam 11 tampilan sekilas), dan manusia dapat mengenali angka dan abjad tulisan tangan dalam waktu kurang dari 12 kali.

Penilaian kinerja. Skor diberikan kepada peserta berdasarkan keakuratan dan efisiensinya dalam hal jumlah sampel yang diamati. Biarkan itu menjadi kumpulan kelas yang dia pilih di episode mana pun. Sepuluh, skornya di t adalah:

Figure 1. Our MTurk interface as seen by a participant. Te second sampling for an EMNIST uppercase alphabet is shown.

Gambar 1. Antarmuka MTurk kami seperti yang dilihat oleh peserta. Pengambilan sampel kedua untuk alfabet huruf besar EMNIST ditampilkan.

image


dimana |.| menunjukkan kardinalitas suatu himpunan. Total skor yang diberikan dalam T episode adalah h {{0}} T t=1 Pt. Oleh karena itu, skor maksimum yang dapat diperoleh seseorang dalam episode T adalah T jika dia selalu memilih kelas yang benar saja. Nilai minimum yang dapat diperoleh seseorang dalam episode T adalah nol jika dia selalu memilih kumpulan kelas yang tidak menyertakan kelas yang benar. Jadi, 0 Kurang dari atau sama dengan h Kurang dari atau sama dengan T. Semakin cepat seorang peserta memilih kelas yang tepat, semakin tinggi nilainya. Dengan demikian, mekanisme penilaian ini memperhitungkan akurasi pengenalan dan efisiensi pengambilan sampel. Mencoba memaksimalkan skor dengan memilih hanya satu kelas dari episode pertama akan berisiko karena skor nol akan diberikan jika kelas tersebut salah, sedangkan skor lebih besar dari nol akan diberikan jika peserta memilih beberapa kelas ( bahkan semua kelas) yang menyertakan kelas yang benar. Ini akan memotivasi peserta untuk merespons berdasarkan kemungkinan kelas yang ada dalam pikirannya pada episode mana pun. Skor yang diberikan pada setiap episode diungkapkan hanya setelah episode T selesai agar tidak memberikan petunjuk apa pun kepada peserta. Di MTurk, imbalan yang diterima peserta untuk sebuah gambar sebanding dengan skor totalnya, h.

Pemfilteran data.

Jika skor peserta pada episode terakhir (yaitu ke-T) untuk gambar stimulus adalah nol, datanya yang direkam untuk gambar tersebut akan dibuang. Data juga akan dibuang jika peserta membiarkan tugasnya tidak selesai. Dengan kriteria seleksi ini, diperoleh tanggapan terhadap 1736 rangsangan dari MNIST, 4431 rangsangan dari huruf besar EMNIST, dan 4315 rangsangan dari huruf kecil EMNIST; yaitu rata-rata 169,1 tanggapan per kelas.

Model dan metode pemanfaatan data

Pada bagian ini, kami mengilustrasikan kegunaan data yang dikumpulkan dengan (4.1) menyediakan model dasar untuk memprediksi perilaku peserta, dan (4.2) menunjukkan bagaimana model penguatan berbasis perhatian yang ada dapat dibandingkan dengan pengenalan angka/abjad manusia. pertunjukan. Dasar untuk prediksi perilaku. Perilaku pada setiap episode t terdiri dari pemilihan lokasi dan pemilihan kelas. Karena suatu sampel mengandung jumlah informasi yang berbeda untuk pengamat yang berbeda, atau bahkan untuk pengamat yang sama pada waktu yang berbeda9, prediksi perilaku setiap partisipan merupakan masalah yang sulit. Misal n adalah banyaknya kelas dalam suatu dataset, ηt adalah himpunan tunggal yang berisi kelas sebenarnya untuk gambar stimulus pada t, ct adalah himpunan kelas, dan lt adalah lokasi yang dipilih oleh peserta pada t, menjadi observasinya pada t, dan 1:t menunjukkan barisan 1, 2, ..., t. Hingga t berapapun, observasi peserta adalah o1:t dan lokasi yang dipilihnya adalah l1:t. Kita rumuskan masalah prediksi perilaku peserta sebagai berikut: Prediksi kelas Perkirakan peluang i∈ct (i=1, 2, ..., n) dengan mempertimbangkan o1:t dan l1:t, yaitu P( saya ∈ ct|o1:t, l1:t). Prediksi lokasi Perkirakan probabilitas lt+1 dengan mengetahui o1:t, l1:t dan ct, yaitu P(lt+1|o1:t, l1:t,ct). Prediksi kelas. Untuk memprediksi kelas yang akan dipilih peserta pada episode t, kami menghitung probabilitas bahwa stimulus gambar di t termasuk dalam kelas I dengan mempertimbangkan lokasi yang dipilih peserta l1:t dan pengamatan terkait o1:t, sebagai berikut:

image

dimana Ii adalah mean dari gambar rangsangan (27×25) yang termasuk dalam kelas i, I′ adalah gambar berukuran 27×25 yang mengandung o1:t pada l1:t, · menunjukkan produk skalar, dan .menunjukkan norma Euclidean. Semua intensitas piksel adalah non-negatif. Pada setiap episode t, k kelas kemungkinan tertinggi dari distribusi keyakinan P(i|o1:t, l1:t) merupakan himpunan kelas, ˆct, yang diprediksi oleh model kita, di mana k=|ct|. Keakuratan klasifikasi diukur menggunakan indeks Jaccard (JI). JI mengukur kemiripan antara dua himpunan, X dan Y, sebagai: J(X, Y) {{10}} |X ∩ Y|/|X ∪ Y|. JI dibatasi antara 0 dan 1; jika X=Y, J(X, Y)=1. Pada setiap episode t, keakuratan klasifikasi peserta adalah J(ηt,ct) sedangkan model kami adalah J(ηt, ˆct). Karena penyebutnya, JI memberikan penalti lebih banyak karena jumlah elemen dalam himpunan prediksi (ct atau ˆct) yang tidak berada dalam ηt meningkat, yang merupakan properti yang diinginkan untuk kasus kita. Kesamaan antara klasifikasi peserta dan model kami diukur dengan J(ct, ˆct). Model kami juga dievaluasi dalam hal akurasi pemilihan dan penolakan kelas terhadap setiap peserta. Misalkan st=ct − ct−1 adalah himpunan kelas baru yang dipilih dan rt=ct−1 − ct adalah himpunan kelas yang ditolak oleh peserta pada t. Demikian pula, ˆst=ˆct − ct−1 adalah himpunan kelas baru yang dipilih, dan ˆrt=ct−1 − ˆct adalah himpunan kelas yang ditolak oleh model kita pada t. Kemudian pemilihan dan penolakan kelas model dapat dibandingkan dengan pilihan peserta dengan J(st, ˆst) ketika |st| > 0 dan J(rt, ˆrt) ketika |rt| > 0, masing-masing. Prediksi lokasi. Hipotesis Idealnya, distribusi keyakinan di semua kelas harus unimodal (yaitu, hanya satu puncak) dan berbentuk Gaussian tipis (yaitu, deviasi standar kecil) yang menunjukkan bahwa peserta yakin tentang kelas (keadaan) stimulus (lingkungan). Namun, seperti yang terlihat dari data kami (lihat Gambar 2), seorang peserta sering bingung memilih beberapa kelas, terutama pada beberapa episode awal. Dalam kasus ini, distribusi keyakinannya memiliki banyak puncak atau Gaussian yang gemuk. Kami berhipotesis bahwa tujuan peserta adalah untuk menyatu ke Gaussian yang unimodal dan tipis, untuk mencapainya ia secara selektif mengambil sampel lokasi yang mengurangi kemungkinan semua kelas kecuali satu. Hipotesis ini mengarah pada minimalisasi ketidakpastian atas kelas (keadaan lingkungan) yang merupakan prinsip terkenal yang memandu tindakan24, termasuk gerakan mata25.

Figure 2. Duration and class distribution over all participants and stimuli belonging to categories '0', 'a', and 'A'.


Gambar 2. Durasi dan distribusi kelas seluruh peserta dan rangsangan yang termasuk dalam kategori '0', 'a', dan 'A'.

Te observations at certain locations in a stimulus image can discriminate between certain classes. Te observation at a location l might indicate that the numeral/alphabet belongs to class I and not to class j. Such locations are more salient than others in achieving a participant's goal. To sample such locations, a saliency map, Dij, is computed such that if l is salient, the observation at l is evidence to increase the probability of class I and decrease that of j. Mathematically, Dij = N (., σ ) ∗ g(.), where ∗ is the convolution operator, g(.) is a saliency scoring function, and N (., σ ) is a 5×5 Gaussian kernel with standard deviation σ = 6 to smooth the saliency scores. We denote the set of all saliency maps as D = {Dij: i, j ∈ {1, 2, ..., n}, i �= j}. A location l in a stimulus image is salient for class i with respect to class j if Dij(l)>θ, dimana ambang batas θ=0.5 × max(D) adalah besaran skalar yang ditentukan secara empiris.

Kami mempertimbangkan dua metrik asimetris, divergensi dan perbedaan Kullback-Leibler (KL), sebagai kandidat untuk fungsi g. Divergensi KL Dengan adanya dua gambaran rata-rata yang dinormalisasi, Ii dan Ij, divergensi KL KL(Ii, Ij) mengukur hilangnya informasi ketika Ij digunakan untuk memperkirakan Ii. Ini dihitung untuk setiap piksel k as26: KL(Ii,k, Ij,k)=Ii,k log δ + Ii,k Ij,k+δ, dimana Ij,k adalah intensitas piksel ke-k dari Ij, dan δ adalah konstanta regularisasi. Ketika Ii,k=Ij,k, KL(Ii,k,Ij,k) → 0. Perbedaan Diberikan dua gambar rata-rata yang dinormalisasi, Ii dan Ij, perbedaan untuk setiap piksel k adalah Diff (Ii,k, Ij,k)=Ii,k − Ij,k. Bila Ii,k=Ij,k, Diff (Ii,k, Ij,k)=0. Seorang peserta tidak yakin mengenai rangkaian kelas, ct, yang dia pilih pada episode saat ini. Oleh karena itu, untuk prediksi lokasi, kami hanya mempertimbangkan peta arti-penting di D yang melibatkan kelas di ct. Suatu lokasi diprediksi jika lokasi tersebut menonjol berdasarkan peta arti-penting ini dan tidak pernah dipilih oleh peserta. Oleh karena itu, jika diketahui o1:t, l1:t dan ct, lokasi lt+1 diprediksi sebagai berikut:

image

dimana Ŵ adalah himpunan 3-tupel yang memuat prediksi lokasi ˆl, kelas yang menonjol (i), dan berkenaan dengan kelas mana (j). Lokasi diprediksi dengan benar jika terdapat �ˆl, i, j� ∈ Ŵ sehingga �ˆl − lt+1� < ǫ, I ∈ ct+1 dan j /∈ ct{{3} }, dimana ǫ adalah jarak Euclidean maksimum antara piksel tengah dan piksel mana pun dalam patch observasi. Kode semu untuk prediksi lokasi ditunjukkan pada Algoritma 1. Penjelasan rinci tentang kode semu disertakan di Bagian S1 materi tambahan. (Distribusi probabilitas Te, P(lt+1|o1:t, l1:t,ct), dapat dihitung dengan mengasumsikan skor arti-penting lokasi yang tidak berada di Ŵ menjadi nol, dan kemudian menormalkan skor arti-penting semua lokasi untuk dijumlahkan menjadi satu. Namun, probabilitas ini belum digunakan, karena Persamaan (3) sudah cukup untuk keperluan makalah ini.)

image

Evaluasi model berbasis perhatian.

Sebagai perwakilan model berbasis perhatian, kami mempertimbangkan model perhatian berulang (RAM)3 yang banyak dikutip yang melaporkan hasil eksperimen pada kumpulan data MNIST. Model penguatan ini mengambil sampel gambar secara berurutan dan memutuskan lokasi pengambilan sampel berikutnya pada setiap pengambilan sampel, sehingga sesuai untuk evaluasi menggunakan data yang dikumpulkan.

RAM

mengklasifikasikan gambar menggunakan urutan sekilas. Lokasi berikutnya dipilih secara stokastik dari distribusi yang diparameterisasi oleh jaringan lokasi. Model ini dilatih secara end-to-end dengan memaksimalkan tujuan3 berikut:

image


dimana M adalah jumlah episode, T adalah jumlah pengamatan, xi 1:t adalah urutan interaksi yang diperoleh dengan menjalankan agen saat ini hingga I episode, ui t adalah tindakan saat ini, θ adalah himpunan parameter yang dapat dilatih, Ri t adalah imbalan kumulatif, bt adalah garis dasar, dan π(ui t|xi 1:t; θ ) adalah kebijakannya. Perilaku RAM dapat dibandingkan dengan perilaku partisipan dengan membandingkan peta fiksasi yang diperoleh dari urutan lokasi yang diprediksi oleh RAM dan lokasi yang dipilih oleh partisipan. Peta fksasi dihitung dengan menetapkan nilai yang sama pada setiap lokasi dengan frekuensi pemilihannya, dan kemudian menormalkan nilai tersebut untuk membuat distribusi di semua lokasi.

Metrik untuk membandingkan peta fiksasi. Untuk metrik yang membandingkan dua peta fiksasi, P dan Q, kami mengikuti 26. Kami menggunakan tiga metrik berbasis distribusi: divergensi KL (KL), koefisien korelasi Pearson (CC), dan Kemiripan (SIM), untuk membandingkan distribusi lokasi pengambilan sampel. dari model dengan dari peserta sebagaimana dicatat dalam data yang dikumpulkan.

KL (didefinisikan sebelumnya) sangat sensitif terhadap nilai nol.

CC dapat mengevaluasi hubungan linier antara dua peta sebagai26: CC(P, Q)=σ (P, Q) σ (P)σ (Q), dengan σ adalah varians atau kovarians. Karena CC simetris, CC gagal menyimpulkan apakah perbedaan antara peta fiksasi disebabkan oleh positif palsu atau negatif palsu.

SIM diukur sebagai 26: SIM(P, Q)=k min(Pk, Qk), di mana k Pk=k Qk=1. Seperti CC, SIM simetris dan mewarisi kelemahan yang sama. Selain itu, SIM sangat sensitif terhadap nilai yang hilang dan memberikan sanksi terhadap prediksi yang gagal memperhitungkan kepadatan kebenaran dasar.

Penelitian Manusia dan Hewan.

Dewan Peninjau Institusional di Universitas Memphis telah menetapkan bahwa penelitian ini tidak memenuhi definisi penelitian subjek manusia oleh Kantor Perlindungan Penelitian Subyek Manusia dan 45 CFR bagian 46 tidak berlaku. Oleh karena itu, penelitian ini tidak memerlukan persetujuan atau peninjauan IRB.

Hasil Eksperimen Analisis data.

Data yang dikumpulkan dapat divisualisasikan dalam urutan distribusi lokasi yang dipilih (Gambar 3), kelas yang dipilih (Gambar 2), dan durasi antara episode yang berurutan (Gambar 2). Distribusi ini sangat mirip untuk ketiga kumpulan data. Untuk angka atau alfabet apa pun, distribusi lokasi yang dipilih setelah episode terakhir menyerupai distribusi intensitas piksel kelasnya dari kumpulan data. Namun urutan lokasi yang dipilih bersifat stokastik. Distribusi kelas menunjukkan kebingungan antar kategori dengan struktur serupa di beberapa episode awal ketika peserta memilih beberapa kelas. Kebingungan ini berkurang dengan lebih banyak pengambilan sampel. Terdapat korelasi positif yang signifikan antara tingkat kebingungan (# kelas terpilih/total # kelas) dan durasi pengambilan sampel (lihat Gambar 4). Jika jumlah kelas yang dipilih tinggi (rendah), durasi antar episode berturut-turut adalah tinggi (rendah). CC urutan lokasi yang dipilih oleh peserta untuk suatu kelas tidak signifikan (Tabel 1). Hal ini diperkirakan terjadi karena variabilitas antar subjek dalam pengambilan sampel gambar statis. Jumlah rata-rata pengambilan sampel yang diperlukan oleh seorang peserta untuk memprediksi suatu kelas secara akurat cukup rendah. Rata-rata, diperlukan 4,2, 4,7, dan 4,9 sampel yang setara dengan 36, 44,1, dan 48,1 detik untuk secara akurat mengklasifikasikan gambar huruf besar dan kecil MNIST, EMNIST. Para peserta rata-rata hanya melihat 11,3%, 13,4%, dan 13,7% area gambar untuk mengklasifikasikan gambar alfabet angka, huruf besar, dan huruf kecil secara akurat (lihat Gambar. S2 pada materi tambahan). Hasil ini menyoroti efisiensi sistem penalaran visual manusia, meskipun pada resolusi yang lebih rendah dibandingkan data pelacakan mata namun dengan lebih sedikit noise dan variabilitas. Hasil empiris ini mungkin berguna untuk merancang model berbasis perhatian untuk aplikasi dunia nyata. Prediksi perilaku. Di bagian ini, performa model dasar kami dievaluasi dalam kaitannya dengan seberapa akurat model tersebut dapat memprediksi lokasi dan pemilihan kelas setiap peserta. Karena hasil eksperimen kami menggunakan dua fungsi penilaian arti-penting, divergensi KL, dan perbedaan, cukup mirip, hasil dilaporkan hanya menggunakan perbedaan, kecuali dinyatakan lain. Prediksi kelas. Prediksi kelas dan metode evaluasi akurasinya dijelaskan di bagian "Prediksi kelas". Akurasi prediksi kelas, ditunjukkan pada Gambar 5, dihitung pada semua kelas untuk semua pengambilan sampel. Akurasi prediksi kelas rata-rata pada semua sampel dan kumpulan data adalah 74,4% (std. dev. 26.5). Gambar 5a, dan b menunjukkan bahwa rangkaian kelas yang dipilih oleh peserta dan model dasar kami (Persamaan 2) cukup tidak akurat pada episode awal dan membaik seiring bertambahnya sampel. Gambar 5c menunjukkan bahwa, selama episode awal, kedua set ini, ct, dan ˆct, sangat berbeda; kesamaan meningkat dengan peningkatan sampel. Hal yang sama berlaku untuk pemilihan kelas baru (lihat Gambar 5f). Namun, penolakan kelas serupa di episode awal; kesamaan semakin meningkat dengan semakin banyak sampel (ref. Gambar 5e). Sejak J(st, ˆst)=|(ct ∩ ˆct) − ct−1| |(ct ∪ ˆct) − ct−1| dan J(rt, ˆrt)=|ct−1 − (ct ∪ ˆct)| |ct−1 − (ct ∩ ˆct)|, dapat disimpulkan dari Gambar 5e, f bahwa pada episode awal, perpotongan antara ct−1 dan ct ∪ ˆct kecil, yang menunjukkan bahwa pada awalnya peserta dan model dasar kami membuat banyak perubahan dalam pemilihan kelas mereka di antara episode yang berurutan. Oleh karena itu, pada awalnya proses pemilihan kelas sangat stokastik. Meskipun ada beberapa perbedaan antara prediksi kelas peserta dan model kami selama episode awal, perilakunya menjadi semakin mirip dengan semakin banyak sampel. Selama beberapa episode pertama (biasanya 4 sampai 7), bagian-bagian stimulus yang sangat menonjol terungkap. Hal ini membantu untuk memilih hanya kelas yang benar dalam pengambilan sampel selanjutnya, sehingga meningkatkan akurasi prediksi. Karena ada banyak kelas yang templat rata-ratanya cocok dengan bagian stimulus yang diamati selama beberapa episode awal, proses pemilihan kelas jauh lebih stokastik, yang menyebabkan rendahnya akurasi klasifikasi dari peserta serta model kami.

Figure 3. Distribution of sampling locations over all participants for each numeral/alphabet class and each sampling episode. Each row corresponds to a class, each column corresponds to a sampling episode which increases from left to right.


Gambar 3. Distribusi lokasi pengambilan sampel pada seluruh peserta untuk setiap kelas angka/abjad dan setiap episode pengambilan sampel. Setiap baris berhubungan dengan suatu kelas, setiap kolom berhubungan dengan episode pengambilan sampel yang meningkat dari kiri ke kanan.

Prediksi lokasi. Akurasi prediksi lokasi model dasar kami (Persamaan 3), yang dirata-ratakan pada semua pengambilan sampel dan kumpulan data, adalah 67,7% (std. dev. 14.1) (ref. Gambar 5d). Tren akurasi prediksi ini berlawanan dengan tren akurasi prediksi kelas. Namun penjelasannya tetap sama. Keakuratan prediksi lokasi tinggi selama pengambilan sampel awal karena selama episode ini, lokasi yang sangat menonjol dipilih, sehingga lokasi yang kurang menonjol akan dipilih pada episode selanjutnya. Karena terdapat banyak lokasi dengan arti-penting rendah, proses pemilihannya sangat stokastik sehingga sulit diprediksi, sehingga menyebabkan penurunan akurasi prediksi seiring dengan peningkatan pengambilan sampel. Tren penurunan ini unik untuk setiap kumpulan data (lihat Gambar 5d) karena jumlah kelas dan jumlah lokasi yang sangat menonjol yang berguna untuk diskriminasi bervariasi antar kumpulan data. Semakin rendah jumlah kelas dan semakin menonjol diskriminatif lokasinya, semakin cepat pula penurunan akurasi prediksi lokasi seiring dengan peningkatan pengambilan sampel.

imageFigure 4. (Lef) Errorbar plot of time diference (seconds) between consecutive samples averaged over all classes. Tat is, value shown at sampling episode t is the time elapsed between a participant's clicks in image at t − 1 and t. (Right) Errorbar plot of confusion averaged over all classes at each episode. Errorbars indicate std. dev.

Gambar 4. (Kiri) Plot Errorbar perbedaan waktu (detik) antara sampel berturut-turut yang dirata-ratakan di semua kelas. Artinya, nilai yang ditampilkan pada episode pengambilan sampel t adalah waktu yang berlalu antara klik peserta pada gambar pada t − 1 dan t. (Kanan) Plot kebingungan Errorbar dirata-ratakan di seluruh kelas pada setiap episode. Bilah kesalahan menunjukkan std. dev.

Figure 5. Evaluation of our baseline model (ref.

Gambar 5. Evaluasi model dasar kami (lihat Bagian "Dasar untuk prediksi perilaku"). (a) Akurasi klasifikasi (menurut) peserta dan (b) model dasar kami dengan label aktual sebagai kebenaran dasar. (c) Kesamaan klasifikasi (J(ct, ˆct)), (d) akurasi prediksi lokasi, (e) akurasi penolakan kelas, dan (f) akurasi pemilihan kelas model dasar kami dengan data peserta sebagai kebenaran dasar. Lihat bagian "Prediksi perilaku" untuk detailnya.

Table 1. Average Pearson correlation coefficient (corr.) for fxation sequences for the same class. For any fixation, distance is Euclidean and direction is measured as the polar angle with respect to the center of stimuli as the origin. Std. dev. are included in parenthesis.


Tabel 1. Rata-rata koefisien korelasi Pearson (corr.) untuk barisan fxation pada kelas yang sama. Untuk fiksasi apa pun, jarak adalah Euclidean dan arah diukur sebagai sudut kutub terhadap pusat rangsangan sebagai titik asal. Std. dev. disertakan dalam tanda kurung.

Evaluasi RAM.

Untuk setiap kelas dan pengambilan sampel, peta fiksasi dari RAM (kami menggunakan implementasi RAM dari github.com/hehefan/Recurrent-Attention-Model) dan data yang dikumpulkan untuk rangsangan yang sama yang disajikan di MTurk dibandingkan. Untuk perbandingan yang adil dengan para peserta, dalam RAM kami menetapkan panjang urutan di T=12, lokasi pengambilan sampel pertama di pusat gambar, masukan observasi ke patch 5×5 dengan lokasi yang dipilih sebagai pusatnya, dan memodifikasi fungsi hadiah dengan Persamaan. (1). Hadiah kumulatif Te, Rt dalam Persamaan. (4,) digantikan dengan skor kumulatif t τ=1 Pτ yang diperoleh dari Persamaan. (1). Karena peserta dapat memilih beberapa kelas pada setiap episode, untuk model RAM, daripada memprediksi satu kelas berdasarkan probabilitas tertinggi, kami mempertimbangkan probabilitas rata-rata seluruh kelas sebagai ambang batas dan memprediksi kumpulan kelas dengan probabilitas lebih besar dari ambang. Ct ini digunakan untuk menghitung skor menggunakan Persamaan. (1). Dalam kondisi ini, RAM memerlukan sampel 3,7, 8,5, dan 7,6 untuk mengenali angka MNIST, huruf besar, dan huruf kecil EMNIST, yang masing-masing sesuai dengan 8,9%, 21.0%, 18,7% area gambar. Jadi, dibandingkan dengan peserta kami (lihat bagian "Analisis data"), RAM kurang efisien. Lihat Tabel 2. Hasil perbandingan peta fiksasi dari RAM dan data yang dikumpulkan ditunjukkan pada Tabel 3. KL lebih tinggi karena sensitivitasnya terhadap nilai nol. Ini berarti beberapa lokasi diambil sampelnya oleh peserta tetapi tidak oleh RAM. Eksperimen ini dapat digunakan sebagai dasar untuk mengevaluasi lokasi yang diambil sampelnya dengan model perhatian.

cistanche-Improve memory2

manfaat cistanche - Meningkatkan Daya Ingat

Diskusi

Paradigma mcAT, seperti yang digunakan dalam makalah ini, memiliki perbedaan tertentu dengan paradigma yang terutama mengandalkan gerakan mata dan tatapan untuk mempelajari mekanisme pengenalan objek. Dalam adegan terakhir, bagian-bagian yang menonjol dari pemandangan menarik perhatian terlebih dahulu, diikuti oleh gerakan mata yang mengarahkan pandangan mata ke lokasi-lokasi yang menonjol27. Pandangan didorong oleh sinyal dari bawah ke atas dan dari atas ke bawah yang, bersama dengan informasi arti-penting, membentuk peta prioritas yang memandu pergerakan mata untuk pengenalan objek. Karena peserta dalam penelitian ini melihat gambar statis dalam kondisi pandangan bebas dan dengan waktu yang cukup (enam menit untuk pengambilan sampel T=12), mereka kemungkinan terlibat dalam serangkaian gerakan mata saccadic atau penalaran visual28 untuk mengeksplorasi gambar sebelum mengklik AOI. Pergerakan mata ini bisa saja ditangkap di emAT (menggunakan pelacak mata) tetapi tidak di mcAT. Namun, gerakan mata ini dipengaruhi oleh pikiran yang mengembara. Meskipun mcAT juga dipengaruhi oleh pengembaraan pikiran29, efeknya dapat berkurang setiap kali peserta merespons setelah penalaran visual. Karena gerakan mata sebagai respons terhadap suatu stimulus dipengaruhi oleh tugas yang ada30, pola gerakan mata peserta kemungkinan besar dipengaruhi oleh tugas tiga langkah yang diberikan pada setiap pengambilan sampel (lihat bagian "Tugas visual"). Jika pelacak mata digunakan, gerakan mata peserta untuk menjelajahi sampel akan bercampur dengan gerakan mata untuk mengklik kelas yang mereka pilih, sehingga akan mempersulit interpretasi eksplorasi visual sampel. Mengklik kelas merupakan langkah penting karena hal ini akan mengungkapkan, meskipun secara introspektif, kelas yang diprediksi dalam benak peserta. Kemungkinan besar tatapan mata sebelum dan sesudah pemilihan AOI-mungkin juga dibantu oleh gerakan mata fiksasi31-berkontribusi paling besar terhadap pengenalan angka/abjad. Memang benar, kami menduga bahwa peserta memilih area diagnostik pada gambar untuk membedakan antar kelas, dan area tersebut kemungkinan berisi campuran informasi diagnostik bottom-up (misalnya, kontras visual) dan top-down (angka/templat alfabet). Hal ini konsisten dengan temuan kami bahwa peserta dengan cepat (rata-rata dalam 5 sampel) membedakan kelas stimulus dengan memilih patch diagnostik.

Table 2. Comparison of efficiency between our participants and the RAM model in terms of the average number of samples required to recognize a numeral/alphabet. The percentage of the image area observed is included in parentheses.

Tabel 2. Perbandingan efisiensi antara peserta kami dan model RAM dalam hal jumlah rata-rata sampel yang diperlukan untuk mengenali angka/abjad. Persentase luas gambar yang diamati dicantumkan dalam tanda kurung.

Table 3. Evaluation of fixation maps from RAM for the stimuli presented in the MTurk experiments averaged over all classes and samplings. Std. dev. are included in parenthesis.


Tabel 3. Evaluasi peta fiksasi dari RAM untuk rangsangan yang disajikan dalam percobaan MTurk dirata-ratakan pada seluruh kelas dan sampel. Std. dev. disertakan dalam tanda kurung.

Kesimpulan

Kami memperkenalkan kumpulan data mcAT untuk mengenali angka dan abjad tulisan tangan melalui pengambilan sampel berurutan. Data dikumpulkan dari 382 peserta yang disajikan dengan gambar yang dipilih dari dataset benchmark (MNIST, EMNIST). Rata-rata, tercatat 169,1 tanggapan per kelas angka/abjad. Data dianalisis secara ketat untuk mengungkap efisiensi pengenalan visual manusia. Para peserta hanya mengamati 12,8% gambar untuk dikenali. Kami mengusulkan model dasar untuk memprediksi lokasi dan kelas yang akan dipilih peserta pada pengambilan sampel berikutnya. Kami menunjukkan bagaimana kondisi dan data eksperimental kami dapat digunakan untuk mengevaluasi model penguatan berbasis perhatian dibandingkan dengan kinerja manusia. Kumpulan data mcAT ini, dengan banyak keunggulan dibandingkan data pelacakan mata, mengisi kesenjangan penting dalam penelitian model berbasis perhatian di AI, ML, dan bidang lainnya.

Referensi

1. Ranzato, MA Tentang mempelajari di mana mencarinya. arXiv:1405.5488, (2014).

2. Ba, J., Salakhutdinov, RR, Grosse, RB, & Frey, BJ Pembelajaran model perhatian berulang bangun-tidur. Dalam NIPS, 2593–2601 (2015).

3. Mnih, V. dkk. Model perhatian visual yang berulang. Dalam NIPS, 2204–2212 (2014).

4. Ba, J., Mnih, V., & Kavukcuoglu, K. Pengenalan beberapa objek dengan perhatian visual. arXiv:1412.7755 (2014).

5. Dutta, JK & Banerjee, B. Variasi akurasi klasifikasi dengan jumlah sekilas. Dalam IJCNN, 447–453 (IEEE, 2017).

6. Larochelle, H. & Hinton, GE Belajar menggabungkan pandangan sekilas foveal dengan mesin Boltzmann orde ketiga. Dalam NIPS, 1243–1251 (2010).

7. Elsayed, G., Kornblith, S. & Le, QV Saccader: Meningkatkan akurasi model perhatian keras untuk penglihatan. Dalam NIPS, 702–714 (2019).

8. van Beers, RJ Te sumber variabilitas gerakan mata sakadik. J. Ilmu Saraf. 27(33), 8757–8770 (2007).

9. Kejutan Itti, L. & Baldi, P. Bayesian menarik perhatian manusia. Vis. Res. 49(10), 1295–1306 (2009).

10. Egner, S. dkk. Akuisisi perhatian dan informasi: Perbandingan klik mouse dengan pelacakan perhatian gerakan mata. J. Mata Gerakan. Res. 11(6), (2018).

11. Peterson, MS, Kramer, AF & Irwin, DE Pergeseran perhatian yang tersembunyi mendahului gerakan mata yang tidak disengaja. Persepsi. Psikofisis. 66(3), 398–405 (2004).

12. Jiang, M. dkk. Silikon: Arti-penting dalam konteks. Dalam CVPR, 1072–1080 (2015).

13. Kim, NW dkk. BubbleView: Antarmuka untuk melakukan crowdsourcing peta kepentingan gambar dan melacak perhatian visual. ACM Trans. Hitung. Bersenandung. Berinteraksi. 24(5), 1–40 (2017).

14. Sermanet, P., Frome, A. & Real, E. Perhatian untuk kategorisasi terperinci. arXiv:1412.7054 (2014).

15. Egner, S., Itti, L. & Scheier, C. Membandingkan model perhatian dengan berbagai jenis data perilaku. Selidiki. Oftalmol. Vis. Sains. 41(4), S39 (2000).

16. Navalpakkam, V. dkk. Pengukuran dan pemodelan perilaku mata-tikus dengan adanya tata letak halaman nonlinier. Dalam Proc. Int. Konf. WWW, 953–964 (2013).

17. Matzen, LE, Stites, MC & Gastelum, ZN Mempelajari pencarian visual tanpa pelacak mata: Penilaian foveasi buatan. Pengetahuan. Res. Pangeran. Tersirat. 6(1), 1–22 (2021).

18. Tafi, AP dkk. OCR sebagai layanan: Evaluasi eksperimental Google Docs OCR, Tesseract, ABBYY FineReader, dan Transym. Di Int. Gejala. Vis. Komputasi., 735–746 (Springer, 2016).

19. Memon, J., Sami, M., Khan, RA & Uddin, M. Pengenalan karakter optik tulisan tangan (OCR): Tinjauan literatur sistematis yang komprehensif (SLR). Akses IEEE 8, 142642–142668 (2020).

20. Chaudhuri, A., Mandaviya, K., Badelia, P. & Ghosh, SK Sistem pengenalan karakter optik. Dalam Sistem Pengenalan Karakter Optik untuk Berbagai Bahasa dengan Sof Computing, 9–41 (Springer, 2017).

21. LeCun, Y. dkk. Pembelajaran berbasis gradien diterapkan pada pengenalan dokumen. Proses. IEEE 86(11), 2278–2324 (1998).

22. Cohen, G., Afshar, S., Tapson, J. & van Schaik, A. EMNIST: Perpanjangan MNIST ke surat tulisan tangan. arXiv:1702.05373, (2017).

23. Gregor, K., Danihelka, I., Graves, A., Rezende, D. & Wierstra, D. DRAW: Jaringan saraf berulang untuk pembuatan gambar. Dalam ICML, 1462–1471 (2015).

24. Friston, K. Te prinsip energi bebas: Panduan kasar untuk otak?. Tren Pengetahuan. Sains. 13(7), 293–301 (2009).

25. Mirza, MB, Adams, RA, Friston, K. & Parr, T. Memperkenalkan model perhatian selektif Bayesian berdasarkan inferensi aktif. Sains. Ulangan 9(1), 1–22 (2019).

26. Bylinskii, Z., Judd, T., Oliva, A., Torralba, A. & Durand, F. Apa yang disampaikan oleh metrik evaluasi yang berbeda tentang model arti-penting? IEEE Trans. Pola Dubur. Mach. Intel. 41(3), 740–757 (2018).

27. Itti, L. & Koch, C. Pemodelan komputasi perhatian visual. Nat. Pendeta Neurosci. 2(3), 194–203 (2001).

28. Lamme, VAF Fungsi visual menghasilkan penglihatan sadar. Depan. Psikologi, 11, (2020).

29. da Silva, MRD & Postma, M. Pikiran yang mengembara, tikus yang mengembara: Pelacakan mouse komputer sebagai metode untuk mendeteksi pikiran yang mengembara. Hitung. Bersenandung. Berperilaku. 112, 106453 (2020).

30. Schütz, AC, Braun, DI & Gegenfurtner, KR Gerakan mata dan persepsi: Tinjauan selektif. J.Vis. 11(5), 9–9 (2011).

31. Intoy, J. & Rucci, M. Gerakan mata yang disetel dengan baik meningkatkan ketajaman penglihatan. Nat. Komunitas. 11(1), 1–11 (2020).

Anda Mungkin Juga Menyukai