Ringkasan Teks Automatik – Lincoln, Pengenalan kepada Ringkasan Automatik – Blog Data

Blog mengenai data, kecerdasan buatan, dan projek saya

Contents

1 Blog mengenai data, kecerdasan buatan, dan projek saya

Ringkasan automatik adalah dengan mengambil teks panjang, atau bahkan satu set teks, dan secara automatik menghasilkan teks yang lebih pendek yang mengandungi majoriti maklumat. Mudah ? Tidak begitu banyak. Pertama, anda harus bersetuju apa maklumat yang sangat penting. Kemudian, kita mesti dapat mengekstraknya dengan betul, menyusun semula mereka, semuanya dalam teks tatabahasa dan tanpa campur tangan manusia. Dan itu tanpa mengira jumlah variasi ringkasan yang mungkin !

Ringkasan teks automatik

Dengan letupan pengumpulan dan penyimpanan tekstur, keperluan untuk menganalisis dan mengekstrak maklumat yang relevan dari jisim ini semakin banyak hadir.

Di samping itu, ledakan dalam model pembelajaran mendalam untuk pemprosesan bahasa semula jadi automatik (TALN) memudahkan penggunaan data teks dalam isu operasi. Ringkasan teks automatik, dengan cara yang sama seperti soalan menjawab, analisis kesamaan, klasifikasi dokumen dan tugas lain yang dikaitkan dengan Taln adalah sebahagian daripada isu -isu ini.

Dalam konteks ini bahawa Inovasi makmal De Lincoln telah memutuskan untuk menjalankan kerja pada ringkasan teks automatik. Kerja -kerja ini memungkinkan untuk mewujudkan penanda aras model ringkasan automatik yang tersedia untuk bahasa Perancis, untuk menyebabkan model kita sendiri dan akhirnya meletakkannya dalam pengeluaran.

�� Latihan Model

Ringkasan Automatik Dunia

Data

Sebelum kita dapat memulakan kerja kita, kita mula -mula membina pangkalan data untuk belajar model ringkasan automatik. Kami telah memulihkan item akhbar dari beberapa laman berita Perancis. Pangkalan ini mengandungi artikel ~ 60k dan terus dikemas kini.

Keadaan seni

Algoritma Ringkasan Automatik boleh dipisahkan kepada dua kategori: Ringkasan ekstraktif dan ringkasan Abstrak. Dalam bingkai ekstraktif, Ringkasan dibina dari ayat -ayat yang diekstrak dari teks semasa ringkasan Abstrak dihasilkan dari ayat baru.

Model ringkasan automatik cukup biasa dalam bahasa Inggeris, tetapi mereka lebih kurang dalam bahasa Perancis.

Metrik

Untuk penilaian model kami menggunakan metrik berikut:

Merah: Tidak dinafikan pengukuran yang paling sering dilaporkan dalam tugas ringkasan, pengertian berorientasikan ingat untuk penilaian gist (Lin, 2004) mengira bilangan n-gram yang sama antara ringkasan yang dinilai dan ringkasan rujukan manusia.

Meteor: Metrik untuk penilaian terjemahan dengan pesanan eksplisit (Banerjee dan Lavie, 2005) direka untuk penilaian hasil terjemahan automatik. Ia berdasarkan purata harmonik ketepatan dan penarikan balik pada unigrams, penarikan balik yang mempunyai berat lebih besar daripada ketepatan. Meteor sering digunakan dalam penerbitan ringkasan automatik (lihat et al., 2017; Dong et al., 2019), sebagai tambahan kepada merah.

Novelty: Telah diperhatikan bahawa beberapa model abstrak terlalu banyak pada pengekstrakan (lihat et al., 2017; Krysci ‘nski et al.’, 2018). Oleh itu, telah menjadi perkara biasa untuk mengukur peratusan n-gram baru yang dihasilkan dalam ringkasan yang dihasilkan.

Sumber: Terjemahan dari kertas MLSUM [2].

Penggunaan model

Untuk latihan model, kami menggunakan perkhidmatan Azure ML Cloud yang menyediakan persekitaran yang lengkap untuk latihan, pemantauan dan penggunaan model.

Model ringkasan automatik

Kami lebih tepat menggunakan SDK Python yang membolehkan anda menguruskan seluruh persekitaran Azureml dengan cara yang programatik, dari pelancaran “pekerjaan” ke penggunaan model.

Walau bagaimanapun, kami merangkumi model akhir kami dalam aplikasi flask kontena kemudian digunakan melalui saluran paip CI/CD pada kluster Kubernet

Keputusan

Pertama sekali, kami membuat beberapa percubaan, memimpin model pada artikel 10k, yang berbeza -beza bilangan token yang diberikan pada permulaan model (512 atau 1024) dan seni bina yang berbeza.

Pemerhatian Pertama: Metrik Merah dan Meteor nampaknya sangat sesuai untuk penilaian prestasi model kami. Oleh itu, kami memilih untuk mendasarkan perbandingan kami mengenai skor baru sahaja dan dipilih seni bina memihak kepada ringkasan yang lebih abstrak.

Setelah menolak latihan model kami pada item 700k, kami meningkatkan hasilnya dengan ketara dan mengesahkan versi pertama yang anda akan dapati di bawah.

Titik perhatian

Di luar persembahan, eksperimen ini membolehkan kami menyerlahkan beberapa sempadan Ringkasan Automatik:

Pada masa ini, saiz teks dalam input model jenis Transformasi terhad oleh kapasiti ingatan GPU. Kos dalam ingatan menjadi kuadratik dengan saiz teks sebagai input, ini menimbulkan masalah sebenar untuk tugas -tugas ringkasan automatik di mana teks yang diringkaskan sering cukup lama.

Sangat sukar untuk mencari metrik yang relevan untuk menilai tugas penjanaan teks.

Berhati-hati berat pengekstrak : Kami juga menghadapi beberapa masalah yang berkaitan dengan data dalam diri mereka. Masalah utama adalah bahawa artikel artikel itu sering menjadi pengapalan atau bahkan pendua ayat pertama artikel. Ini mempunyai akibat menggalakkan model kami menjadi lebih ekstraktif daripada abstrak dengan hanya mengembalikan ayat pertama artikel. Oleh itu, perlu melakukan kerja kurasi dengan memadam artikel yang menimbulkan masalah untuk mengelakkan kecenderungan semacam ini.

Blog mengenai data, kecerdasan buatan, dan projek saya.

Ringkasan automatik adalah dengan mengambil teks panjang, atau bahkan satu set teks, dan secara automatik menghasilkan teks yang lebih pendek yang mengandungi majoriti maklumat. Mudah ? Tidak begitu banyak. Pertama, anda harus bersetuju apa maklumat yang sangat penting. Kemudian, kita mesti dapat mengekstraknya dengan betul, menyusun semula mereka, semuanya dalam teks tatabahasa dan tanpa campur tangan manusia. Dan itu tanpa mengira jumlah variasi ringkasan yang mungkin !

Saya dapat bekerja selama kira -kira satu tahun pada tema yang menarik ini sebelum doktor saya, oleh itu jawatan ini adalah peluang bagi saya untuk membenamkan diri dalam subjek ini dan mengambil stok inovasi terkini dalam domain.

Oleh itu, mari kita ambil gambaran keseluruhan tema ini, dengan mencipta dengan menerangkan pelbagai jenis ringkasan yang wujud, sebelum tinggal di dua jenis sistem sedikit secara terperinci: mereka dari rangkaian AI dan saraf, dan yang agak fokus pada pengekstrakan optimum maklumat.

Pelbagai jenis ringkasan

Apabila kita bercakap mengenai ringkasan, kita sering memikirkan penutup belakang buku atau perihalan skrip untuk filem. Umumnya, mereka mengelakkan merosakkan akhir, apabila ini adalah tepat apa yang akan meminta alat ringkasan automatik klasik: untuk memberitahu tipu muslihat, supaya ringkasan itu cukup untuk mengetahui perkara -perkara penting. Di sini ia mengenai Ringkasan Mono-Document, Maksudnya, kita hanya meringkaskan satu dokumen (filem, buku, artikel, …).

Sebaliknya, kita boleh mahu Ringkasan pelbagai dokumentari, bahawa kita bertemu lebih kerap dalam konteks ulasan akhbar: Kami ingin mempunyai ringkasan maklumat yang paling penting seperti yang dilaporkan oleh pelbagai organisasi akhbar.

Sebaik sahaja kami memutuskan tentang jenis data yang kami ingin meringkaskan, mono atau pelbagai dokumentari, kami mempunyai pilihan antara dua pendekatan:ekstraktif, yang terdiri daripada pengekstrakan seperti maklumat sebelum meletakkannya kembali untuk membuat ringkasan, dan pendekatan generatif, yang terdiri daripada membuat ayat -ayat baru, yang pada mulanya tidak muncul dalam dokumen, untuk mendapatkan ringkasan yang lebih cair dan lebih bebas.

Sebagai tambahan kepada kriteria ini, terdapat pelbagai gaya ringkasan, yang tidak akan kita pendekatan di sini: ringkasan kemas kini yang terdiri daripada meringkaskan maklumat yang terdapat dalam dokumen baru dan yang tidak disenaraikan setakat ini, diringkaskan diarahkan yang terdiri daripada mengadopsi sudut yang tepat diberikan oleh pengguna, ..

Rangkaian AI dan Neural merevolusikan ringkasan automatik

Sehingga pertengahan tahun20 -an, kebanyakan ringkasan adalah ekstraktif. Walau bagaimanapun, kepelbagaian yang besar sudah wujud dalam algoritma ini yang boleh terdiri daripada pemilihan dan pengekstrakan keseluruhan ayat kepada pengekstrakan maklumat yang tepat yang dikembalikan kemudian dalam teks dengan lubang yang disediakan terlebih dahulu. Ketibaan pendekatan baru berdasarkan rangkaian saraf telah mengubah keadaan. Algoritma ini jauh lebih berkesan daripada yang sebelumnya untuk menghasilkan teks tatabahasa dan cecair, seperti apa yang boleh dilakukan dengan demo GPT ini.

Rangkaian saraf, bagaimanapun, memerlukan sejumlah besar data yang akan dilatih dan agak tidak jelas. Mereka berfungsi dengan sempurna untuk menghasilkan komen yang mana kebenarannya tidak begitu penting, tetapi dengan kuat dapat menghasilkan maklumat yang bertentangan atau hanya salah yang bermasalah dalam konteks ringkasan artikel akhbar misalnya. Banyak artikel penyelidikan yang berminat dengan “halusinasi” rangkaian saraf ini.

Contoh alat hibrid: Potara

Ringkasan automatik adalah subjek penyelidikan pertama di mana saya berminat, dan saya berpeluang untuk berkembang semasa saya menguasai sistem hibrid ringkasan oleh pengekstrakan/generasi untuk pendekatan berbilang dokumen, iaitu meringkaskan satu set dokumen yang bercakap subjek yang sama.

Idea ini bermula dari pengekstrakan klasik, iaitu untuk mengenal pasti ayat -ayat yang paling penting dan memasangnya untuk menghasilkan ringkasan. Masalah dengan pendekatan ini adalah bahawa ayat -ayat yang paling penting sering dapat diperbaiki. Sebagai contoh, dalam artikel yang bercakap tentang anjakan presiden, frasa “Emmanuel Macron bertemu rakan sejawatannya Amerika dan membincangkan ekonomi” dapat diperbaiki dalam “Emmanuel Macron bertemu Joe Biden dan membincangkan ekonomi”. Wartawan dengan teliti mengelakkan latihan, kita mendapati diri kita sering berhadapan dengan fenomena semacam ini.

Untuk mengatasi kecacatan ini, kami dapat mengenal pasti ayat -ayat yang serupa yang hadir dalam dokumen yang berbeza dan cuba menggabungkannya untuk mendapatkan ayat yang lebih baik. Ansi, dari dua ayat berikut:

Emmanuel Macron bertemu rakan sejawatannya di Washington dan bercakap tentang ekonomi panjang lebar.
Presiden Perancis bertemu Joe Biden dan membincangkan ekonomi.

Kami boleh membuat ayat pendek dan bermaklumat:

Emmanuel Macron bertemu Joe Biden di Washington dan membincangkan ekonomi.

Beberapa langkah diperlukan untuk mencapai hasil ini: Mencari ayat yang serupa, mencari gabungan terbaik, memeriksa bahawa gabungan jauh lebih baik daripada ayat asal. Mereka mengambil sebahagian daripada banyak teknologi: Word2 dengan rangkaian saraf untuk mencari ayat yang sama, graf cccurence untuk menggabungkan mereka, pengoptimuman ILP untuk memilih penggabungan terbaik.

Sekiranya anda ingin melihat lebih banyak, Potara adalah sumber terbuka, tetapi belum dikekalkan untuk seketika. Projek ini terutama berkhidmat sebagai pameran apabila saya dibebaskan dan oleh itu mempunyai dokumentasi, ujian, integrasi berterusan, penempatan pada PYPI, ..

Apakah ringkasan automatik yang baik ?

Sekiranya kriteria tertentu kelihatan jelas dan agak mudah untuk menilai (tatabahasa ayat misalnya), yang lain lebih kompleks. Memutuskan apa maklumat yang paling penting dalam teks sudah menjadi tugas yang sangat subjektif dalam dirinya sendiri. Menilai ketidakstabilan, pilihan yang tepat dari kata !

Model generatif baru berdasarkan rangkaian saraf mungkin memperkenalkan penghakiman atau kualifikasi pejoratif (atau pengguna yang mesra), kesan yang dicari ketika menghasilkan pengkritik filem, tetapi lebih kurang ketika bercakap tentang program calon presiden !

Oleh itu, ringkasan automatik tetap menjadi subjek yang sangat aktif dalam penyelidikan, dan mungkin seketika, terutamanya berkenaan dengan keupayaan untuk membimbing hasil algoritma, tepat ke arah perasaan tertentu, gaya tertentu, pewarna politik yang diberikan. Dalam industri, dia hanya mula memasuki eksekutif yang sangat spesifik (ringkasan mesyuarat misalnya).

Presiden 2022: ke data anda !

3 Contoh projek data yang akan dijalankan untuk pilihan raya presiden 2022.

Like 0

Thanks! You've already liked this