NUGRAHA, ARIE ADITYA (2019) ANALISIS METRIC PRODUCT MATCHING ANTARA COSINE SIMILARITY DENGAN TERM FREQUENCY- INVERSE DOCUMENT FREQUENCY (TF-IDF) DAN WORD2VEC DI PT. PRICEBOOK DIGITAL INDONESIA. S1 thesis, Universitas Mercu Buana Jakarta.
Text (JURNAL MAHASISWA)
Jurnal Yudisium - Arie Aditya Nugraha_41516110186.pdf Restricted to Registered users only Download (759kB) |
Abstract
Consumers today have the option to purchase products from thousands of e-commerce. However, the completeness of the product specifications and taxonomies used to organize products differently in different electronic shop differently. To improve the consumer experience, Pricebook approach for integration of the product through the website to find the cheapest price from various platforms. In our writing, we do approach by using a model of neural language such as TF-IDF (term frequency-inverse document frequency) as well as Word2vec by using the method of cosine similarity. TF-IDF is a way to give the relationship a word weighting (term) against the document. Semantic vector or word embedding is one way to represent the structure of a sentence will be in align with manipulating sentences into vector shapes with Word2Vec. Cosine similarity method is a method to calculate the similarity between two objects that is expressed in two vectors by using keywords (keywords) of a document as the size so that it leads to more products matching good performance and categorization. In addition, we compare the results of the representation of the TF-IDF with Word2vec against a number of the data Key words: product matching, tf-idf, word2vec Konsumen saat ini memiliki pilihan untuk membeli produk dari ribuan e-commerce. Namun, kelengkapan spesifikasi produk dan taksonomi yang digunakan untuk mengatur produk berbeda di toko elektronik yang berbeda berbeda. Untuk meningkatkan pengalaman konsumen, Pricebook pendekatan untuk integrasi produk melalui situs web untuk menemukan harga termurah dari berbagai platform. Dalam tulisan kita, kita mendekati dengan menggunakan model bahasa neural seperti TF-IDF (term frequency-inverse document frequency) serta Word2vec dengan menggunakan metode cosine similarity. TF-IDF adalah cara untuk memberikan hubungan kata pembobotan (istilah) terhadap dokumen. Semantik vektor atau kata embedding adalah salah satu cara untuk mewakili struktur kalimat akan menjadi dalam menyelaraskan dengan memanipulasi kalimat menjadi bentuk vektor dengan Word2Vec. Metode cosine similarity adalah sebuah metode untuk menghitung kesamaan antara dua objek yang diungkapkan dalam dua vektor dengan menggunakan kata kunci (kata kunci) dokumen sebagai ukuran sehingga mengarah ke lebih banyak produk yang cocok dengan kinerja yang baik dan kategorisasi. Selain itu, kita membandingkan hasil dari representasi TF-IDF dengan Word2vec terhadap sejumlah data. Kata kunci: pencocokan produk, tf-idf, word2vec
Actions (login required)
View Item |