Browse Wiki & Semantic Web

Http://dbpedia.org/resource/Data pre-processing

	This page has no properties.

hide properties that link here

	No properties link to this page.

http://dbpedia.org/resource/Data_pre-processing

http://dbpedia.org/ontology/abstract	Data preprocessing can refer to manipulati … Data preprocessing can refer to manipulation or dropping of data before it is used in order to ensure or enhance performance, and is an important step in the data mining process. The phrase "garbage in, garbage out" is particularly applicable to data mining and machine learning projects. Data-gathering methods are often loosely controlled, resulting in values (e.g., Income: −100), impossible data combinations (e.g., Sex: Male, Pregnant: Yes), and missing values, etc. Analyzing data that has not been carefully screened for such problems can produce misleading results. Thus, the representation and quality of data is first and foremost before running any analysis. Often, data preprocessing is the most important phase of a machine learning project, especially in computational biology. If there is much irrelevant and redundant information present or noisy and unreliable data, then knowledge discovery during the training phase is more difficult. Data preparation and filtering steps can take considerable amount of processing time. Examples of data preprocessing include cleaning, instance selection, normalization, one hot encoding, transformation, feature extraction and selection, etc. The product of data preprocessing is the final training set. Data preprocessing may affect the way in which outcomes of the final data processing can be interpreted. This aspect should be carefully considered when interpretation of the results is a key point, such in the multivariate processing of chemical data (chemometrics).rocessing of chemical data (chemometrics). , 機械学習・データマイニングにおけるデータ前処理（データまえしょり、英: data preprocessing）は学習の前段階で行われるデータ変換である。 , O pré-processamento é um passo importante … O pré-processamento é um passo importante no processo de mineração de texto. A frase "garbage in, garbage out" é particularmente aplicável a projetos de data mining e machine learning. Os métodos de coleta de dados geralmente são frouxamente controlados, resultando em valores de intervalo (por exemplo, renda: −100), combinações de dados impossíveis (por exemplo, sexo: masculino, grávidas: sim), , etc. A análise de dados que não foram cuidadosamente selecionados para tais problemas pode produzir resultados enganosos. Assim, a representação e a qualidade dos dados são antes de tudo uma análise. Muitas vezes, o pré-processamento de dados é a fase mais importante de um projeto de aprendizado de máquina, especialmente em biologia computacional. É nessa etapa que os documentos são transformados para a forma numérica. O conteúdo de cada documento é decomposto em termos e a frequência de cada um. Os termos menos significativos são descartados e os que estão presentes em um grande número de documentos da coleção são desvalorizados. O resultado do pré-processamento é a geração da Bag of Words, mas conhecida como BOW, que é uma representação numérica da coleção de documentos. A BOW é uma matriz esparsa, onde cada linha representa um documento (Di) e cada coluna representa um termo (Tj). E o valor do campo DiTj é o valor da frequência do termo Tj no documento Di. Para gerar uma BOW são necessárias quatro etapas: leitura e conversão, extração e limpeza dos termos, contagem de termos e cálculo de frequência. * Leitura: Nessa etapa é definida uma coleção de documentos e cada documento pertencente a essa coleção terá seu conteúdo carregado na memória e seguirá pelas etapas seguintes. * Extração e limpeza dos termos: Cada documento da coleção vai ter o seu conteúdo dividido em termos, ou seja, cada palavra significante presente no documento. É composto por 3 sub-etapas. * Tokenização: A tokenização é utilizada para decompor o documento em cada termo que o compõe. Os delimitadores utilizados para tokenização geralmente são: o espaço em branco entre os termos, quebras de linhas, tabulações, e alguns caracteres especiais. * Limpeza: Depois de fazer a tokenização cada termo obtido passa pela etapa de limpeza. Primeiro são removidos as stop words, depois é verificada a existência do sinônimo do mesmo no dicionário e por último é realizado o stemming do termo. Stop words é uma lista de termos não representativos para um documento, geralmente essa lista é composta por: preposições, artigos, advérbios, números, pronomes e pontuação. * Stemming: Stemming é o método para redução de um termo ao seu radical, removendo as desinências, afixos, e . Com sua utilização, os termos derivados de um mesmo radical serão contabilizados como um único termo. * Contagem dos termos: Depois de extrair os termos representativos de cada documento, será calculado o número de ocorrências de cada termo num documento. Depois de concluída a contagem é criada uma lista com duas colunas: termo e quantidade de ocorrência. * Cálculo da Frequência: Após concluída a etapa de contagem de termos para cada documento da coleção, será calculada a frequência dos termos. A medida escolhida para calcular a frequência dos termos é a tf-idf. O tf-idf define a importância do termo dentro da coleção de documentos. O tf-idf atribui um peso ao termo para cada documento da BOW. O peso é o número de ocorrências do termo no documento (Di), modificada por uma escala de importância do termo (Tj), chamada de frequência inversa do documento.hamada de frequência inversa do documento. , Предварительная обработка данных является … Предварительная обработка данных является важным шагом в процессе интеллектуального анализа данных. Фраза «мусор на входе — мусор на выходе» применима, в частности, и для проектов интеллектуального анализа данных и машинного обучения. Здесь имеется в виду то, что даже самый изощренный анализ не принесет пользы, если за основу взяты сомнительные данные. если за основу взяты сомнительные данные. , تعتبر المعالجة المسبقة للبيانات خطوة مهمة … تعتبر المعالجة المسبقة للبيانات خطوة مهمة في عملية التنقيب عن البيانات. غالبًا ما يتم التحكم في طرق جمع البيانات بطريقة غير محكمة، مما يؤدي إلى قيم خارج النطاق (على سبيل المثال، الدخل: − 100)، ومجموعات البيانات المستحيلة (مثل: الجنس: ذكر، حامل: نعم)، أو قيم مفقودة، إلخ. تحليل البيانات التي لم يتم فحصها بعناية لمواجهة هذه المشاكل يمكن أن يؤدي إلى نتائج مضللة وغير منطقية. وبالتالي، فإن تمثيل وجودة البيانات تسبقان كل شيء قبل إجراء التحليل. في كثير من الأحيان، تعد المعالجة المسبقة للبيانات المرحلة الأكثر أهمية في مشروع التعلم الآلي، خاصة في علم الأحياء الحسابي..في كثير من الأحيان، تجهيز البيانات يعتبر أهم مرحلة من مراحل التعلم الآلي، خاصة في الأحياء الحسابي. إذا كان هناك الكثير من المعلومات غير ذات الصلة أو الزائدة عن الحاجة أو البيانات المشوشة وغير الموثوق بها، فإن اكتشاف المعرفة خلال مرحلة التدريب يكون أكثر صعوبة. يمكن أن تستغرق خطوات إعداد البيانات،تصفيتها مقدارًا كبيرًا من وقت المعالجة. تتضمن معالجة البيانات الأولية التنظيف، واختيار الحالات، والتحسين، والتحويل، واستخلاص الخصائص واختيارها، وما إلى ذلك. النتيجة النهائية لمعالجة البيانات هو مجموعة التدريب النهائية.عالجة البيانات هو مجموعة التدريب النهائية. , Попередня обробка - розділ аналізу даних щ … Попередня обробка - розділ аналізу даних що займається отриманням характеристик для подальшого використання у наступних розділах аналізу даних. 1. * Обчислення базових характеристик (центральні моменти) 2. * Перевірка основних гіпотез (симетричності, однорідності) 3. * Перевірка стохастичності вибірки 4. * Видалення аномальних спостережень 5. * Розвідувальний аналізх спостережень 5. * Розвідувальний аналіз
http://dbpedia.org/ontology/thumbnail	http://commons.wikimedia.org/wiki/Special:FilePath/SimpleSemanticDataMiningDiagram.png?width=300 +
http://dbpedia.org/ontology/wikiPageExternalLink	http://dataprocessing.aixcape.org + , https://www.cambridge.org/core/journals/knowledge-engineering-review/article/data-preprocessing-in-predictive-data-mining/F7F2D7AC540D2815C613BA6575359AAA/share/92b3b50e7ed7363e5946baf406025281d2eb8c02 +
http://dbpedia.org/ontology/wikiPageID	12386904
http://dbpedia.org/ontology/wikiPageLength	17161
http://dbpedia.org/ontology/wikiPageRevisionID	1100537839
http://dbpedia.org/ontology/wikiPageWikiLink	http://dbpedia.org/resource/Machine_learning + , http://dbpedia.org/resource/Data_binning + , http://dbpedia.org/resource/Data_editing + , http://dbpedia.org/resource/Data_normalization + , http://dbpedia.org/resource/Data_collection + , http://dbpedia.org/resource/Data_cleansing + , http://dbpedia.org/resource/Training_set + , http://dbpedia.org/resource/Missing_values + , http://dbpedia.org/resource/Natural_language + , http://dbpedia.org/resource/Data_reduction + , http://dbpedia.org/resource/Data_transformation + , http://dbpedia.org/resource/Instance_selection + , http://dbpedia.org/resource/Data_cleaning + , http://dbpedia.org/resource/Data_wrangling + , http://dbpedia.org/resource/Knowledge_discovery + , http://dbpedia.org/resource/Category:Machine_learning + , http://dbpedia.org/resource/Confusion_matrix + , http://dbpedia.org/resource/Range_error + , http://dbpedia.org/resource/File:SimpleSemanticDataMiningDiagram.png + , http://dbpedia.org/resource/Prot%C3%A9g%C3%A9_%28software%29 + , http://dbpedia.org/resource/Data_mining + , http://dbpedia.org/resource/Pandas_%28software%29 + , http://dbpedia.org/resource/Comma-separated_values + , http://dbpedia.org/resource/False_positives_and_false_negatives + , http://dbpedia.org/resource/Feature_selection + , http://dbpedia.org/resource/R_%28programming_language%29 + , http://dbpedia.org/resource/Ontology_%28information_science%29 + , http://dbpedia.org/resource/Computational_biology + , http://dbpedia.org/resource/Fuzzy_sets + , http://dbpedia.org/resource/One-hot + , http://dbpedia.org/resource/GIGO + , http://dbpedia.org/resource/Data_quality + , http://dbpedia.org/resource/Chemometrics + , http://dbpedia.org/resource/Data_preparation + , http://dbpedia.org/resource/Feature_extraction +
http://dbpedia.org/property/wikiPageUsesTemplate	http://dbpedia.org/resource/Template:Data + , http://dbpedia.org/resource/Template:Reflist + , http://dbpedia.org/resource/Template:Cn +
http://purl.org/dc/terms/subject	http://dbpedia.org/resource/Category:Machine_learning +
http://purl.org/linguistics/gold/hypernym	http://dbpedia.org/resource/Step +
http://www.w3.org/ns/prov#wasDerivedFrom	http://en.wikipedia.org/wiki/Data_pre-processing?oldid=1100537839&ns=0 +
http://xmlns.com/foaf/0.1/depiction	http://commons.wikimedia.org/wiki/Special:FilePath/SimpleSemanticDataMiningDiagram.png +
http://xmlns.com/foaf/0.1/isPrimaryTopicOf	http://en.wikipedia.org/wiki/Data_pre-processing +
owl:sameAs	http://ru.dbpedia.org/resource/%D0%9F%D1%80%D0%B5%D0%B4%D0%B2%D0%B0%D1%80%D0%B8%D1%82%D0%B5%D0%BB%D1%8C%D0%BD%D0%B0%D1%8F_%D0%BE%D0%B1%D1%80%D0%B0%D0%B1%D0%BE%D1%82%D0%BA%D0%B0_%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85 + , https://global.dbpedia.org/id/4iiVm + , http://rdf.freebase.com/ns/m.02w2jr0 + , http://dbpedia.org/resource/Data_pre-processing + , http://uk.dbpedia.org/resource/%D0%9F%D0%BE%D0%BF%D0%B5%D1%80%D0%B5%D0%B4%D0%BD%D1%8F_%D0%BE%D0%B1%D1%80%D0%BE%D0%B1%D0%BA%D0%B0_%D0%B4%D0%B0%D0%BD%D0%B8%D1%85 + , http://www.wikidata.org/entity/Q5227332 + , http://pt.dbpedia.org/resource/Pr%C3%A9-processamento_de_dados + , http://ar.dbpedia.org/resource/%D9%85%D8%B9%D8%A7%D9%84%D8%AC%D8%A9_%D9%85%D8%B3%D8%A8%D9%82%D8%A9_%D9%84%D9%84%D8%A8%D9%8A%D8%A7%D9%86%D8%A7%D8%AA + , http://ms.dbpedia.org/resource/Prapemprosesan_data + , http://ja.dbpedia.org/resource/%E3%83%87%E3%83%BC%E3%82%BF%E5%89%8D%E5%87%A6%E7%90%86 + , http://he.dbpedia.org/resource/%D7%A2%D7%99%D7%91%D7%95%D7%93_%D7%A0%D7%AA%D7%95%D7%A0%D7%99%D7%9D_%D7%9E%D7%A7%D7%93%D7%99%D7%9D +
rdf:type	http://dbpedia.org/ontology/MilitaryConflict +
rdfs:comment	機械学習・データマイニングにおけるデータ前処理（データまえしょり、英: data preprocessing）は学習の前段階で行われるデータ変換である。 , Data preprocessing can refer to manipulati … Data preprocessing can refer to manipulation or dropping of data before it is used in order to ensure or enhance performance, and is an important step in the data mining process. The phrase "garbage in, garbage out" is particularly applicable to data mining and machine learning projects. Data-gathering methods are often loosely controlled, resulting in values (e.g., Income: −100), impossible data combinations (e.g., Sex: Male, Pregnant: Yes), and missing values, etc., Pregnant: Yes), and missing values, etc. , Попередня обробка - розділ аналізу даних щ … Попередня обробка - розділ аналізу даних що займається отриманням характеристик для подальшого використання у наступних розділах аналізу даних. 1. * Обчислення базових характеристик (центральні моменти) 2. * Перевірка основних гіпотез (симетричності, однорідності) 3. * Перевірка стохастичності вибірки 4. * Видалення аномальних спостережень 5. * Розвідувальний аналізх спостережень 5. * Розвідувальний аналіз , Предварительная обработка данных является … Предварительная обработка данных является важным шагом в процессе интеллектуального анализа данных. Фраза «мусор на входе — мусор на выходе» применима, в частности, и для проектов интеллектуального анализа данных и машинного обучения. Здесь имеется в виду то, что даже самый изощренный анализ не принесет пользы, если за основу взяты сомнительные данные. если за основу взяты сомнительные данные. , O pré-processamento é um passo importante … O pré-processamento é um passo importante no processo de mineração de texto. A frase "garbage in, garbage out" é particularmente aplicável a projetos de data mining e machine learning. Os métodos de coleta de dados geralmente são frouxamente controlados, resultando em valores de intervalo (por exemplo, renda: −100), combinações de dados impossíveis (por exemplo, sexo: masculino, grávidas: sim), , etc. A análise de dados que não foram cuidadosamente selecionados para tais problemas pode produzir resultados enganosos. Assim, a representação e a qualidade dos dados são antes de tudo uma análise.e dos dados são antes de tudo uma análise. , تعتبر المعالجة المسبقة للبيانات خطوة مهمة … تعتبر المعالجة المسبقة للبيانات خطوة مهمة في عملية التنقيب عن البيانات. غالبًا ما يتم التحكم في طرق جمع البيانات بطريقة غير محكمة، مما يؤدي إلى قيم خارج النطاق (على سبيل المثال، الدخل: − 100)، ومجموعات البيانات المستحيلة (مثل: الجنس: ذكر، حامل: نعم)، أو قيم مفقودة، إلخ. تحليل البيانات التي لم يتم فحصها بعناية لمواجهة هذه المشاكل يمكن أن يؤدي إلى نتائج مضللة وغير منطقية. وبالتالي، فإن تمثيل وجودة البيانات تسبقان كل شيء قبل إجراء التحليل. في كثير من الأحيان، تعد المعالجة المسبقة للبيانات المرحلة الأكثر أهمية في مشروع التعلم الآلي، خاصة في علم الأحياء الحسابي..في كثير من الأحيان، تجهيز البيانات يعتبر أهم مرحلة من مراحل التعلم الآلي، خاصة في الأحياء الحسابي.احل التعلم الآلي، خاصة في الأحياء الحسابي.
rdfs:label	Pré-processamento de dados , Предварительная обработка данных , データ前処理 , Data pre-processing , معالجة مسبقة للبيانات , Попередня обробка даних

hide properties that link here

http://dbpedia.org/resource/Data_preprocessing + , http://dbpedia.org/resource/Data_Pre-processing +	http://dbpedia.org/ontology/wikiPageRedirects
http://dbpedia.org/resource/Data_preprocessing + , http://dbpedia.org/resource/CrysTBox + , http://dbpedia.org/resource/Glossary_of_computer_science + , http://dbpedia.org/resource/Computational_geometry + , http://dbpedia.org/resource/Preprocessing + , http://dbpedia.org/resource/Replication_crisis + , http://dbpedia.org/resource/Types_of_artificial_neural_networks + , http://dbpedia.org/resource/Glossary_of_artificial_intelligence + , http://dbpedia.org/resource/Outline_of_machine_learning + , http://dbpedia.org/resource/PolyAnalyst + , http://dbpedia.org/resource/Adaptive_neuro_fuzzy_inference_system + , http://dbpedia.org/resource/MNIST_database + , http://dbpedia.org/resource/Data_augmentation + , http://dbpedia.org/resource/Reachability + , http://dbpedia.org/resource/Data_editing + , http://dbpedia.org/resource/Supervised_learning + , http://dbpedia.org/resource/Anomaly_detection + , http://dbpedia.org/resource/Data_reduction + , http://dbpedia.org/resource/Data_mining + , http://dbpedia.org/resource/Ensemble_learning + , http://dbpedia.org/resource/Data_binning + , http://dbpedia.org/resource/Data_blending + , http://dbpedia.org/resource/Fault_detection_and_isolation + , http://dbpedia.org/resource/Data_preparation + , http://dbpedia.org/resource/Edgar_Acuna + , http://dbpedia.org/resource/Automated_machine_learning + , http://dbpedia.org/resource/Instance_selection + , http://dbpedia.org/resource/Data_Pre-processing + , http://dbpedia.org/resource/Semantic_data_preprocessing +	http://dbpedia.org/ontology/wikiPageWikiLink
http://en.wikipedia.org/wiki/Data_pre-processing +	http://xmlns.com/foaf/0.1/primaryTopic
http://dbpedia.org/resource/Data_pre-processing +	owl:sameAs

Browse Wiki & Semantic Web

Navigation menu

Personal tools

Namespaces

Variants

Views

Actions

Search

Navigation

Tools