Охват всех основ и элементарных концепций Python, необходимых для запуска науки о данных, с примерами кода.
Python — один из самых значимых языков программирования современности. Несмотря на то, что язык был разработан почти три десятилетия назад, в нем постоянно развивается столько всего, что он по-прежнему имеет огромную ценность и может предложить гораздо больше, особенно с точки зрения науки о данных и искусственного интеллекта.
Текущая версия Python 3.10 эволюционировала из предыдущей эпохи Python 2, и рост этого языка программирования, а также его сообщества находится на рекордно высоком уровне.
Учитывая огромную популярность, достигнутую в науке о данных и искусственном интеллекте из-за постоянного развития и совершенствования этих технологий, очень любопытно посмотреть, как далеко зайдут эти потрясающие предметы, особенно с Python в качестве основного языка разработки для них.
Мы переживем новую эру, поскольку у нас будет больше энтузиастов, которые постоянно поглощают большинство этих современных концепций и вносят огромный вклад в развитие этих областей. Поскольку следующий год быстро приближается, у многих из нас есть новые цели, чтобы изучить новые интригующие темы и продвинуться дальше.
В этой статье наша основная цель — установить базовое понимание всех основных концепций, которые полезны для науки о данных, и получить основное понимание того, как мы можем использовать Python, становясь более опытными в областях искусственного интеллекта, машинного обучения и науки о данных. .
Мы сосредоточимся на конкретных темах, на которых разработчики должны сосредоточиться в первую очередь для достижения наилучших результатов при работе над проектами Data Science. Если вы ищете дополнительные работы по импровизации программирования на Python, ознакомьтесь со следующей статьей ниже, чтобы понять некоторые из лучших практик для Python.
Повторяющиеся заявления:
Получив краткое представление о важности объектно-ориентированного программирования на Python, давайте рассмотрим концепцию итерационных операторов в Python. Большинство языков программирования, таких как Java и C++, обычно используют довольно много итерационных операторов, таких как цикл for, цикл while, операторы do-while, switch case и другие подобные итерации.
В Python мы в основном эффективно используем цикл For или цикл While. Большинство вычислений выполняется с этими двумя итеративными операторами. С помощью программирования на Python вы можете запускать эти итерационные циклы до тех пор, пока выполняется определенное условие (т. е. True). Следовательно, становится легко выполнять определенный блок кода до тех пор, пока требуемая цель не будет постоянно удовлетворяться.
Будь то наука о данных или простое программирование на Python, итерационные операторы считаются обязательными. Почти каждый отдельный проект любого предмета использует эти повторяющиеся циклы для выполнения конкретной задачи. Большинство моих проектов из моих предыдущих статей также используют эти утверждения. Один из лучших примеров следующего взят из одного из моих предыдущих блогов по созданию тестера ненормативной лексики. Ознакомьтесь с приведенным ниже кодом и посетите следующую статью для получения дополнительной информации о том же.
sentence = "You are not only stupid , but also an idiot ." def censor(sentence = ""): new_sentence = "" for word in sentence.split(): if word in Banned_List: new_sentence += '* ' else: new_sentence += word + ' ' return new_sentence
ООП:
Python — это объектно-ориентированный язык программирования, и это один из наиболее важных аспектов Python. Однако этой функцией иногда пренебрегают из-за других замечательных возможностей Python. Следовательно, эта тема должна быть в центре нашего внимания при начале работы с Python для науки о данных. При работе с многочисленными аспектами Python иногда можно забыть о важности объектно-ориентированного программирования.
Каждая библиотека для машинного обучения, науки о данных или любой встроенный в Python фреймворк для глубокого обучения будет состоять в основном из двух основных основных компонентов, а именно объектов и классов. Сущности реального мира, такие как классы, инкапсуляция, полиморфизм и наследование, также довольно хорошо реализованы в Python. Следовательно, наша цель состоит в том, чтобы понять все концепции в мельчайших подробностях, и мы подробно рассмотрим эти концепции в следующей статье.
Ниже приведен код быстрого старта для начала работы с классами. Прочтите следующую статью для получения дополнительной информации об этом блоке кода.
class Derivative_Calculator: def power_rule(*args): deriv = sympy.diff(*args) return deriv def sum_rule(*args): derive = sympy.diff(*args) return derivdifferentiatie = Derivative_Calculator differentiatie.power_rule(Derivative)
Списки:
Список — это изменяемая упорядоченная последовательность элементов. Изменяемый означает, что список может быть изменен или изменен. Списки заключаются в квадратные скобки «[ ]». Списки представляют собой тип упорядоченной структуры данных, в которой каждому элементу в списке присваивается определенный порядковый номер, по которому к нему можно получить доступ. Каждый элемент или элемент в списке отделяется запятой (,).
lst = ['one', 'two', 'three', 'four'] lst.append('five') lst
Выход:
['one', 'two', 'three', 'four', 'five']
Функции добавления — одна из наиболее важных команд, используемых в мире программирования и науки о данных. Есть несколько других функций, которые мы можем выполнять и манипулировать списками. Чтобы узнать больше о других доступных для использования вариантах, я настоятельно рекомендую ознакомиться с подробной версией мастер-листов с программированием на Python по ссылке, указанной ниже.
Словари:
Словари позволяют пользователям получать доступ к ключам и значениям соответственно. Допустим, вам нужно было хранить какие-то данные о человеке, тогда словари — это то, что вы могли бы использовать, например, хранить имя контакта вместе с его номером. Словари также могут хранить несколько элементов данных, связанных с конкретным. Конкретное имя ученика в школе может иметь сохраненные оценки по многочисленным предметам. Словари — это структуры данных в Python, которые определяются как неупорядоченный набор данных. Ниже приведен пример кода и выходные данные для начала работы со словарями.
# Return a list of tuples of the dictionary items in the (key, value) form my_dict = {1: 'A', 2: 'B', 3: 'C'} print(my_dict.items()) # Return a new view of the dictionary keys my_dict = {1: 'A', 2: 'B', 3: 'C'} print(my_dict.keys()) # Return a new view of the dictionary values my_dict = {1: 'A', 2: 'B', 3: 'C'} print(my_dict.values())
Выход:
dict_items([(1, 'A'), (2, 'B'), (3, 'C')]) dict_keys([1, 2, 3]) dict_values(['A', 'B', 'C'])
Приведенный выше начальный код должен позволить пользователям получить краткое представление о некоторых элементарных концепциях использования значений словаря и ключевых элементов. Если вы с нетерпением ждете расширенного руководства по словарям и наборам, я бы порекомендовал ознакомиться со следующей статьей, чтобы получить больше знаний по этим темам.
Функции:
Функции позволяют пользователям быстро управлять повторяющимися задачами в блоке кода с помощью команды def имя функции():. Эта концепция чрезвычайно полезна в программировании, особенно в науке о данных, где вам нужно будет повторять определенные действия над большими наборами данных. Использование функции для достижения этой цели уменьшит объем вычислений, которые необходимо выполнить разработчику.
Python также позволяет своим пользователям напрямую обращаться к некоторым из его анонимных (или расширенных) параметров функций, которые помогут разрабатывать ваши проекты быстрее и с большей эффективностью. Я уже очень подробно освещал следующую тему в другой статье, и я бы порекомендовал прочитать ее, если вы заинтересованы в дальнейшем изучении этой темы. Ссылка на то же самое приведена ниже.
Изучение библиотек Python для науки о данных:
Лучшая особенность Python — это огромное количество библиотек, доступных для этого языка программирования. Почти для каждого типа задачи, которую вы хотите выполнить, или любого типа проекта, над которым вы хотите работать, Python предлагает библиотеку, которая значительно упростит или сократит работу.
С помощью некоторых из лучших библиотек Data Science, предлагаемых Python, вы можете выполнить любую задачу, к которой стремитесь. Давайте рассмотрим некоторые из обязательных библиотек для начинающих в Data Science.
1. Панды:
Для работы с наукой о данных одним из основных требований является анализ данных. Одна из лучших библиотек, которые Python предлагает своим пользователям, — это библиотека Pandas, с помощью которой вы можете получить доступ к большинству контента, доступного в Интернете, в структурированном формате. Он предоставляет разработчикам возможность доступа к многочисленным файлам в различных форматах, таких как текст, HTML, CSV, XML, латекс и многое другое. Ниже приведен один из примеров, с помощью которого вы можете получить доступ к данным типа формата CSV.
data = pd.read_csv("fer2013.csv") data.head()
Чтобы узнать больше о Pandas и освоить аналитическую утилиту, стоящую за этой библиотекой, я бы порекомендовал ознакомиться с одной из моих предыдущих статей о четырнадцати наиболее важных операциях Pandas, которые должны быть включены в арсенал каждого специалиста по данным. Ниже приведена следующая ссылка для того же.
2. Матплотлиб:
Когда вы закончите анализировать свои данные, следующим важным шагом будет их визуализация. Для визуализации данных matplotlib вместе с seaborn — один из лучших вариантов, доступных в Python. Вы можете визуализировать практически любой важный объект с помощью этой фантастической библиотеки с упрощенными кодами. Он поддерживает числовые расширения, такие как NumPy, которые можно комбинировать для визуализации большинства элементов данных.
Представленное выше изображение показывает гистограмму, построенную с помощью библиотеки matplotlib. Есть еще несколько визуализаций, графиков и других статистических изображений, которые мы можем выполнить с помощью matplotlib. Чтобы узнать больше о различных типах визуализации для проектов Data Science, перейдите по следующей ссылке ниже.
3. НумПи:
Короче говоря, числовой Python или NumPy — это один из лучших вариантов, доступных в Python для вычисления математических задач. Вы можете использовать концепцию массивов numpy для упрощения сложной математики, связанной с наукой о данных. Это поможет вам в работе с большими многомерными массивами и матрицами, а также в эффективном построении ваших проектов по науке о данных.
Без надлежащей утилиты numpy становится практически невозможно решить большинство сложных математических задач и проектов машинного обучения. Следовательно, очень важно понять эту концепцию в мельчайших подробностях. Зрителям рекомендуется ознакомиться со следующей статьей ниже о пятнадцати функциях numpy, которые должен понимать каждый специалист по данным.
4. Научное обучение:
Scikit-learn — одна из лучших библиотек, с помощью которой вы можете реализовать все основные алгоритмы машинного обучения, такие как классификация, регрессия, кластеризация, предварительная обработка (как показано в приведенном ниже коде), выбор модели, уменьшение размерности и многое другое. Инструментарий библиотеки использует упрощенные, но очень эффективные инструменты для анализа и вычисления данных. Его не только просто установить, как три других ранее упомянутых модуля, но он также построен на основе таких важных пакетов, как matplotlib, numpy и scipy. Этот инструмент с открытым исходным кодом необходим новичкам для более эффективной реализации проектов машинного обучения.
from sklearn.model_selection import train_test_split X_train, X_test, y_train, y_test = train_test_split(questions, response, test_size=0.20)
5. НЛТК:
Инструментарий естественного языка — одна из лучших библиотек для работы с данными человеческого языка. Вначале большинство проектов по машинному обучению и науке о данных будут иметь дело с обработкой большого количества задач на естественном языке. Очистка ваших данных — один из наиболее важных шагов, который требуется на этапе подготовки данных для решения большинства проблем, связанных с обработкой естественного языка. Следовательно, эта библиотека чрезвычайно важна для изучения и освоения, если вы только начинаете работать в этой области.
import nltk sentence = "Hello! Good morning." tokens = nltk.word_tokenize(sentence)
Если вы занимаетесь обработкой изображений, то настоятельно рекомендуется библиотека компьютерного зрения Open-CV. Ознакомьтесь с полным руководством по следующей библиотеке по следующей ссылке ниже.
Заключение:
«Код похож на юмор. Когда приходится объяснять, это плохо». —Кори Хаус
Python — это революционный язык программирования, поскольку ему удавалось оставаться актуальным на протяжении десятилетий благодаря своей простоте, легкости в изучении, универсальности и многим другим замечательным функциям. С появлением в последние несколько лет искусственного интеллекта и науки о данных, Python создал огромную репутацию одного из доминирующих языков в этих областях, и каждый должен стремиться понять его в конце концов.
В этой статье мы рассмотрели большинство основных понятий, необходимых для начала работы с Python, чтобы стать более опытным в науке о данных. Мы сосредоточились на большинстве элементарных тем в Python, которые находят огромную полезность в большинстве областей науки о данных и будут полезны для успешного завершения большинства проектов. Если вы сможете освоить все методологии, упомянутые в этой части, вы сможете с легкостью пройти через большинство основных проектов Data Science.
Если вы хотите получать уведомления о моих статьях, как только они появляются, перейдите по следующей ссылке, чтобы подписаться на рекомендации по электронной почте. Если вы хотите поддержать других авторов и меня, подпишитесь на ссылку ниже.
Если у вас есть какие-либо вопросы, связанные с различными пунктами, изложенными в этой статье, не стесняйтесь, дайте мне знать в комментариях ниже. Я постараюсь вернуться к вам с ответом как можно скорее.
Ознакомьтесь с некоторыми другими моими статьями по теме, затронутой в этой статье, которые, возможно, вам также понравится читать!
Всем спасибо, что дочитали до конца. Надеюсь, всем вам понравилось читать статью. Желаю всем прекрасного дня!