Capítulo 13 Probabilidad Introducción a la ciencia de datos


Drew Conway en su página web explica con la ayuda de un diagrama de Venn, las principales habilidades que le dan vida y forma a la ciencia de datos, así como sus relaciones de conjuntos. La ciencia de datos, que no es un nombre muy original, es la ciencia que estudia los datos. Puede aplicarse prácticamente a cualquier cosa que podamos transformar en (¡muchos!) números, desde la ciencia biomédica, el marketing, patrones de personalidad, economía…. Estos obstáculos se encuentran entre los desafíos que enfrentan los equipos de ciencia de datos. La plataforma debe fomentar que las personas trabajen en conjunto en un modelo, desde su concepción hasta el desarrollo final. Debe otorgar a cada miembro del equipo acceso de autoservicio a los datos y a los recursos.

Basándose en los datos que hay que analizar, un ingeniero o científico de datos escribe instrucciones para que las siga el algoritmo de aprendizaje automático. El algoritmo utiliza estas instrucciones repetidamente para llegar a la salida correcta. Cloud computing escala la ciencia de datos proporcionando acceso a más potencia de proceso, almacenamiento y otras herramientas necesarias para proyectos de ciencia de datos. No solo predice lo que es probable que ocurra, sino que sugiere una respuesta óptima para ese resultado. Puede analizar las posibles implicaciones de las diferentes alternativas y recomendar el mejor curso de acción. Utiliza el análisis de gráficos, la simulación, el procesamiento de eventos complejos, las redes neuronales y los motores de recomendación del machine learning.

1 Probabilidad discreta

En 2012, un artículo de Harvard Business Review coescrito por Patil y el académico estadounidense Thomas Davenport calificó al científico de datos como “el trabajo más sexy del siglo XXI”. Desde entonces, la ciencia de datos ha seguido creciendo en importancia, impulsada en parte por un mayor uso de la inteligencia artificial y el aprendizaje automático en las organizaciones. Los beneficios comerciales específicos de la ciencia de datos varían según la empresa y la industria. En las organizaciones orientadas al cliente, por ejemplo, la ciencia de datos ayuda a identificar y refinar las audiencias objetivo. Los departamentos de marketing y ventas pueden extraer datos de los clientes para mejorar las tasas de conversión y crear campañas de marketing personalizadas y ofertas promocionales que produzcan mayores ventas.

  • Estos “ciudadanos científicos de datos”, o trabajadores de datos que pueden utilizar analítica avanzada sin conocer las complejidades de los procesos que ocurren en segundo plano, son un tipo de trabajador muy codiciado.
  • Los profesionales de la ciencia de datos utilizan sistemas de computación para seguir el proceso de la ciencia de datos.
  • Si quisiéramos calcular la probabilidad de que esto suceda, enumeraríamos las combinaciones, no las permutaciones, ya que el orden no importa.
  • SAS es un lenguaje de programación en el que confían cientos de miles de científicos de datos de todo el mundo.

La ciencia de datos incorpora varias disciplinas —por ejemplo, ingeniería de datos, preparación de datos, minería de datos, análisis predictivo, aprendizaje automático (machine learning, ML) y visualización de datos, así como estadísticas, matemáticas y programación de software. Lo realizan principalmente https://aquinoticias.mx/conviertete-en-un-cientifico-de-datos-exitoso-con-el-bootcamp-de-ciencia-de-datos-de-tripleten/ científicos de datos capacitados, aunque también pueden participar analistas de datos de nivel inferior. Los científicos de datos también adquieren competencias de uso de plataformas de proceso de big data, como Apache Spark, el marco de trabajo de código abierto Apache Hadoop y las bases de datos NoSQL.

Inteligencia de clientes

La ciencia de datos es un campo que utiliza métodos, procesos, algoritmos y sistemas científicos para obtener conocimientos y perspectivas a partir de datos estructurados y no estructurados. Implica el uso de técnicas estadísticas e informáticas para examinar y dar sentido a grandes conjuntos de datos complejos y, a continuación, utilizar ese análisis para tomar decisiones acertadas. El machine learning es la ciencia de entrenamiento de máquinas para que puedan analizar y aprender mediante datos, como lo hacen los humanos.

Aunque los científicos de datos pueden crear modelos de machine learning, escalar ese tipo de iniciativas a un mayor nivel requiere más habilidades de ingeniería de software para optimizar un programa para que se ejecute más rápidamente. En consecuencia, es habitual que los científicos de datos colaboren con ingenieros de machine learning para escalar los modelos de machine learning. La estadística es un campo con bases matemáticas que busca recopilar e interpretar datos cuantitativos.

¿Qué hace un científico de datos?

Las organizaciones dependen cada vez más de estos roles para interpretar los datos y proporcionar recomendaciones prácticas para mejorar los resultados de negocio. La exploración de datos es un análisis preliminar de estos que se utiliza para planificar otras estrategias para su modelado. Los científicos de datos obtienen una comprensión curso de ciencia de datos inicial de los datos mediante estadísticas descriptivas y herramientas de visualización de los mismos. A continuación, exploran los datos para identificar patrones interesantes que se puedan estudiar o utilizar. La ciencia de datos es un proceso cuya primera fase consiste en la recopilación de datos procedentes de varias fuentes.

  • Los científicos de datos utilizan algoritmos de machine learning para construir modelos predictivos.
  • La plataforma de ciencia de datos de Oracle incluye una amplia gama de servicios que brindan una experiencia integral de principio a fin, diseñada para acelerar la implementación del modelo y mejorar los resultados de la ciencia de datos.
  • Casi cualquier tipo de empresa de cualquier sector se puede beneficiar con las prácticas de data science.
  • La teoría de la probabilidad es útil en muchos otros contextos y, en particular, en áreas que de alguna manera dependen de los datos afectados por el azar.
  • En cada una de estas técnicas, se entrena a las computadoras para aplicar ingeniería inversa a las conexiones de causalidad en los datos.
  • Un científico de datos puede utilizar una serie de técnicas, herramientas y tecnologías diferentes como parte del proceso de la ciencia de datos.